Amazon Web Services(AWS)は米国時間11月30日、データレイクの管理をよりきめ細かいものにするツール群の一般提供を開始したと発表した。
1つ目は、「AWS Lake Formation」の行レベルとセルレベルのセキュリティだ。最高経営責任者(CEO)Adam Selipsky氏は年次イベント「re:Invent 2021」の基調講演で、これによって「適切なデータが適切な人々の元に届けられるようになる」と述べた。
Lake Formationはこれまでに、「Amazon Simple Storage Service」(Amazon S3)データレイクへのデータの移行と、機械学習(ML)を活用したクリーニングと分類、機密データに対するセキュアなアクセスを実現している。そして、この新ツールで、個々の行やセルへのアクセス制御などが可能になった。ユーザーごとに複数のテーブルを作成し、データのパイプラインを管理するのではなく、特定ユーザー向けに特定の行のポリシー一式を定義できるようになる。また、クエリー結果や「AWS Glue」のETL(抽出/変換/ロード)ジョブ内の、特定の行やカラムへのアクセスを、アクションを実行しているユーザーのアイデンティティーに基づいて統制できるようになる。
また、Lake Formationの「Governed Tables」向けトランザクションによって、バッチでの更新作業が不要になる。Selipsky氏は「データは静的ではない」と述べ、「より多くのデータが追加され、次々と移送されている」と話した。
Governed TablesというAmazon S3の新たなタイプのテーブルを作成し、データが追加、変更されれば、Lake Formationはデータの一貫性あるビューを実現するために、自動的にコンフリクトやエラーを管理する。これによりユーザーは、リアルタイムデータを取り扱い続けられるようになる。
Governed Tablesは、複数のユーザーが複数のGoverned Tablesでデータの挿入と削除を並行かつ信頼性あるかたちで実行できるよう保証するACIDトランザクション(原子性、一貫性、独立性、永続性を有したトランザクション)をサポートしている。また、ACIDトランザクションにより、一貫性ある最新データを返すようなクエリーを実行できる。ETLプロセス中や更新の際にエラーが発生した場合、変更はコミットされず、表出することもない。
Governed Tablesでは、ストレージを最適化するための自動コンパクション(圧縮)機能を使用できるようになる。この機能が有効化されている場合、Lake FormationはGoverned Tables内の小さなS3オブジェクトを自動的に圧縮し、より大きなオブジェクトにすることで、「Amazon Athena」や「Amazon Redshift Spectrum」といったアナリティクスエンジンを通じたアクセスを最適化する。
この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。