ITやビジネスの現場では、データサイロに長年悩まされてきました。データサイロが存在する、または生成される理由は幾つか考えられます。データアーキテクチャー内に旧来型のシステム(レガシーシステムなど)と最新型のシステム(モダンアプリケーションなど)が混在していると、そのシステム間でデータのやりとりをすることが困難なため、サイロが形成される一因になります。
こうしたデータ通信の壁は、オンプレミスとクラウドの間にも存在します。年月が経過し、既存システムのストレージ増強によって複数の異なるストレージシステムが混在することになれば、それらもまた増え続けるデータサイロの要因となります。
データのサイロ化により、ビジネスユーザーは組織内にあるさまざまなデータを利用、分析することが困難になります。また、不完全なデータが提供されることで、不正確な分析結果や結論、意思決定の遅れにつながる可能性もあります。データサイロが抱える問題点の一つは、利用したいデータに対して簡単にクエリーを実行できないことです。代わりに、データサイロごとにクエリーを実行して、その結果を手動で統合しなければなりません。このプロセスはコストと時間がかかる上に非効率的です。多くの企業は、データ統合に次のような戦略を一つないし複数使用しているのではないでしょうか。
- 抽出(Extract)、変換(Transform)、ロード(Load)のETLプロセス。複数のサイロからデータをコピーし、データウェアハウスなどの集約的な場所に移動します
- エンタープライズサービスバス(ESB)。これにより、アプリケーション用の通信システムを確立し、各アプリケーションで情報を共有できます
- データ仮想化。これにより、データサイロ内のデータに関するリアルタイムの統合ビューを作成し、アプリケーション、アナリスト、ビジネスユーザーが利用できるようにします
ETLのプロセスは、データ統合における初期の戦略でした。基本的なETLプロセスは、次の3つのステップで構成されています。(1)データをソースから抽出、(2)次にその抽出したデータのコピーを最終的な行き先が求める形式と構造に変換、(3)その変換したデータのコピーをオペレーショナルデータストア、データマート、データウェアハウスなどの最終目的地にロード――。最終段階で変換を行う場合もあり、その際は「ELT」プロセスと呼ばれますが、基本的な考え方は同じです。データ統合にETLを選択することのメリットとデメリットを分析してみましょう。
メリット:
- ETLプロセスでは効率的かつ効果的にデータを一括で移動できる
- ETLプロセスの技術は既存ベンダーによって十分に理解され、サポートされている
- ほとんどの組織に社内で開発したETL機能がある
デメリット:
- データの移動により新しいリポジトリーの保守が必要となるため、データの移動が常に最善のアプローチとは限らない
- 大規模な組織によっては毎晩何千ものETLプロセスが実行され、変更が困難なスクリプトによって同期されている場合がある
- 一般的にETLプロセスはコラボレーション型ではないため、エンドユーザーはデータの準備が整うまで待つ必要がある