あらゆるデータを流し込み、どこからでも汲み出せる「データレイク」
EMCジャパン株式会社
プロダクト ソリューション統括部
ITソリューション エバンジェリスト部
エバンジェリスト
牟田 泰孝氏
「データレイク」について、EMCジャパン、システムズエンジニアリング本部 プロダクトソリューション統括部 ITソリューション エバンジェリスト部のエバンジェリストである牟田泰孝氏は「大量のデータを集め、活用し、保管するための一元的なインフラのことを指す」と説明する。
より分かりやすく「データレイク」をイメージするために、まず現状の一般的な「データの置き場所」についてイメージしてみよう。
メールのやり取りや文書作成によって生まれたデータは、まず個人のPC内にあるローカルストレージに保存され、共有すべきものは、部署内のファイルサーバにコピーされる。基幹システムに入力された数値データや集計結果は、可用性が高い専用のストレージに、データベースとして保存される。各部門で使われる専用システムのデータは、部門ごとに購入したストレージ内で管理されている。月次レポート作成のためのデータは、営業部門が導入したストレージ上に、基幹システムの集計データを定期的に抜き出して保存する。重要なデータのバックアップは、専用のストレージやテープ装置に対して行われる…。
思いつくままに挙げ連ねただけでも、部門や用途ごとに複数のストレージが存在し、その総数はかなり多くなることが分かる。ストレージの容量が足りなくなれば、個別に機器の買い足しや買い換えが行われ、その数はさらに増えることになる。もし何らかの理由で容量の追加が難しければ、一部のデータについては廃棄が検討されるかもしれない。
このような状態をストレージの「サイロ化」と呼ぶ。「サイロ」とは工場や農場などで見られる、材料や飼料などを一時的に貯蔵しておく円筒形のタンクのことだ。現在、多くの企業で、データは「サイロ」のような環境でバラバラに保存されており、サイロの数も増加し続けていると考えられる。
サイロ内に保存されているデータを「活用」するには、かなりの手間が掛かる。どのような結果を求めているか、そのためにはどのサイロに存在するデータが必要で、どう加工すればいいかといった設計を事前に十分行っておく必要がある。もし、容量が足りないという理由で廃棄されているデータがあれば、そのデータを「活用」することは、そもそも不可能である。
牟田氏は「データベースのような構造化データ、テキスト、画像、音声、動画といった非構造化データ、これらのすべてを一元的に保管しておき、必要に応じて容易に参照や分析に再利用できる環境がデータレイク」だと説明する。用途や部門ごとに分かれた「倉庫」ではなく、すべてのデータをそのまま注ぎ込んでおき、必要なときにどこからでも汲み出せる「データの湖」というわけだ。
「データレイク」のストレージ基盤に求められる要件
EMCジャパンでは、企業がこの「データレイク」を実現するストレージ基盤として「EMC Isilon」を推進している。
データレイクを構成するストレージには、データ容量の増大に対応できる高いスケーラビリティが求められる。スケールアウト型NASであるIsilonでは、ネットワーク上にノード(機器)を追加することで、その容量と性能をリニアに増加させていくことができる。また、ノードを追加した場合でも、全体を仮想的に1つのボリュームとして管理できるため、「サイロが増えることによる管理コストの増大」は起こらない。
牟田氏は、「データレイク」を構成するストレージ基盤に求められる要件として、さらに「非構造化データが扱えること」「多様な分析手法に対応できること」を挙げた。
ビジネスインテリジェンス(BI)といったキーワードでデータ活用を推進する動きは現在でも活発だが、その際に用いられるデータは、数値として基幹システムのデータベースに格納された「構造化データ」が中心だ。しかし、現状「データ爆発」を引き起こしている主な原因は、データベースに収められていない文書ファイルや画像、映像、音声、システムログなどの「非構造化データ」にあるという。
「企業内データのうち、構造化データの割合は20%、非構造化データの割合は80%だと言われている。構造化データのみを意識した分析においては、事前の設計が重視され、得られる結果も予想の範囲に留まってしまう。残りの80%にあたる、非構造化データを分析に活用する道を探ることで、よりビジネスに貢献する新たな知見が得られる可能性は高まる」(牟田氏)
企業内のすべてのデータに一元的にアクセスし、任意の視点で分析できる環境があれば、ひとつのアイデアから、小規模なトライ&エラーを繰り返しつつ、これまで見落としていた有用な知見を導き出せる可能性は高まる。これが可能な環境こそが「データレイク」であり、企業のデータ活用レベルを高める「カギ」として期待されている理由である。
EMCでは、ストレージ基盤としての「EMC Isilon」に、EMCとVMwareの出資で生まれた「Pivotal」などの分析プラットフォームを組み合わせることで、データレイクによるデータ活用環境の提供を推進しているという。