運用コストを下げつつ「攻め」のITを促進する「データレイク」とは何か -「データ爆発」時代を乗り切る企業内NASの「新常識」(第3回)

ZDNET Japan Ad Special

2016-07-15 11:00

[PR]近年「ビッグデータ活用」の文脈で「データレイク」というコンセプトに基づいたストレージ基盤こそが、企業のデータ活用を促進するカギとして注目されるようになった。「データレイク」とは、どのような環境を指すのか。また、その基盤となるストレージに求められる要件は何か。

「データ爆発」によるストレージ運用管理コストの増大という課題に、有効な対応策となることが期待されている「スケールアウト型NAS」。運用コストを上げることなく、リニアに容量と性能を追加できるスケールアウト型NASを活用することで、企業は蓄積されたデータの「活用力」も高めていくことが可能になる。近年「ビッグデータ活用」の文脈で「データレイク」というコンセプトに基づいたストレージ基盤こそが、企業のデータ活用を促進するカギとして注目されるようになった。「データレイク」とは、どのような環境を指すのか。また、その基盤となるストレージに求められる要件は何か。

あらゆるデータを流し込み、どこからでも汲み出せる「データレイク」

牟田 泰孝氏
EMCジャパン株式会社
プロダクト ソリューション統括部
ITソリューション エバンジェリスト部
エバンジェリスト
牟田 泰孝氏

 「データレイク」について、EMCジャパン、システムズエンジニアリング本部 プロダクトソリューション統括部 ITソリューション エバンジェリスト部のエバンジェリストである牟田泰孝氏は「大量のデータを集め、活用し、保管するための一元的なインフラのことを指す」と説明する。

 より分かりやすく「データレイク」をイメージするために、まず現状の一般的な「データの置き場所」についてイメージしてみよう。

 メールのやり取りや文書作成によって生まれたデータは、まず個人のPC内にあるローカルストレージに保存され、共有すべきものは、部署内のファイルサーバにコピーされる。基幹システムに入力された数値データや集計結果は、可用性が高い専用のストレージに、データベースとして保存される。各部門で使われる専用システムのデータは、部門ごとに購入したストレージ内で管理されている。月次レポート作成のためのデータは、営業部門が導入したストレージ上に、基幹システムの集計データを定期的に抜き出して保存する。重要なデータのバックアップは、専用のストレージやテープ装置に対して行われる…。

 思いつくままに挙げ連ねただけでも、部門や用途ごとに複数のストレージが存在し、その総数はかなり多くなることが分かる。ストレージの容量が足りなくなれば、個別に機器の買い足しや買い換えが行われ、その数はさらに増えることになる。もし何らかの理由で容量の追加が難しければ、一部のデータについては廃棄が検討されるかもしれない。

 このような状態をストレージの「サイロ化」と呼ぶ。「サイロ」とは工場や農場などで見られる、材料や飼料などを一時的に貯蔵しておく円筒形のタンクのことだ。現在、多くの企業で、データは「サイロ」のような環境でバラバラに保存されており、サイロの数も増加し続けていると考えられる。

 サイロ内に保存されているデータを「活用」するには、かなりの手間が掛かる。どのような結果を求めているか、そのためにはどのサイロに存在するデータが必要で、どう加工すればいいかといった設計を事前に十分行っておく必要がある。もし、容量が足りないという理由で廃棄されているデータがあれば、そのデータを「活用」することは、そもそも不可能である。

 牟田氏は「データベースのような構造化データ、テキスト、画像、音声、動画といった非構造化データ、これらのすべてを一元的に保管しておき、必要に応じて容易に参照や分析に再利用できる環境がデータレイク」だと説明する。用途や部門ごとに分かれた「倉庫」ではなく、すべてのデータをそのまま注ぎ込んでおき、必要なときにどこからでも汲み出せる「データの湖」というわけだ。

「データレイク」のストレージ基盤に求められる要件

 EMCジャパンでは、企業がこの「データレイク」を実現するストレージ基盤として「EMC Isilon」を推進している。

 データレイクを構成するストレージには、データ容量の増大に対応できる高いスケーラビリティが求められる。スケールアウト型NASであるIsilonでは、ネットワーク上にノード(機器)を追加することで、その容量と性能をリニアに増加させていくことができる。また、ノードを追加した場合でも、全体を仮想的に1つのボリュームとして管理できるため、「サイロが増えることによる管理コストの増大」は起こらない。

 牟田氏は、「データレイク」を構成するストレージ基盤に求められる要件として、さらに「非構造化データが扱えること」「多様な分析手法に対応できること」を挙げた。

 ビジネスインテリジェンス(BI)といったキーワードでデータ活用を推進する動きは現在でも活発だが、その際に用いられるデータは、数値として基幹システムのデータベースに格納された「構造化データ」が中心だ。しかし、現状「データ爆発」を引き起こしている主な原因は、データベースに収められていない文書ファイルや画像、映像、音声、システムログなどの「非構造化データ」にあるという。

 「企業内データのうち、構造化データの割合は20%、非構造化データの割合は80%だと言われている。構造化データのみを意識した分析においては、事前の設計が重視され、得られる結果も予想の範囲に留まってしまう。残りの80%にあたる、非構造化データを分析に活用する道を探ることで、よりビジネスに貢献する新たな知見が得られる可能性は高まる」(牟田氏)

 企業内のすべてのデータに一元的にアクセスし、任意の視点で分析できる環境があれば、ひとつのアイデアから、小規模なトライ&エラーを繰り返しつつ、これまで見落としていた有用な知見を導き出せる可能性は高まる。これが可能な環境こそが「データレイク」であり、企業のデータ活用レベルを高める「カギ」として期待されている理由である。

 EMCでは、ストレージ基盤としての「EMC Isilon」に、EMCとVMwareの出資で生まれた「Pivotal」などの分析プラットフォームを組み合わせることで、データレイクによるデータ活用環境の提供を推進しているという。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ホワイトペーパー

新着

ランキング

  1. セキュリティ

    「デジタル・フォレンジック」から始まるセキュリティ災禍論--活用したいIT業界の防災マニュアル

  2. 運用管理

    「無線LANがつながらない」という問い合わせにAIで対応、トラブル解決の切り札とは

  3. 運用管理

    Oracle DatabaseのAzure移行時におけるポイント、移行前に確認しておきたい障害対策

  4. 運用管理

    Google Chrome ブラウザ がセキュリティを強化、ゼロトラスト移行で高まるブラウザの重要性

  5. ビジネスアプリケーション

    技術進化でさらに発展するデータサイエンス/アナリティクス、最新の6大トレンドを解説

ZDNET Japan クイックポール

自社にとって最大のセキュリティ脅威は何ですか

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]