購買は、大企業がビッグデータ分析を実行するために、自社の記録システムを利用する上で抱えているニーズを示すユースケースの1つに過ぎない。「こうした企業はまず、自社のビッグデータを『データレイク』型リポジトリに記録してから、分析を行っていた」とPalmer氏は語っている。その後、企業はHiveやPigのようなクエリ言語を追加して、ビッグデータを分類できるようにする。しかし、最終的にそうした企業が発見したのは、ビジネスに役立つ適切な分析上のクエリを行うためには、適切なビジネス上のコンテキストを用意しなければならないということだ。これを行うには、自社の記録システムと、そうしたシステムに固有のデータ構成を、ビッグデータ分析のためのドライバとして使用するしかない。
Palmer氏は、複数の記録システムというだけでなく、複数のビッグデータソースにわたって検索しなければならない場合に出てくる、多様性の問題に対応する1つの方法として、データの「キュレーション」があると語った。これを行うための1つの方法が、多様なソースからのデータを相互参照し、それを凝縮した単一のソースに紐付けるという作業において、「高い信頼性レベル」とデータの品質を追求する機械学習と高度なアルゴリズムを組み合わせることだ。「この最終的な結果として、記録システムではなく、大規模な組織の中に入ってくる多様なデータに対処できる参照システムが得られる」(Palmer氏)
企業がビッグデータを準備する上で必要なことは、データの多様性を活用することによって、ビジネスに高いデータ品質と信頼性をもたらす方法を探すことだけではない。一連のデータ準備の一環として、抽出、変換、ロード(ETL)やマスターデータマネジメント(MDM)のような段階もある。それでもなお、データとデータソースの多様性に対処することは、より大きな関心事になりつつある。
「過去3カ月から6カ月で、こうしたプロジェクトは大幅に成長してきた。組織は、多様な記録システムから構造化データを取り出して、それを統合し、それを用いて非構造化ビッグデータや準構造化ビッグデータの分析にビジネスのコンテキストを組み入れたいと考えている」(Palmer氏)
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。