大量データ分析は始まったばかり
ビッグデータは、従来も話題になったデータマイニングやビジネスインテリジェンスと何が違うのか。Brobst氏は「従来は捨てるしかなかった非構造化データを高速に分析できる技術がここに来て普及したこと」を挙げる。具体的には、大規模データを分散処理する際に使われるフレームワークであるHadoop、ディスクを経由せずに高速分析できるインメモリ処理、ソリッドステートドライブ(SSD)の普及などが挙がる。
Brobst氏は「ビッグデータはまだまだ始まったばかりの潮流。利用方法や技術は変わる可能性がある」とする。例えば、分析対象となる大量データのクレンジングの問題。「現在のビッグデータ分析の前提は“No ETL”」(同氏)だという。
高速な処理基盤を生かし、大量のデータを加工せずにそのまま分析するのが現在の想定であり「(データをクレンジングする)ETL(Extract/Transform/Load)ツールの利用には否定的な意見が多い」と同氏。
マスターデータの整備も同様だ。製造業の現場などで、1つの部品に複数の名前がついているため、いくら高性能な需要予測ソフトウェアを導入しても、当該在庫を最適化できない、といった問題が起こることが多い。そこで部品データの台帳であるマスターデータを再設計し、重複を排除することで問題を解決するといったやり方で解決するのが一般的だが、これも非構造化データの分析では「まだあまり意識されていない」(同)。
しかしながら、「ビッグデータはまだあまりにも初期段階にある。今後、ETLやマスターデータ管理の必要性が深刻に語られ始める可能性は十分ある」とBrobst氏はまとめる。
その意味で、IT Peopleの条件も変化の途上にあるといえそうだ。