「ネットワークに接続されていなかったデータが接続されるようになっている。生成されるデータの量は大きくなる一方だが、それらが何を示すのか理解できない量になっている。それが課題になっている」(Boos氏)
パネルディスカッションには米Gartnerのバイスプレジデントで最上級アナリストを務めるDonald Feinberg氏も参加。Feinberg氏は「大量のデータを対象にした解析ではパターンベースドストラテジー(Pattern-Based Strategy)が有効だろう。たとえば病院に入院している患者のテレメトリデータにもパターンベースドストラテジーは有効だろう」と話す。パターンベースドストラテジーとは、大量のデータに潜む“弱いシグナル”を検出して、早期のアクションを取ることで、変化に素早く対応するというものだ。
テラバイトやペタバイトといったレベルの大量のデータから、いかにして企業にとって価値のある洞察や知見を導き出せばいいのか。この課題に対してGnau氏は、今までの方式では不十分との見解を示す。
「今までは行と列という方式で対応していたが、これでは不十分だ。これからはMapReduceが重要になってくる。MapReduceを用いれば非構造化データにクエリをかけることができる」(Gnau氏)
MapReduceは米Googleが考案した分散並列処理フレームワーク。Googleの検索エンジンを支えるものと言われている。Gnau氏はMapReduceについて「超並列処理が可能であり、“シェアードナッシング”と呼ばれるアーキテクチャだ。これはTeradataと同じアーキテクチャだ」と説明する。そのMapReduceの仕様を参考に開発された、オープンソースのJavaソフトウェアフレームワークが「Hadoop」だ。
ビッグデータを活用するeBay
大量のデータの分析や解析に、実際にTeradata製品とHadoopを併用している企業が存在している。オークションサイト大手のeBayだ。eBayのアナリティクスプラットフォームでシニアディレクターを務めるOliver Ratzesberger氏が、イベント3日目となる10月26日に講演している。テーマは「eBayでのエクストリームアナリティクス」だ。
Ratzesberger氏によれば、eBayで1日あたりに生成されるデータは50テラバイト、1日で処理するデータは80ペタバイトという。そうしたデータを分析したり解析したりするビジネスユーザーとアナリストの人数は約5000人であり、1日にかけられるクエリの数は数百万と説明する。