“Big Data(ビッグデータ)”をいかに解決するか。その解決策として確実に挙げられるのが分散並列処理フレームワーク「Hadoop」だ。この1~2年で最も知名度が上がった技術と言えるのかもしれない。
この1年でビッグデータが取り沙汰される以前から、データを分析するためのビジネスインテリジェンス(BI)、分析対象となるデータが蓄積される場所となるデータウェアハウス(DWH)の関連ベンダーは、データ分析のための性能向上や新機能開発に地道に取り組んできており、Hadoopに対してもかなり注目している。それは20年以上DWH専業として業界に君臨してきたTeradataも同様だ。
前編に引き続き、Teradataでプログラムマネジャーを務めるDaniel Graham氏に話を聞いた。同氏はHadoopが有効な技術であることを明らかにするとともに、昨今賑わっているDWH市場の競合ベンダーの技術について「まだまだ」とDWH専業ならではの自信を見せている。
Hadoopはグリッドソリューション
――日本では、ビッグデータはHadoopが解決するものという図式ができあがっている印象があります。しかしその一方で、Hadoopはクリックストリーム分析の分散処理だけでは、という認識もあります。これについてはどう思いますか。
そうですね。Hadoopのコミュニティを調べてみると、ほとんどのユーザーはクラスタの中にサーバ10~20台規模という環境でHadoopを使用しています。ビッグデータという課題を解決するためのソリューションは他にもありますが、確かに今はHadoopが“湧いている”状態にあると思います。
2011年は各社からHadoopソリューションが登場しています。ただし、Hadoopは基本的にグリッドソリューションです。Teradataもビッグデータの問題を解消するために、大型のクラスタを展開していきます。
一方、Teradataが買収したAster Dataは大きなデータのクラスタを別の角度からアプローチしています。Pervasive DataRushという小さな会社がありますが、そこでは並列プログラムをグリッド処理するという非常にユニークな構造を持っています。これには私たちも勇気づけられます。私たちはデータベースを担っていますが、彼らは複雑処理を行っています。
――Teradataは、HadoopのディストリビューションベンダーであるClouderaやKarmasphereと提携しています。この提携による成果は具体的な製品やサービスとして市場に投入されているのでしょうか。
Clouderaでは、TeradataとHadoopを接続するためのアダプタを開発しています。このアダプタにより、データのやり取りがスムーズにできるようになっています。ただ、Teradataは大規模データを対象としていますので、その視点からいうと速度はまだまだだと思っています。そこで、データのやり取りをさらに高速化するために「Fast Load Fast Export」という機能を強化しています。これにより、毎秒12Gバイト以上というレベルまで高速化できました。
Clouderaとはまた、共同でマーケティングやサービスを展開しており、もちろん日本でも提携しています。ちなみに、ClouderaのリーダーはTeradataの元従業員でして、個人的にも7年来の友人です。また、TeradataのHadoopを使っていた拠点では、すでにClouderaのコンサルティングを活用していました。顧客がサーバ20台以上のHadoopを求めた場合には、Clouderaのプロフェッショナルサービスを勧めています。システムにとって拡張性がカギになっていくとすると、それ自体がリスクを高めることになってしまうのです。