石川:例えば、既存のRDBの枠組みの中で、高速なデータ処理を可能にするような製品です。決して、それらのRDBが駄目だったということではないのですが……。
実は、性能面で大きな差があったわけではないんです。大きな決め手になったのはコストです。OSSであることの問題点などを考慮しても、低コストで実現できるという魅力が大きかった。
冨田:NTTデータの場合、多くの顧客から大量データ処理のニーズがあると思うんですが、RDBとHadoopの比較という点ではどういった評価を受けていますか。
濱野:Hadoop単体よりも、RDBと組み合わせて使っているというケースが多いように思います。データを活用するという場合、既存のシステムで蓄積してきたデータを活用したいというニーズと、新しい価値を付けるために新たにデータを蓄積したいというニーズがあります。前者の場合、入力と出力の部分はRDBを使って、真ん中にHadoopを挟み込んで分散処理を行うといった形が多いですね。後者の場合だと、大量の生データを蓄積していくという部分はRDBだと耐えられないのでHadoopを使い、それを処理した結果を最終的に格納する場所としてはRDBを使うという構成が多いです。
山口:RDB上に何年も貯めてきたデータがあっても、それをリアルタイムで分析するのは難しかったんです。Hadoopを組み合わせれば、それらのデータが活用できるんじゃないかと期待しています。
冨田:選択肢としてデータウェアハウスはどうでしょうか。
濱野:Hadoopのメリットのひとつに、スモールスタートが可能という点があります。どこまで使い物になるかわからない場合でも、試しにやってみることができるんですよ。そういう柔軟な取り組みは、アプライアンスでは難しいですね。
もうひとつ、ビッグデータを扱うということは、ビッグシステムを扱うという意味でもあるという点に注意する必要があります。大規模なシステムになってくると、特殊なハードウェアに依存する部分というのはできる限り作りたくない。汎用の製品を使ってできるだけ運用をシンプルにしたいんです。
ただ、商用のデータウェアハウスとHadoopを組み合わせて使うというニーズも出てきてはいます。例えば生データの蓄積はHadoopでやって、分析は専用のアプライアンスで行うみたいな構成です。これからはそういった話題もホットになってくるんじゃないかな。
石川:リクルートでも、検証の段階ではデータウェアハウスも選択肢に含まれていましたが、結果的には採用に至りませんでした。大きな理由としては、専門性が高いので、汎用的に使いたいというニーズにマッチしないということが挙げられます。
他に、多くの製品が既存のRDBの処理を速くしたという形のものだったんですけど、その点、Hadoopは新しい使い方が開けてくるので、今後の発展性も大きいと判断しました。
冨田:今後、その傾向はどう変わっていくでしょうか。
濱野:現状ではデータ分析という部分で専用のツールが必要とされるケースも多いのですが、Hadoop用のツールといったものも登場しつつあって、Hadoopだけで解決できる問題も増えてくるんじゃないですかね。そうやってHadoopのエコシステムを作ろうという流れもあるので、今後はシステム全体としての連携がもっと密になっていくと思います。