eBayでは、ビジネスの拡大や効率性向上を求めて一般のネットサービス企業と同様に、ユーザーのトランザクションやユーザーがサイト上でどのように振る舞うのか、ログを取っている。どういった商品が売れて何が売れていないのか分析するとともに、ユーザーの行動を分析することでサービス品質の向上を目指している。そうした結果として1日あたりのクエリが数百万になるというわけだ。しかしその数も「今後500万から1000万になるだろう」(Ratzesberger氏)との見方を示している。
そのデータ分析基盤としてeBayはTeradataのデータウェアハウス製品を活用するとともに、Hadoopをベースにしたシステムを組んで活用している。eBayのデータ基盤は3つに大別でき、全社向けのエンタープライズデータウェアハウスと「Singularity」と呼ばれるデータ基盤、そしてHadoopをベースにしたデータ基盤だ。
エンタープライズデータウェアハウスのデータ量は6ペタバイト、同時利用ユーザー数は500以上。このエンタープライズデータウェアハウスは比較的定型的な分析やレポートとして活用されている。
Singularityと呼ばれるデータ基盤も定型的な分析やレポートとして活用されているが、このデータ基盤は、より複雑な発見や探索にも利用されている。“コンテキスチャルアナリティクス”と呼ばれる複雑な分析に活用することができる。同時利用ユーザー数は50以上、データの量は10ペタバイト以上となっている。
そして、より複雑な分析の基盤となるのがHadoopベースのデータ基盤だ。同時利用ユーザー数は5〜10程度で、データ容量は5ペタバイト以上となっている。
eBayが、これら3つのデータウェアハウスを活用するには、それぞれが異なる特性を持っているからだ。ワークロードの管理や同時利用ユーザー数、I/O性能などはエンタープライズデータウェアハウスが優れている。しかし、分析の柔軟性ではHadoopベースのものが優れている。また、Singularityは容量が大きいという利点がある。それぞれのメリットを生かす形で活用しているのである。「技術に“銀の弾丸”は存在しない」とRatzesberger氏は説明している。
eBayのデータウェアハウスの活用で興味深いのは、3つあるデータ基盤に入れるデータの種類が異なるという点だ。エンタープライズデータウェアハウスには、いわゆる構造化データを格納している。一方のHadoopベースのものには非構造化データを格納している。