Cloudera、Amazon、Yahoo、IBM、Facebook…次々に登壇する豪華講演者
午前中のジェネラルセッションでは、Cloudera、Amazon、Yahoo、IBM、Facebookが順に登場するという賑やかさ。それぞれの持ち時間が短く、駆け足のセッションとなっていたが、その中でIBMのRod Smith氏が興味深いデモを見せてくれたので簡単に紹介する。同社でのHadoop利用のフレームワークは以下のとおりである。
- ウェブコンテンツの収集→対象となる情報の抽出→調査と洞察
デモの内容は、Amexの特許がどのような特質を持つものかという点について、ウェブから集めたデータを基にキーワードを抽出し、その分布状況を可視化するという試み。「Amex+α」 の検索ワードを用いて対象を特許情報に絞り込み、そこでヒットするドキュメントに含まれる使用頻度の高いキーワードを引き出すという、ある種のパーソナライズサーチが実演された。
IBMでは、AustinにあるスモールHadoopセットを用いて開発を行い、大きな負荷が生じる分析フェーズではAWS(Amazon Web Services)のElastic MapReduceを活用しているという。
そのAmazon Elastic MapReduceでは、これまでのAWS環境におけるS3との連携を実現している。そのフローは以下のとおりである。
- 入力→Input S3 Bucket→Elastic MapReduce(Hadoop)→Output S3 Bucket→結果