クラウド系企業の「ビッグデータ」戦略--Google、Amazon、eBay、Microsoft

今回はクラウド系企業の「ビッグデータ」戦略を分析する。ビッグデータの申し子のグーグル、秘密主義のアマゾン、最大規模のビッグデータを持つイーベイ、そしてマイクロソフトだ。

著者 : 栗原潔（テックバイザージェイピー）

URL : https://japan.zdnet.com/article/35011100/

　本特集「ビッグデータとは何か」も第10回となった。今回はクラウド系のビッグプレイヤーの「ビッグデータ」戦略について分析していこう。

　クラウドと「ビッグデータ」は、一応は独立した技術分野ではあるが密接に関連している。各クラウドの主要プロバイダーの自社内システムにおける「ビッグデータ」の活用、そして自社の顧客に提供している「ビッグデータ」系のサービスの両面から見ていくことにしよう。

「ビッグデータ」の申し子　Google

　Googleは、まさに「ビッグデータ」の申し子とも言える企業だ。検索エンジンを初めとして、同社のビジネスの根底にはほぼ例外なく大量データの活用という要素がある。

　同社の戦略は、まず大量のデータを収集すればビジネスモデルは後から着いてくるとでも言えるやり方だ。今でこそAdWordsやAdSenseはGoogleのきわめて魅力的な収益源になっているが、Googleの起業当初は、検索エンジンでどうやって儲けるかをあまり考えていなかったようだ（せいぜい、基本テクノロジのライセンスの収益化しか考えていなかったらしい）。

　GoogleはHadoopの元になったMapReduceの開発元でもある。Googleのサービスの多くは独自開発のインテル系サーバ上で、MapReduceとNoSQLのデータストアであるBigTableを中心にして実装されている。そして、その機能の一部は社外ユーザー向けサービスとしても公開されている。

　そのような社外ユーザー向けの「ビッグデータ」系サービスに「BigQuery」がある。これは、Googleのクラウド上でSQL的な照会言語を使って大容量（数テラバイト級）のデータ分析を行なうことができるサービスだ。分析対象のデータはGoogle Cloud Storageに保存しておく必要がある。

　BigQueryに限った話ではないが、一般にクラウド上で「ビッグデータ」の分析を行なうタイプのサービスでは、データの移動に関する考慮が必要だ。テラバイト級のデータをインターネットを介して転送するためには相当の時間を要する。既にクラウド上にあるデータを分析するのであればよいが、企業内のデータを分析するためにその都度クラウドに転送するような設計は課題が多いと言えよう。

社内システムは秘密主義のAmazon

　Amazonも「ビッグデータ」、特に顧客データに強く依存したビジネスを展開している。以前、最高経営責任者（CEO）のJeff Bezos氏は講演会で「Amazonの顧客データの保持期間は何年くらいですか？」という聴衆からの質問に「永遠だ」と答えている。

　Amazonは、社内システムに関しては秘密主義で知られている。間接的に情報が伝えられることはあるものの全体的な姿は明らかではない。とは言え、Amazon Web Serviceとして顧客に提供しているのと類似のシステムを活用しているとは推定できる。伝えられるところでは、業務系のデータウェアハウスにおいてはTeradataを使用しているようだ。改めて言うまでもないことだが、大規模ネット系企業だからと言ってNoSQL系のテクノロジですべてをまかなえるわけではないということだ。

　Amazonが社外ユーザーに提供している「ビッグデータ」系サービスとしては、Amazon Elastic MapReduceがある。これは要するにHadoopのホスティングサービスだ。IaaSのEC2やS3と連動して稼働する。ここでもGoogleの場合と同様にクラウド上へのデータ転送に関する考慮は必要だ。

　この問題の解決策としてAmazonが提供しているユニークなサービスに、AWS Import/Exportがある。ユーザーがデータを格納したハードディスクをAmazonのデータセンターに郵送し、Amazonのオペレーターにロード作業を行なってもらうというサービスだ（現時点では日本からは利用不可）。現実的な解決策ではあるが大量データの転送にこのような原始的な手法を使わざるを得ないところに、現在のクラウドも実はネットワークがボトルネックであるという現実を思い知らされてしまう。

HadoopとRDBMSを適材適所で活用するeBay

　eBayは世界最大のオークション企業である。日本ではヤフオクが先行者利益を勝ち取ったためマイナーな存在に見えるが、9000万人以上のアクティブユーザーをサポートし、1日当たり40テラバイトの新規データを獲得しているまさに「ビッグデータ」企業だ。

　Amazonと対照的にeBayは、自社の社内ITに関する情報の公開に積極的だ。

　同社は、並列RDBMSのTeradata上で実データ量25ペタバイトという世界最大のデータウェアハウスを運用している。その主な内容はクリックストリームだ。そのデータ量は40ペタバイトにも及ぶ（これとは別に6ペタバイト級のエンタープライズデータウェアハウスも存在する）。

　非構造化データである（より正確に言えば準構造化データである）クリックストリーム分析をRDBMSで行なうケースは珍しいと思われるが、多くのユーザーによるアドホックな分析をサポートするための選択であるようだ。そして、オークションへの出品物のイメージや説明文などの非構造化データの分析にはHadoopを使用し、分析結果をRDBMSのデータウェアハウスにフィードする設計を取っている。

　構造化データと準構造化データを実績あるRDBMSで、非構造化データをHadoopで処理し、両者を連携させていくという方式は、一般企業においても参考にできる「ビッグデータ」テクノロジの活用方法ではないかと思われる。

　eBayは、少なくとも今のところは顧客に対して自社のクラウド基盤を提供するというビジネスには進出していない。もちろん技術的には十分実行能力はあるはずだがビジネスモデルとしての「選択と集中」を考慮すれば、少なくとも当面はオークションや決済系サービスにフォーカスすべきとの判断があるのだろう。コア領域外のビジネスであるSkypeでさしたる成果を出せなかったことの反省もあるかもしれない。

Hadoopのサポートへ方向転換したMicrosoft

　Microsoftは将来への賭けとしてクラウドに注力しており、当然ながら「ビッグデータ」も同社の重要なアジェンダになっている。

　同社はHadoop対抗技術としてDryadと呼ばれるプロジェクト（後にLinq to HPCに改称）を進めていたが、結局のところプロジェクトはキャンセルされ、（AzureにおいてもWindows Serverにおいても）Hadoopを採用する方へ方向転換したようだ。DryadはHadoopと比較してより複雑な並列処理が可能であるなどの特徴があったが、Hadoopの周辺に強力なエコシステムが形成されつつある中で自己流を貫くことは得策とは思えないので、これは賢明な撤退であったと言えよう。

　一般的に言ってMicrosoftの最大の強みはその（Software as a Serviceならぬ）Software+Service戦略にある。同じプラットフォームを、クラウドでもオンプレミスでも利用できるということだ。ユーザーは自社に適合した場所でアプリケーションを稼働できるし、システムのライフサイクルの途中で切り替えることもできる。クラウドで試行して効果を上げられそうなことがわかった段階でオンプレミスに切り替えたり、あるいはオンプレミスで開始したシステムの処理能力が不足した場合にクラウドに移行することが、最小限の負担で可能になる。

　「ビッグデータ」の領域においては前述の大量データの移行の課題はあるものの、多くの一般的企業にとっては現実的な戦略だろう。

Keep up with ZDNet Japan
ZDNet JapanはFacebookページ、Twitter、RSS、Newsletter（メールマガジン）でも情報を配信しています。現在閲覧中の記事は、画面下部の「Meebo Bar」を通じてソーシャルメディアで共有できます。

ZDNET Japanは、Ziff Davisからのライセンスに基づき株式会社4Xが運営しています。
ZDNET Japan is operated by 4X Corp under license from Ziff Davis.

クラウド系企業の「ビッグデータ」戦略--Google、Amazon、eBay、Microsoft

「ビッグデータ」の申し子 Google

社内システムは秘密主義のAmazon

HadoopとRDBMSを適材適所で活用するeBay

Hadoopのサポートへ方向転換したMicrosoft

「ビッグデータ」の申し子　Google