本特集「ビッグデータとは何か」も第10回となった。今回はクラウド系のビッグプレイヤーの「ビッグデータ」戦略について分析していこう。
クラウドと「ビッグデータ」は、一応は独立した技術分野ではあるが密接に関連している。各クラウドの主要プロバイダーの自社内システムにおける「ビッグデータ」の活用、そして自社の顧客に提供している「ビッグデータ」系のサービスの両面から見ていくことにしよう。
「ビッグデータ」の申し子 Google
Googleは、まさに「ビッグデータ」の申し子とも言える企業だ。検索エンジンを初めとして、同社のビジネスの根底にはほぼ例外なく大量データの活用という要素がある。
同社の戦略は、まず大量のデータを収集すればビジネスモデルは後から着いてくるとでも言えるやり方だ。今でこそAdWordsやAdSenseはGoogleのきわめて魅力的な収益源になっているが、Googleの起業当初は、検索エンジンでどうやって儲けるかをあまり考えていなかったようだ(せいぜい、基本テクノロジのライセンスの収益化しか考えていなかったらしい)。
GoogleはHadoopの元になったMapReduceの開発元でもある。Googleのサービスの多くは独自開発のインテル系サーバ上で、MapReduceとNoSQLのデータストアであるBigTableを中心にして実装されている。そして、その機能の一部は社外ユーザー向けサービスとしても公開されている。
そのような社外ユーザー向けの「ビッグデータ」系サービスに「BigQuery」がある。これは、Googleのクラウド上でSQL的な照会言語を使って大容量(数テラバイト級)のデータ分析を行なうことができるサービスだ。分析対象のデータはGoogle Cloud Storageに保存しておく必要がある。
BigQueryに限った話ではないが、一般にクラウド上で「ビッグデータ」の分析を行なうタイプのサービスでは、データの移動に関する考慮が必要だ。テラバイト級のデータをインターネットを介して転送するためには相当の時間を要する。既にクラウド上にあるデータを分析するのであればよいが、企業内のデータを分析するためにその都度クラウドに転送するような設計は課題が多いと言えよう。
社内システムは秘密主義のAmazon
Amazonも「ビッグデータ」、特に顧客データに強く依存したビジネスを展開している。以前、最高経営責任者(CEO)のJeff Bezos氏は講演会で「Amazonの顧客データの保持期間は何年くらいですか?」という聴衆からの質問に「永遠だ」と答えている。
Amazonは、社内システムに関しては秘密主義で知られている。間接的に情報が伝えられることはあるものの全体的な姿は明らかではない。とは言え、Amazon Web Serviceとして顧客に提供しているのと類似のシステムを活用しているとは推定できる。伝えられるところでは、業務系のデータウェアハウスにおいてはTeradataを使用しているようだ。改めて言うまでもないことだが、大規模ネット系企業だからと言ってNoSQL系のテクノロジですべてをまかなえるわけではないということだ。
Amazonが社外ユーザーに提供している「ビッグデータ」系サービスとしては、Amazon Elastic MapReduceがある。これは要するにHadoopのホスティングサービスだ。IaaSのEC2やS3と連動して稼働する。ここでもGoogleの場合と同様にクラウド上へのデータ転送に関する考慮は必要だ。
この問題の解決策としてAmazonが提供しているユニークなサービスに、AWS Import/Exportがある。ユーザーがデータを格納したハードディスクをAmazonのデータセンターに郵送し、Amazonのオペレーターにロード作業を行なってもらうというサービスだ(現時点では日本からは利用不可)。現実的な解決策ではあるが大量データの転送にこのような原始的な手法を使わざるを得ないところに、現在のクラウドも実はネットワークがボトルネックであるという現実を思い知らされてしまう。