Googleは米国時間6月25日、「Cloud Dataflow」を発表した。これは、ストリーミングモードあるいはバッチモードで大量の情報を処理するビッグデータ分析サービスだ。
サンフランシスコで開催された同社の年次開発者会議「Google I/O 2014」で発表されたこのサービスにより、「Amazon Web Services」(AWS)に対抗するために機能を追加してきている同社のクラウドスタックが完成に近づくことになる。
GoogleのシニアバイスプレジデントUrs Holzle氏はCloud Dataflowの概要を説明した後、サッカーのワールドカップに関するTwitterのデータやセンチメントを処理するデモを実施した。Cloud Dataflowは、一連のクラウドサービスの概略説明において最も力の込もっていた話題であった。
Holzle氏によると、Google内部ではCloud Dataflowによって「MapReduce」が置き換えられたという。Cloud Dataflowは「どのような大きさの大規模データセット」でもパイプライン処理によって分析できるよう設計されているという。
「MapReduceでは単一のフローで行っていたことを、Cloudflowはパイプライン全体で行う」(Holzle氏)
大まかに言うと、GoogleのCloud Dataflowは、Amazonのデータウェアハウスサービス「Amazon Redshift」や、「Hadoop」を用いて大規模データセットの解析を行う「Amazon Elastic MapReduce」(EMR)に対抗するものだ。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。