Googleは米国時間12月18日、Java用の「Cloud Dataflow SDK」をオープンソースで提供することを発表した。「Cloud Dataflow」は、同社が2014年夏に開発者向けイベントのGoogle I/Oで発表したもので、ストリーミングモードとバッチモードのいずれでも情報を処理できるように設計された、ビッグデータ分析ソリューションだ。
当時、Google Cloud Platform担当シニアバイスプレジデントのUrs Holzle氏は、Google社内ではすでに、「任意の大きなデータセット」を分析するパイプラインの新しいアプローチとして、「MapReduce」をCloud Dataflowで置き換えたと発言していた。
Cloud Dataflowは、「Amazon Web Services」を始めとするほかのクラウドプロバイダーを追う同社の、急速に進化し、成長しているクラウドスタックを構成する重要な要素だ。具体的には、Cloud Dataflowは、「AWS Redshift」やHadoopのツールである「Amazon Elastic MapReduce」に対抗するソリューションとなる。
GoogleのソフトウェアエンジニアであるSam McVeety氏は、12月18日のブログ記事で、このオープンソースSDKは、開発者がGoogleのマネージドサービスを簡単に統合できるようにするとともに、Cloud Dataflowをほかの開発言語や環境に移植しやすくするものだと述べている。
Java用のCloud Dataset SDKは、すでにGitHubから入手できるようになっている。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。