IBMは米国時間6月15日、同社が展開するクラウドサービスの中核となるデータ処理プラットフォームに「Apache Spark」を採用すると発表した。同社は、Sparkをアナリティクスやコマース製品に組み込み、「Bluemix」上でクラウドサービスとして提供する計画だ。IoT(モノのインターネット)アプライアンスのバックエンド、ビッグデータのリアルタイム解析や予測分析など、多種多様な製品とサービスにSparkを活用していく。
IBMはApache Sparkの採用に伴い、全世界で進められる関連プロジェクトに大規模なリソースを投入する。まず、同社は世界十数カ所の研究施設で、3500名に及ぶ研究者と開発者をSpark関連プロジェクトに従事させる。また、同社の機械学習テクノロジである「SystemML」をSparkのオープンソースエコシステムに供与する。さらに、100万名を超えるデータサイエンティストやデータエンジニアのトレーニングを支援する。このトレーニングは、AMPLab、DataCamp、MetiStream、Galvanize、Big Data Universityなどのパートナーを通じて、MOOCs(大規模公開オンライン講座)として提供される。
IBMは「Watson Health Cloud」のインサイトプラットフォームにもSparkを導入する。これにより、健康管理データの解析が高速化され、医師や医療研究者に解析結果をより短時間で提供可能になる。
Bluemix上でSparkをサービスとして実行しクラウドプラットフォームを構築する技術は、数多くの企業や組織で採用が進むとみられているが、本格採用に向けてすでに動き出している組織の1つが、地球外生命体の探査で知られるSETI Instituteである。同研究所はIBMおよびNASAと共同で、深宇宙から受信したテラバイト級の無線信号データを解析するため、BluemixとSparkを組み合わせた新しい手法の開発を進めている。
Apache Sparkは、カリフォルニア大学バークレー校の研究所であるAMPLabで2009年に開始された研究プロジェクトから生まれた。Hadoopの貧弱なターゲットワークロード処理を解決するクラスタリングコンピューティングフレームワークの開発プロジェクトから生まれたSparkは、2010年にオープンソース化され、2014年には450を超えるコントリビュータを擁する一大プロジェクトへと成長した。現在、Sparkの開発は、Sparkを生み出した開発者達が創業した企業であるDatabricksに引き継がれている。
IBMはAMPLabの創設に関わった数少ない企業の1つであり、現在もSpark関連プロジェクトにおいて同研究所と密接な協力体制を敷いている。
Apache SparkはHadoopのMapReduceに比べ、ビッグデータを取り扱う際のバッチ処理速度に優れているうえ、より広範なワークロードに対応可能だという特長を備えている。Spark SQLはHiveQL互換のSQL実行環境をサポートし、Spark MLlibは機械学習機能を提供し、Spark Streamingはデータの高速ストリーミング処理を実現し、Spark GraphXは各種のグラフ機能を提供する。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。