Databricksは米国時間6月15日、オープンソースのクラスタコンピューティングフレームワークである「Apache Spark」をベースにしたクラウドプラットフォーム「Databricks」の一般提供を開始した。同社によると、このプラットフォームは限定されたユーザーによって1年間にわたって使用されてきたという。
同社によると、DatabricksはSparkの利用を簡素化するとともに、複雑なワークロードの開発やスケジューリング、管理にかかる時間を短縮することを目的としており、150社以上の企業によって導入されているという。
Ali Ghodsi氏
提供:Databricks
Databricksのエンジニアリング責任者であるAli Ghodsi氏によると、以前は「Databricks Cloud」と呼ばれていたこのクラウドサービスは、対話的な調査や、コラボレーション、生産を自動化できるように設計されているという。
Sparkは、「Apache Hadoop」では処理が追いつかないワークロードを実行できるクラスタコンピューティングフレームワークを生み出すという目的で、2009年にカリフォルニア大学バークレー校のAMPLabで開始されたリサーチプロジェクトだ。Sparkは2010年にオープンソース化され、2014年の貢献者数は450以上にのぼっている。なおDatabricksは、Sparkの生みの親が2013年に設立した企業だ。
15日のこの発表に先立ち、IBMはSparkを同社のクラウドサービスと商用サービスにおける重要な位置に据えるとともに、同社のクラウド開発プラットフォーム「Bluemix」上でサービスとしてのSparkを提供する予定だと発表している。
11日に「Apache Spark 1.4」を一般公開しているDatabricksは、人気の高い統計分析プログラミング言語「R」へのアクセスを提供することで、Rユーザーが「SparkR」というAPI経由で大規模データセットを直接利用できるようにしようと計画している。
Ghodsi氏は「今後は、Databricks上でRを用いてコーディングを行ったり、予備解析を実施したり、ジョブを記述できるようになる。なお、既にサポートされている言語にPythonやSQL、Scalaがある」と述べている。
Databricksは3月に新たなジョブ機能の提供を開始している。これは、Sparkを使用するスタンドアロンのアプリケーションやDatabricksのノートブックで構成されたプロダクションパイプラインの作成をサポートしている。
また同社は、セキュリティ機能やガバナンス機能を2015年中に実現する計画だ。これらの機能には、アクセス制御やプライベートなノートブックに加えて、ソースコードへの変更をユーザーが追跡できるようにするためのバージョン管理が含まれている。
さらに同社は、耐障害性を有するリアルタイム処理をサポートした完全なSparkストリーミングを提供する計画だ。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。