海外コメンタリー

「Spark」をクラウドサービスで利用すべき3つの理由--Databricks担当者に聞く

Matt Asay （Special to TechRepublic）翻訳校正：石橋啓一郎

2015-06-30 06:30

　オープンソースプロジェクト「Apache Spark」は、いまやカリフォルニア大学バークレー校のAMPLabが生んだ成果の中で、もっとも有名なものと言えるかもしれない。Sparkを生んだAMPLabは、機械学習、クラウドコンピューティング、クラウドソーシングという3つの大きなトレンドをテーマとしており、アルゴリズムと機械、そして人の力を組み合わせて、ビッグデータから意味を引き出すことに取り組んでいる。

　Sparkはもともと、AMPLabの別のプロジェクトである「Apache Mesos」を拡張するために書かれたものだが、人気が集まったため、開発者たちは2013年にAndressen Horowitsから資金を獲得して、スタートアップ企業Databricksを立ち上げた。同社は、データ分析のプロフェッショナルが簡単にSparkを利用できる、ホスティング型のクラウドプラットフォームを提供している。

　Sparkは、Hadoopの「MapReduce」の対抗馬として人気がある。Sparkはスピードと使いやすいプログラミングモデル、統一的なデザインを併せ持っており、ユーザーは1つのシステムで双方向的なクエリ、ストリーミング分析、機械学習、グラフ計算を組み合わせて利用することができる。

　このパワーをクラウド上に乗せ、シンプルでエレガントなユーザー体験を加えれば、データを処理し、エンドツーエンドのデータパイプラインを作ろうとしている人には魅力的なプラットフォームになる。Zoomdataのような、ビッグデータ処理のためにゼロから作られた視覚的分析アプリケーションを使えば、ビジネスインテリジェンス（BI）の分析を驚くほど素早くこなすことができる。

　この記事では、Databricksの顧客エンゲージメント担当バイスプレジデントであるArsalan Tavakoli氏に、Sparkと視覚的分析ツールの組み合わせの魅力についてインタビューした。

--Sparkをクラウドで利用することの利点は何でしょうか。Sparkをダウンロードして、社内で実行することもできるわけですが、Databricksからサービスを購入するメリットを教えてください。

Arsalan Tavakoli氏

Tavakoli氏：ご存じの通り、Sparkはオープンソースとして入手可能です。このため、だれでも、ベンダーからSparkを自分でダウンロードして、利用することができます。しかし、ビッグデータへの取り組みに失敗している顧客を調べると、失敗の原因が3つあることがわかりました。

　第1は、インフラ管理は大変だということです。社内でSparkを利用しようとする場合、ビッグデータのためのインフラを稼働させるまでに、通常は6～9カ月かかります。それ以上かかる場合もあります。SparkはAmazon Web Services（AWS）上で実行することもできますが、そのためにはEC2のスクリプトを書かなくてはならず、開発運用スタッフが必要となります。これは厳しいことです。

　インフラは大変なのです。また、Sparkに取り組もうという企業は、一般に早いイノベーションサイクルを求めています。何百人という人が常に貢献し、改善されているテクノロジの恩恵を受けたいと思っているのです。しかし、これはテクノロジの変化が速いということを意味しています。自社スタッフのチームが、最新バージョンを導入して稼働させるのに、どれだけの時間がかかるでしょうか。