やっぱりビジネスパーソンも、おさえておきたい 機械学習やソーシャル分析を支えるビッグデータ基盤Apache Spark

Sparkは、Hadoopの限界を突破する

 「これに対して、Apache Sparkは、このようなHadoopの限界を解消するテクノロジーとして注目を集めています。Hadoopを置き換えるものというより、Hadoopを補完する存在と言えるでしょう」(貝嶋氏)

 Sparkが威力を発揮する処理のひとつが、Hadoopが苦手としていた多段階処理である。1回だけの処理であれば、HadoopのMapReduceでもSparkでもさほど処理速度に違いはない。しかし、20回~30回と処理を繰り返していくと、結果が違ってくる。MapReduceでは、くり返し回数に応じて、処理時間も伸びてしまう。一方、Sparkでは、1回目の処理はMapReduceと同じくらい時間がかかるが、2回目以降は大幅に短い時間で処理できる。これは、Sparkが、繰り返し処理するデータをメモリ上に保持・再利用することで、ディスクアクセスにかかる時間をおさえているためだ。

 このような多段階処理の高速性は、今注目を集めている機械学習や、データサイエンティストが活躍する統計処理などで威力を発揮する。さらに、Sparkではビッグデータの先進的な活用にとって重要な処理を、部品化されたライブラリーとして提供しユーザーの利便性を高めていることも特長である。(下図参照)

 SQLやRなどデータサイエンティストが日頃より使い慣れた問い合わせ言語の利用が可能で、これまでの知見を活かすことができる。機械学習ではMLlibを利用することで簡単に分析を行うことが可能であるが、IBMはSystemMLという機械学習ライブラリを提供予定であり、分析処理の更なる向上が期待できる。また、Hadoopが苦手とする、数秒程度の連続したストリーム処理についても、Spark Streamingにより対応できる。これは、SNSのトレンド分析や、情報システムに対する不正侵入検知などに有効だという。さらに、Spark GraphXでは、SNSでのつながりやデータ間の関連性などを見つけ出すといった用途で活躍する。そして、これら機能は、用途に応じて、適切に組み合わせることができるのだ。

 「このようにSparkでは、適切なライブラリを利用することで、システム開発者や利用者の負担をおさえられる、より柔軟なビックデータ基盤の利用が可能になっています。」(貝嶋氏)


※クリックすると拡大画像が見られます

IBMは、今後10年間で最も重要なOSSとして注力

 「先日発表したように、IBMは、今後10年間で最も重要なオープンソースプロジェクトとして、Sparkに注力しています」(貝嶋氏)

 IBMでは、まず、3,500人以上のIBMの研究者と開発者を配属してSpark関連プロジェクトに従事させている。また、機械学習ライブラリであるSystemMLをオープンソースに提供した。

 さらに、今後、IBMアナリティクスおよびコマース・プラットフォームの中核に、Sparkを組み込むと共に、IBMが提供するPaaSであるBluemix上でも、Apache SparkとObject Storageをセットにして提供している。これまで、HadoopやSparkの分散環境を構築するには、複数のコンピュータを用意してインストールを繰り返し行うなど、それなりに手間とコストが必要だった。IBMが提供するSpark as a Serviceはクラウド上のサービスになっているため、数分でSpark環境を用意して動作確認をすることができるのだ。

 「IBMは、Spark本体だけでなく、Bluemixなどと連携したSparkのエコ・システムも充実させることで、お客様がビッグデータを活用できる領域を広げようとしているのです」(貝嶋氏)

 Hadoopは、これまでもビッグデータの分散処理プラットフォームとして、先進的な場面で利用されてきた。しかし、幅広い用途に活用するには、開発速度と実行速度の両面で難点があった。

 これらの難点を解消したSparkは、ビッグデータ活用の標準環境になろうとしている。

 従来、Hadoopの利用が難しいとあきらめていた企業であっても、Sparkであれば以前より容易に活用していくことができるだろう。また、すでにHadoopを使ってきた企業であれば、さらにその先にチャレンジすることができるだろう。


【ビデオリサーチ事例】数億件のウェブログ分析を実現したビッグデータ分析基盤

【NTTぷらら事例】ビジネスのさらなる成長を目指しビッグデータの戦略的活用を推進

BigDataの統合とガバナンスを実現するには?
フリートライアル版ダウンロード
イベント情報
提供:日本アイ・ビー・エム株式会社
[PR]企画・制作 朝日インタラクティブ株式会社 営業部 
このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]