(4)Sparkに注目!
今年の第153回芥川賞を『火花』が受賞し、世間を騒がせましたが、OSS業界でもまさしくSpark(火花)が話題になっています。従来は、ビッグデータ処理基盤といえばHadoopでしたが、最近はその様相が変化してきました。
Apache Sparkプロジェクトのサイトによると、Hadoopに比べて、インメモリで100倍、ディスク環境で10倍高速に処理できるとうたわれています。また、ただ単に早いだけではなく、「使いやすさ」「普遍性」「どこでも走る」ということも特徴に挙げています。
「使いやすさ」としては、Scala、Java、Python、Rの各言語を用いてアプリケーションを記述できます。「普遍性」とは、SQL、ストリーミング、分析などの機能を提供するライブラリを組み合わせて利用できる点を指しています。最後に「どこでも走る」というのは、まさにAmazon EC2上のスタンドアロンクラスタモードや、Hadoop 2.2以降のYARN(Yet Another Resource Negotiator)、Apache Mesos上での稼働をサポートしていることです。
また、Apache Cassandra、Apache HBase、Apache Hive、Tachyonといった多様なデータソースにアクセスできます。米IBMが6月にSparkに3500人の研究員を割り当てると発表し話題になりましたが、IBMはそれだけではなく、同社のPaaSであるBluemixの顧客に、アプリケーションの重要素材としてSparkを提供しています。
その他にもNTTデータやNECといった日本の大手ベンダーも早期からSparkに取り組んでおり、今後ビッグデータ界隈では、目が離せない状況になってきました。