興味深いことに、Ibisはこの分散処理の機能を、やはりClouderaによってインキュベーションされているHadoop上での超並列処理SQLプロジェクト「Impala」を利用して実現している。ただし同プロジェクトチームは、IbisとImpalaの結びつきを緩やかなものにし、ほかの分散プラットフォームでもIbisのコードを実行できるようにしようとしている。機械学習分野および予測的アナリティクスの分野における(Rと同水準の)Pythonの人気と、それら分野での分散コンピューティングの重要性を考えれば、Ibisは今後の動向に注意すべきプロジェクトだと言えるだろう。
Apache Twill(インキュベーション中)
Twillプロジェクトは、HadoopのクラスタリングおよびリソースマネージャであるYARN上の抽象レイヤを提供するものだ。YARNはMapReduceアルゴリズムからHadoopを切り離すコンポーネントであり、ほかの処理エンジン(SparkとFlinkを含む)を使用してHadoopを実行できるようにする。HadoopはYARNによって、より一般的な分散コンピューティングプラットフォームになると言える。その価値はもちろん大きい。
問題は、YARNが複雑であり、習得にも時間がかかるということだ。Twillの抽象レイヤは、YARNを使った開発を一般的なJava開発者にも手が届くものにする。10人のコミッターからなるTwillのチームを率いているのは、Hortonworksの創設者兼アーキテクトであり、YARNとTezを推進しているArun Murthy氏だ。これは、Twillが事実上YARNの一部であるということを意味している。
Apache Mahout-Samsara
「Mahout」は、Hadoopのエコシステムプロジェクトの世界では、新しくもなく、無名でもない機械学習エンジンだ。あえてこのリストでMahoutを取り上げた理由は、4月に行われたバージョン0.10.0のリリースで大きな変更が加えられ、「Samsara」と呼ばれる新たな数学環境が追加されたことだ。重要なのは、SamsaraがApache Sparkで動作することだ。これはオプションではなく、SamsaraはSpark依存だ。
これは、もはやMahoutはMapReduceの抽象レイヤではなくなったことを意味する。Hadoop MapReduceのオーバーヘッドを避けることができるため、応答性が高く拡張性が高い機械学習ライブラリになった。同プロジェクトのウェブサイトによれば、MapReduceをベースにしたバージョンも引き続きサポートされているが、今後はMapReduceベースの新しいアルゴリズムがこのプロジェクトに追加されることはない。
このことは、プロジェクト内に興味深い競争状態を生んでいる。まず、MahoutそのものがSpark自体のMLlibコンポーネントと競争関係になった。そして、これはSparkとHadoop自体の競争に拍車をかけることになっている。
Hadoopが向かう先は?
数多くのビッグデータ関連のオープンソースプロジェクトから選ばれたこの短いリストから何かが見えてくるとすれば、それはHadoopは単なる都市ではなく、大都市圏のようなものだということだろう。この都市には郊外があり、郊外では首長に裁判権はなく、政治的な傾向も都市の中心部とは異なっている。そして、郊外には独自の特徴があり、それそのものが1つの市場として扱われるべき存在になっている。現場でビッグデータを扱っている人は、プロジェクトの中核だけでなく、その周辺まで含めたHadoopの全体像を把握しておくべきだろう。さもなければ、変化や進化のトレンドを見逃してしまう危険を冒すことになりかねない。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。