「Open Data Platform initiative(ODPi)」は米国時間3月28日、「Apache Hadoop」をベースにしたディストリビューションのランタイム仕様である「ODPi Runtime Specification」を、関連するテストスイートとともに公開した。このランタイム仕様は、標準化を推進するとともに、エコシステムの断片化の抑制、互換性の最大化を実現するため、Hadoopディストリビューションのコアコンポーネントに対する共通仕様を策定することを目指す。ODPiは2015年2月に設立された業界団体だ。
「Apache Hadoop 2.7」をベースにしたこのランタイム仕様は、「Hadoop Distributed File System(HDFS)」や「YARN」「MapReduce」といったコンポーネントを特徴としており、共通参照プラットフォーム「ODPi Core」の一部を構成している。
ODPiをめぐる初期の不協和音
ODPiが設立された当初、この団体はHortonworks(創設メンバーとしてPivotalとともに主導的な立場にあった)が自社のディストリビューションである「Hortonworks Data Platform(HDP)」を中心に据えたかたちでHadoopを標準化するための手段だという陰謀説がささやかれた。実際のところ、ODPはHDPのコアをベースにしており(ODPとHDPは一文字違いでもある)、「Apache Ambari」すらも含めていた。AmbariはApacheのオープンソースプロジェクトであるものの、昔も今もHortonworksのテクノロジであり、ClouderaやMapRは採用していない。
Clouderaの共同創立者で、取締役会長兼最高戦略責任者のMike Olson氏は当時、同社ブログにおいて、(当時はODPとして知られていた)ODPiに対する反対姿勢を表明するとともに、Hadoopプロジェクトに対するApache Software Foundationの統制が軽視されていると記していた。またMapRも同様に冷めた態度をとっていた。その一方で、IBMやSAS Instituteを筆頭に、AltiscaleやCapgeminiといったさまざまな企業がODPiに参加した。
ODPiの発展
しかし、いくつかの肯定的な変化がその後に続いた。具体的には、団体名称をODPからODPiに変更し、ガバナンス面ではプロジェクト自体をLinux Foundationの傘下に入り、リーダーシップ面ではHortonworksがより裏方の役割を担うようになり、新たに複数の企業が参加した(現在では25社以上が参加している)。
今回のRuntime Specificationのリリースで、ODPiは賢明にもAmbariをコアコンポーネントから外した(そして代わりに補完的な「Operations Specification」に含めた)。
取り組みの意義
Hadoopディストリビューションは様々なコンポーネントで構成され、どのコンポーネントもそれぞれに更新されてきた履歴がある。そのため、独立系ソフトウェアベンダーは互換性を確認するテストに多くの負担を強いられている。ソフトウェアベンダーすら負担に感じているのだから、ユーザー企業の困惑ぶりは容易に察することができよう。
それから、昔のことだが、UNIXがDOSやWindowsを相手に、後にエンタープライズと呼ばれる世界での覇権争いをしていた頃、UNIXにはたくさんの派生OSが存在した。このことに混乱する顧客企業も多かった。Hadoopのエコシステムは事情が異なるが、ここから学ぶべきこともあるだろう。
ClouderaやMapR、Amazonが今後、ODPi準拠のディストリビューションを提供する道に進むかどうかは何とも言えない。しかし、もしもこれらの企業がその道に進んだ暁には、ビッグデータ業界は大きく進歩することになるだろう。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。