信じられないようだが、これは本当のことだ。「Google File System」と「MapReduce」のオープンソースによる実装から始まった「Apache Hadoop」プロジェクトが1月最終週、誕生から10年を迎えた。
この技術は元々、さらに古いウェブクローリングのためのオープンソースプロジェクトである「Apatch Nutch」の一部であり、開発を加速するために、2006年に米Yahooの開発チームの1つが割り当てられた際に独立したプロジェクトとなった。
変化を巻き起こしたHadoop
この2つのプロジェクト(および「Apache Lucene」)の設立者であるDoug Cutting氏(元米Yahoo所属、現在はClouderaのチーフアーキテクトを務める)は、息子のゾウのぬいぐるみから名付けられたHadoopプロジェクトの生誕10年を記念するブログ記事を公開した。
同氏はこの記事で、「従来のエンタープライズ向けリレーショナルデータベースシステムは現在、競争に直面しており、その相手はオープンソースのビッグデータ関連ソフトウェアだ」と指摘している。データベース業界はそれまで、10年以上停滞した状態だった。Hadoopと「NoSQL」がその状況を変えると、旧来のデータベースベンダーは、重い腰を上げて製品に新機能を追加し、再び活発に活動を始めた。
目を覚ました眠れる巨人
「Microsoft SQL Server」は分析クエリを扱えるよう、列ストアインデックスをサポートするようになり、次のSQL Server 2016では、Hadoop内のデータに対しても使用可能な統合クエリ機能であるPolyBaseが追加される。一方、OracleとIBMも、それぞれHadoopに対するブリッジ機能や、半構造化データを処理しやすくする機能を追加している。
TeradataはHadoopやビッグデータに向かって大きく舵を切り、Aster Dataの買収を行ったり、ClouderaやHortonworksとの多面的なパートナーシップを進めたりしている。またTeradataに敬意を表してか、Hadoopの時代に入ってから、主要なベンダーはデータウェアハウス専業の企業を1社は買収している。
次世代テクノロジ
さらにCutting氏は、Hadoopが元々持っていたコアコンポーネントは、競争に直面したり、別のもので取って代わられたりしていると指摘し、「『Apache Spark』のような新しい実行エンジンや、『Apache Kudu』(インキュベーション中)のような新たなストレージシステムの存在は、このソフトウェアエコシステムが急速に進化しており、全体をコントロールする中心が存在しないことを物語っている」と述べている。ただし、これらのプロジェクトがどちらもClouderaの強力な支援を受けていることを考えれば、この指摘は割り引いて捉えた方がいいだろう。
とはいえ、同氏の「全体をコントロールする中心が存在しない」というコメントは、よく考えてみる価値がある。この指摘は正しいが、必ずしもよいこととは限らないからだ。「創造的破壊」という言葉は、時には矛盾を伴う。ビッグデータ業界のテクノロジの新陳代謝が早すぎることで、この業界の安定性は損なわれている。