Greenplum:Hadoopとの融合を目指す並列RDBMS
次にストレージの上位階層について見てみよう。ここでのEMCの「ビッグデータ」戦略の中核にあるのが、2010年7月に買収したGreenplumのDBMSである。
Greenplumは比較的オーソドックスな並列RDBMSである。基本的にはソフトウェアオンリーのソリューションであり、コモディティのIA-Linuxサーバ上で稼働する(アプライアンス製品も存在するが、その実体はコモディティサーバを事前構成しているだけである)。本特集でも何回か触れているように、「ビッグデータ」の領域は従来型のデータウェアハウジングの領域とかなりの部分で重なっている。ゆえに、並列RDBMSは重要な構成要素だ。
GreenplumのRDBMS機能で個人的に特に注目したいのは、SASの分析ソフトをデータベース内で稼働できるSAS High-Performance Analytics on Greenplum DCAである。これは、一般にインデータベース処理と呼ばれる機能であり、無駄なデータの移動を削減できる点で特に「ビッグデータ」分析では重要となる。大量データをデータベースサーバから時間をかけて分析サーバに移動し、分析処理は一瞬で終わるというのではシステム能力が有効活用されているとは言い難い。インデータベース処理の採用により、この問題を大きく改善できる。この機能はTeradataが先行して提供していたがGreenplumもこの差別化要素をまもなく中立化できそうだ。
さらに、EMCは非構造化データの領域では、当然ながらHadoopに力を入れている。ApacheのHadoopディストリビューションの提供に加えて、互換性を維持しつつ機能・性能を強化したGreenplum HD Enterprise Edition(EE)の提供を2012年初頭に予定している(なお、HadoopはApache Softwareライセンスに従うので、改良版をベンダー独自版として販売することは自由である)。