Hadoopの生みの親であり、現在はClouderaのチーフアーキテクトを務めているDoug Cutting氏がインメモリ技術や、クラウド関連の技術について語ってくれた。これらの技術によって、Hadoopはもうすぐ、ビッグデータからより多くの価値を引き出せるようになるという。
Cutting氏がHadoopというフレームワークを生み出した10年前には、大規模コンピューティングがこれほどまでに企業分野に浸透するとは同氏自身、予想だにしていなかった。
同氏は「Strata and Hadoop World」カンファレンスにおいて、「私が予想していたのは、これまで目にしてきているものよりも、ずっと控えめなものだった」と語った。
今日、Hadoopは多くの有名企業で利用されている。例を挙げると、Facebookでは毎月16億人以上のユーザーのトラフィックを分析するために利用されており、Visaでは総額で数十億ドルにのぼる不正利用の検出に役立てられている。
Hadoopの魅力は、ビッグデータの処理をより安価にするとともに、ある種の観点から見てよりシンプルにするというそのアプローチにある。同プラットフォームは、コモディティサーバをノードとするクラスタ上に大規模データセットを分散させることで、並列処理を可能にする複数のテクノロジを提供しているのだ。
とは言うものの、このプラットフォームでできることにはまだ限界がある。現在のところ、Hadoopクラスタによる大規模データセットの処理速度は、2次ストレージ(SSDや、さらに低速なハードディスク)と、コンピュータのメモリやCPUとの間でデータがやり取りされる速度によって制限されている。
このようなI/Oのボトルネックが生じるのは、プロセッサの処理速度や効率の伸び率がストレージの読み書き速度の伸び率を上回っているためだ。
ペタバイト規模のデータをメモリに
しかし今や、ストレージテクノロジに大きな変化が訪れようとしており、それはCutting氏によると、処理速度の面でビッグデータにはめられていた足かせを解き放つものになるという。
Intelは、「3D XPoint」テクノロジを採用したストレージチップを2016年中にリリースする計画だ。このチップのデータ読み込み速度は、SSD製品で一般的に使用されているNAND型フラッシュメモリの1000倍であり、記録密度は現在メモリとして一般的に使用されているDRAMの10倍となっている。
「ペタバイト規模のデータをメモリ上に配置でき、どのノードからでも数サイクル以内にアクセスできるようになれば、パフォーマンスは数段階の向上を遂げることになる」(Doug Cutting氏)
提供:Cloudera