今回は、Greenplumファミリ徹底解説の連載の一環として、Greenplum DBの解説と連動する形で、企業向けHadoopディストリビューションであるGreenplum HDについて3回にわたって解説していきます。 Vol1ではHadoopとは何か?に始まりGreenplum HDの概要について説明します。
■Greenplum HD技術概要■
Greenplum DBとGreenplum HDは異なる製品で、Greenplum HDは、Greenplum版のHadoopディストリビューションです。DBはGreenplumの中核製品ですが、Greenplum HDを使うのにGreenplum DBは必須ではなく、Greenplum HDは単体で利用できる製品です。 ここからは、次世代のHadoopとして注目されているGreenplum HDについて、その技術概要を紹介します。
■Hadoopがなぜ注目されているのか?■
Hadoopについて少しご紹介しましょう。既にご存知の方にはおさらいになりますが、Hadoopは、元々はGoogle Labで生み出されたMapReduceのフレームワーク、分散処理のフレームワークの考え方がベースになっています。それをJavaで実装し、オープンソースにより提供されているものがApache Hadoopです。これによりビッグデータ時代の超大容量な非構造、構造化含めたデータの高速な処理が可能になりました。
VISAの例では、700億トランザクションログの処理に約1か月掛かっていたのが、Hadoopに移行することにより13分に短縮できました。別の例では、ニューヨーク・タイムズ社が、今まで蓄積されていた、TIFFで保管していた13TBに登る記事データをPDF化するという処理をAmazon Webサービス上のHadoopで処理したところ、非常に高速に、低予算で実現することができました。
Ventana Researchという調査会社による、複数業界の数百社に対するHadoop利用に関する調査によると、半分以上の企業が1度はHadoopの利用を考えたという結果があります。また94%のHadoop利用者が以前は不可能だった大規模データ分析が可能になったと回答しています。
Hadoopの先進利用ユーザーとして有名な企業は、Yahoo、Facebookなどがあります。2009年には、ClouderaというApache Hadoopの商用サポートを提供するというベンダーが出てきました。このような有力企業によるHadoopの採用が進み、現在のようなビッグデータ時代が到来したと言えます。
続きはこちらから (»リンク)
EMCジャパンのTech Communityサイト (»リンク) では、ストレージや情報管理に関する最新技術を多数紹介しています。
企業ブログ
-
【EMC Tech Communityサイト】事例紹介 Vol.62 | グローバル・カンパニーにおけるパフォーマンスやストレージ使用率の向上とコスト削減を両立させる取り組み
アメリカのオハイオ州Olmstedに本社を置き、アメリカ、カナダ、メキシコ、中央アメ...
2012-10-31

