■Hadoopが注目されてきた背景と理由■
Hadoopがこの日本でも注目されるようになった背景には、いくつかの大きな理由があります。
Hadoopは、これまで先進的なユーザー企業が中心となって利用されてきました。たとえば、VISAでは700億のトランザクション処理を行うのに、通常のデータベースでは1ヶ月かかっていたのが、Hadoop処理に置き換えることによって13分で終えることができました。
また、ニューヨーク・タイムズ社は、それまで蓄積してきた数十年分の記事のアーカイブをPDFに変換する処理をアマゾンEC2上に構築したHadoopで行いました。データ量にして4テラバイトのTIFF画像をPDFに変換し、そのコストがわずか数百ドルだったという事実があります。
これらの実績によって、パラレル分散処理を行うスケールアウト型のHadoopの効果が広く知られるようになりました。2007年以降、Webサービス系の有力企業、Yahoo!、Facebook、ツイッター、YouTubeなどが採用し、現在のようなビッグデータの時代が到来したといえます。
■そもそもHadoopとは■
そもそもHadoopは、Googleが独自に持っていたパラレル分散処理のフレームワークをオープンソースで実装したものです(Google MapReduceと呼ばれる)。2003年頃、Googleラボラトリーにおいて、社内でこういう分散処理の仕組みがあることが発表されました。これはGoogle独自のものであったため、同じような仕組みをオープンに利用できるようにするため、Apacheコミュニティの中でHadoopプロジェクトが始まったわけです。
Hadoopは、図のようにデータをためる分散ファイル・システムと、データを加工する分散処理の2つのコンポーネントから構成されています。これまでは、これら2つの「ためる・加工する」というコンポーネントが、別々のシステムで構成されていました。ためるのは大量データを保存できるストレージであり、加工するのは別のサーバ上の個別プログラムであったわけです。このため、膨大な非構造化データをストレージからサーバに読み込む処理がボトルネックとなり、多大な時間を要していたのです。
加えて、ストレージだけでは、ためたデータを、たとえばTIFF画像をPDFに変換するような加工はできません。ユーザーが分析してみたいプログラムをストレージ上に置いて、いつでも加工して何か新たな法則や知見を見い出せるのが理想です。これを可能にしたのがGreenplum HDです。
そこで我々は、今回発表のGreenplum HDによって企業向けHadoopソリューションの製品化を行いました。
続きはこちらから (»リンク)
EMCジャパンのTech Communityサイト (»リンク) では、ストレージや情報管理に関する最新技術を多数紹介しています。
企業ブログ
-
【EMC Tech Communityサイト】事例紹介 Vol.62 | グローバル・カンパニーにおけるパフォーマンスやストレージ使用率の向上とコスト削減を両立させる取り組み
アメリカのオハイオ州Olmstedに本社を置き、アメリカ、カナダ、メキシコ、中央アメ...
2012-10-31

