~ Greenplum DBとHDの連携 ~
第3回目では、データベース版のGreenplum DBと、Hadoop版であるHDの連携機能にフォーカスして解説していきます。これにより、構造化データ、非構造化データ両方の分析がGreenplumプラットフォーム上でシームレスに行えるようになります。
■Greenplum DBとHDの連携による、更に効果的なビッグデータ分析■
先ほども紹介した通り、GreenplumファミリであるDBとHDは連携して運用が可能です。
ここではGreenplum DBとHDを組み合わせてどのような使い方ができるのかを簡単に紹介します。
Greenplum DBはApache Hadoop、Greenplum HDのどちらとも連携が可能です。
DBとHDの連携というのは、HDFSからデータをローディングしてGreenplum DBに格納することができ、なおかつGreenplum DBからGreenplum HDあるいはApache Hadoopに対してデータをアンロード、すなわち書き出すことができる。Greenplum DBとHDもしくはApache Hadoopとの双方向のデータのやり取りが可能です。
Greenplum DBが持つHadoopとの連携機能は、単にデータのやりとりができるに留まりません。Greenplum DBの章で紹介したとおり、Greenplum DB は、HadoopのHDFS上のファイルを外部表として扱うことができるため、SQLを介して直接Hadoopにあるデータの処理が可能です。また、HadoopユーザーであればMapReduceを使い、Greenplum DBから持ってきたデータを入力として並列処理することもできます。 HadoopのデータノードとGreenplumセグメントサーバが直接パラレルにやりとりすることによって、Greenplumのマスタサーバを経由せず、なおかつHadoopのネームノードも経由しないで、パラレル化された高速なデータのロード、アンロードが可能です。
続きはこちらから (»リンク)
EMCジャパンのTech Communityサイト (»リンク) では、ストレージや情報管理に関する最新技術を多数紹介しています。
企業ブログ
-
【EMC Tech Communityサイト】事例紹介 Vol.62 | グローバル・カンパニーにおけるパフォーマンスやストレージ使用率の向上とコスト削減を両立させる取り組み
アメリカのオハイオ州Olmstedに本社を置き、アメリカ、カナダ、メキシコ、中央アメ...
2012-10-31

