【EMCジャパン Tech Communityサイト】 「ビッグデータ活用でビジネス変革を実現。企業向け次世代Hadoopソリューション Greenplum HD」 Vol3

EMCジャパン株式会社

2011-10-26

~ Greenplum DBとHDの連携 ~


第3回目では、データベース版のGreenplum DBと、Hadoop版であるHDの連携機能にフォーカスして解説していきます。これにより、構造化データ、非構造化データ両方の分析がGreenplumプラットフォーム上でシームレスに行えるようになります。


■Greenplum DBとHDの連携による、更に効果的なビッグデータ分析■


先ほども紹介した通り、GreenplumファミリであるDBとHDは連携して運用が可能です。
ここではGreenplum DBとHDを組み合わせてどのような使い方ができるのかを簡単に紹介します。


Greenplum DBはApache Hadoop、Greenplum HDのどちらとも連携が可能です。
DBとHDの連携というのは、HDFSからデータをローディングしてGreenplum DBに格納することができ、なおかつGreenplum DBからGreenplum HDあるいはApache Hadoopに対してデータをアンロード、すなわち書き出すことができる。Greenplum DBとHDもしくはApache Hadoopとの双方向のデータのやり取りが可能です。


Greenplum DBが持つHadoopとの連携機能は、単にデータのやりとりができるに留まりません。Greenplum DBの章で紹介したとおり、Greenplum DB は、HadoopのHDFS上のファイルを外部表として扱うことができるため、SQLを介して直接Hadoopにあるデータの処理が可能です。また、HadoopユーザーであればMapReduceを使い、Greenplum DBから持ってきたデータを入力として並列処理することもできます。 HadoopのデータノードとGreenplumセグメントサーバが直接パラレルにやりとりすることによって、Greenplumのマスタサーバを経由せず、なおかつHadoopのネームノードも経由しないで、パラレル化された高速なデータのロード、アンロードが可能です。


続きはこちらから (»リンク)


EMCジャパンのTech Communityサイト (»リンク) では、ストレージや情報管理に関する最新技術を多数紹介しています。

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]