【EMCジャパン Tech Communityサイト】徹底解説 「データ・ウェアハウスの未来をリードするGreenplum」 Vol1

EMCジャパン株式会社

2011-08-10

~ Greenplumの特徴・アーキテクチャを理解する ~


Vol1では、Greenplumが業界最高レベルの高い性能、高いコストパフォーマンス、柔軟な拡張性を提供できる仕組みを、Greenplumの3つの特徴をご紹介しながら説明していきます。また、Greenplumがシステム全体のどこに位置づけられるのかも、この中で確認します。


■バッチ処理・データ解析における汎用RDBMSの課題■


Greenplumのアーキテクチャの話をする前に、これまでデータベース分野でされてきた議論を、今、一度振り返ってみます。
データベースの分野では、これまで大きく2つのアーキテクチャが議論されてきました。
1つがシェアードエブリシングです。シェアードエブリシングというのは、1台のサーバの中に、必要なデータを全て詰め込み、この1台のサーバで、全てのデータベースの処理をしようというアプローチです。
シェアードエブリシング・アーキテクチャで、最も有名なのはOracleデータベース、IBM/DB2、あるいはMS SQL Server、Postgres、MySQLのようなデータベースです。
一般的にデータベースといわれるものは、基本的にはシェアードエブリシングと考えてよいでしょう。


このシェアードエブリシング・アーキテクチャというのはOLTPの処理には非常に向いていますが、バッチ処理であったり、データ・ウエアハウスの処理には不向きとされています。
何故かというと、OLTPのように、1件のデータを抜き出すというのではなくて、全てのデータを一気にスキャンする、あるいはテーブルをJoinするなど、一気にデータを読みだして処理をするところで、IOボトルネックが発生しやすいのです。1台のサーバで全てのデータを扱うため、CPU、メモリのボトルネックだけでなく、プロセス自身のボトルネックも発生しやすいと言えます。
このシェアードエブリシング・アーキテクチャのシステムで大量データ処理の性能を向上させるために何をするかというと、1台のサーバにできるだけ多くのハードウエア・リソースを追加していくことでした。


まず、CPUを10、20、30、40と増やしていくわけです。しかしながら、それで性能が伸びるかというと、その保証はありません。次に、ストレージ・ボトルネックが発生し、性能がそのボトルネックに引っ張られてしまう。そのボトルネックを解消するために、ストレージを増設し強化する。増設したからといって、それが性能が伸びるのかというと、次はまたCPUがボトルネックになってしまう。このようなイタチごっこが、シェアードエブリシング・アーキテクチャが、データ・ウエアハウス処理、バッチ処理に向いてないとされてきたその理由です。


続きはこちらから (»リンク)


EMCジャパンのTech Communityサイト (»リンク) では、ストレージや情報管理に関する最新技術を多数紹介しています。

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]