~ Greenplumの特徴・アーキテクチャを理解する ~
Vol1では、Greenplumが業界最高レベルの高い性能、高いコストパフォーマンス、柔軟な拡張性を提供できる仕組みを、Greenplumの3つの特徴をご紹介しながら説明していきます。また、Greenplumがシステム全体のどこに位置づけられるのかも、この中で確認します。
■バッチ処理・データ解析における汎用RDBMSの課題■
Greenplumのアーキテクチャの話をする前に、これまでデータベース分野でされてきた議論を、今、一度振り返ってみます。
データベースの分野では、これまで大きく2つのアーキテクチャが議論されてきました。
1つがシェアードエブリシングです。シェアードエブリシングというのは、1台のサーバの中に、必要なデータを全て詰め込み、この1台のサーバで、全てのデータベースの処理をしようというアプローチです。
シェアードエブリシング・アーキテクチャで、最も有名なのはOracleデータベース、IBM/DB2、あるいはMS SQL Server、Postgres、MySQLのようなデータベースです。
一般的にデータベースといわれるものは、基本的にはシェアードエブリシングと考えてよいでしょう。
このシェアードエブリシング・アーキテクチャというのはOLTPの処理には非常に向いていますが、バッチ処理であったり、データ・ウエアハウスの処理には不向きとされています。
何故かというと、OLTPのように、1件のデータを抜き出すというのではなくて、全てのデータを一気にスキャンする、あるいはテーブルをJoinするなど、一気にデータを読みだして処理をするところで、IOボトルネックが発生しやすいのです。1台のサーバで全てのデータを扱うため、CPU、メモリのボトルネックだけでなく、プロセス自身のボトルネックも発生しやすいと言えます。
このシェアードエブリシング・アーキテクチャのシステムで大量データ処理の性能を向上させるために何をするかというと、1台のサーバにできるだけ多くのハードウエア・リソースを追加していくことでした。
まず、CPUを10、20、30、40と増やしていくわけです。しかしながら、それで性能が伸びるかというと、その保証はありません。次に、ストレージ・ボトルネックが発生し、性能がそのボトルネックに引っ張られてしまう。そのボトルネックを解消するために、ストレージを増設し強化する。増設したからといって、それが性能が伸びるのかというと、次はまたCPUがボトルネックになってしまう。このようなイタチごっこが、シェアードエブリシング・アーキテクチャが、データ・ウエアハウス処理、バッチ処理に向いてないとされてきたその理由です。
続きはこちらから (»リンク)
EMCジャパンのTech Communityサイト (»リンク) では、ストレージや情報管理に関する最新技術を多数紹介しています。
企業ブログ
-
【EMC Tech Communityサイト】事例紹介 Vol.62 | グローバル・カンパニーにおけるパフォーマンスやストレージ使用率の向上とコスト削減を両立させる取り組み
アメリカのオハイオ州Olmstedに本社を置き、アメリカ、カナダ、メキシコ、中央アメ...
2012-10-31

