NoSQL「HBase」はIoTにも最適--柔軟なスキーマでデータ構造の変更に対応 - (page 2)

草薙昭彦 (MapR Technologies)

2015-03-09 19:14

 HBaseのデータモデルではこのような制約はなく、キーを動的に定義できるため、いわゆるスパースな(テーブルとして表現した時に値がまばらにしか存在しない)データの格納も可能です。ところがリレーションの存在を前提とするデータ集合に対する演算操作やデータの矛盾を排除する仕組みは基本的に用意されていません。これがアプリケーションの用途の選択に与える影響は、後半で説明していきます。

 次にHBaseの実装について簡単に説明しましょう。HBaseクラスタの構成要素にはデータを格納、処理する「Region Server」、メタデータを管理し、各サーバを調整する「Master」、構成情報を管理する「ZooKeeper」サーバがあります。それぞれの要素は障害に備え、複数台のサーバで構成されています。

 上記で説明したHBaseテーブルのデータは行キーでソートされた状態で格納されていますが、行キーの範囲を基準として“リージョン”という単位に分割され、各リージョンはクラスタ内のRegion Serverに分散して格納、処理されます。さらに、カラムは“カラムファミリー”という単位でグループ化され、各カラムファミリーは独立したメモリ領域やファイルのセットを管理する形になっています。このようにデータを物理的に分散した上で、並列にそれぞれのデータに対して独立してアクセス、処理することで、非常に高いスケーラビリティを実現しています。

図2:HBaseクラスタ構成とテーブルの物理配置
図2:HBaseクラスタ構成とテーブルの物理配置(筆者作成)

 データの読み書きは、Region Serverに搭載する大容量のメモリと、データファイルの格納に利用するHadoop分散ファイルシステム(Hadoop Distributed File System:HDFS)の特性を最大限利用しています。HDFSは、もともと主にバッチ処理を対象に設計されたこともあり、シーケンシャルな読み書きに特化されています。

 このため、HBaseでは書き込みデータを直接ファイルシステム上のデータ構造に反映させることはせずにメモリ上に保持し、後ほどバックグラウンドでまとまった単位でファイルへの書き出しやファイルの再構成(コンパクション)を行っていきます 。全体的に見ると、メモリを介することで細かいランダムアクセスがシーケンシャルなディスクI/Oに変換されていることが分かりますが、これはディスクI/Oがボトルネックとなりがちな大規模データ処理環境でよい解決策になっています。

 これまでに述べた概念をもとに設計されたHBaseがどのような特徴を持つシステムなのかを見ていきましょう。

高いスケーラビリティ

 HBaseを使う上で最大のメリットは、非常な大きな規模まで拡張が可能なスケーラビリティの高いアーキテクチャにあるでしょう。運用を続けるうちにさらに容量が必要になった場合には、単純にサーバの台数を増やすことで拡張が可能です。

 モバイルアプリ解析の米Flurryは1200ノードを超えるHBaseクラスタを運用しており、データ分析業務の中核として利用しています。米Yahoo!では7つのHBaseクラスタで6Pバイト以上のデータを格納していると言われ、実際にこのような規模で運用されているNoSQLデータベースはHBaseをおいて他にはありません。

シャーディングによる負荷の分散

 HBaseに格納されるデータは、上述の通り行キーによりリージョンに分割されます。テーブルを物理的に分割するという意味でRDBMSにおけるレンジパーティションに似ていますが、HBaseの各リージョンは複数のサーバに分散して配置され、各サーバはそれぞれが管理するリージョンに格納されたデータに対する処理を並列に実行することにより、全体の性能向上が図られます。これは「シャーディング」と呼ばれます。さらにリージョンの分割やリバランスを自動で行う機能も備えています。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ホワイトペーパー

新着

ランキング

  1. セキュリティ

    迫るISMS新規格への移行期限--ISO/IEC27001改訂の意味と求められる対応策とは

  2. セキュリティ

    警察把握分だけで年間4000件発生、IPA10大脅威の常連「標的型攻撃」を正しく知る用語集

  3. セキュリティ

    まずは“交渉術”を磨くこと!情報セキュリティ担当者の使命を果たすための必須事項とは

  4. セキュリティ

    いま製造業がランサムウェアに狙われている!その被害の実態と実施すべき対策について知る

  5. セキュリティ

    VPNの欠点を理解し、ハイブリッドインフラを支えるゼロトラストの有効性を確認する

ZDNET Japan クイックポール

所属する組織のデータ活用状況はどの段階にありますか?

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]