ビッグデータとIoTに特化した東芝デジタルの「GridDB」

大河原克行

2021-10-19 06:30

 東芝デジタルソリューションズは、NoSQL型データベース管理システム(DBMS)の「GridDB」の取り組みについて説明した。GridDBについて同社は、高速性を売りにする他のNoSQLデータベースと比較しても、圧倒的な高性能を実現できると主張。社会インフラを中心に、高信頼性や高性能が求められるシステムに採用されているという。

ビッグデータ/IoT特化DB

 GridDBは、ビッグデータやIoTシステム向けに特化して作られた。東芝は、2011年に開発をスタートさせ、2013年に「GridStore」として製品化、商標問題でGridDBに改称した。2021年4月からクラウド環境におけるマネージドサービスも提供している。

 東芝がデータベース(DB)を開発した背景について、ICTソリューション事業部 新規事業開発部 シニアエキスパートの望月進一郎氏は次のように語る。

 「東芝が手掛ける社会インフラシステムを維持、管理していくためには、システムの稼働状況を記録して活用するDBが必要だった。従来は他社DBを使用していたが、2000年代からシステム規模の拡大やセンサー数の増加などにより、既存のリレーショナルDBでは要件を満たせなくなってきた。その際に、ビッグデータやIoTに最適化したNoSQLを検討したが、オープンソースソフトウェアが多く、社会インフラシステムで利用するには、信頼性の点で不安があり、自らDBMSを開発した」

データベースとしての概要
データベースとしての概要

 東芝グループがDBの開発経験を持つ技術者を多く抱えていたことも自社開発を後押しした。GridDBには、4つの特徴があるという。

 高頻度で大規模な時系列データを効率良く、リアルタイムに処理する「時系列データ指向」、ペタバイト規模のデータを扱う独自技術など組み込んで実現した「処理能力」、障害の発生時やサーバー増設時にノンストップ運用を実現する「信頼性と柔軟な拡張性」、NoSQLインターフェースだけではなくSQLインターフェースの対応で実現する「開発の俊敏性と使いやすさ」――4点である。

 望月氏は、「GridDBは、IoTデータ向けに拡張した独自のキーコンテナー型データモデルを採用し、キーバリュー型とリレーション型の良いところ取りをした。特に時系列のセンサーデータを扱うなど、IoTのデータ管理に最適なアーキテクチャーを採用した。また、イベント駆動エンジンを活用して、排他処理や同期待ちなどを排除した。CPUをフル回転でき、メモリーを最大限に有効活用する時系列データ配置技術の『Time Series Data Placement Algorithm』(TDPA)を採用して、高速検索を可能にした」と話す。

 TDPAでは、センサーごとにコンテナーを作成し、センサーデータが時刻順に生成され、時刻順に格納される。複数のセンサーでも、同じ時間のデータは近接して配置、格納される。また、センサーと時間を条件に検索すると、検索対象のデータが局所的に配置されているため、高速検索が可能になる。ここではメモリーを最大限に活用して、ストレージの速度をカバーできるという。

 GridDBは、サーバー間でデータのコピーを保持し合う自動レプリケーションにより、万一の障害時にも別のサーバーのバックアップデータで処理を継続できる。また、スケールアウト型のDBは、データ配置のバランスが悪いと特定サーバーに負荷が集中する弱点があるが、GridDBでは東芝独自の自律データ再配置技術(ADDA)により、サーバー間でバランスよく、高速にデータを再配置できるとする。

自律データ再配置技術(ADDA)
自律データ再配置技術(ADDA)

 ADDAは、マスターノードがノード情報を収集し、ノード間のデータの不均衡やバックアップの欠如を検知する。定常的な短期同期とは別に、現状(インバランス)状態から長期同期の計画を決定し、長期同期と短期同期によるデータの再配置を実行する。リクエスト処理へ負荷を与えない範囲で、メモリーブロックとDB更新ログを使い分けながら、バックグラウンドで高速同期するという。データの再配置が完了した後は、データの配置情報を書き換え、アクセスを切り替る。

 望月氏は、「高速、高スループットな登録、検索、更新が可能なNoSQLインターフェースと、世界で多くの技術者に支持されているSQLインターフェースを利用できるため、アプリケーション開発やソフトウェア連携が容易になる」と述べる。大量データ収集でNoSQLインターフェースを活用し、分析やシステム連携ではSQLインターフェースを活用するといった使い分けができる。

 これによりデータ蓄積用のDBとデータ分析用のDBとの間で、ツールとバッチ処理によるデータの整形や統合作業が不要になり、リアルタイム分析ができる。「全世界で380種類のDBが存在するが、NoSQLとSQLのインターフェースを持っているのは、まれ」と望月氏は強調する。

NoSQLとSQLの2つのインターフェースを持つ
NoSQLとSQLの2つのインターフェースを持つ

 性能テストでGridDBは、高性能を売りにする他のNoSQL型DBを上回っており、ノード数の増加に応じてより性能を発揮することが分かったという。「GridDBは、約2.5倍の性能を発揮し、読み込みが多い場合には8倍の性能を発揮した。長時間実行しても高い処理性能を維持し、さまざまなワークロードで6~7倍の性能を発揮している」と望月氏。「リレーショナルDBとの比較でも、低い負荷平均とメモリー使用量を維持しながら、取り込みおよび抽出、集約ワークロードで約13倍の処理性能を実現し、半分以下の処理時間で済む」と述べる。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ZDNET Japan クイックポール

自社にとって最大のセキュリティ脅威は何ですか

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]