富士通研、ビッグデータ向けに新技術--バッチとCEPの強化にも応用

田中好伸 (編集部)

2012-11-19 17:48

 富士通研究所は11月19日、ビッグデータ向けストリーム集計技術を開発したことを発表した。世界で初めてと説明している。

 ビッグデータという言葉が象徴するように、現在企業は、大量のデータを高速に処理することで競争優位性を高めることに関心を寄せている。具体的には、取引データを定期的にまとめて一括して処理する大量バッチ処理や値動きに基づいて株取引をリアルタイムに行うストリームデータ処理(複合イベント処理=CEPとも呼ばれる)がある。

 これらのデータ処理には集計演算が不可欠だが、大量バッチ処理とストリーム処理では、集計期間や更新頻度に違いがある。通常、集計期間は、スループットを重視する大量バッチ処理では数週間から数カ月単位、レスポンスを重視するストリーム処理は数秒から数分単位であり、更新期間もほぼそれに準じている。

 大量バッチ処理とストリーム処理では、重視する性能が違うため、用途に応じて使い分ける必要がある。従来の大量バッチ処理では蓄積されたデータを大量に使うため、処理の度にすべてのデータを読み直す必要が生じ、演算結果を得るまでの遅延時間が長くなるという問題がある。

 ストリーム処理でも、時々刻々と流れるデータを“ウィンドウ”と呼ばれるバッファに保持するため、処理の度に読み直すことはないが、演算の種類によっては、演算結果を得るためにウィンドウ内のすべてのデータにアクセスする必要がある。このために、ウィンドウの長さに比例して、1回あたりの演算時間が長くなり、レスポンスが悪くなるという問題を抱えている。

 いわば、過去(蓄積されたデータ)と現在(流れるデータ)の両方を同時に扱う場合、これらの既存技術では、集計期間を長くすることと、更新頻度を高めることを両立することが困難と指摘されている。こうした状況の中で、富士通研究所は長期間で更新頻度の高いデータを高速に処理するために「高速パターン照合」と「演算スナップ管理」と呼ばれる技術を新たに開発している。

 高速パターン照合技術は、入力されるストリームデータの中から必要な項目を無駄なく直接取り出す技術。通常はまず、入力データの構造を解析し、メモリ上に入力データの全項目をいったん蓄積。その後で、集計に必要な項目を取り出すための項目抽出処理を行い、データを取り出す。つまり、構造解析と項目抽出の2段階が必要になる。

 新たに開発した高速パターン照合技術は、パターンを照合して取り出すべき項目の出現位置を特定して、不要な項目を読み飛ばし、必要な項目だけを直接取り出すため、高速処理が可能になるという。パターン照合は柔軟であり、CSVなど定型データに加えて、繰り返しや階層構造を含む、XMLなど非定型データにも対応できる。

 もう一つの演算スナップ管理技術は、時間によって変化する多様なデータに対して、データの読み直しや演算のやり直しを一切せずに、演算結果を高速に返す技術と説明している。入力されるストリームデータに対して、通常は時系列順にメモリ上にデータを保持するが、今回の技術では、あらかじめ決められた手順にしたがって、ソートなど必要な演算を行いながらデータを保持する。

 集計結果をすぐに取り出せるように常に演算された状態(演算スナップショット)で管理されている。そのため、合計値や平均値だけでなく、最小値や最大値、中間値であっても全データの集計をやり直す必要がないという。集計期間、つまりウィンドウの長さに依存しない高速なレスポンスを実現できると説明している。

 集計結果を得るためのレスポンス時間は集計期間(ウィンドウ長)に50万件のデータがある場合、代表的なCEPエンジンに比べて、約100倍以上高速であり、ウィンドウ長によらずにレスポンス時間が一定であることを確認している。

 今回の技術は、高精度のセンサデータ活用の応用が期待されているという。国土交通省水管理・国土保全局から「XRAIN」による雨量データを提供してもらい、検証している。XRAINは国土交通省のXバンドMPレーダー網。250メートルごとに1分間隔で計測される。集中豪雨のような極端で局所的な気象現象まで詳細に記録できる。

 関西地域の50万地点を対象に、数時間の積算雨量を集計する場合、数分ごとに約1億レコードのウィンドウを処理する必要がある。検証では、広範囲のデータを更新間隔以内に、集計期間に左右されることなく実行し、雨域のスムーズな移動を再現できることを確認している。積算雨量は、瞬間雨量よりも災害との関係が強く、集中豪雨に伴う災害警戒区域を即座に検出できるという。

図1 従来技術と今回開発した技術の位置付け
※クリックすると拡大画像が見られます
図2 ストリーム集計の流れと開発技術
※クリックすると拡大画像が見られます

 今回の新技術は、既存のバッチ処理とストリーム処理への応用も期待できる。売上データ集計のリアルタイム性を向上させることで、生産管理や在庫管理などを強化できると説明。2013年度に富士通の「Big Data Platform」や「Big Data Middleware」への搭載を目指す。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ZDNET Japan クイックポール

所属する組織のデータ活用状況はどの段階にありますか?

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]