富士通研究所は3月13日、クラウドに収集される大量の実世界のデータを、ネットワークを中継するデートウェイを介して効率的に収集する分散処理技術を開発したことを発表した。ゲートウェイ上でデータを処理し、ビッグデータから必要なデータを効率的にクラウドに収集することで通信量を従来の約100分の1に削減できるという。
センサなどの機器がネットワークに接続されることで通信量が増加していくが、通信網の設備増強が必要となり、通信コストの増加を招くことが課題になっている。たとえば、消費電力の見える化のケースでは、各事業所単位で集められる分電盤や電源タップからの生データは、本社の経営層に対して会社単位の集計データに加工して提示される。
そこで、各事業所のゲートウェイで、それらを事前に集計処理して、集計結果だけをクラウドに送ることで、送信するデータ量を抑えることができる。クラウドに送らなかった生データは、クラウド側で本当に必要になった時に初めて圧縮送信することで、生データを個別に送るよりもデータ量を削減できる。今回同社が開発した技術は、このアプローチを採用している。
クラウド上の処理の一部をゲートウェイ側で分散処理する場合、これまではクラウド側のどの処理をどのゲートウェイで実行させると、データ量を削減できるかを運用管理者が判断する必要があった。ゲートウェイの数は接続するセンサの数に応じて増設、撤去されるが、それに応じて接続構成も変更されるため、運用管理者が毎回、システムを再検討する必要があり、運用負担も大きくなるという課題があったといわれている。
今回開発した技術では、実行先のゲートウェイを自動的に見つけ、処理プログラムの配備と実行を支援する運用フレームワークを開発している。
運用管理者は、データ処理プログラムの集計処理やフィルタリング、平均などの小さな処理単位のつながり(フロー)として定義する。加えたセンサや機器、ゲートウェイ、クラウドまでの通信経路を示したネットワークトポロジを定義する。
フレームワークは、処理フローとネットワークトポロジの2つの情報をもとに、処理フロー内の個々がどのゲートウェイで実行できるかを解析し、通信量が最も小さくなるゲートウェイ配備の組み合わせを生成する。運用中に接続構成が変化した場合は、新しいネットワークトポロジをフレームワークに再定義することで、ネットワークトポロジに応じたゲートウェイ配備に再構成できるため、最適な分散処理を実現できるという。
※クリックすると拡大画像が見られます
処理フローを構成する平均や集計などの処理は、複数のセンサデータのまとまりに対して実行されるため、センサデータが物理的に1カ所に集まるポイントで処理することが通信量削減に効果的だ。一方で、平均や集計などの処理は、たとえば「部署や事業所単位での平均」など、論理的なデータのまとまりの処理も多く、センサデータそのものだけでなく、センサデータが持つ論理的な意味を加味して、配備先を決定する必要も出てくる。
今回の技術では、「部署」や「事業所」といった各処理がデータをグルーピングする歳の分類キー(集約キー)と、「部署」や「事業所」の値とセンサの論理関係をもとに処理単位と処理が対象とするセンサ群を抽出して、処理単位ごとの最適な実行先のゲートウェイを効率的に見つける方法も実現できるという。
※クリックすると拡大画像が見られます
今回開発した技術を活用すると、ビッグデータを活用するシステムの運用管理者はゲートウェイを意識せずに、クラウドでの処理として記述した処理を自動的に分散処理することが可能になる。通信量を約100分の1に削減することも可能としている。大量の実世界データを活用するクラウドサービスを、通信コストを抑えながら運用できることから、人や環境の状態に応じた、きめ細かいデータを提供できるとしている。