日立製作所は11月14日、Hadoopデータ処理基盤上でFPGA (Field Programmable Gate Array)を用いた高速データ処理を実現する技術を開発したと発表した。サンプルデータの分析を行った結果、ビッグデータの処理性能を最大100倍に高速化できることを確認している。
同技術により、高速分析に必要なサーバ数を大幅に削減することができるため、現在広く行われているHadoopベースのビッグデータ分析の低コスト化が可能になる。
技術概要
FPGAは、製造後に購入者や設計者が構成を設定できる集積回路ハードウェア。特定用途向けの集積回路と比較して、低コストで開発が可能となる。日立では、2016年にFPGAを用いた高速データ処理技術を開発している。
しかし、この技術は、Hadoopデータ処理基盤とはデータ管理方式の異なる、自社のデータベースを対象とした技術で、データベース管理ソフトウェア自体にも個別のカスタマイズを行っているため、Hadoopデータ処理基盤への適用は困難だった。
FPGA上で処理を行う場合は、日付や数値、文字などのデータ形式を、ハードウェアで処理しやすい形式に限定し、データの種類ごとに専用の処理回路を用意する必要がある。しかし、Hadoopデータ処理基盤でこの処理を実行する場合、搭載規模に限界のあるFPGAの回路領域を有効に活用できなかった。
そこで日立では、さまざまなデータの形式やサイズを判別する解析回路を設け、データ形式やサイズに応じて複数のデータを1つの回路でまとめて処理するなど、並列処理の最適化調整を行う回路設計を考案した。これにより、Hadoopデータ処理基盤上で、さまざまなデータに対応できるだけでなく、検索処理や集約処理の回路を無駄なく利用した並列処理が可能となる。
今回開発した技術には、Hadoopの処理手順を解析し、分散処理効率を考慮した上で、FPGAでの並列処理に適した順序に処理命令を変換する、「データ処理手順変換技術」が含まれる。
Hadoopデータ処理基盤のデータ処理エンジンは、CPUを用いてソフトウェアで順次処理を実行することを前提に、データの取得・検索・演算といったデータ処理の手順を最適化する。しかし、この処理手順をそのまま実行しても、FPGAが得意とする並列処理による高速化の効果を十分に生かすことができない。そこで日立では、処理手順を変換して分散処理効率を大幅に向上させるようにした。