NEC、Spark活用した分散型機械学習技術--超大規模データから予測モデルを生成

NO BUDGET

2016-05-30 10:49

　NECは5月26日、分散コンピューティングシステムを用いて超大規模データから予測モデルを生成する新技術「分散版異種混合学習技術」を開発したと発表した。人工知能（AI）を用いてビッグデータに混在する多数の規則性を発見する技術「異種混合学習技術」を強化したもの。2017年度の実用化を目指す。

　異種混合学習技術は、ビッグデータ分析で曜日や天気などの条件を設定して「データの場合分け」や「因子の組み合わせ」を自動で発見する技術。高精度なビッグデータ分析が可能なAI技術として、NECが独自に開発、強化してきた。

　しかしこれまで、超大規模なデータを学習する際、メモリ容量やCPUコア数の制限によって性能が限定されるなどの課題があった。そこで、データのサンプル数が数千万件以上でコンピュータ1台の搭載メモリ量より大きい超大規模データを分析する際は、あらかじめデータを分割してから分析するなどの対処が必要だった。また、コア数の多い高性能なCPUの搭載にも限度があり、大規模データ分析における性能の改善が課題となっていた。

　分散版異種混合学習技術は、分散コンピューティングシステムで異種混合学習を実行可能にするもの。データのサンプル数が数千万件以上の超大規模データに対して、コンピュータの台数を増加させることで、データの規模に制限なく予測モデルを生成できるようになる。

　具体的には、複数のコンピュータが協調して予測モデルを学習する分散版異種混合学習アルゴリズムを開発した。「予測モデル情報（データの場合分けや因子の組み合わせの情報）のみをコンピュータ間で共有すること」「共有された個々の予測モデルの情報を統合する独自のアルゴリズムを適用すること」により、各コンピュータが独立して学習しながら全体で整合が取れた高精度な予測モデルを生成する。

　また、分散コンピューティングシステム基盤の1つである「Apache Spark」で動作する分散版異種混合学習アルゴリズムの実行用ソフトウェアを開発。全ての分析対象データをいったん各コンピュータのメモリに分散配置すると、以降一切の再配置や再読み込みを行うことなく、分散版異種混合学習アルゴリズムを実行する。

　これにより、通常はコンピュータの台数増加によって頻度が増す分析対象データの通信やディスク読み込みが不要になる。Sparkの特長である分散メモリでの計算性能が最大限に発揮されるため、高速にアルゴリズムを実行できる。

　分散されたコンピュータ上でそれぞれ異種混合学習での分析を行うと同時に全体の整合性も取れるため、コンピュータの台数を増やすことでデータの規模に制限なく予測モデルを生成可能。例えば、大手金融機関の残高を予測したり、大規模通信事業者の解約者を予測したりなど、数千万件以上のサンプルによる超大規模データの分析を可能にする。

　約2000万サンプルの残高データを用いてATMの現金残高を予測する実証実験を実施。従来の異種混合学習技術と比べて学習速度が約110倍高速化（データを1000万サンプルに削減した場合での比較、総CPUコア数は128倍で計算）したほか、予測精度（予測値と実績値との誤差）も約17％向上したという。