大学共同利用機関法人、情報・システム研究機構、統計数理研究所(統数研)とSAS Institute Japanは8月6日、ビッグデータ分析の研究の場をデータ分析システム込みで提供する組織「ビッグデータイノベーションラボ」(BIL)を共同で設立すると発表した。
BILは統数研内に置き、9月1日から取り組みを開始する。研究プロジェクト1件当たりの所要期間は3~6カ月程度で、年間で数件の利用を見込む。データ分析システムを利用する際には所定の費用がかかる。
BILは、ビッグデータを抱えているが活用方法が分からない企業などに向けて、統数研との共同研究の場を提供する組織。企業から見たBILの利用イメージはこうだ。
最初に、企業からBILにデータ活用の相談を持ちかける。両者間で話し合いを進める中で、共同研究の契約を交わす。その後、必要に応じてデータ分析システムを実際に使い、アプリケーションのPoC(概念実証)などを実施する。
実際に利用可能なデータ分析システムとして、統数研が保有するコンピュータの上で、SAS Institute Japanのデータ分析ソフトを動作させられる。ただし、統数研のコンピュータを利用するためには、国が定めた所定の費用がかかる。SAS Institute Japanのデータ分析ソフトは、SAS Institute JapanがBIL向けに設定しているライセンス使用料を支払って利用する。
BILの特徴は、統数研が得意とする数理モデルの開発能力と、SAS Institute Japanが提供するデータ分析ソフトを組み合わせたこと。まず、統数研との共同研究によって、統数研が持つモデル化などのノウハウを得られる。次に、SAS Institute Japanのデータ分析ソフトによって、データを簡便に分析して可視化できる。
分散処理基盤を活用してビッグデータを高速に処理
大学共同利用機関法人、情報・システム研究機構、統計数理研究所、統計数理研究所教授の中野純司氏
企業が統数研に相談を持ちかけて共同研究するメリットについて、同研究所でモデリング研究系教授を務める中野純司氏は、「日本の統計学の研究者が大勢集まっている」と説明する。統数研は、市場がビッグデータに注目する以前の6年前から、ビッグデータの活用を実践してきたという。データ分析システムの基盤として、用途が異なる3台のスーパーコンピュータ(共有メモリ型、分散処理型、クラウド構築基盤)を保有する。
中野氏は、BIL設立の背景について、ビッグデータ分析の難しさと、企業のビッグデータ活用についての課題を指摘。分析の難しさについては、扱うデータ量が多いために既存の統計手法が利用できず機械学習などが求められるほか、分散処理による高速分析が求められるという。一方、企業の課題は、投資効果を実証するコストを捻出できないことや、人材不足だ。
SAS Institute Japan、執行役員、公共・公益営業本部、本部長の阿部浩也氏
SAS Institute Japanについて、同社で執行役員、公共・公益営業本部長を務める阿部浩也氏は、「統計分析ソフトを約40年間提供してきた」とアピール。まずは統計解析エンジンを市場に投入し、その後にデータマイニングを、現在では機械学習などの機能を取り込んできている。
阿部氏は、BILで提供するデータ分析システムのポイントを3つ挙げる。(1)大量データの格納にHadoopを利用すること。Hadoopを簡単に使えるようにするソフトウエアを提供する。「Hadoopのことを考えずにデータ分析に専念できる」(阿部氏)。(2)次に、インメモリ型の分散処理エンジンでデータ分析の処理を高速化すること。並列プログラミング用のMPIライブラリも利用する。(3)3つ目は、機械学習を付加してモデリングを自動化することだ。
BILで提供するデータ分析ソフトのポイント