日立製作所(日立)は、「ダークデータ」に着目して新たな価値を見いだす「データ抽出ソリューション」を開発し、販売を開始した。ダークデータとは、企業内で日々収集・蓄積されていくデータのうち、活用されていないデータ、または活用されているものの手間がかかって活用効率が悪いデータ。同ソリューションの価格は個別見積もり。
このソリューションは、日立が参画する米国スタンフォード大学の企業参画プログラムで開発された人工知能(AI)を中核としたダークデータ分析エンジンを活用している。請求書や診療明細書といった発行元によって様式や表記が異なる非定型ドキュメントを活用する際、取得したいデータの抽出作業を自動化/高度化する。
一般的なOCR(光学文字認識)やAI-OCRでは解析が難しい多種多様なドキュメントに対応し、日々蓄積する膨大なダークデータの中から、価値のあるデータを導き出し、データ活用による経営判断の迅速化やビジネスの変革に貢献する。
同ソリューションでは、人が文書を読む際に、テキストだけでなく、全体のレイアウトや単語の出現位置など視覚的な情報から文書を捉えるように、AIが表や図、テキストの座標といったドキュメント内のさまざまな特徴から文書の構造全体を解析する。その上で非定型の多種多様なドキュメントのデータ抽出に対応する。
また、少ない教師データからAIモデルを生成できる自動ラベリング機能により、導入時のモデル構築や、追加学習/再学習といったモデルの改修にも柔軟に対応できる。
データ抽出の効率化では、表やページ情報などドキュメント内のさまざまな視覚情報を特徴として捉え、文書を解析する「情報表現構造解析技術」を活用する。例えば、日付の表記が「発行日」と「診察日」など、発行元によって異なる用語が使われている場合にも、文書の構造から同じ意味を指す単語として認識できる。
また、抽出対象が複数ページにまたがるドキュメントでも、対象となる項目を抽出することが可能で、一つの区分に対して複数の項目がひも付く関係も正しく認識するため、複雑な表のデータ抽出にも適している。
さらに同ソリューションは、少ないデータからAIモデルを構築する「弱教師学習技術」により、データのラベリング作業を自動化するため、モデル構築のための期間短縮やコスト削減が可能となる。また、追加学習や再学習といったモデルの継続的な改善にも柔軟に対応できる。 用意する学習用データを削減できることで作業負荷が軽減するため、導入時だけでなく法改正や商品改定にも迅速に対応できる。
※クリックすると拡大画像が見られます