富士通研究所は10月16日、見積書や納品書など多様なレイアウトの帳票を自動解析する技術を開発したと発表した。非定型の帳票からでも「氏名」や「帳票番号」といった見出しに対応するデータを読み取るため、手作業に頼っていたデータ入力のコストを大幅に削減できるという。
これまで同社が開発してきた非定型帳票の自動解析技術では、あらかじめ見出しデータベースに登録してある「氏名」のような文字列を帳票から読み取り、その見出しの位置から一定の範囲内にある文字列を対応するデータとして認識していた。
しかしこの技術は、見出しとデータとを事前に登録した位置関係から探索するため、多様なレイアウトの帳票に適用するのが難しかった。また複雑な階層の見出しや、見出しの抜けがある帳票では文字列を正しく認識できないという問題があった。
新技術では、見積書や納品書など帳票の種類ごとに、見出しやデータといった「論理要素」に対応する文字列の特徴と、論理要素間の関係を定義したパターンをデータベースに登録する。論理要素間の関係を確率ネットワークとして表現し、そのネットワーク上で確率を伝搬させることで、帳票から最も適切な文字列を読み取る。
事前に見出しやデータの位置関係を登録する必要がなく、多様なレイアウトの帳票に対応できる。また文字認識の誤りを類推したり、省略された論理要素を検出することができ、見出しの抜けや階層型の見出しがある帳票から安定して文字列を認識できるという。
富士通研の実験に基づく試算では、手作業による非定型帳票からのデータ入力作業コストを約60%削減できるという。2007年度には、富士通の電子文書/内部統制関連システム向け光学文字認識(OCR)ソフトやスキャナといった製品に搭載を始める予定。