富士通研、非定型帳票の自動解析技術を開発--帳票のデータ入力コストを6割低減

ニューズフロント

2006-10-17 18:59

 富士通研究所は10月16日、見積書や納品書など多様なレイアウトの帳票を自動解析する技術を開発したと発表した。非定型の帳票からでも「氏名」や「帳票番号」といった見出しに対応するデータを読み取るため、手作業に頼っていたデータ入力のコストを大幅に削減できるという。

 これまで同社が開発してきた非定型帳票の自動解析技術では、あらかじめ見出しデータベースに登録してある「氏名」のような文字列を帳票から読み取り、その見出しの位置から一定の範囲内にある文字列を対応するデータとして認識していた。

 しかしこの技術は、見出しとデータとを事前に登録した位置関係から探索するため、多様なレイアウトの帳票に適用するのが難しかった。また複雑な階層の見出しや、見出しの抜けがある帳票では文字列を正しく認識できないという問題があった。

 新技術では、見積書や納品書など帳票の種類ごとに、見出しやデータといった「論理要素」に対応する文字列の特徴と、論理要素間の関係を定義したパターンをデータベースに登録する。論理要素間の関係を確率ネットワークとして表現し、そのネットワーク上で確率を伝搬させることで、帳票から最も適切な文字列を読み取る。

 事前に見出しやデータの位置関係を登録する必要がなく、多様なレイアウトの帳票に対応できる。また文字認識の誤りを類推したり、省略された論理要素を検出することができ、見出しの抜けや階層型の見出しがある帳票から安定して文字列を認識できるという。

 富士通研の実験に基づく試算では、手作業による非定型帳票からのデータ入力作業コストを約60%削減できるという。2007年度には、富士通の電子文書/内部統制関連システム向け光学文字認識(OCR)ソフトやスキャナといった製品に搭載を始める予定。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ホワイトペーパー

新着

ランキング

  1. セキュリティ

    「デジタル・フォレンジック」から始まるセキュリティ災禍論--活用したいIT業界の防災マニュアル

  2. 運用管理

    「無線LANがつながらない」という問い合わせにAIで対応、トラブル解決の切り札とは

  3. 運用管理

    Oracle DatabaseのAzure移行時におけるポイント、移行前に確認しておきたい障害対策

  4. 運用管理

    Google Chrome ブラウザ がセキュリティを強化、ゼロトラスト移行で高まるブラウザの重要性

  5. ビジネスアプリケーション

    技術進化でさらに発展するデータサイエンス/アナリティクス、最新の6大トレンドを解説

ZDNET Japan クイックポール

注目している大規模言語モデル(LLM)を教えてください

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]