東芝デジタルソリューションズ(旧東芝ソリューション、神奈川県川崎市)は1月31日、非定型文書から必要な項目を探し出して読み取る文字認識サービスを発表した。専用のスキャナ、読み取る位置の事前設定は不要。読み取りたい項目をキーワードとして登録すると、複合機などで作成した紙文書のイメージデータから該当する項目を取得、活字を読み取るという。同日から販売する。
受発注伝票や見積書などのさまざまな書式、レイアウトの非定型文書で利用可能。中でも特に機会が多い「請求書」では、合計金額や請求番号などを主なキーワードとして事前登録済み。「合計金額」「総合計」「御合計」のような言葉の“ゆらぎ”にも対応し、すぐに利用できるとしている。
非定型文書から該当項目を探し出して活字を読み取る項目サーチ機能の概要(出典:東芝デジタルソリューションズ)
定型文書の場合は、読み取り位置をマウス操作で簡単に設定できるという。活字だけでなく手書きの読み取りも可能。複数の文書をまとめて処理する一括読み取りや、読取後のチェック、訂正など、利便性も強化したとしている。
定型書式の場合(出典:東芝デジタルソリューションズ)
従来の光学文字認識(OCR)では、専用帳票の作成、読み取り位置などの詳細定義が必要。運用の観点から業務で扱う大量の紙文書への活用は難しかったという。特に請求書のようにさまざまな取引先から多様な書式で届く書類の場合、すべての定義は困難だったとしている。
利用形態は、クラウドサービス、APIを選択でき、今後はオンプレミスでの提供も予定しているという。料金は都度見積もり。
東芝デジタルソリューションズでは、さまざまなOCRシステムを提供しているが、クラウドでのサービス提供は初めて。