凸版印刷、明治期から昭和初期の手書き文字を解読するAI-OCR開発

NO BUDGET

2022-11-14 17:38

 凸版印刷は、明治期から昭和初期(近代)の手書き文字に対応したAI-OCR(人工知能を活用した光学文字認識)を開発した。

 このAI-OCRは、同社が提供する古文書解読とくずし字資料の活用サービス「ふみのは」を基に、近代の多様な筆跡の手書き文字にまで対応の範囲を拡張させたもの。開発は、神戸大学経済経営研究所附属企業資料総合センターおよび公益財団法人三井文庫と共同で実施した。

 近代の手書き文字には、書き手によるくずし方のばらつきが大きく、筆記用具の多様化、カタカナ語の混在、旧字旧仮名遣い表記などの特性があり、解読が困難とされている。今回開発したAI-OCRでは、さまざまなパターンの文字をAIに学習させることで、これらの難読文字の解読を実現した。

AI-OCRによる近代手書き文字の解読例
AI-OCRによる近代手書き文字の解読例

 想定される活用のシーンとして、地方自治体、教育研究機関、企業などが所蔵する難読資料の解読補助、難読資料の活用を目的とした検索機能付きデータベースの構築補助、謄本類など、日常的に難読資料の解読が必要な企業・機関の作業補助などが挙げられる。

 近代に作成されたくずし字を多く含む手書きの資料は全国に大量に残存しており、その中には公文書、企業経営文書、業務日誌、書簡のような貴重な情報が記された資料が数多く含まれている。また、手書きの謄本類を取り扱う業務では、近代の手書き資料の解読が日常的に行われているが、これらの資料の解読は専門家でも難易度が高く手間のかかる作業であり、実用レベルのOCR技術も開発されていなかった。

 凸版印刷は11月から神戸大学経済経営研究所附属企業資料総合センターなどと実証実験を実施し、2023年4月に正式サービスの開始を予定している。また、提供中のふみのはゼミシステムや、開発中の古文書解読スマートフォンアプリなど、自社のサービスと連携させるという。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ホワイトペーパー

新着

ランキング

  1. セキュリティ

    「デジタル・フォレンジック」から始まるセキュリティ災禍論--活用したいIT業界の防災マニュアル

  2. 運用管理

    「無線LANがつながらない」という問い合わせにAIで対応、トラブル解決の切り札とは

  3. 運用管理

    Oracle DatabaseのAzure移行時におけるポイント、移行前に確認しておきたい障害対策

  4. 運用管理

    Google Chrome ブラウザ がセキュリティを強化、ゼロトラスト移行で高まるブラウザの重要性

  5. ビジネスアプリケーション

    技術進化でさらに発展するデータサイエンス/アナリティクス、最新の6大トレンドを解説

ZDNET Japan クイックポール

注目している大規模言語モデル(LLM)を教えてください

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]