凸版印刷、明治期から昭和初期の手書き文字を解読するAI-OCRを日本で初めて開発

凸版印刷株式会社

From: PR TIMES

2022-11-11 13:46

くずし字を含む、多様な筆跡の手書き文字に対応するAI-OCRの開発に成功。大学や研究機関との実証実験を実施し、2023年4月よりサービス開始予定

凸版印刷株式会社(本社:東京都文京区、代表取締役社長:麿 秀晴、以下凸版印刷)は、明治期から昭和初期(以下近代)の手書き文字に対応したAI-OCR(※1)を開発しました。



 
[画像1: (リンク ») ]

 近代の手書き資料には、くずし字で記されているものが多く、江戸時代の資料より解読が困難な場合もあると言われています。
 本AI-OCRは、現在凸版印刷が古文書解読とくずし字資料の利活用サービス「ふみのは(R)」(※2)として提供している江戸時代のくずし字を対象としたAI-OCRをもとに、近代の多様な筆跡の手書き文字にまで対応の範囲を拡張させたものです。
 今後、神戸大学経済経営研究所附属企業資料総合センター(所在地:兵庫県神戸市、センター長:西谷公孝)等との実証実験を2022年11月より実施、2023年4月より正式サービス開始を予定しています。

[画像2: (リンク ») ]

■ 開発の背景
 近代に作成されたくずし字を多く含む手書きの資料は、全国に大量に残存しており、その中には公文書、企業経営文書、業務日誌、書簡のような貴重な情報が記された資料が数多く含まれています。また、手書きの謄本類を取り扱う業務においては、近代の手書き資料の解読が日常的に行われていますが、これら資料の解読は、専門家にとっても難易度が高く手間のかかる作業であり、実用レベルのOCR技術もこれまで開発されていませんでした。
 このたび凸版印刷は、そのような課題を解決するため、神戸大学経済経営研究所附属企業資料総合センターおよび公益財団法人三井文庫(所在地:東京都中野区 文庫長:武田晴人)との共同研究のもと、学術研究や業務の効率化をはかるため、近代のくずし字を解読するAI-OCR技術を独自に開発しました。

■ 想定される利活用のシーン
 今回開発したAI-OCRは以下をはじめとした様々な利活用シーンを想定しています。
・ 地方自治体、教育研究機関、企業などが所蔵する難読資料の解読補助
・ 難読資料の利活用を目的とした検索機能付きデータベースの構築補助
・ 謄本類など日常的に難読資料の解読が必要な企業・機関の作業補助
など
[画像3: (リンク ») ]


■ 本AI-OCRの特徴
1.難読文字の解読
 近代の手書き文字には、書き手によるくずし方のバラつきが大きい、筆記用具の多様化、カタカナ語が混在、旧字旧仮名遣い表記などの特性があり解読が非常に困難とされています。本AI-OCRでは様々なパターンの文字をAIに学習させることで、これらの難読文字の解読を実現しました。
[画像4: (リンク ») ]

2.凸版印刷の複数のサービスと連携
 サービス提供中のふみのは(R)ゼミシステムや、開発中の古文書解読スマホアプリ(※3)で提供予定です。

■ 「くずし字AI-OCR」技術について
 凸版印刷では2013年からさまざまな文献に対して、高い精度のテキストデータを提供する「高精度全文テキスト化サービス」を展開しています。このサービスで培ってきたテキストデータ化技術のシステム基盤を活用し、2015年以降、大学共同利用機関法人人間文化研究機構 国文学研究資料館との共同研究をはじめ、多数の研究機関とくずし字AI-OCR技術の開発・実証を進めてきました。現在では凸版印刷が提供するくずし字AI-OCRは、古典籍や古文書を扱う業界において代表的な商用サービスとして認知されています。凸版印刷はくずし字認識コンペティションを開催するなど、日々さらなる技術向上に取り組んでいます。

・凸版印刷、くずし字認識コンペティションを開催
(リンク »)

■ 今後の展開
 今後神戸大学経済経営研究所附属企業資料総合センターと2022年11月より実証実験を開始、2023年4月にふみのは(R)ゼミシステムの追加サービスとして正式リリースします。古文書解読スマホアプリ(開発中)の追加サービス、API形式での提供も順次リリース予定です。
 2023年度のサービス開始初年度は売上2億円、2025年度には売上17億円を目指します。

<神戸大学経済経営研究所附属企業資料総合センター長 西谷公孝氏のコメント>
 近年、社会や環境を考慮したサステナビリティ経営の重要性が叫ばれています。しかし、近江商人の「三方よし」や渋沢栄一の「論語と算盤」から見て取れるように、サステナビリティ経営の考え方は、もともと古くから日本の経営理念に含まれていたものです。これは本来の経営のあるべき姿でもあるために、経営の歴史を紐解くことは、今後の持続可能な社会における経営のあり方を探る重要なヒントとなります。
 一方で、それに着手しようとしても、これまで我々の前には近代手書き文字(くずし字)という高い障壁がありました。しかし、当センターとの共同研究の成果として今回開発されたAI-OCRによって、専門家でなくともその解読ができるようになった結果、サステナビリティ経営、ひいては経営そのもののあり方の究明が飛躍的に進んでいく可能性があります。それほど今回開発されたAI-OCRがもたらすポテンシャルは非常に大きいものです。この技術が様々な分野で利用され、「知」が探索されていくことを期待しています。


(※1)OCR(Optical Character Recognition)とは光学文字認識のことで、文書画像に含まれる文字を読み取り、テキストデータに変換するソフトウェアの総称です。本開発では人工知能(AI)を利用したOCRによって近代の手書き文字を解読します。
(※2)「ふみのは(R)」サービスの詳しい説明についてはこちらをご覧ください。
 公式ホームページ: (リンク »)
(※3)凸版印刷、AI-OCRで古文書を解読するスマホアプリを開発
  (リンク »)

* 「ふみのは(R)」は凸版印刷株式会社の登録商標です。
* 本ニュースリリースに記載された会社名および商品・サービス名は各社の商標または登録商標です。
* 本ニュースリリースに記載された内容は発表日現在のものです。その後予告なしに変更されることがあります。

以  上

プレスリリース提供:PR TIMES (リンク »)
本プレスリリースは発表元企業よりご投稿いただいた情報を掲載しております。
お問い合わせにつきましては発表元企業までお願いいたします。

【企業の皆様へ】企業情報を掲載・登録するには?

御社の企業情報・プレスリリース・イベント情報・製品情報などを登録するには、企業情報センターサービスへのお申し込みをいただく必要がございます。詳しくは以下のページをご覧ください。

ホワイトペーパー

新着

ランキング

  1. セキュリティ

    「デジタル・フォレンジック」から始まるセキュリティ災禍論--活用したいIT業界の防災マニュアル

  2. 運用管理

    「無線LANがつながらない」という問い合わせにAIで対応、トラブル解決の切り札とは

  3. 運用管理

    Oracle DatabaseのAzure移行時におけるポイント、移行前に確認しておきたい障害対策

  4. 運用管理

    Google Chrome ブラウザ がセキュリティを強化、ゼロトラスト移行で高まるブラウザの重要性

  5. ビジネスアプリケーション

    技術進化でさらに発展するデータサイエンス/アナリティクス、最新の6大トレンドを解説

ZDNET Japan クイックポール

注目している大規模言語モデル(LLM)を教えてください

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]