AIとOCR連携の可能--AIで“くずし字”を判別に挑む

Charly Walther (Lionbridge)

2019-11-27 07:00

光学式文字認識(OCR)とは

 光学式文字認識(OCR)は、画像内にある文字や数字をテキストデータとして読み取るための技術で、“テキスト認識”とも呼ばれます。OCR技術は文字や数字に光を当ててパターンと照らし合わせ、何の情報であるかを分類します。

 OCRは、大量の紙文書を扱う職場や部門の生産性を大きく向上させることができます。一度処理してしまえば、テキストの編集、検索、索引付け、取得を容易に行えます。キーワードをハイライト表示したり、ウェブサイトに組み込んだりすることも可能です。

光学式文字認識の仕組み

 OCRは手書き文字などをデータ処理で使えるように変換します。基本的な処理の流れは、画像取得、前処理、セグメンテーション、特徴抽出、分類、後処理になります。データの前処理には、しきい値処理(カラーあるいはグレーの生画像を二値画像に変換する)、正規化、ノイズ除去が含まれます。モルフォロジー演算などさまざまな技術を使って、ピクセルの境界を滑らかにします。

 OCRではまず、紙の文書をスキャナーなどで読み取り、OCRソフトを用いてバイナリーデータに変換します。コンピューターはスキャン画像の明るい領域と暗い領域を分析し、明るい領域を背景、暗い領域を認識すべき手書き文字と判断します。

 次に、暗い領域の中からアルファベットや数字、記号を探し出します。OCRではさまざまな技術が利用されますが、大部分は1度に1つの文字や単語、あるいは一塊のテキストを対象にして処理が行われます。

 OCRの方式には、パターン認識と特徴抽出があります。パターン認識では、さまざまなフォントやフォーマットのテキストで学習させて、スキャンした文書の文字を比較・認識できるようにします。特徴抽出を用いる場合は、具体的な文字や数字、記号の特徴に関するルールを適用して、スキャン画像の文字を認識します。よく利用される特徴には、手書き文字の斜めの線や交差した線、曲線の数などがあります。例えば、大文字の「A」は二本の斜めの線が真ん中辺で水平の線と交わっている文字として記憶させることができます。

 OCRプロセスの最後には、判別した手書き文字をASCII(情報交換用米国標準)などの文字コードに変換します。ASCIIはコンピューターやインターネットのテキストファイルで最も一般的なフォーマットであり、文字や数字がそれぞれ7ビットの二進数で表されています。

光学式文字認識は何に利用できるのか

 OCRはさまざまなデータ入力やデータ分類に利用できます。ここで幾つか例を挙げてみましょう。

データ入力に利用できる光学式文字認識

 OCRはビジネス文書のデータ入力を自動化するために活用できます。OCRソフトを利用して法律文書や歴史的文書のハードコピーをPDFファイルに変換すれば、ワープロで作成した文書のように編集、フォーマット、検索を行うことができます。

データ分類に利用できる光学式文字認識

 OCRは、郵便配達のために手紙を分類する場合や小切手を銀行に持ち込まず電子的に入金する場合など、さまざまなデータ分類に利用できます。

 その他にも、認証された法的文書をデータベースに追加する、検索エンジン用に印刷物に索引付けする、視覚障害者に読み上げ可能なテキストに文書を変換する場合などに活用されています。また、OCRを生かしたテクノロジーソリューションには、翻訳アプリ、Googleブックスのようなオンラインデータベース、ナンバープレートを自動的に認識するセキュリティカメラなどがあります。

AIを応用した光学式文字

 11月に開催された「日本文化とAIシンポジウム2019」では、AIを活用したくずし字対応のOCRが紹介されました。「くずし字」は平安時代から明治時代まで使われていましたが、現代の文字と形が大きく異なっており、正確に解読できる人は少なくなっています。高度なOCRシステムがあれば、AIにお任せしたい分野として適しています。

 最近では、OCRカメラを使ったスマートフォンアプリが多くリリースされています。名刺や書類をスキャンして自動でデータ入力したり、PCと連携したりすることも可能ですから、業務効率化にもつながるでしょう。外国語を音訳してくれるカメラアプリ、プライベートで活用できるアプリもあります。多くのアプリはPCと連携・共有することも可能です。

今後のOCR技術開発の方向性

 書類を電子化してペーパーレス化することにより、インターネットから必要な情報を検索するのと同じくらい簡単に、大量の書類から必要な情報を見つけ出せるようになります。さらに、書類に含まれているデータを電子化することにより、複数人で効率良く、そのデータを分析することができます。

 また、紙として書類を残しておく場合、万一の火災や水害、誤廃棄や間違った場所への返却、盗難や紛失などのリスクが高まります。電子化したデータをサーバーやクラウドに保存すれば、そのような心配は不要です。さらに、社内に物理的なサーバーを保有していない限り、クラウドサービスを利用することで停電によるトラブルやデータ破損のリスクもほぼゼロまで削減することができます。

 もちろん、クラウドサービスを利用することで別のリスクを生みかねません。セキュリティ面で不安を感じるという方も少なくはないはずですが、むしろクラウドサービスはセキュリティ面でのメリットが大きいのです。自社内でデータ管理するより、Google Cloud Platform、Amazon Web Services、Microsoft Azureなどの大手クラウドサービスに預けた方が安全だという考え方もあります。

Charly Walther
Lionbridge AIプロダクト&グロース担当バイスプレジデント
ベルリン出身。イエール大学卒業。サンフランシスコでKPCB Product Fellow、Uber(Uber Advanced Technologies Group)のプロダクトマネージャーを経て2017年にGengoへ参画。2018年12月、GengoがLionbridgeに株式取得されたことにより、現在はLionbridge AIの開発に従事。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ZDNET Japan クイックポール

注目している大規模言語モデル(LLM)を教えてください

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]