欧州にある膨大な量の貴重な古文書をスキャンしてデジタル化するプロジェクトの改善に、IBMと欧州連合(EU)が協力していくことになった。
すでに立ち上がっている協同プロジェクトを拡大し、IBMとEUは今後、欧州各地の26の図書館、研究所、大学、企業と協力して、それぞれが保有する貴重な書籍や文書のデジタル化を手助けする。
Improving Access to Textを略してIMPACTと呼ばれるこのプロジェクトでは、新しいツールを使って大規模なデジタル化プロセスを高速化し、スキャンした結果が可能な限り正確なものになるようクラウドソーシングを活用する。IMPACTはスキャンした文書にオンラインでアクセスして検索できるようにする役割も担うことになっており、これにより実際の文書を手に取ることのできない研究者やその他の人々も、スキャンされたデータをインターネット上で閲覧することが可能になる。
過去20年ほどの間、図書館などの組織も独自に所蔵する文書をスキャンし、文字認識機能(OCR)を使ってテキストに変換してきた。しかし、古文書では文字が不鮮明だったり旧式の字体が使われていたりするため、通常のスキャニングおよびOCRソフトウェアでは、処理に時間がかかるうえ読み取り結果も不正確という問題があった。
「クラウドコンピューティング」を使った新しいOCR技術を統合することで、IMPACTにおけるスキャンの質と効率を大幅に改善できると考えている、とIBMは述べた。同社の新しいウェブ対応OCRソフトウェアは、通常のOCRプログラムに比べて25%から50%は認識精度が上がるという。同システムでは、文字認識の誤りを学習して特定のフォントや文字セットの認識能力を高めることも可能になる。
しかしIMPACTプロジェクトを支えるのは、OCRコンポーネントだけではなく多くの人々の知識と技量でもある。つまり、スキャンしたデータをオンラインで検討し、正確に読み取れているかどうかを確認する大勢のボランティアが大きな役割を担う。彼らは読み取ったテキストの間違いを発見し、修正候補のリストから正しい文字を迅速に選択できる人材だ。
IMPACTはイスラエルのハイファにあるIBMの研究所が支援しているが、同プロジェクトに参加している図書館、大学、その他の組織は、作業の進み具合に応じてそれぞれ独立して文書をスキャンできる。プロジェクト全体としては数万点の文書が含まれることになるだろう、とIBMの広報担当者は取材に応えて語った。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。