IBMとEU、古文書のデジタル化プロジェクトで協力

文:Lance Whitney(Special to CNET News) 翻訳校正:中村智恵子、福岡洋一

2010-08-27 11:05

 欧州にある膨大な量の貴重な古文書をスキャンしてデジタル化するプロジェクトの改善に、IBMと欧州連合(EU)が協力していくことになった。

 すでに立ち上がっている協同プロジェクトを拡大し、IBMとEUは今後、欧州各地の26の図書館、研究所、大学、企業と協力して、それぞれが保有する貴重な書籍や文書のデジタル化を手助けする。

 Improving Access to Textを略してIMPACTと呼ばれるこのプロジェクトでは、新しいツールを使って大規模なデジタル化プロセスを高速化し、スキャンした結果が可能な限り正確なものになるようクラウドソーシングを活用する。IMPACTはスキャンした文書にオンラインでアクセスして検索できるようにする役割も担うことになっており、これにより実際の文書を手に取ることのできない研究者やその他の人々も、スキャンされたデータをインターネット上で閲覧することが可能になる。

 過去20年ほどの間、図書館などの組織も独自に所蔵する文書をスキャンし、文字認識機能(OCR)を使ってテキストに変換してきた。しかし、古文書では文字が不鮮明だったり旧式の字体が使われていたりするため、通常のスキャニングおよびOCRソフトウェアでは、処理に時間がかかるうえ読み取り結果も不正確という問題があった。

 「クラウドコンピューティング」を使った新しいOCR技術を統合することで、IMPACTにおけるスキャンの質と効率を大幅に改善できると考えている、とIBMは述べた。同社の新しいウェブ対応OCRソフトウェアは、通常のOCRプログラムに比べて25%から50%は認識精度が上がるという。同システムでは、文字認識の誤りを学習して特定のフォントや文字セットの認識能力を高めることも可能になる。

 しかしIMPACTプロジェクトを支えるのは、OCRコンポーネントだけではなく多くの人々の知識と技量でもある。つまり、スキャンしたデータをオンラインで検討し、正確に読み取れているかどうかを確認する大勢のボランティアが大きな役割を担う。彼らは読み取ったテキストの間違いを発見し、修正候補のリストから正しい文字を迅速に選択できる人材だ。

 IMPACTはイスラエルのハイファにあるIBMの研究所が支援しているが、同プロジェクトに参加している図書館、大学、その他の組織は、作業の進み具合に応じてそれぞれ独立して文書をスキャンできる。プロジェクト全体としては数万点の文書が含まれることになるだろう、とIBMの広報担当者は取材に応えて語った。

この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ホワイトペーパー

新着

ランキング

  1. セキュリティ

    Pマーク改訂で何が変わり、何をすればいいのか?まずは改訂の概要と企業に求められる対応を理解しよう

  2. 運用管理

    メールアラートは廃止すべき時が来た! IT運用担当者がゆとりを取り戻す5つの方法

  3. セキュリティ

    従来型のセキュリティでは太刀打ちできない「生成AIによるサイバー攻撃」撃退法のススメ

  4. セキュリティ

    AIサイバー攻撃の増加でフォーティネットが提言、高いセキュリティ意識を実現するトレーニングの重要性

  5. セキュリティ

    クラウド資産を守るための最新の施策、クラウドストライクが提示するチェックリスト

ZDNET Japan クイックポール

所属する組織のデータ活用状況はどの段階にありますか?

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]