IBMは、企業ネットワーク内に存在する電子メールやWord文書をはじめ、行や列の書式設定がなされていない各種コンテンツの非構造化データの検索/分析を行う際に役立つ標準仕様を推進している。
IBMは米国時間8日に、企業向け情報管理ツール「WebSphere Information Integrator(WII) OmniFind Edition」の新版をリリースする予定だ。同ツールには、UIMA(Unstructured Information Management Architecture)と呼ばれるIBM独自の技術が採用されている。このUIMAは、文書や体系化されていないコンテンツソース内のテキストの処理を向上させる技術で、単にキーワードだけでなく、様々な関連性や意味の発見に役立つ。
IBMは、UIMAをオンライン技術リソースのネットワークであるOpen Source Technology Groupにも公開する。現在、ソフトウェアのアップデート版はIBMから直接入手可能だが、同社は、2005年末までに開発者向けウェブサイトSourceForgeでも入手できるようにする予定。
IBMのInformation Integration担当バイスプレジデントNelson Mattosによると、「IBMは、各企業が、社内に存在するあらゆる情報をより簡単に統合/発見できるようにするために、2001年以来、情報統合分野の巨大プロジェクトに資金を投じてきた」という。
またMattosは、「(情報の統合/発見こそ)企業にとって最大の問題だ」と述べた上で、複数の調査結果によると、企業の従業員が関連情報の検索に費やす時間は平均で全労働時間の30%にのぼる、と付け加えた。Mattosは、企業データの検索が困難なのは、データのおよそ85%が構造化されていないためだとし、こうした事実がこの問題をさらに悪化させていると指摘した。
IBMによると、すでに15社以上の企業が、非構造化データの検索およびテキスト検索用フレームワークとしてUIMAをサポートする計画を明らかにしているという。
現在、IBMのWII OmniFind Editionを使用しているプロジェクトとしては、自動車業界の品質管理/早期警告システムが挙げられる。各自動車メーカーはこのシステムを使って、様々な問題の発見に役立つ可能性のある顧客からの保証請求、修理の請求、コールセンターの通信記録の処理を行っている。その他の例としては、テロ対策や警察の犯罪捜査などで使用される高度情報システムが挙げられる。
この記事は海外CNET Networks発のニュースを編集部が日本向けに編集したものです。海外CNET Networksの記事へ