米Xeroxの研究者らは、人間が考え、話し、質問するのと同じ要領で文書検索が行えるテキストマイニングツール「FactSpotter」を開発したと発表した。
このツールは、例えばユーザーが、「what Steve Jobs said yesterday」(Steve Jobs氏が昨日話した内容)と入力すると、同ツールは文書を検索して、対象を絞り込んだ関連文書を表示する。Apple最高経営責任者(CEO)の名前を含む無数の記事が表示されることはないという。
しかし、先週発表されたこのFactSpotterソフトウェアは、インターネットなどで一般公開されない。利用できるのは、開発元であるXeroxの顧客のみだ。
Xeroxのマーケティング、戦略、提携担当ディレクター兼ゼネラルマネージャーのJean-René Gain氏はSilicon.comのインタビューで、XeroxはFactSpotterを単体のアプリケーションとしては販売せず、顧客向けの組込型アプリケーションとしてのみ販売すると語った。
Gain氏は「われわれはFactSpotterでGoogleに挑むつもりはない」とした上で、「そのような考えは全くないが、この技術で(競合他社との)差別化を図る必要がある」と語った。
Xeroxの技術ショールームエンジニアのMario Jarmasz氏は、「(FactSpotterは)Googleの検索とは全く異なる。なぜなら、FactSpotterでは、一定の詳細情報まで掘り下げることが可能だからだ」と語る。
Xeroxは、FactSpotterを2008年までに発売することを予定している。膨大な文書を扱う法曹界に、同ツールを最初に提供する計画だという。
同社はまた、企業や政府機関の検索、創薬、不正検出、リスク管理など、巨大なデータベースから情報を検索しなければならないその他の状況においてもFactSpotterが役立つと考えている。
Xeroxの研究所でマネージャーを務めるChristopher Dance氏は、Silicon.comのインタビューで、FactSpotterは大規模な合併買収の過程で発生する膨大な文書の管理にも利用可能だと語った。
FactSpotterでは、毎秒2000文書のペースで関連文書の検索が可能だ。Dance氏によると、開発プロセスの次の段階は、同ソフトウェアの高速化を図ることだという。
同ツールにはある言語エンジンが使用されており、このエンジンが言葉の意味や、文章構造を分析し、ユーザーが何を知りたがっているのかを解明する。
FactSpotterはまた、検索に使用された言葉の概念も認識する。同ツールは、例えばユーザーが「what Steve Jobs said yesterday」と入力すると、その文を分解し、「Steve Jobs」を人名、「yesterday」を時間と認識する。
Xeroxで構文解析や意味論に関する分野のマネージャーを務めるFrédérique Segond氏は、「(Xeroxは)コンピュータに人間と同じようにテキストを理解させようと取り組んでいる」と語る。
またSegond氏は、FactSpotterは文書検索の次のステップであり、同ツールには「Web 3.0」技術が使用されていると語る。Web 2.0アプリケーションはデータを収集するだけだが、Web 3.0技術はデータ同士を結びつけるという。
この記事は海外CNET Networks発のニュースを編集部が日本向けに編集したも のです。海外CNET Networksの記事へ