マイニングによる検索精度の向上も視野、情報活用の進化を支援する「OmniFind」---日本IBM

岡崎勝己（ロビンソン）

2006/06/12 11:00

多様なデータソースから情報を的確に抽出

　濱田氏によると、OmniFindは次の3点で企業における情報活用を支援できるという。まず1つ目は、社内に分散して管理されている情報を迅速に入手できる点だ。

　いうまでもなく、企業内にはさまざまな情報が多様なデータソース内に保管されている。そのため、社員は必要な情報の保管場所をすべて把握しきれていないのが実情だ。そこでOmniFindでは、すべてのデータソースをまとめて検索する機能を実装されており、社員は情報の保管場所を問わず、あらゆる情報を検索できるわけだ。

　検索先に設定できるデータソースも幅広い。Webはもちろん、各種のファイルシステムやグループウェア、データベース、コンテンツマネジメントなどをもカバーしている。対応するファイルフォーマットは240以上にも上り、一般的に利用されるアプリケーションは網羅されている。他社製品をデータソースに設定するための各種のインタフェースも用意されている。

　2つ目は、情報へのアクセス管理の徹底を支援できる点だ。最近ではリスク管理の観点や法制面の要請から、社内情報に対する社員へのアクセス管理の徹底が企業に強く求められている。こうしたことを踏まえ、OmniFindでは、個々のユーザーのアクセス権限を検索結果に反映させる機能が盛り込まれており、アクセス権限のない情報を検索結果において非表示に設定したり、他社製品で設定されたACL（Access Control List）をOmniFindに引き継がせることで、ネットワーク上に存在する機器や情報の利用権限を一元管理するといったことも可能だ。

　3つ目は、社員にとって本当に必要とされる情報を検索できる点だ。いうまでもなく、社員にとって情報を検索する目的は、業務への活用にほかならない。しかし、社内に情報が膨大にあるために、必要ではない情報も多数検索されたり、検索に用いる単語によっては、本当に必要な情報が検索結果から得られなかったりといったことも少なくない。このようなことを避けるべくOmniFindには、多面的に情報を絞り込むとともに、業務目的に沿ってユーザーの検索意図を踏まえて情報を検索できる高い検索機能が実装されている。

　実際に、OmniFindでは、単語や文章の構文をもとに情報を検索する「形態素解析方式」と、一定の文字数ごとに文書を分割して処理する「Nグラム方式」が併用されているほか、検索に用いる語句の表記の揺らぎを自動的に補正するための機能を備えている。さらに、検索キーワードによって検索結果をスコア付けし、必要とされる情報のうち優先度が高いと判断されるものをより上位に表示することもできる。

「これらの技術の裏打ちがあることで、高い精度の検索結果を社員に提供することが可能になり、検索にまつわる作業を大幅に軽減できる。その結果、社員の生産性の向上を実現できるとともに、より価値の高い情報を入手できることで、社員はより適切な意思決定を下すことができるようになる」（濱田氏）

テキストマイニングで情報活用がさらに高度化

　日本IBMではOmniFindを単なる情報検索のみならず、得られた情報を分析処理するためのツールと位置づけている。同社が提案するXMLベースの情報収集アーキテクチャ「UIMA」をOmniFindで実現することで言葉の相関関係を把握し、多様な文書を解析できる環境を整備しようというわけだ。

　UIMAを用いることで、単語による検索だけでは難しかった文章の意味を踏まえた情報検索の実現を支援できる。また、UIMAベースのアーキテクチャを活用すると、Webやブログなどから、自社にまつわる世間の評判などを把握することまで可能になる。

　濱田氏は、「本当に必要な情報を迅速に得るためには、単語をキーワードに検索するだけでは不十分。社内に蓄積されている文書の文脈を読み取り、例えばそれがクレームにまつわるものなのか、質問にまつわるものなのかを把握したうえで、適当と考えられるものを検索結果として表示する必要がある。その実現のためには、テキストマイニング技術は今後の情報検索環境には欠かせない」と、情報検索環境における情報分析の必要性を強調し、講演を締めくくった。