第3回 検索エンジンの機能

森口健生(みずほ情報総研)

2005-11-11 08:00

 前回、インターネット上の検索エンジンとESPの違いについて簡単に説明したが、インターネット上の検索と企業内の情報検索とでは、対象となるコンテンツの形式やアクセス権の反映など、求められる機能に大きな相違がある。企業内のコンテンツを検索するツールは、すでに国内ベンダーを含む数社から提供されているほか、Googleのようなインターネット上で検索サービスを手がける企業も提供し始めている。従来、フリーソフトであるNamazuを企業内のコンテンツ検索に流用してきた企業も、徐々に企業内検索専門のツールへの移行を始めているようだ。

 では、企業内のコンテンツ検索ニーズを満たすためには、どのような機能を持っている必要があるのか、それらを明らかにしていこう。

 従来から企業内の情報システムにおいては、さまざまなアプリケーション内に検索機能が組み込まれてきた。たとえばメールソフトやインターネットブラウザに組み込まれている「文字列検索」機能やデータベースに対する「SQL検索」機能など、対象コンテンツ全体から任意の文字列をしらみつぶしに探し回る「文字列マッチング方式」とよばれるものである。この機能は手軽に使えて便利ではあるが、対象のデータが大量にある場合、一文字ごとにマッチングをして検索するために時間がかかる上、検索の利用範囲がそのアプリケーションの内部に限定される。

 これに対して、昨今登場してきた企業内コンテンツの検索エンジンの多くは、あらかじめデータを巡回する「クローリング」機能により、サーバやローカルPC内のさまざまなファイルの「インデックス(索引)」を作成しておき、そのインデックスに対して検索をする方式を採用している。そのため、あらかじめ作成されたインデックスを参照することによって、アプリケーションの相違を意識せずに対象を探し出すことができる。インデックスの作成は定期的に実施するため、検索結果のリアルタイム性には欠けるが、検索スピードは文字列マッチング方式に比べて圧倒的に速くなり、多重アクセスにも対応できる。

 さらに、検索エンジンではこのインデックスを活用して、検索キーワードとマッチした結果を単純に表示していくだけでなく、よりユーザーのニーズにマッチした検索結果を表示できる。これは、あらかじめある一定のアルゴリズムで計算した各情報の価値を保管しておくことで、検索結果のランキング表示を実現できるのである。たとえば、検索結果の表示順序が秀逸といわれるGoogleは各ページに「ページランク」と呼ばれるページの価値を情報として持っており、「ページランク」の高い順に、検索結果を表示する。

 このように、インデックス方式の採用により検索スピードの向上とともに多様なファイル形式への対応が実現した検索エンジンだが、企業内の業務システムの現状をみると、さらなる進化が求められる。それを実現するものが、ESPである(下図参照)。

企業内の各システムESPは「検索機能」や「検索エンジン」がさらなる進化を遂げたもの


ESPとして持つべき機能(1)--各種インフラを縦横無尽に検索するためのゲートウェイ

 企業内の文書を検索しようとした場合、検索の対象はイントラネット上のウェブサーバやファイルサーバにある文書だけでなく、LotusNotesやサイボウズのようなグループウェアにある文書や特殊な形式のファイルストレージなどにまで及ぶ。さらに、このような非構造な文書データ以外に、OracleやSQL ServerなどのRDBのような構造的なデータも存在する。

 このようなデータ構造の違う各業務システムの文書を収集し、インデックスを作成するために、企業内コンテンツの検索エンジンは、業務システム毎に対応したプロトコルを用いてデータを収集する「ゲートウェイ」機能を持ち、その機能によって各システムにクローリング(巡回)し、文書を収集することが求められる。そして、その収集したデータからインデックスを作成することによって、企業内のシステム間横断検索を実現することが可能となる(下図参照)。

ESPはインデックス作成のために、業務システム毎に対応したプロトコルを用いてデータを収集する「ゲートウェイ」機能を持つことが求められる


ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ホワイトペーパー

新着

ランキング

  1. セキュリティ

    セキュリティ担当者に贈る、従業員のリテラシーが測れる「情報セキュリティ理解度チェックテスト」

  2. クラウドコンピューティング

    生成 AI の真価を引き出すアプリケーション戦略--ユースケースから導くアプローチ

  3. セキュリティ

    サイバー攻撃の“大規模感染”、調査でみえた2024年の脅威動向と課題解決策

  4. セキュリティ

    IoTデバイスや重要インフラを標的としたサイバー攻撃が増加、2023年下半期グローバル脅威レポート

  5. セキュリティ

    従業員のセキュリティ教育の成功に役立つ「従業員教育ToDoリスト」10ステップ

ZDNET Japan クイックポール

所属する組織のデータ活用状況はどの段階にありますか?

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]