第3回 検索エンジンの機能

森口健生(みずほ情報総研) 2005年11月11日 08時00分

  • このエントリーをはてなブックマークに追加

 前回、インターネット上の検索エンジンとESPの違いについて簡単に説明したが、インターネット上の検索と企業内の情報検索とでは、対象となるコンテンツの形式やアクセス権の反映など、求められる機能に大きな相違がある。企業内のコンテンツを検索するツールは、すでに国内ベンダーを含む数社から提供されているほか、Googleのようなインターネット上で検索サービスを手がける企業も提供し始めている。従来、フリーソフトであるNamazuを企業内のコンテンツ検索に流用してきた企業も、徐々に企業内検索専門のツールへの移行を始めているようだ。

 では、企業内のコンテンツ検索ニーズを満たすためには、どのような機能を持っている必要があるのか、それらを明らかにしていこう。

 従来から企業内の情報システムにおいては、さまざまなアプリケーション内に検索機能が組み込まれてきた。たとえばメールソフトやインターネットブラウザに組み込まれている「文字列検索」機能やデータベースに対する「SQL検索」機能など、対象コンテンツ全体から任意の文字列をしらみつぶしに探し回る「文字列マッチング方式」とよばれるものである。この機能は手軽に使えて便利ではあるが、対象のデータが大量にある場合、一文字ごとにマッチングをして検索するために時間がかかる上、検索の利用範囲がそのアプリケーションの内部に限定される。

 これに対して、昨今登場してきた企業内コンテンツの検索エンジンの多くは、あらかじめデータを巡回する「クローリング」機能により、サーバやローカルPC内のさまざまなファイルの「インデックス(索引)」を作成しておき、そのインデックスに対して検索をする方式を採用している。そのため、あらかじめ作成されたインデックスを参照することによって、アプリケーションの相違を意識せずに対象を探し出すことができる。インデックスの作成は定期的に実施するため、検索結果のリアルタイム性には欠けるが、検索スピードは文字列マッチング方式に比べて圧倒的に速くなり、多重アクセスにも対応できる。

 さらに、検索エンジンではこのインデックスを活用して、検索キーワードとマッチした結果を単純に表示していくだけでなく、よりユーザーのニーズにマッチした検索結果を表示できる。これは、あらかじめある一定のアルゴリズムで計算した各情報の価値を保管しておくことで、検索結果のランキング表示を実現できるのである。たとえば、検索結果の表示順序が秀逸といわれるGoogleは各ページに「ページランク」と呼ばれるページの価値を情報として持っており、「ページランク」の高い順に、検索結果を表示する。

 このように、インデックス方式の採用により検索スピードの向上とともに多様なファイル形式への対応が実現した検索エンジンだが、企業内の業務システムの現状をみると、さらなる進化が求められる。それを実現するものが、ESPである(下図参照)。

企業内の各システムESPは「検索機能」や「検索エンジン」がさらなる進化を遂げたもの


ESPとして持つべき機能(1)--各種インフラを縦横無尽に検索するためのゲートウェイ

 企業内の文書を検索しようとした場合、検索の対象はイントラネット上のウェブサーバやファイルサーバにある文書だけでなく、LotusNotesやサイボウズのようなグループウェアにある文書や特殊な形式のファイルストレージなどにまで及ぶ。さらに、このような非構造な文書データ以外に、OracleやSQL ServerなどのRDBのような構造的なデータも存在する。

 このようなデータ構造の違う各業務システムの文書を収集し、インデックスを作成するために、企業内コンテンツの検索エンジンは、業務システム毎に対応したプロトコルを用いてデータを収集する「ゲートウェイ」機能を持ち、その機能によって各システムにクローリング(巡回)し、文書を収集することが求められる。そして、その収集したデータからインデックスを作成することによって、企業内のシステム間横断検索を実現することが可能となる(下図参照)。

ESPはインデックス作成のために、業務システム毎に対応したプロトコルを用いてデータを収集する「ゲートウェイ」機能を持つことが求められる


  • このエントリーをはてなブックマークに追加
関連キーワード
ビジネスアプリケーション

関連ホワイトペーパー

SpecialPR

連載

CIO
ハードから読み解くITトレンド放談
大木豊成「仕事で使うアップルのトリセツ」
研究現場から見たAI
ITは「ひみつ道具」の夢を見る
内製化とユーザー体験の関係
米ZDNet編集長Larryの独り言
今週の明言
「プロジェクトマネジメント」の解き方
田中克己「2020年のIT企業」
松岡功「一言もの申す」
林 雅之「デジタル未来からの手紙」
谷川耕一「エンプラITならこれは知っとけ」
Fintechの正体
内山悟志「IT部門はどこに向かうのか」
情報通信技術の新しい使い方
三国大洋のスクラップブック
大河原克行のエンプラ徒然
コミュニケーション
情報系システム最適化
モバイル
通信のゆくえを追う
セキュリティ
企業セキュリティの歩き方
サイバーセキュリティ未来考
セキュリティの論点
ネットワークセキュリティ
スペシャル
Gartner Symposium
企業決算
ソフトウェア開発パラダイムの進化
座談会@ZDNet
Dr.津田のクラウドトップガン対談
CSIRT座談会--バンダイナムコや大成建設、DeNAに聞く
創造的破壊を--次世代SIer座談会
「SD-WAN」の現在
展望2017
IBM World of Watson
de:code
Sapphire Now
VMworld
Microsoft WPC
HPE Discover
Oracle OpenWorld
Dell EMC World
AWS re:Invent
AWS Summit
PTC LiveWorx
古賀政純「Dockerがもたらすビジネス変革」
さとうなおきの「週刊Azureなう」
誰もが開発者になる時代 ~業務システム開発の現場を行く~
中国ビジネス四方山話
より賢く活用するためのOSS最新動向
「Windows 10」法人導入の手引き
Windows Server 2003サポート終了へ秒読み
米株式動向
実践ビッグデータ
日本株展望
ベトナムでビジネス
アジアのIT
10の事情
エンタープライズトレンド
クラウドと仮想化