今回発表するSedue全文検索エンジンでは、最新技術である「CSA (compressed suffix arrays)方式」をコアテクノロジーとして採用しています。これにより一台あたり数ギガバイト・数百万文章のテキストに対する検索操作をメモリ上で処理し、高速・安定した全文検索の運用を実現することが可能になりました。また、複数台のマシンを利用した場合のスケーラビリティも備え、数10ギガバイトのテキストを対象とした検索にも対応します。全文検索機能に加え、アクセス制御、リソースの自動管理、分散クエリ処理などの機能を搭載します。
■コアテクノロジー
今回採用したCSA方式では、最新の圧縮技術やデータ構造を組み合わせることにより、高速な検索を実現しつつIndex情報を高密度に保持することが可能となりました。これにより、漏れの無い検索を従来手法(N-gram)と比較し1/2から1/3のサイズの索引で実現可能となり大規模なテキストの検索をメモリ上で実現可能となります。また、この技術を基にした、独自スコアリング技術・分散検索システムを開発しシステムに統合されています。
本技術の基礎部分は独立行政法人情報処理推進機構(IPA)による「未踏ソフトウェア創造事業」による支援を受け開発され、現在も高速化・大容量化に向け改良が続けられています。
■製品情報
本製品の対象となる分野は次の通りです。
・企業内の情報を集約し活用するナレッジポータル
・大規模データを扱うWebサイトの検索バックエンド
・アプリケーションへの検索機能組み込み用
本製品の導入により、オンメモリ・分散処理による大規模検索を組み込んだサービス提供が可能になります。また、サーバーの追加・故障時の管理を自動化することにより、サービスのメンテナンスコストを最小限に抑えます。
別途提供のライブラリにより、圧縮全文索引機能をクライアントアプリケーションに組み込むことが可能です。このライブラリは、全文検索エンジンから1マシンでの検索に必要な機能を抽出し、軽量・省メモリの全文検索アプリケーションの開発を可能にする他、バイオインフォマティクスなど大規模文字列処理が必要なアプリケーションにも応用可能です。
■販売開始時期
『エンタープライズ向け全文検索エンジン』
販売開始時期は2006年10月中旬を予定。
『圧縮全文索引ソフトウェア開発用ライブラリ』
販売開始時期は2006年10月中旬を予定。
2006年9月より評価版の配布を開始。
<本件に関するお問い合わせ先>
有限会社 Preferred Infrastructure
東京都練馬区小竹町1-4-6
email:info@preferred.jp
URL: (リンク »)
お問い合わせにつきましては発表元企業までお願いいたします。