曖昧な情報と正確な情報を使い分けられるプロ仕様検索
個別に見てみよう。まず、RDB検索については、具体的には請求テーブルと受注テーブルを検索する場合、たとえば9月の売上高が100万円以上となった顧客を検索するとき、同一のデータ項目に対して固定的な検索を行う必要がある。ここで懸念されるのは、テキスト成分のサイズが大きいとき、部分一致の可能性が低下してしまうことだ。
これに対してQuickSolutionは、データ項目を意識せずにすべての項目をまとめて検索できる。武並氏は「何がどこにあるかを意識せず全文検索的に類似検索することができる。もちろん請求月などを知っている人は属性検索を組み合わせられる。全体を曖昧な記憶で検索しておいて、かつ個別のフィールドで検索することができるので、たいへん効率良く絞り込める」と説明する。
また、複数のテーブルやビューをまとめた串刺し検索や、特定のキー(顧客名など)を重視した検索が行える。さらにインデックスの差分更新に対応しており、更新中の検索も可能。検索した結果を並べ替える際には、複数のキーで並べ替える多重ソートに対応する。カテゴリ別に件数を集計することもできる。RDBについては、Oracle、SQL Server、PostgreSQL、MySQLなど代表的なRDBに対応しており、主要なXML-DB製品もサポートする。
独自の統計アルゴリズムの適用により検索ノイズを抑制
検索方式は大きく「N-gram方式」と「形態素解析」に分けられる。両者の大きな違いは、N-gram方式が辞書を必要とせず、形態素解析は辞書を必要とする点だ。同社は、形態素解析では辞書にない検索漏れをリカバーできないことを懸念する。辞書をしっかりメンテナンスすれば良いのだが、辞書を変更するとインデックスの再生成が必要となる。
武並氏は「辞書のメンテナンスとインデックス再生成には1週間程の時間とコストがかかるから、形態素解析は運用面で課題があると考えている。QuickSolutionはN-gram方式であり、検索漏れはない。また、検索結果にノイズが入りやすい点が指摘されるところだが、QuickSolutionは特許出願済みの統計アルゴリズムによってノイズを抑制する」と述べ、検索精度の高さを強調した。
QuickSolutionでは、たとえぱ「デジタルカメラ」と「デジカメ」といった表記の揺れを吸収し、曖昧な自然文を用いた類似検索を行うことも可能だ。検索結果は類似度によりランキング表示するほか、アクセス頻度、更新日時など、多様なランキング表示を行える。
また、重要視されることの多い拡張性や柔軟性について、武並氏は「ドキュメントの増加に対しては、QuickSolution 大容量モデルを使えば最大1TBまで1台のサーバで対応できます。1TBを超える場合は、分散検索機能を使用して複数台のサーバ間を協調させて検索することができる。QuickSolutionは、純国産の検索エンジンだから、業務システムへの組込みなど、カスタマイズについてもフレキシブルに対応できる点も、大きなメリットの1つといえる」と説明した。