製品概要
■ 高速性
高精度で尚かつ圧倒的な高速性を発揮します。全文検索システムにとってテキスト抽出処理時間の高速性はインデクシング時間の短縮化に非常に重要な要素となります。『DocCat V4.0』では、抽出処理プロセスの高速化などにより『従来比約2倍以上』となり更なる大幅な高速化を実現いたしました。これにより、大容量の文書データを運用する全文検索システムでのインデックス生成時間の大幅な短縮化や、データ更新頻度の向上など運用面での大幅な効率化が見込まれます。
■ 精度/安定性
全文検索システムにとって非常に重要となる高度な検索精度を実現するには検索対象となる文書ファイルからのテキスト抽出精度が極めて重要となります。本来、ヒットすべき文書がヒットしないようでは、全文検索システム導入効果が意味のないものになってしまいます。当社「DocCat」及び「TFライブラリ」はファイルのサフィックス(.docとか)を一切参照せずファイルの中身で判定し、高精度なテキスト抽出処理をおこないます。
■ 使用方法が簡単
「DocCat」はUNIXで使用されるcatコマンドの使い方と、大変よく似ています。コマンドラインで動作し、簡単に利用することができます。
■ ユニコードを中心とした文字体系
マイクロソフトのWindowsに準拠したユニコード体系の文字コードを利用しているので、MS-Office、一太郎とのテキスト文字コードの親和性が高く他のアプリケーションで利用できます。
■ プロパティ情報も出力
MS-Office97以上のファイル、PDFファイルであれば、オプション指定によりファイルに記述されているプロパティ情報を出力することができます。
■ 半角カタカナの揺らぎを吸収
半角カタカナ文字を全角カタカナに自動的に変換し出力することができます。
■ 拡張子によらずファイルの内容を自動判別
ファイル情報の認識が困難なクライアントサーバモデルにも適しています。
■ HTML/XML形式出力
出力フォーマットをHTML、XMLにすることが出来ます。
■ 対応文書
Microsoft Office<<Windows版>>
Word 95 / 97 / 98 / 2000 /2002(XP)/2003/2007
Excel 95 / 97 / 2000 / 2002(XP)/2003 /2007
PowerPoint 95 / 97 / 2000 / 2002(XP)/2003/2007
Microsoft Office<<Macintosh版>>
Word98/2001/2004/2008 for Mac
Excel98/2001/2004/2008 for Mac
PowerPoint98/2001/2004/2008 for Mac
※ Acrobat 4.0 / 5.0 / 6.0 / 7.0 / 8.0 (一部未対応の形式があります)
※PDF 1.2 / 1.3 / 1.4 / 1.5 / 1.6 / 1.7 (*) (PDF1.1 は変換対象外です)
XPS
一太郎 V5 - V13/一太郎2004 - 2008
OASYS V6/V7/V8/2002
Lotus Word Lotus Word Pro 2001
テキスト文書 JIS/EUC/SJIS/UTF-8/UTF-16/RTF/HTML/XML/SGML
※PDFは別売の「DocCat PDF オプション」を利用すれば可
■ HTML/XML形式出力
出力フォーマットをHTML、XMLにすることが出来ます。