DocCat(高精度・超高速テキスト抽出ソフトウェアパッケージ)

株式会社データ変換研究所 

2008-06-25

MS-OfficeなどWindowsの文書ファイルから高精度かつ超高速にテキスト情報を抽出するSolaris/Linux/FreeBSD用のフィルタ・プログラムです。 実行形式のテキスト抽出ソフトウェアであり、NAMAZU(全文検索エンジン)と組み合わせてイントラネット上での全文検索システムを構築したり、携帯電話で添付ファイル付きメールを読み出すためのメールサーバーなどでご利用いただいております。

製品概要

■ 高速性
高精度で尚かつ圧倒的な高速性を発揮します。全文検索システムにとってテキスト抽出処理時間の高速性はインデクシング時間の短縮化に非常に重要な要素となります。『DocCat V4.0』では、抽出処理プロセスの高速化などにより『従来比約2倍以上』となり更なる大幅な高速化を実現いたしました。これにより、大容量の文書データを運用する全文検索システムでのインデックス生成時間の大幅な短縮化や、データ更新頻度の向上など運用面での大幅な効率化が見込まれます。
■ 精度/安定性
全文検索システムにとって非常に重要となる高度な検索精度を実現するには検索対象となる文書ファイルからのテキスト抽出精度が極めて重要となります。本来、ヒットすべき文書がヒットしないようでは、全文検索システム導入効果が意味のないものになってしまいます。当社「DocCat」及び「TFライブラリ」はファイルのサフィックス(.docとか)を一切参照せずファイルの中身で判定し、高精度なテキスト抽出処理をおこないます。
■ 使用方法が簡単
「DocCat」はUNIXで使用されるcatコマンドの使い方と、大変よく似ています。コマンドラインで動作し、簡単に利用することができます。
■ ユニコードを中心とした文字体系
マイクロソフトのWindowsに準拠したユニコード体系の文字コードを利用しているので、MS-Office、一太郎とのテキスト文字コードの親和性が高く他のアプリケーションで利用できます。
■ プロパティ情報も出力
MS-Office97以上のファイル、PDFファイルであれば、オプション指定によりファイルに記述されているプロパティ情報を出力することができます。
■ 半角カタカナの揺らぎを吸収
半角カタカナ文字を全角カタカナに自動的に変換し出力することができます。
■ 拡張子によらずファイルの内容を自動判別
ファイル情報の認識が困難なクライアントサーバモデルにも適しています。
■ HTML/XML形式出力
出力フォーマットをHTML、XMLにすることが出来ます。
■ 対応文書
Microsoft Office<<Windows版>>
Word 95 / 97 / 98 / 2000 /2002(XP)/2003/2007
Excel 95 / 97 / 2000 / 2002(XP)/2003 /2007
PowerPoint 95 / 97 / 2000 / 2002(XP)/2003/2007

Microsoft Office<<Macintosh版>>
Word98/2001/2004/2008 for Mac  
Excel98/2001/2004/2008 for Mac
PowerPoint98/2001/2004/2008 for Mac
※ Acrobat 4.0 / 5.0 / 6.0 / 7.0 / 8.0 (一部未対応の形式があります)
※PDF 1.2 / 1.3 / 1.4 / 1.5 / 1.6 / 1.7 (*) (PDF1.1 は変換対象外です)
XPS
一太郎 V5 - V13/一太郎2004 - 2008
OASYS V6/V7/V8/2002
Lotus Word Lotus Word Pro 2001
テキスト文書 JIS/EUC/SJIS/UTF-8/UTF-16/RTF/HTML/XML/SGML  
※PDFは別売の「DocCat PDF オプション」を利用すれば可
■ HTML/XML形式出力
出力フォーマットをHTML、XMLにすることが出来ます。

製品関連情報

ホワイトペーパー

新着

ランキング

  1. セキュリティ

    「デジタル・フォレンジック」から始まるセキュリティ災禍論--活用したいIT業界の防災マニュアル

  2. 運用管理

    「無線LANがつながらない」という問い合わせにAIで対応、トラブル解決の切り札とは

  3. 運用管理

    Oracle DatabaseのAzure移行時におけるポイント、移行前に確認しておきたい障害対策

  4. 運用管理

    Google Chrome ブラウザ がセキュリティを強化、ゼロトラスト移行で高まるブラウザの重要性

  5. ビジネスアプリケーション

    技術進化でさらに発展するデータサイエンス/アナリティクス、最新の6大トレンドを解説

ZDNET Japan クイックポール

自社にとって最大のセキュリティ脅威は何ですか

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]