編集部からのお知らせ
解説集:台頭するロボット市場のいま
解説集:データ活用で考えるデータの選び方

デ変研 TFライブラリ(高精度・超高速テキスト抽出ソフトウェアOEM)

株式会社データ変換研究所 

2008-06-25

MS-OfficeなどWindowsの文書ファイルから高精度かつ超高速にテキスト情報を抽出するフィルタ・プログラムです。 Linux/Solaris/Java/Wondows対応のライブラリプログラムを用意しております。 Java版はjarファイルでまとめて提供しております。

製品概要

■ 高速性
圧倒的な高速性を発揮し、全文検索におけるインデキシング生成時間の大幅な短縮化を実現します。
■ 精度/安定性
全文検索システムにとって非常に重要となる高度な検索精度を実現するには検索対象となる文書ファイルからのテキスト抽出精度が極めて重要となります。本来、ヒットすべき文書がヒットしないようでは、全文検索システム導入効果が意味のないものになってしまいます。当社「DocCat」及び「TFライブラリ」はファイルのサフィックス(.docなど)を一切参照せずファイルの中身で判定し、高精度なテキスト抽出処理をおこないます。
■ 開発生産性
ライブラリには、ファイルフォーマットの自動検出プログラムの関数も用意しておりますので、ファイルの切り分けプログラムを作成する必要はありません。
■ サポート
文書ファイル新バージョンへの対応をスピーディーに行います。また、現行サポートしていないファイル形式についてはご要望に応じて対応いたします。機能面の追加についても必要性の度合いに応じて詳細をお聞きしたうえで柔軟に対応いたします。
■ 使用方法が簡単
DocCatコマンドと似たサンプルプログラムを用意しており、プログラム経験のある方には非常に容易にご理解いただけます。
■ ユニコードを中心とした文字体系
マイクロソフトのWindowsに準拠したユニコード体系の文字コードを利用しているので、MS-Office、一太郎とのテキスト文字コードの親和性が高く他のアプリケーションで利用できます。
■ プロパティ情報も出力
MS-Office97以上のファイル、PDFファイルであれば、オプション指定によりファイルに記述されているプロパティ情報を出力することができます。
■ 半角カタカナの揺らぎを吸収
半角カタカナ文字を全角カタカナに自動的に変換し出力することができます。
■ 拡張子によらずファイルの内容を自動判別
ファイル情報の認識が困難なクライアントサーバモデルにも適しています。
■ HTML/XML形式出力
出力フォーマットをHTML、XMLにすることが出来ます。
■ マルチスレッド対応
CPU数に応じてテキスト抽出速度の情報が向上します。
■ 必要メモリ・ディスク空き容量
メモリ       256MB以上(推奨)
ディスク      1MB以上(ソフトウェアのみの場合)
■ 対応文書
Microsoft Word
  Word 95 / 97 / 98 / 2000 / 2002(XP) / 2003 / 2007
  Word 98/2001/2004 / 2008 for Mac
Microsoft Excel
  Excel 95 / 97 / 2000 / 2002(XP) / 2003 / 2007
  Excel 98/2001/2004 / 2008 for Mac
Microsoft PowerPoint
  PowerPoint 95 / 97 / 2000 / 2002(XP )/ 2003 / 2007
  PowerPoint 98 / 2001 / 2004 / 2008 for Mac
一太郎
  Ver.5-Ver13 /2006-2008
富士通OASYS
  OASYS V6/V7/V8/2002
Lotus Word Pro
  Lotus Word Pro2001
Acrobat
  4.0 / 5.0 / 6.0 / 7.0 / 8.0
PDF
  1.2 / 1.3 / 1.4 / 1.5 / 1.6 / 1.7 (*)
  * PDF1.1 は変換対象外です。
XPS
リッチテキスト
  RTF
テキスト文書
  JIS/EUC/SJIS/UTF-8/UTF-16
  HTML
  XML
  SGML
■ 対応OS
Linux Red Hat 7.3 / 9 / AS3 / ES3 / WS3 /AS4 / ES4 / WS4 / EL5
Solaris 9 / 10
ほかの機種については、ご相談下さい。

特徴

アプリケーションソフトウェア組込型のOEM提供となります。

製品関連情報

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNet Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]