製品概要
■高度なテキスト処理技術がキーポイント
社内ネットワーク上に日々流れる全ての “ データファイル ” を対象にした機密情報や個人情報の検知・監査を実行する際に、最も重要となるのが、大量のファイルフォーマットから高精度かつ高速にテキスト抽出処理をする高度なテキスト処理技術です。また、ネットワークプロトコルをキャプチャし、パケットデータをストリームデータに再構成する仕組みも重要になります。ArkSensor は Dehenken の得意とするテキスト抽出技術の集大成とも言えるライブラリで、一般的な文書フォーマットのファイルをデ変研 TF ライブラリによりテキスト抽出し、デ変研 MFX ライブラリを用いメールの本文はもちろんヘッダや圧縮された添付ファイルも通常ファイルに展開しテキスト変換が可能になりました。これにより社内ネットワーク上のファイルの多くを監査の対象とすることを実現しています。ネットワークプロトコルにおいては、企業内で使用頻度の高い SMTP/HTTP/FTP に対応しています。
■さまざまな“文字コード”へのパターンマッチ
デ変研監査ライブラリは EUC コード又は SJIS コードで作成された単語辞書を、内部的に全ての文字コード( JIS / EUC / SJIS / UCS-2 / UTF-8 / RTF/ HTML / XML/ SGML ) に自動展開して、あらゆるファイル(ファーマットに依存しない)についてこれらの辞書パターンが一致するかを高速に調べるソフトです。
<個人情報辞書を標準搭載>
■氏名
名字の人名辞書:1000語・2000語
日本人の名字の多いものより構成しておりますので全国の名字におけるこれらの辞書の網羅率は1000語辞書使用時で70%、2000語辞書使用時80%になります。
■住所
都道府県名:47・市区町村名:3791
(2005年度郵便番号表に基づき作成。)
■メールアドレス
人名辞書をローマ字変換:2100語と3600語)等を標準搭載。
"@"前にローマ字名字の付いているものをメールアドレスと判断
■電話番号
電話番号パターンを14パターンを用意。東京都内/大阪市内/市外局番3/4/5/桁市外局番のみ6桁、携帯番号、海外からの電話番号(+81など)
■ID情報
お客様が任意のコードを設定していただけます、例えばDHK####と記述すればDHKで始まる4桁の数字をID番号としてパターンマッチさせます。
※それぞれの辞書はユーザー修正、追加可能です。