NEC、大規模データベースの重複データを高速、高精度に検出するシステム

ニューズフロント

2006-04-20 19:42

 NECは4月20日、大規模なデータベース内のデータを照合し、重複の可能性が高いデータを検出できるシステムを発表した。従来の手法だと重複データの検出、削除に1年以上かかる100万件ほどのデータベースに適用したところ、2カ月ほどで作業が済んだと説明する。

 NECは、処理対象のデータをいくつかのブロックに分割する際に、組み合わせの数を少なくするために一旦小さく分割し、重複候補を見つけながら徐々にブロックを統合していく「分割統合マッチング技術」を開発した。この技術は、調べるべき組み合わせの漏れを抑制しつつ、データを効率よく照合できる。

 さらに、企業名の同義語(「NEC」と「日本電気」など)や、表記のゆれパターン(「株式会社」と「(株)」など)をウェブサイトや対象データベースから自動的に抽出し、同義語辞書として登録する「辞書自動構築技術」の開発も行った。これにより、重複の可能性があるデータを高い精度で検出するのに不可欠な同義語辞書を、自動的に追加、更新できるようになった。

 NECは、両技術を組み合わせて大規模データ照合システムを構築し、従来の手法と比べることで有効性を検証した。その結果から、データベースの集約に必要な期間を約5分の1に短縮でき、2カ月強で160万件のデータを60万件に集約できると見込む。また、同義語辞書を適用して60万件まで集約したデータベースをさらに照合した結果、単位時間当たりに検出可能な重複データ数は27倍になるという。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ZDNET Japan クイックポール

所属する組織のデータ活用状況はどの段階にありますか?

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]