NEC、大規模データベースの重複データを高速、高精度に検出するシステム

ニューズフロント

2006-04-20 19:42

 NECは4月20日、大規模なデータベース内のデータを照合し、重複の可能性が高いデータを検出できるシステムを発表した。従来の手法だと重複データの検出、削除に1年以上かかる100万件ほどのデータベースに適用したところ、2カ月ほどで作業が済んだと説明する。

 NECは、処理対象のデータをいくつかのブロックに分割する際に、組み合わせの数を少なくするために一旦小さく分割し、重複候補を見つけながら徐々にブロックを統合していく「分割統合マッチング技術」を開発した。この技術は、調べるべき組み合わせの漏れを抑制しつつ、データを効率よく照合できる。

 さらに、企業名の同義語(「NEC」と「日本電気」など)や、表記のゆれパターン(「株式会社」と「(株)」など)をウェブサイトや対象データベースから自動的に抽出し、同義語辞書として登録する「辞書自動構築技術」の開発も行った。これにより、重複の可能性があるデータを高い精度で検出するのに不可欠な同義語辞書を、自動的に追加、更新できるようになった。

 NECは、両技術を組み合わせて大規模データ照合システムを構築し、従来の手法と比べることで有効性を検証した。その結果から、データベースの集約に必要な期間を約5分の1に短縮でき、2カ月強で160万件のデータを60万件に集約できると見込む。また、同義語辞書を適用して60万件まで集約したデータベースをさらに照合した結果、単位時間当たりに検出可能な重複データ数は27倍になるという。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ホワイトペーパー

新着

ランキング

  1. セキュリティ

    ランサムウェア対策をマンガで解説、手口や被害のデータから見る脆弱性放置の危険性とは?

  2. セキュリティ

    セキュリティリーダー向けガイド--なぜ今XDRとSIEMの違いを理解することが重要なのか

  3. セキュリティ

    マンガで分かる「クラウド型WAF」の特徴と仕組み、有効活用するポイントも解説

  4. セキュリティ

    マンガで解説、「WAF」活用が脆弱性への応急処置に効果的である理由とは?

  5. クラウドコンピューティング

    生成 AI の真価を引き出すアプリケーション戦略--ユースケースから導くアプローチ

ZDNET Japan クイックポール

所属する組織のデータ活用状況はどの段階にありますか?

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]