NEC、大規模データベースの重複データを高速、高精度に検出するシステム

ニューズフロント 2006年04月20日 19時42分

  • このエントリーをはてなブックマークに追加

 NECは4月20日、大規模なデータベース内のデータを照合し、重複の可能性が高いデータを検出できるシステムを発表した。従来の手法だと重複データの検出、削除に1年以上かかる100万件ほどのデータベースに適用したところ、2カ月ほどで作業が済んだと説明する。

 NECは、処理対象のデータをいくつかのブロックに分割する際に、組み合わせの数を少なくするために一旦小さく分割し、重複候補を見つけながら徐々にブロックを統合していく「分割統合マッチング技術」を開発した。この技術は、調べるべき組み合わせの漏れを抑制しつつ、データを効率よく照合できる。

 さらに、企業名の同義語(「NEC」と「日本電気」など)や、表記のゆれパターン(「株式会社」と「(株)」など)をウェブサイトや対象データベースから自動的に抽出し、同義語辞書として登録する「辞書自動構築技術」の開発も行った。これにより、重複の可能性があるデータを高い精度で検出するのに不可欠な同義語辞書を、自動的に追加、更新できるようになった。

 NECは、両技術を組み合わせて大規模データ照合システムを構築し、従来の手法と比べることで有効性を検証した。その結果から、データベースの集約に必要な期間を約5分の1に短縮でき、2カ月強で160万件のデータを60万件に集約できると見込む。また、同義語辞書を適用して60万件まで集約したデータベースをさらに照合した結果、単位時間当たりに検出可能な重複データ数は27倍になるという。

  • このエントリーをはてなブックマークに追加
関連キーワード
開発

関連ホワイトペーパー

SpecialPR

  • ビジネスの継続的な成長を促す新たなITのビジョン

    多くの企業においてITに求められる役割が、「守り」のコスト削減から「攻め」のビジネス貢献へとシフトしつつある。その中でIBMが提唱する新たなビジョンEnterprise Hybrid ITとは?

  • デジタル変革か?ゲームセットか?

    デジタルを駆使する破壊的なプレーヤーの出現、既存のビジネスモデルで競争力を持つプレイヤーはデジタル活用による変革が迫られている。これを読めばデジタル変革の全体像がわかる!