NEC、大規模データベースの重複データを高速、高精度に検出するシステム

ニューズフロント

2006-04-20 19:42

　NECは4月20日、大規模なデータベース内のデータを照合し、重複の可能性が高いデータを検出できるシステムを発表した。従来の手法だと重複データの検出、削除に1年以上かかる100万件ほどのデータベースに適用したところ、2カ月ほどで作業が済んだと説明する。

　NECは、処理対象のデータをいくつかのブロックに分割する際に、組み合わせの数を少なくするために一旦小さく分割し、重複候補を見つけながら徐々にブロックを統合していく「分割統合マッチング技術」を開発した。この技術は、調べるべき組み合わせの漏れを抑制しつつ、データを効率よく照合できる。

　さらに、企業名の同義語（「NEC」と「日本電気」など）や、表記のゆれパターン（「株式会社」と「（株）」など）をウェブサイトや対象データベースから自動的に抽出し、同義語辞書として登録する「辞書自動構築技術」の開発も行った。これにより、重複の可能性があるデータを高い精度で検出するのに不可欠な同義語辞書を、自動的に追加、更新できるようになった。

　NECは、両技術を組み合わせて大規模データ照合システムを構築し、従来の手法と比べることで有効性を検証した。その結果から、データベースの集約に必要な期間を約5分の1に短縮でき、2カ月強で160万件のデータを60万件に集約できると見込む。また、同義語辞書を適用して60万件まで集約したデータベースをさらに照合した結果、単位時間当たりに検出可能な重複データ数は27倍になるという。

ZDNET Japan 記事を毎朝メールでまとめ読み（登録無料）

メールマガジン登録のお申し込み

関連記事

関連キーワード: NEC; 開発

関連ホワイトペーパー

人気カテゴリ: 経営; セキュリティ; クラウドコンピューティング; 仮想化; ビジネスアプリケーション; モバイル

特集

CNET Japan Top Story

ホワイトペーパー

新着

クラウドコンピューティング

Linuxが提示する解決策、AI・クラウド・サイバー脅威などIT環境の変化に対応する
セキュリティ

従業員のリテラシー向上やガバナンス強化も、IT責任者が語るゼロトラスト移行によるさまざまな効果
OS

迫るWindows 10のサポート終了、ビジネス効率とセキュリティを両立する最新PC導入を検討する
ビジネスアプリケーション

生成AIをあらゆるタスクに適用し、企業全体のワークフローで生産性を向上させる方法
運用管理

ハルシネーションやセキュリティの課題も解決！カスタマーサポートにおける安全・安心な生成AI活用術

ランキング

セキュリティ

KADOKAWAらの事例に学ぶ、2024年サイバー攻撃の傾向と対策
セキュリティ

MDMのよくある“12の悩み”を解決！Apple製品のMDMに「Jamf」を選ぶべき理由を教えます
ビジネスアプリケーション

生成AIをビジネスにどう活かす？基礎理解から活用事例までを網羅した実践ガイド
セキュリティ

セキュリティ担当者に贈る、従業員のリテラシーが測れる「情報セキュリティ理解度チェックテスト」
セキュリティ

「100人100通りの働き方」を目指すサイボウズが、従業員選択制のもとでMacを導入する真の価値

ホワイトペーパーライブラリー

ZDNET Japan クイックポール

所属する組織のデータ活用状況はどの段階にありますか？

カテゴリランキング

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]