東京大学 生産技術研究所(東大生研)と日立製作所は11月20日、大規模データの匿名加工処理を高速化する技術を共同で開発したと発表した。この開発は内閣府の革新的研究開発推進プログラム(ImPACT)が支援している。
同技術は、ハードウェア性能を最大限に引き出すソフトウェア実行原理である非順序型実行原理を活用したもので、利用目的に応じたデータの有用性とプライバシー保護を両立するための対話的な匿名加工処理を可能とし、パーソナルデータの安全な利活用を促進できる。
データの匿名加工処理では、例えば、同じ属性を持つデータが一定数以上存在するようにデータを変換し、個人が特定される確率を低減するといった措置を行う。しかし、このような匿名加工処理の過程では情報が失われる可能性があり、有用な情報量を確保するためには、データの抽出範囲や加工単位などを細かく調整しながら、データの検証を繰り返す必要がある。そのため、データの規模や種類が増えるほど、匿名加工処理に費やす時間が膨大になるという課題があった。
東大生研と日立は、匿名加工処理の手続きをデータベース上の演算として定義し、匿名加工処理を非順序型実行原理に基づくデータベースエンジン上で実行可能にすることで、大規模データの匿名加工処理の高速化を実現した。これにより、ユーザーはデータベースからの匿名加工処理を施されたデータの抽出から、抽出したデータの安全性や有用性の検証までを短時間に行えるようになり、必要に応じて匿名加工処理や検証の再実行を繰り返し行うという対話的な処理ができるようになる。
東大生研は、ベンチマーク用データセットを用いた実験を行い、従来の非順序型実行原理を採用しないデータベースエンジンと、今回開発した技術を適用したデータベースエンジンのそれぞれにおいて、データの匿名加工処理と有用性・安全性検証にかかる時間を計測した。この結果、今回開発した技術は匿名加工処理および有用性・安全性検証を大幅に短縮し、100倍程度に高速化することが可能であることを確認した。