使われていない死蔵データは減ったが、まだ33%もある
データの種類においては、改善点も見られるという。
例えば、ストレージの管理が進んだことから、画像ファイルと動画ファイルが占める率は、2016年から2017年にかけて減っている。2016年に14.2%を占めていた画像ファイルが、2017年には5.6%に減った。「業務用のストレージを個人的な用途で使うケースが減っている」(Moseley氏)
また、ストレージに保存しままま使っていない“死蔵データ”が占める率も下がっているという。「少なくとも3年間触っていないデータ」の数は、2016年の41%から2017年の33%に下がった。「7年以上触っていないデータ」の数は、12%から9%に下がった。
しかし、減ったとはいえ「少なくとも3年間触っていないデータ」が33%というのは、まだ改善の余地が大きい。
個人情報を含んだファイルを指摘するウェブポータルを公開
同社は2017年、企業が保管しているデータの中にクレジットカード番号やID番号といった個人識別情報が含まれているかどうかを可視化できるエンジン「Integrated Classification Engine」(分類エンジン)を開発した。
この分類エンジンは、ファイルサーバの構成情報を分析するソフト「Data Insight」のほか、メールアーカイブソフトのEnterprise Vaultや電子情報開示ソフトのeDiscovery Platformに搭載されている。今後も、分類エンジンを搭載したソフトを増やしていく。
分類エンジンを使ってできることを分かりやすく示すショーケースとして同社は、2017年9月にウェブポータル「Veritas Risk & Compliance Analyzer」を公開した(図1)。公開後4カ月間(9月19日から1月18日)の運用で、GDPRが始まるEUを中心に、105カ国7146ユーザーが利用した。
Webポータル「Veritas Risk & Compliance Analyzer」の画面
「ウェブポータルを使えば、企業が保有するドキュメント群の中に、リスクの高い個人情報がどれだけ含まれているのかが分かる」(Moseley氏)。集計月によって異なるが、解析したファイルの10〜15%が個人情報を含んでいたという。個人情報を含んだファイルのうち、リスクが非常に高いと分類されたものは33〜37%に達した。
ウェブポータルの使いかたは簡単だ。分析したいフォルダを指定してファイル群をアップロードするだけで、分析してレポートを作成してくれる。ウェブポータル側にはデータを保持しないので、データが漏えいすることはない。
あらかじめ用意しているファイル群のサンプルでは、27%が個人情報を含んでおり、このうちの56%がリスクレベルが高い。最もリスクが高いファイルはExcelファイルの1つで、1872件の個人情報を含んでいる(図2)。クレジットカード番号が1863件、イタリアのID番号が5件、ドイツのID番号が4件だ。
個人情報を多く含むファイルをリストアップしてくれる