EMCジャパンは11月6日、米EMC グローバルセールス バックアップリカバリシステム部門 エグゼクティブバイスプレジデント David Schneider氏の来日にともない、データの重複除外に関する記者向け説明会を開催した。Schneider氏は、EMCが2009年7月に買収したData Domainでワールドワイドセールスのシニアバイスプレジデントを務めていた人物だ。
データを効率的にバックアップするにあたって注目されているデータの重複除外だが、Schneider氏は「いろいろな重複除外の方法があるが、重要なのは可変長セグメントを採用すること、また、インライン型でCPU中心の重複排除にすることだ」と述べる。
Schneider氏によると、重複除外システムを利用しても、固定長セグメントによる重複除外では保存データ量を3分の1程度にしか削減できないという。その一方で、Data Domain製品で採用している可変長セグメントであれば「データ保存量は20分の1まで圧縮できる」とSchneider氏。
固定長セグメントとは、固定のデータ量で分けられた各ブロックごとに変更があるかどうかをチェックし、変更のある部分をバックアップする方式だ。この方式だと、ひとつのブロックにデータが追加されてデータ量が変わると、残りのブロックも決められたデータ量に合わせて再度データがブロック分けされてしまうため、全体としては変更のない部分が多くてもブロックごとのデータが異なり、バックアップデータ量も必然的に大きくなってしまう。
一方の可変長セグメントでは、ブロック分けされるデータ量が固定されておらず、ひとつのブロックにデータが追加されてもほかのブロックは影響を受けない。そのため、変更のない部分は重複データとして認識され、バックアップのデータ量が元データの20分の1にまで縮小できるのだ。
また、Schneider氏が重複除外においてほかにも重要だとしている「インライン」とは、データをバックアップ保存する前に重複除外する方式だ。この方式ではバックアップデータの保存領域が最小限に抑えられるほか、「予測可能でほかの業務にも支障が出ない」とSchneider氏。インライン以外にも「ポストプロセス」と呼ばれる手法があるが、これはいったんすべてのデータを保存した後で重複除外を行う方法。Schneider氏は「この方法だと保存に3倍のディスクアクセスが必要となるほか、リカバリやレプリケーションなどのプロセスが多い場合、コンテンションが悪化する」と指摘する。
ただし、インライン方式にも課題はある。それは、バックアップの際にパフォーマンスが低下する恐れがあることだ。Schneider氏が「ディスク中心ではなく、CPU中心の重複除外が重要」と強調するのはそのためだ。
Schneider氏が言うこれらの方式は、すべてData Domainの重複除外システムで採用されている技術。これこそが今後求められる重複除外の姿だとSchneider氏は述べ、「将来のためにもバックアップは必要な作業。つまり、(1980年代の映画の題名にかけて)『バックアップ・トゥ・ザ・フューチャー』を効率よく実現するためにも、よりよい重複除外を採用すべきだ」とした。