編集部からのお知らせ
解説:広がるエッジAIの動向
Check! ディープラーニングを振り返る

「バックアップ・トゥ・ザ・フューチャー」を実現するために--EMC、重複除外の重要性を語る

藤本京子(編集部)

2009-11-06 19:14

 EMCジャパンは11月6日、米EMC グローバルセールス バックアップリカバリシステム部門 エグゼクティブバイスプレジデント David Schneider氏の来日にともない、データの重複除外に関する記者向け説明会を開催した。Schneider氏は、EMCが2009年7月に買収したData Domainでワールドワイドセールスのシニアバイスプレジデントを務めていた人物だ。

 データを効率的にバックアップするにあたって注目されているデータの重複除外だが、Schneider氏は「いろいろな重複除外の方法があるが、重要なのは可変長セグメントを採用すること、また、インライン型でCPU中心の重複排除にすることだ」と述べる。

Schneider氏 EMC グローバルセールス バックアップリカバリシステム部門 エグゼクティブバイスプレジデント David Schneider氏

 Schneider氏によると、重複除外システムを利用しても、固定長セグメントによる重複除外では保存データ量を3分の1程度にしか削減できないという。その一方で、Data Domain製品で採用している可変長セグメントであれば「データ保存量は20分の1まで圧縮できる」とSchneider氏。

 固定長セグメントとは、固定のデータ量で分けられた各ブロックごとに変更があるかどうかをチェックし、変更のある部分をバックアップする方式だ。この方式だと、ひとつのブロックにデータが追加されてデータ量が変わると、残りのブロックも決められたデータ量に合わせて再度データがブロック分けされてしまうため、全体としては変更のない部分が多くてもブロックごとのデータが異なり、バックアップデータ量も必然的に大きくなってしまう。

 一方の可変長セグメントでは、ブロック分けされるデータ量が固定されておらず、ひとつのブロックにデータが追加されてもほかのブロックは影響を受けない。そのため、変更のない部分は重複データとして認識され、バックアップのデータ量が元データの20分の1にまで縮小できるのだ。

 また、Schneider氏が重複除外においてほかにも重要だとしている「インライン」とは、データをバックアップ保存する前に重複除外する方式だ。この方式ではバックアップデータの保存領域が最小限に抑えられるほか、「予測可能でほかの業務にも支障が出ない」とSchneider氏。インライン以外にも「ポストプロセス」と呼ばれる手法があるが、これはいったんすべてのデータを保存した後で重複除外を行う方法。Schneider氏は「この方法だと保存に3倍のディスクアクセスが必要となるほか、リカバリやレプリケーションなどのプロセスが多い場合、コンテンションが悪化する」と指摘する。

 ただし、インライン方式にも課題はある。それは、バックアップの際にパフォーマンスが低下する恐れがあることだ。Schneider氏が「ディスク中心ではなく、CPU中心の重複除外が重要」と強調するのはそのためだ。

 Schneider氏が言うこれらの方式は、すべてData Domainの重複除外システムで採用されている技術。これこそが今後求められる重複除外の姿だとSchneider氏は述べ、「将来のためにもバックアップは必要な作業。つまり、(1980年代の映画の題名にかけて)『バックアップ・トゥ・ザ・フューチャー』を効率よく実現するためにも、よりよい重複除外を採用すべきだ」とした。

ZDNet Japan 記事を毎朝メールでまとめ読み(登録無料)

Special PR

特集

CIO

モバイル

セキュリティ

スペシャル

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNet Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]