【EMCジャパン Tech Communityサイト】重複除外(重複排除)ってなに?どうやるの?

EMCジャパン株式会社

2010-06-02

ITの世界には、いまさら聞けないことや、知ってるつもりでも知らない技術が多いと思いませんか?
そこで今回は、最近にわかに注目されてきた「重複除外(ちょうふくじょがい)」をとりあげてみました。
「あぁ、"じゅうふくはいじょ"なら聞いたことが...」とか、
「2年前から知ってるよ、デデュープのことでしょう」という方も。
今一度、おさらいしてみてはいかがでしょうか。
日本の重複除外(ちょうふくじょがい)市場の黎明期から知っているEMCジャパン BRS事業本部シニア システムズ・エンジニア 村山雅彦が、あなたを"なるほどTechnology"の世界へお連れします。


■Q1.重複除外とは何ですか?■


同じデータ、重複するデータを排除してストレージを効率よく使うために用いられ、特にバックアップの分野で活用されるケースが多い技術です。
英語では、「De-duplication」(デデュープリケーション、デデュープ)。日本語では、非重複化とか、重複除外、重複排除などと呼ばれています。


■Q2.重複除外は、なぜ必要なのですか?■


たとえば、B社用のご提案資料を、A社用資料の宛名とか言葉使いをちょっと変えて使ったとします。そうすると、ストレージには5MBと5MBで計10MBのファイルができます。それをバックアップすると、さらに10MBのバックアップ用データができます。
パワーポイント・ファイルでちょこちょこと変えたファイルですと、変更データ量は数十KBか数百KB。残りの90%余りは、ほとんど変わっていないデータです。でも、変わっていないにもかかわらずその提案資料をバックアップするためには何倍ものストレージ容量を使う。
それは、非常にもったいないのではないでしょうか?
それならデータの中身を見て、変更があればその部分だけを追加してバックアップすれば、1.1倍とか1.05倍のストレージ容量で済みます。
このように、重複除外は限られたストレージ領域をできる限り効率よく使うための技術として広く使われるようになってきました。


■Q3.重複除外の効果は実感できるものですか?■


「理屈はわかった」と、必ずお客様からは言われます(笑)。そこで、お客様の環境で実際に1週間、重複除外の機能を使ってデータをバックアップしてみると、今までは2倍3倍4倍と倍々のようにデータが増えていったのに、「その通りだね!」とよく言われます。夜バックアップを開始し、朝出社してストレージの使用状況を見てみると、ほんのわずかしか増えていないことが一目瞭然でわかるからです。


■Q4.データが同一か否かの判定はどうするのですか?■

個人を特定化するには、指紋や声紋もあればDNA鑑定もあります。データが同じかどうかの判定は、例えていうならば人間と同じような認証の仕方をしています。データの指紋をとって、その指紋情報が一致すれば同じデータだという判定の仕方をしています。これは、重複除外製品の多くのメーカーが行っている判定方法です。データのかたまり(ブロック)毎に生成したデータの指紋情報を基にして、AというデータとBというデータが一致しているかいないかを判定していくわけです。同じと判定できれば、重複してデータを保持せずに済ませます。


続きはこちらから >> (»リンク)


EMCジャパンのTech Communityサイト (»リンク) では、ストレージや情報管理に関する最新技術を多数紹介しています。

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]