まず、ファイルを決まった長さに分割する。ディスクへの保管は、通常のファイル単位ではなく、この分割された断片(セグメント)単位となる。どのセグメントをどの順序で再構成すればファイルが戻されるのかという情報がメタデータという形で保管される。セグメントは、異なるものだけが保管される。全く同一のものがあれば、メタデータに情報が追加されるが、データそのものは保管されない。
こうして、データそのものが重複しているものは保管の対象とならず、常に新規の断片だけが保管されることで、劇的なストレージの節約が実現される。週に1%のデータが増加する例では、通常のバックアップでは週に1度のフルバックアップで対象データの容量すべて(100%、またはそれ以上)が保管対象となるが、重複排除では以前にバックアップされたデータは保管の対象とならず、1%以下しかストレージを消費しない。

重複排除が実行されるタイミングとその効果
最近では、重複排除機能を搭載したストレージやバックアップソフトが多く出回っている。どのタイミングで重複排除を実行するかによって、期待される効果が異なるため、分類して考えられることが多い。ストレージに近い方から順に解説する。

(1)重複排除機能を搭載したストレージ
もっとも実装が簡単な方法は、ストレージに重複排除機能が搭載されたものを、いつものストレージと入れ替えることだ。既にバックアップのインフラが整備されている場合は、バックアップソフトを変更することなく、バックアップ先を変更するだけで良い。
(2)バックアップサーバでの重複排除
ストレージは変更せず重複排除を取り入れたい場合は、バックアップソフトでの重複排除が選択肢となる。安価なストレージを選択することもでき、全体としてコストを抑制できることが多い。
(3)バックアップクライアントでの重複排除
バックアップクライアントとは、バックアップ対象となるサーバにインストールするプログラムのことである。重複排除のプロセスが実行されると、それ以降処理対象となるデータの量が少なくなる。
バックアップクライアントはもっともデータの発生源に近い場所なので、その効果はもっとも高く、バックアップの処理に要する時間を短縮したり、転送に使うネットワークの帯域使用率を低く抑えたりすることができる。
重複排除を利用したディザスタリカバリ
設備自体が被災するような大規模な災害に備えるには、地理的に離れた場所にバックアップデータを保管する必要がある。これにはテープやDVDなどのポータビリティのあるメディアで物理的に移動する方法が考えられる。しかしこの方法では、移送の経路がセキュリティリスクになる上、保管の手間やコストが掛かり、紛失がないよう万全の体制を整備する必要がある。