Deduplikace

Zjednodušené schema deduplikace

Deduplikace je speciální technika komprese dat, která zabraňuje ukládání stejných datových bloků na jednom úložišti. Deduplikační jednotka ukládá informace (referenční informace) o datové struktuře a díky tomu je schopná při zpětném čtení deduplikovaných dat zpět obnovit původní, komplexní informaci. Účelem deduplikace je úspora místa na datovém úložišti. Kromě této varianty, tzv. blokové deduplikace, existuje ještě deduplikace na úrovni souborů, kdy je ukládána pouze jedna kopie (instance) souboru/přílohy e-mailu. Příkladem budiž ukládání e-mailových zpráv v systému Microsoft Exchange[1], nebo Single-instance storage ve Windows[2].

Metody deduplikace

Podle toho, kdy je spuštěna

Post-procesní deduplikace

Nová data jsou nejprve uložena na cílové úložiště a poté off-line deduplikována. Nevýhodou je nutnost disponovat kapacitou úložiště odpovídající reálnému množství datových bloků. Ty jsou ukládány a teprve následně (po skončení procesu ukládání) optimalizovány.

In-line deduplikace

Data jsou deduplikována ještě před uložením na cílové úložiště v reálném čase. Vyhodnocuje se přítomnost datového bloku na úložišti a pokud již existuje, nezapíše se. Pouze je vytvořena reference na datový blok v deduplikační jednotce. Nevýhodou je pomalejší „zápis“ na cílové úložiště, který je zpomalen rozhodovacím procesem deduplikační jednotky. V současnosti jsou však nabízena řešení, která se výkonnostně blíží post-procesním deduplikačním systémům.

Podle toho, kde je spuštěna

Zdrojová deduplikace

Zajišťuje deduplikaci na zdroji dat. Často bývá uplatňována v rámci operačního systému. Operační systém pravidelně kontroluje hashe vzniklé při tvorbě nových souborů a porovnává je s již existujícími hashi již existujících souborů. Pokud je nalezena shoda, kopie souboru je odstraněna a je vytvořen ukazatel na starý soubor. V praxi je tato metoda upozaďována před cílovou deduplikací z výkonnostních důvodů. U primárního úložiště (DAS serveru apod.) je většinou kladen důraz na vysoký výkon, který deduplikační proces může negativně ovlivnit.

Cílová deduplikace

Zajišťuje deduplikaci na sekundárním úložišti (např. v disk-to-disk schématu, nebo u VTL – virtuální pásková knihovna). Jde o v praxi preferovanější metodu.

Situace na trhu

V současnosti jsou používány deduplikační systémy jako kombinace diskového pole (např. VTL) a deduplikačního softwaru. K dispozici jsou řešení společnosti NetApp, IBM, EMC, NortonLifeLock a další.

Reference

  1. http://support.microsoft.com/kb/175481/en-us/ - Technika Single-Instance Storage v Microsoft Exchange
  2. http://technet.microsoft.com/en-us/library/cc978320.aspx - Popis single Instance Store na Microsoft Technetu

Externí odkazy

Média použitá na této stránce

Deduplikace.png
Autor: Hepterida, Licence: CC BY-SA 3.0
Zjednodušené schema deduplikace