Na czym polegają trzy podstawowe etapy deduplikacji danych?

Posted on 08/05/2018 3:36pm

Proces deduplikacji plików informatycznych, to eliminowanie powtarzających się danych i mogłaby odbyć się na trzech podstawowych poziomach: bajtu, bloków oraz plików. Każdy z tych poziomów określa inny typ fragmentu danych.




Są one następnie za pomocą systemu sprawdzane na wypadek występowania duplikacji. Do generowania unikatowych identyfikatorów służy wzorzec funkcji skrótu. Tyczy się to każdej poddanej analizie części danych. Wspomniane identyfikatory przechowywane są w indeksie, a następnie wykorzystywane są podczas procesu deduplikacji. Oczywiście zduplikowane fragmenty mają takie same identyfikatory funkcji skrótu. W teorii im dokładniejsza jest analiza, to tym lepszy jest współczynnik deduplikacji. W praktyce jednak wszystkie wspomniane etapy zawsze posiadają swe plusy i minusy. Przykładowo deduplikacja na szczeblu plików okazuje się być w każdym przypadku najprostsza do wdrożenia.


PIT


efekty


Co istotne, tego typu forma deduplikacji nie jest zbyt "męcząca" dla serwera, gdyż wygenerowanie funkcji skrótu jest stosunkowo szybkie. Niestety wadą takiej formy jest to, że jeśli dany plik będzie w dowolny sposób zmodyfikowany, to zmienia się także identyfikator funkcji skrótu. W wyniku obydwie wersje plików zostaną na serwerze zamieszczone. Deduplikacja na poziomie bloków opiera się naturalnie na porównaniu bloków danych. Wymaga ona większej mocy obliczeniowej. Podobnej mocy potrzebuje deduplikacja na szczeblu bajtów. Jest to poniekąd w najwyższym stopniu prymitywny sposób porównywania danych.




Wykonuje się to, jak jego nazwa sugeruje, bajt po bajcie. Przeprowadzana w ten sposób analiza jest naturalnie bardzo dokładna. Pewnym minusem może być czas przeprowadzania takiego rodzaju deduplikacji.

Tags: wynik, czas, części, pomoc, sposób