Mécanisme de découpage par contenu (CDC) #
La solution utilise un algorithme de découpage à frontières dépendantes du contenu (Content-Defined Chunking) basé sur l’empreinte Rabin. Cette approche permet d’identifier des blocs identiques même lorsque du contenu a été inséré ou supprimé au milieu d’un fichier.
Point critique : Le polynôme de chunking est généré aléatoirement lors de la création du dépôt (Repository) et est stocké dans sa configuration. Cette particularité a une implication majeure : des fichiers identiques seront découpés différemment selon les dépôts, limitant l’efficacité de la déduplication inter-dépôts.
- Cela induit qu’il faut regrouper des version d’OS sur des systèmes de fichiers identiques dans un même dépot