Déduplication sur les distributions Linux

Comment optimiser la déduplication vers un stockage S3

Paramètres influant sur la déduplication #

Par défaut, la solution regroupe des blobs dans des fichiers “pack” d’environ 16 Mo.
- Augmenter la taille réduit le nombre d’objets (et diminue les opérations sur le backend de stockage) et accélère souvent sur liens à latence élevée ou backends sensibles aux patits fichiers (4 Mo par exemple).
- En contrepartie, ça augmente la RAM et l’espace temporaire nécessaires pendant l’envoi : temp ≈ pack_size × (connections + 1).
- Règle pratique : viser des packs plus gros quand le coût/latence par objet domine, rester modeste si la RAM/temp est contrainte.
Nombre de connexions au backend #
- La solution ouvre 5 connexions par backend par défaut.
  - Il est possible monter cette limite sur des liens à haute latence (meilleur pipeline de multipart uploads),
  - Il faut la descendre si le fournisseur de stockage S3 ralentit lors de bursts (503/SlowDown) ou si la machine du client a une configuration modeste. C’est un paramètre par backend (ex. s3.connections)
Compression côté solution #
- auto (défaut) : “très rapide”, bon compromis.
- max : un peu plus petit, plus de CPU (utile si le coût S3 est important et que le CPU est libre).
Utilisation du Cache local