Comment optimiser la déduplication vers un stockage S3
Paramètres influant sur la déduplication #
Taille des objets écrits dans S3 (packs) #
-
Par défaut, la solution regroupe des blobs dans des fichiers “pack” d’environ 16 Mo.
-
Augmenter la taille réduit le nombre d’objets (et diminue les opérations sur le backend de stockage) et accélère souvent sur liens à latence élevée ou backends sensibles aux patits fichiers (4 Mo par exemple).
-
En contrepartie, ça augmente la RAM et l’espace temporaire nécessaires pendant l’envoi : temp ≈ pack_size × (connections + 1).
-
Règle pratique : viser des packs plus gros quand le coût/latence par objet domine, rester modeste si la RAM/temp est contrainte.
-
-
Nombre de connexions au backend #
-
La solution ouvre 5 connexions par backend par défaut.
-
Il est possible monter cette limite sur des liens à haute latence (meilleur pipeline de multipart uploads),
-
Il faut la descendre si le fournisseur de stockage S3 ralentit lors de bursts (503/SlowDown) ou si la machine du client a une configuration modeste. C’est un paramètre par backend (ex. s3.connections)
-
-
-
Compression côté solution #
-
auto (défaut) : “très rapide”, bon compromis.
-
max : un peu plus petit, plus de CPU (utile si le coût S3 est important et que le CPU est libre).
-
- Utilisation du Cache local