Michael Chen | Responsable de stratégie de contenu | 4 septembre 2024
La duplication des données est un concept simple : il s'agit de l'idée que toute donnée comporte un ou plusieurs doublons exacts quelque part dans l'infrastructure d'une organisation. Il peut s'agir d'un enregistrement dans une base de données, d'un fichier dans un volume de stockage ou d'une image de machine virtuelle. En soi, la duplication peut sembler bénigne, voire bénéfique. Qui n'aime pas une copie supplémentaire ? Mais lorsqu'il est étendu à l'échelle de l'entreprise, la portée du problème devient claire. Avec presque tous les appareils modernes produisant constamment des données, des sauvegardes et des archives régulièrement programmées et exécutées, et des fichiers partagés sur de nombreuses plateformes, la duplication des données est passée d'un problème à un coût et une charge technologique considérables. La résolution du problème commence par comprendre comment et pourquoi la duplication des données se produit.
La duplication des données est le processus qui consiste à créer une ou plusieurs versions identiques des données, soit intentionnellement, comme pour les sauvegardes planifiées, soit involontairement. Des doublons peuvent exister en tant que données stockées dans des fichiers, des images de machine virtuelle, des blocs ou des enregistrements d'une base de données ou d'autres types de données. Quelle que soit la cause, la duplication des données gaspille de l'espace de stockage, le coût augmentant ainsi que la taille des magasins de données. Il peut également contribuer à des problèmes de gestion des données. Par exemple, si toutes les copies d'un fichier ne sont pas mises à jour simultanément, des incohérences peuvent entraîner une analyse erronée.
La duplication des données est liée à la redondance des données ou à l'utilisation de plusieurs enregistrements comme filets de sécurité redondants pour les versions principales des données. L'opposé de la duplication des données est la déduplication des données, qui implique l'élimination des données en double pour libérer des ressources et supprimer des copies éventuellement obsolètes.
Principaux points à retenir
Les données en double ne sont pas nécessairement une mauvaise chose. La duplication intentionnelle des données peut offrir des avantages importants, notamment des sauvegardes facilement accessibles, un archivage complet et une récupération après sinistre plus efficace. Toutefois, l'obtention de ces avantages sans coût excessif nécessite une stratégie pour effectuer des sauvegardes et une déduplication programmée régulière. Sans cela, les données dupliquées peuvent, au mieux, occuper inutilement de l'espace de stockage supplémentaire et, au pire, causer de la confusion parmi les utilisateurs et fausser l'analyse des données.
Bien que les termes "duplication de données" et "redondance de données" soient souvent utilisés de manière interchangeable, il y a une différence. Les données en double ne sont pas nécessairement volontairement redondantes ; parfois, un doublon est fait négligemment ou par erreur par un humain ou une machine. Cependant, du point de vue de l'ingénierie, le concept de redondance est de produire un filet de sécurité en cas de problème. Cela conduit à la duplication avec intention. La redondance en soi est un principe de pratiques d'ingénierie robustes, bien qu'il soit certainement possible de créer une sur-redondance. Dans ce cas, même si les ensembles supplémentaires de doublons sont générés dans un but précis, ils offrent une valeur limitée pour la quantité de ressources qu'ils utilisent.
Les données peuvent être dupliquées de plusieurs façons par des humains et des processus automatisés. La plupart des gens ont enregistré plusieurs versions d'un fichier avec des noms légèrement différents, et souvent des modifications minimales, au fur et à mesure qu'un document passe par le processus de révision, pensez à "salesreport_final.docx" par rapport à "salesreport_final_v2.docx", etc. Ils ne sont généralement pas supprimés une fois que le rapport est vraiment final. Ou, un fichier peut être envoyé par e-mail à l'ensemble de l'organisation, et deux personnes différentes enregistrent la même version dans des emplacements distincts sur un lecteur partagé. Un fichier d'application .exe ou média peut être téléchargé plusieurs fois et les instances de machine virtuelle peuvent être enregistrées à plusieurs endroits. De même, dans une base de données, les mêmes données peuvent être entrées deux fois. Un client ou des employés peuvent avoir chargé des informations deux fois, soit par l'intermédiaire de plusieurs personnes qui importent un fichier, soit en saisissant les enregistrements. Ce type de duplication peut également se produire lorsque différents services créent le même enregistrement, tel que des informations client, sur des applications locales ou différentes applications avec des types de fichiers compatibles. Cela signifie que vous pouvez avoir des copies redondantes entre différentes versions de sauvegarde, qui elles-mêmes peuvent être des doublons.
Plus une entreprise est axée sur les données, plus la duplication peut être problématique. Le big data peut entraîner des coûts importants pour le stockage excédentaire. L'automatisation peut également créer des doublons. Dans ce cas, un processus de sauvegarde automatisé peut créer des fichiers en double avec l'intention de redondance. Toutefois, des problèmes surviennent lorsque le même fichier est sauvegardé plusieurs fois. Les niveaux inutiles de redondance entraînent une utilisation inefficace du stockage.
Moins souvent, les événements inattendus entraînent la duplication des données. En cas de panne de courant ou de catastrophe naturelle au cours d'un processus de sauvegarde, par exemple, la sauvegarde peut être réinitialisée, le redémarrage du processus après l'écriture de certains fichiers. Les défaillances matérielles peuvent créer des problèmes similaires, entraînant une duplication non planifiée lors d'un processus de sauvegarde ou d'archivage.
Les données en double ne sont pas nécessairement une mauvaise chose. Les équipes informatiques doivent comprendre si la duplication était prévue, combien de ressources sont utilisées pour stocker les doublons et combien coûte le statu quo. Une archive intentionnelle de troisième génération qui contient des pointeurs vers des doublons entièrement clonés dans une archive de deuxième génération est une circonstance complètement différente de celle de plusieurs instances enregistrées du même fichier géant PowerPoint sur un lecteur partagé.
Les types de doublons de données les plus courants et leur incidence sur votre organisation sont les suivants.
Les données dupliquées créent un effet d'entraînement de charges supplémentaires sur le matériel, la bande passante, la maintenance et la gestion des données, qui s'ajoutent à une montagne de coûts inutiles. Dans certains cas, les problèmes sont mineurs, mais dans les pires scénarios, les résultats peuvent être désastreux. Considérez certaines des façons suivantes dont la duplication des données nuit aux efforts de data science.
Espace de stockage. Il s'agit du coût le plus direct de la duplication des données. Les copies redondantes consomment une capacité précieuse sur les disques durs, les serveurs et le stockage cloud locaux, ce qui entraîne des coûts plus élevés. Imaginez un service avec 10 téraoctets de données et 10 % de données en double. Il s'agit d'un téraoctet de stockage gaspillé, qui pourrait entraîner des coûts importants, en particulier s'il s'agit d'un stockage principal basé sur le cloud ou d'un stockage d'archivage.
Outils de déduplication des données. Un autre coût difficile, les outils de déduplication peuvent éliminer les doublons des volumes de stockage. Ces services et outils sont généralement basés sur un volume par enregistrement. Ainsi, plus il faut dédupliquer, plus le coût est élevé.
Données faussées. Les enregistrements en double peuvent introduire des erreurs dans l'analyse et les visualisations des données en créant des mesures inexactes. Par exemple, si un nouveau client a été entré deux fois dans une base de données de ventes avec des noms légèrement différents, ou si deux administrateurs saisissent la même commande d'achat.
Chacun des éléments ci-dessus nécessite également un travail coûteux du personnel. Les volumes de stockage doivent être maintenus. Quelqu'un doit évaluer, acheter et exécuter des systèmes de déduplication. Les données faussées nécessitent la suppression des enregistrements et le nettoyage des bases de données. Si les données incorrectes se propagent vers l'avant dans d'autres rapports ou communications, tous les travaux qui en découlent doivent être annulés, puis réparés.
Les fichiers et enregistrements de base de données dupliqués involontairement peuvent provoquer des problèmes dans toute une organisation lorsqu'ils ne sont pas traités. Voici quelques-uns des problèmes les plus courants liés à la duplication des données.
Avec les disques partagés, les appareils Internet of Things, les données publiques et partenaires importées, le stockage cloud hiérarchisé, la réplication et la récupération après sinistre plus robustes et une myriade d'autres sources, les entreprises détiennent plus de données que jamais. Cela augmente les opportunités de duplication, ce qui signifie que les entreprises doivent hiérarchiser les stratégies afin de minimiser la création de données en double et de les éliminer lorsqu'elles se propagent.
Voici quelques-unes des stratégies les plus courantes à mettre en œuvre :
Au fur et à mesure que les entreprises sont davantage axées sur les données, l'élimination des données en double devient de plus en plus nécessaire et bénéfique. Prendre des mesures proactives pour minimiser la redondance peut optimiser l'infrastructure de stockage, améliorer l'efficacité de la gestion des données, améliorer la conformité et libérer de l'argent et des ressources en personnel pour d'autres priorités.
Voici quelques-uns des avantages les plus courants de la suppression des doublons de données :
La meilleure façon de minimiser les problèmes de duplication des données est de les éviter en premier lieu. Oracle HeatWave combine le traitement des transactions en ligne, les analyses en temps réel dans les entrepôts de données et les lacs de données, le machine learning et l'IA générative dans un seul service cloud. Les clients peuvent en bénéficier de plusieurs façons.
Dans l'ensemble, la déduplication des données décloisonne les informations, améliore l'accessibilité des données et favorise un environnement collaboratif dans lequel les équipes peuvent tirer parti des informations collectives de l'entreprise pour une meilleure prise de décision. Vous pouvez éviter les situations où votre équipe marketing utilise un système CRM avec des informations de contact client tandis que l'équipe commerciale utilise un système de gestion des leads distinct avec des données similaires. Un programme visant à éliminer les doublons peut consolider ces informations, permettant aux deux équipes d'accéder à une vue unifiée du client et de collaborer plus efficacement sur les campagnes marketing et la sensibilisation aux ventes.
Vous cherchez à exploiter le potentiel de l'IA ? Tout dépend de votre infrastructure de données. Ce guide complet fournit aux DSI des stratégies pour tirer parti des données et de l'IA afin de prendre des décisions stratégiques, d'optimiser les opérations et d'obtenir un avantage concurrentiel.
Quelles sont les tendances futures en matière de duplication des données ?
À mesure que les capacités technologiques évoluent, l'informatique a acquis une plus grande capacité à minimiser la quantité de données en double. Voici quelques exemples de ces avancées :
Comment surveillez-vous la duplication des données ?
Différentes stratégies sont disponibles pour surveiller et identifier les données en double. Il s'agit notamment d'outils tels que le profilage des données, la mise en correspondance des données et le catalogue de données. Les outils de nettoyage des données pour les sources de données entrantes peuvent offrir un certain niveau d'identification tandis que les outils spécialisés de déduplication des données peuvent à la fois repérer et éliminer les données en double.
Quels sont les défis liés à la duplication des données ?
La duplication des données représente un défi important pour les entreprises de toutes tailles. Le problème le plus évident est le gaspillage d'espace de stockage. Les copies en double consomment une capacité précieuse sur les serveurs, les disques durs et le stockage cloud, ce qui entraîne des coûts plus élevés. La gestion des données en double d'un système à l'autre prend également du temps pour les informaticiens, qui doivent identifier les doublons, déterminer la version principale, puis supprimer les copies redondantes. Une duplication excessive des données peut également ralentir les systèmes, car les fichiers en double dispersés dans les emplacements de stockage prennent plus de temps à accéder et à extraire.
Il existe également des incohérences de données lorsque les mises à jour ne sont pas appliquées à toutes les copies. Cela peut conduire à des rapports inexacts, à des efforts gaspillés basés sur des informations obsolètes et à la confusion lorsque différentes équipes s'appuient sur des jeux de données contradictoires. Les données en double peuvent rendre difficile le respect des réglementations qui nécessitent des pratiques précises de conservation et de suppression des données, et du point de vue de la sécurité, plus vous disposez de données, plus votre surface d'attaque est importante.
Les données dupliquées présentent-elles des avantages ?
Les données dupliquées intentionnellement, telles que les sauvegardes et les archives, offrent de nombreux avantages pour les fonctions liées à la continuité des activités et à la reprise après sinistre. Pour utiliser avec succès les données dupliquées, les entreprises doivent adopter une approche stratégique qui aide à garantir que les doublons sont conservés à une quantité spécifique et limitée, évitant ainsi une utilisation excessive des ressources et d'autres problèmes.
