Michael Chen | Estrategista de Conteúdo | 4 de setembro de 2024
A duplicação de dados é um conceito simples: é a ideia de que qualquer dado tem uma ou mais duplicações exatas em algum lugar da infraestrutura de uma organização. Pode ser um registro em um banco de dados, um arquivo em um volume de armazenamento ou uma imagem de VM. Por si só, a duplicação pode parecer inofensiva, até mesmo benéfica. Quem não gosta de uma cópia extra? Mas quando se atinge a escala empresarial, a dimensão do problema fica clara. Com praticamente todos os dispositivos modernos produzindo dados constantemente, backups e arquivamentos agendados e executados regularmente, e arquivos compartilhados em diversas plataformas, a duplicação de dados deixou de ser um incômodo para se tornar um custo significativo e um fardo tecnológico. A solução do problema começa por compreender como e por que ocorre a duplicação de dados.
A duplicação de dados é o processo de criação de uma ou mais versões idênticas dos mesmos dados, seja intencionalmente, como em backups planejados, ou não. Os dados duplicados podem existir como dados armazenados em arquivos, imagens de máquinas virtuais, blocos ou registros em um banco de dados ou outros tipos de dados. Independentemente da causa, a duplicação de dados desperdiça espaço de armazenamento e aumenta os custos, além do tamanho do seu repositório de dados. Isso também pode contribuir para problemas de gerenciamento de dados. Por exemplo, se todas as cópias de um arquivo não forem atualizadas simultaneamente, as inconsistências podem levar a uma análise incorreta.
Relacionada à duplicação de dados está a redundância de dados, ou seja, a existência de múltiplos registros que atuam como redes de segurança redundantes para as versões primárias dos dados. O oposto da duplicação de dados é a desduplicação de dados, que implica a eliminação de dados duplicados para liberar recursos e remover cópias possivelmente desatualizadas.
Principais conclusões
Dados duplicados não são necessariamente algo ruim. A duplicação intencional de dados pode trazer benefícios significativos, incluindo backups de fácil acesso, arquivamento abrangente e recuperação de desastres mais eficaz. No entanto, obter esses benefícios sem custos excessivos exige uma estratégia para realizar backups e desduplicação regular e programada. Sem isso, os dados duplicados podem, na melhor das hipóteses, ocupar espaço de armazenamento adicional desnecessariamente e, na pior das hipóteses, causar confusão entre os usuários e distorcer a análise de dados.
Embora os termos "duplicação de dados" e "redundância de dados" sejam frequentemente usados como sinônimos, existe uma diferença. Os dados duplicados não são necessariamente redundantes de forma intencional. Às vezes, uma duplicata é criada por descuido ou por erro humano ou mecânico. No entanto, do ponto de vista da engenharia, o conceito de redundância consiste em criar uma rede de segurança em caso de problemas. Isso leva à duplicação intencional. A redundância em si é um princípio das boas práticas de engenharia, embora seja certamente possível criar redundância excessiva. Nesse caso, mesmo que os conjuntos extras de duplicatas sejam gerados propositalmente, eles oferecem valor limitado em relação à quantidade de recursos que utilizam.
Os dados podem ser duplicados de diversas maneiras, tanto por humanos quanto por processos automatizados. Muita gente já salvou várias versões de um arquivo com nomes um pouco diferentes e, muitas vezes, com mudanças mínimas, conforme o documento passa pelo processo de revisão, como “relatório_de_vendas_final.docx” versus “relatório_de_vendas_final_v2.docx” e assim por diante. Geralmente, esses dados não são excluídos depois que o relatório é finalizado. Ou então, um arquivo pode ser enviado por email para toda a organização, e duas pessoas diferentes podem salvar a mesma versão em locais separados em uma unidade compartilhada. Um arquivo .exe de aplicação ou um arquivo de mídia pode ser baixado várias vezes, e instâncias de máquinas virtuais podem ser salvas em vários locais. Da mesma forma, dentro de um banco de dados, os mesmos dados podem ser inseridos duas vezes. Um cliente ou funcionário pode ter carregado informações duas vezes, seja por meio de várias pessoas importando um arquivo ou digitando os dados. Esse tipo de duplicação também pode ocorrer quando diferentes departamentos criam o mesmo registro, como informações de clientes, em aplicações locais ou em aplicações diferentes com tipos de arquivo compatíveis. Isso significa que você pode ter cópias redundantes em diferentes versões de backup, que também podem ser duplicadas.
Quanto mais orientada a dados for uma organização, maior será o problema da duplicação. Big data pode levar a altos custos de armazenamento em excesso. A automação também pode criar duplicatas. Nesse caso, um processo de backup automatizado pode criar arquivos duplicados com a intenção de redundância. No entanto, surgem problemas quando o mesmo arquivo é copiado várias vezes. Níveis desnecessários de redundância levam a um uso ineficiente do armazenamento.
Menos frequentemente, eventos inesperados causam duplicação de dados. Se uma queda de energia ou um desastre natural ocorrer durante o processo de backup, por exemplo, o backup pode ser reiniciado, reiniciando o processo após alguns arquivos já terem sido gravados. Falhas de hardware podem criar problemas semelhantes, levando à duplicação não planejada durante um processo de backup ou arquivamento.
Dados duplicados não são necessariamente algo ruim. As equipes de TI precisam entender se a duplicação foi intencional, quantos recursos são usados para armazenar as duplicatas e qual o custo da situação atual. Um arquivo de terceira geração intencional que contém ponteiros para duplicatas totalmente clonadas em um arquivo de segunda geração é uma circunstância completamente diferente de várias instâncias salvas do mesmo arquivo PowerPoint gigante em uma unidade compartilhada.
A seguir, apresentamos os tipos mais comuns de dados duplicados e como eles podem afetar sua organização.
Dados duplicados criam um efeito cascata em hardware, largura de banda, manutenção e gerenciamento de dados, o que resulta em custos desnecessários. Em alguns casos, os problemas são menores, mas nos piores cenários, os resultados podem ser desastrosos. Considere algumas das maneiras pelas quais a duplicação de dados prejudica os esforços de ciência de dados.
Espaço de armazenamento. Este é o custo mais direto da duplicação de dados. As cópias redundantes consomem capacidade valiosa em discos rígidos locais, servidores e armazenamento em nuvem, levando a custos mais altos. Imagine um departamento com 10 terabytes de dados e 10% é duplicado. Isso representa um terabyte de armazenamento desperdiçado, o que pode incorrer em custos significativos, especialmente se estiver em armazenamento primário baseado em nuvem em vez de armazenamento de arquivamento.
Ferramentas de desduplicação de dados.. Outro custo direto, as ferramentas de desduplicação podem limpar duplicatas dos volumes de armazenamento. Esses serviços e ferramentas geralmente são baseados no volume por registro. Portanto, quanto mais duplicados, maior o custo.
Dados imprecisos. Registros duplicados podem introduzir erros na análise e visualização de dados, criando métricas imprecisas. Por exemplo, imagine que um novo cliente foi cadastrado duas vezes em um banco de dados de vendas com nomes ligeiramente diferentes, ou que dois administradores registraram o mesmo pedido de compra.
Cada um desses elementos também exige um esforço considerável por parte da equipe. É necessário manter o volume de armazenamento. Alguém precisa avaliar, adquirir e operar sistemas de desduplicação. Dados imprecisos exigem a remoção de registros e a limpeza de bancos de dados. Se dados incorretos se propagarem para outros relatórios ou comunicações, todo o trabalho subsequente terá que ser refeito e corrigido.
Arquivos e registros de banco de dados duplicados involuntariamente podem causar problemas em cascata em toda a organização se não forem controlados. A seguir, apresentamos alguns dos problemas mais comuns que surgem com a duplicação de dados.
Com unidades compartilhadas, dispositivos da Internet das Coisas (IoT), dados públicos e de parceiros importados, armazenamento em nuvem em camadas, replicação e recuperação de desastres mais robustas e inúmeras outras fontes, as organizações armazenam mais dados do que nunca. Isso leva a mais oportunidades de duplicação, o que significa que as organizações devem priorizar estratégias para minimizar a criação de dados duplicados e eliminá-los quando se propagarem.
Algumas das estratégias mais comuns para alcançar esse objetivo são as seguintes:
À medida que as organizações se tornam mais orientadas a dados, a eliminação de dados duplicados se torna cada vez mais necessária e benéfica. Tomar medidas proativas para minimizar a redundância pode otimizar a infraestrutura de armazenamento, melhorar a eficiência do gerenciamento de dados, aprimorar a conformidade e liberar recursos financeiros e humanos para outras prioridades.
Veja a seguir alguns dos benefícios mais comuns da desduplicação de dados:
A melhor maneira de minimizar problemas de duplicação de dados é evitá-los desde o início. O Oracle HeatWave combina processamento de transações online, análises em tempo real em data warehouses e data lakes, machine learning (ML) e IA generativa em um único serviço em nuvem. Os clientes podem se beneficiar de várias maneiras.
No geral, a desduplicação de dados elimina silos de informações, melhora a acessibilidade aos dados e promove um ambiente colaborativo onde as equipes podem aproveitar os insights de dados coletivos da organização para uma melhor tomada de decisão. Você pode evitar situações em que sua equipe de marketing usa um sistema CRM com informações de contato do cliente, enquanto a equipe de vendas usa um sistema de gerenciamento de leads separado com dados semelhantes. Um programa para eliminar a duplicação pode consolidar essas informações, permitindo que ambas as equipes acessem uma visão unificada do cliente e colaborem de forma mais eficaz em campanhas de marketing e prospecção de vendas.
Quer aproveitar o potencial da IA? Tudo começa com a sua infraestrutura de dados. Este guia completo fornece aos CIOs estratégias para alavancar dados e IA, impulsionando a tomada de decisões estratégicas, otimizando operações e obtendo vantagem competitiva.
Quais são algumas tendências futuras na duplicação de dados?
À medida que a tecnologia avança, a área de TI ficou mais eficiente em reduzir a quantidade de dados duplicados. Alguns exemplos desses avanços incluem:
Como monitorar a duplicação de dados?
Existem diferentes estratégias disponíveis para monitorar e identificar dados duplicados. Elas incluem ferramentas como perfilamento de dados, correspondência de dados e catalogação de dados. As ferramentas de limpeza de dados para fontes de dados de entrada podem oferecer algum nível de identificação, enquanto as ferramentas especializadas de desduplicação de dados podem detectar e eliminar dados duplicados.
Quais são os desafios da duplicação de dados?
A duplicação de dados representa um desafio significativo para organizações de todos os portes. O problema mais óbvio é o desperdício de espaço de armazenamento. Os arquivos duplicados consomem capacidade valiosa em servidores, discos rígidos e armazenamento em nuvem, levando a custos mais altos. Gerenciar dados duplicados em diferentes sistemas também consome muito tempo dos profissionais de TI, que precisam identificar duplicatas, determinar a versão primária e, em seguida, excluir cópias redundantes. A duplicação excessiva de dados também pode tornar os sistemas mais lentos, já que arquivos duplicados espalhados por diferentes locais de armazenamento levam mais tempo para serem acessados e recuperados.
Há também inconsistência de dados, quando as atualizações não são aplicadas a todas as cópias. Isso pode levar a relatórios imprecisos, desperdício de esforços com base em informações desatualizadas e confusão quando diferentes equipes dependem de conjuntos de dados conflitantes. Os dados duplicados podem dificultar o cumprimento de regulamentações que exigem práticas precisas de retenção e exclusão de dados e, do ponto de vista da segurança, quanto mais dados você tiver, maior será sua superfície de ataque.
Existem benefícios em ter dados duplicados?
Dados duplicados intencionalmente, como backups e arquivos, oferecem muitos benefícios para funções relacionadas à continuidade dos negócios e recuperação de desastres. Para usar dados duplicados com sucesso, as organizações devem adotar uma abordagem estratégica que ajude a garantir que as duplicatas sejam mantidas em uma quantidade específica e limitada, evitando assim o uso excessivo de recursos e outros problemas.
