Michael Chen | Estrategista de Conteúdo | 4 de setembro de 2024
A duplicação de dados é um conceito simples: é a ideia de que qualquer dado tem uma ou mais duplicações exatas em algum lugar da infraestrutura de uma organização. Pode ser um registro em um banco de dados, um arquivo em um volume de armazenamento ou uma imagem de VM. Por si só, a duplicação pode parecer benigna, até benéfica. Quem não gosta de uma cópia extra? Mas quando expandido para a escala empresarial, o escopo do problema torna-se claro. Com quase todos os dispositivos modernos constantemente produzindo dados, backups e arquivos regularmente programados e executados, e arquivos compartilhados em muitas plataformas, a duplicação de dados cresceu de um aborrecimento para um enorme custo e carga tecnológica. A resolução do problema começa por entender como e por que ocorre a duplicação de dados.
Duplicação de dados é o processo de criar uma ou mais versões idênticas de dados, intencionalmente, como backups planejados ou involuntariamente. Podem existir duplicações como dados armazenados em arquivos, imagens de VM, blocos ou registros em um banco de dados ou outros tipos de dados. Independentemente da causa, a duplicação de dados desperdiça espaço de armazenamento, com o custo crescendo junto com o tamanho dos armazenamentos de dados. Também pode contribuir para problemas de gerenciamento de dados. Por exemplo, se todas as cópias de um arquivo não forem atualizadas simultaneamente, as inconsistências podem levar a uma análise incorreta.
Relacionado à duplicação de dados está a redundância de dados, ou ter vários registros para atuar como redes de segurança redundantes para as versões principais dos dados. O oposto da duplicação de dados é a desduplicação de dados, que implica a eliminação de dados duplicados para liberar recursos e remover cópias possivelmente desatualizadas.
Principais Conclusões
Dados duplicados não são necessariamente uma coisa ruim. A duplicação intencional de dados pode oferecer benefícios significativos, incluindo backups facilmente acessíveis, arquivamento abrangente e recuperação de desastres mais eficaz. No entanto, obter esses benefícios sem custo indevido requer uma estratégia para executar backups e desduplicação regular e programada. Sem isso, dados duplicados podem, na melhor das hipóteses, ocupar desnecessariamente espaço de armazenamento adicional e, na pior das hipóteses, causar confusão entre os usuários e distorcer a análise de dados.
Embora os termos "duplicação de dados" e "redundância de dados" sejam frequentemente usados de forma intercambiável, há uma diferença. Dados duplicados não são necessariamente intencionalmente redundantes; às vezes, uma duplicação é feita descuidadamente ou por engano por um ser humano ou uma máquina. No entanto, do ponto de vista da engenharia, o conceito de redundância é produzir uma rede de segurança em caso de problema. Isso leva à duplicação com intenção. A redundância em si é um princípio de práticas de engenharia robustas, embora seja certamente possível criar redundância excessiva. Nesse caso, mesmo que os conjuntos extras de duplicatas sejam gerados com a finalidade, eles oferecem valor limitado para a quantidade de recursos que usam.
Os dados podem ser duplicados de várias maneiras por humanos e processos automatizados. A maioria das pessoas salvou várias versões de um arquivo com nomes ligeiramente diferentes e, muitas vezes, alterações mínimas, à medida que um documento se move pelo processo de revisão — pense em "salesreport_final.docx" versus "salesreport_final_v2.docx" e assim por diante. Estes geralmente não são excluídos quando o relatório realmente é final. Ou, um arquivo pode ser enviado por email em toda a organização, e duas pessoas diferentes salvam a mesma versão em pontos separados em uma unidade compartilhada. Um arquivo .exe ou de mídia do aplicativo pode ser baixado várias vezes, e as instâncias de VM podem ser salvas em vários locais. Da mesma forma, dentro de um banco de dados, os mesmos dados podem ser inseridos duas vezes. Um cliente ou funcionários podem ter carregado informações duas vezes, seja por meio de várias pessoas importando um arquivo ou digitando os registros. Esse tipo de duplicação também pode acontecer quando diferentes departamentos criam o mesmo registro, como informações do cliente, em aplicativos locais ou em diferentes aplicativos com tipos de arquivo compatíveis. Isso significa que você pode ter cópias redundantes em diferentes versões de backup, que podem ser duplicadas.
Quanto mais orientada por dados uma organização é, mais duplicação pode ser um problema. O Big data pode levar a grandes custos de armazenamento em excesso. A automação também pode criar duplicatas. Nesse caso, um processo de backup automatizado pode criar arquivos duplicados com a intenção de redundância. No entanto, surgem problemas quando o mesmo arquivo é submetido a backup várias vezes. Níveis desnecessários de redundância levam ao uso ineficiente do armazenamento.
Menos comumente, eventos inesperados levam à duplicação de dados. Se ocorrer uma queda de energia ou um desastre natural durante um processo de backup, por exemplo, o backup pode ser redefinido, reiniciando o processo após alguns arquivos já terem sido gravados. Falhas de hardware podem criar problemas semelhantes, levando a uma duplicação não planejada durante um processo de backup ou arquivamento.
Dados duplicados não são necessariamente uma coisa ruim. As equipes de TI precisam entender se a duplicação foi intencional, quantos recursos são usados para armazenar duplicatas e qual é o custo do status quo. Um arquivo de terceira geração intencional que contém ponteiros para duplicatas totalmente clonadas em um arquivo de segunda geração é uma circunstância completamente diferente de várias instâncias salvas do mesmo arquivo PowerPoint gigante em uma unidade compartilhada.
A seguir estão os tipos mais comuns de duplicação de dados e como eles podem afetar sua organização.
Dados duplicados criam um efeito cascata de encargos adicionais em hardware, largura de banda, manutenção e gerenciamento de dados, os quais somam uma montanha de custos desnecessários. Em alguns casos, os problemas são menores, mas nos piores cenários, os resultados podem ser desastrosos. Considere algumas das seguintes maneiras pelas quais a duplicação de dados prejudica os esforços da ciência de dados.
Espaço de armazenamento. Este é o custo mais direto da duplicação de dados. As cópias redundantes consomem uma capacidade valiosa em discos rígidos, servidores e armazenamento em nuvem locais, levando a custos mais altos. Imagine um departamento com 10 terabytes de dados e 10% é duplicado. Esse é um terabyte de armazenamento desperdiçado, o que pode se traduzir em custos significativos, especialmente se estiver no armazenamento primário baseado em nuvem versus armazenamento de arquivamento.
Ferramentas de eliminação de duplicidades de dados. Outro custo difícil, as ferramentas de desduplicação podem limpar duplicatas de volumes de armazenamento. Esses serviços e ferramentas geralmente se baseiam no volume por registro. Assim, quanto mais a deduplicar, maior o custo.
Dados corrompidos. Registros duplicados podem introduzir erros na análise de dados e nas visualizações, criando métricas imprecisas. Por exemplo, digamos que um novo cliente tenha sido inserido duas vezes em um banco de dados de vendas com nomes ligeiramente diferentes ou que dois administradores insiram o mesmo pedido de compra.
Cada um dos elementos acima também requer um trabalho de pessoal dispendioso. Os volumes de armazenamento devem ser mantidos. Alguém precisa avaliar, comprar e executar sistemas de desduplicação. Dados distorcidos exigem a remoção de registros e a limpeza de bancos de dados. Se dados incorretos forem propagados para outros relatórios ou comunicações, todo o trabalho subsequente deverá ser rastreado e desfeito, depois reparado.
Arquivos e registros de banco de dados duplicados involuntariamente podem causar problemas em toda a organização quando deixados desmarcados. A seguir estão alguns dos problemas mais comuns que surgem com a duplicação de dados.
Com unidades compartilhadas, dispositivos Internet of Things, dados públicos e de parceiros importados, armazenamento em nuvem em camadas, replicação mais robusta e recuperação de desastres, e uma infinidade de outras fontes, as organizações mantêm mais dados do que nunca. Isso leva a mais oportunidades de duplicação, o que significa que as organizações devem priorizar estratégias para minimizar a criação de dados duplicados e eliminá-los quando eles se propagam.
Algumas das estratégias mais comuns a serem alcançadas são as seguintes:
À medida que as organizações se tornam mais orientadas por dados, a eliminação de dados duplicados se torna cada vez mais necessária e benéfica. Tomar medidas proativas para minimizar a redundância pode otimizar a infraestrutura de armazenamento, melhorar a eficiência do gerenciamento de dados, melhorar a conformidade e liberar dinheiro e recursos da equipe para outras prioridades.
Veja a seguir alguns dos benefícios mais comuns da desduplicação de dados:
A melhor maneira de minimizar problemas de duplicação de dados é evitar que eles ocorram. O Oracle HeatWave combina processamento de transações on-line, análise em tempo real em data warehouses e data lakes, machine learning (ML) e IA generativa em um único serviço de nuvem. Os clientes podem se beneficiar de várias maneiras.
No geral, a desduplicação de dados quebra silos de informações, melhora a acessibilidade de dados e promove um ambiente colaborativo no qual as equipes podem aproveitar os insights de dados coletivos da organização para uma melhor tomada de decisões. Você pode evitar situações em que sua equipe de marketing usa um sistema de CRM com informações de contato do cliente, enquanto a equipe de vendas usa um sistema de gerenciamento de leads separado com dados semelhantes. Um programa para eliminar a duplicação pode consolidar essas informações, permitindo que ambas as equipes acessem uma visão unificada do cliente e colaborem de forma mais eficaz em campanhas de marketing e divulgação de vendas.
Procurando aproveitar o potencial da IA? É tudo sobre sua infraestrutura de dados. Este guia abrangente equipa os CIOs com estratégias para alavancar dados e IA para impulsionar a tomada de decisões estratégicas, otimizar operações e obter uma vantagem competitiva.
Quais são algumas tendências futuras na duplicação de dados?
À medida que as capacidades tecnológicas evoluem, a TI ganhou uma maior capacidade de minimizar a quantidade de dados duplicados. Alguns exemplos desses avanços incluem o seguinte:
Como você monitora a duplicação de dados?
Diferentes estratégias estão disponíveis para monitorar e identificar dados duplicados. Isso inclui ferramentas como criação de perfil de dados, correspondência de dados e catalogação de dados. As ferramentas de limpeza de dados para fontes de dados de entrada podem oferecer algum nível de identificação, enquanto as ferramentas especializadas de eliminação de duplicidades de dados podem detectar e eliminar dados duplicados.
Quais são os desafios da duplicação de dados?
A duplicação de dados representa um desafio significativo para organizações de todos os tamanhos. O problema mais óbvio é o desperdício de espaço de armazenamento. As cópias duplicadas consomem uma capacidade valiosa em servidores, discos rígidos e armazenamento em nuvem, levando a custos mais altos. O gerenciamento de dados duplicados entre sistemas também é demorado para os trabalhadores de TI, que precisam identificar duplicatas, determinar a versão principal e, em seguida, excluir cópias redundantes. A duplicação excessiva de dados também pode retardar os sistemas, pois os arquivos duplicados espalhados pelos locais de armazenamento demoram mais para serem acessados e recuperados.
Há também inconsistência de dados, quando as atualizações não são aplicadas a todas as cópias. Isso pode levar a relatórios imprecisos, desperdício de esforço com base em informações desatualizadas e confusão quando diferentes equipes dependem de conjuntos de dados conflitantes. Dados duplicados podem dificultar o cumprimento de regulamentos que exigem práticas precisas de retenção e exclusão de dados e, do ponto de vista da segurança, quanto mais dados você tiver, maior será a sua superfície de ataque.
Há benefícios em ter dados duplicados?
Dados intencionalmente duplicados, como backups e arquivos, vêm com muitos benefícios para funções relacionadas à continuidade dos negócios e à recuperação de desastres. Para usar dados duplicados com sucesso, as organizações devem empregar uma abordagem estratégica que ajude a garantir que as duplicatas sejam mantidas em uma quantidade específica e limitada, evitando assim o uso excessivo de recursos e outros problemas.
