Implicações e Soluções de Duplicação de Dados

Michael Chen | Estrategista de Conteúdo | 4 de setembro de 2024

A duplicação de dados é um conceito simples: é a ideia de que qualquer dado tem uma ou mais duplicações exatas em algum lugar da infraestrutura de uma organização. Pode ser um registro em um banco de dados, um arquivo em um volume de armazenamento ou uma imagem de VM. Por si só, a duplicação pode parecer benigna, até benéfica. Quem não gosta de uma cópia extra? Mas quando expandido para a escala empresarial, o escopo do problema torna-se claro. Com quase todos os dispositivos modernos constantemente produzindo dados, backups e arquivos regularmente programados e executados, e arquivos compartilhados em muitas plataformas, a duplicação de dados cresceu de um aborrecimento para um enorme custo e carga tecnológica. A resolução do problema começa por entender como e por que ocorre a duplicação de dados.

O que é duplicação de dados?

Duplicação de dados é o processo de criar uma ou mais versões idênticas de dados, intencionalmente, como backups planejados ou involuntariamente. Podem existir duplicações como dados armazenados em arquivos, imagens de VM, blocos ou registros em um banco de dados ou outros tipos de dados. Independentemente da causa, a duplicação de dados desperdiça espaço de armazenamento, com o custo crescendo junto com o tamanho dos armazenamentos de dados. Também pode contribuir para problemas de gerenciamento de dados. Por exemplo, se todas as cópias de um arquivo não forem atualizadas simultaneamente, as inconsistências podem levar a uma análise incorreta.

Relacionado à duplicação de dados está a redundância de dados, ou ter vários registros para atuar como redes de segurança redundantes para as versões principais dos dados. O oposto da duplicação de dados é a desduplicação de dados, que implica a eliminação de dados duplicados para liberar recursos e remover cópias possivelmente desatualizadas.

Principais Conclusões

  • Dados duplicados se referem a cópias exatas de arquivos ou registros de banco de dados dentro de uma rede. Muitas vezes resulta da falta de comunicação, processos desatualizados e da falta de adesão às melhores práticas para o compartilhamento de arquivos.
  • Dados duplicados podem consumir recursos desnecessariamente, como espaço de armazenamento e capacidade de processamento.
  • Os dados duplicados também podem distorcer os resultados da análise, como fornecer os mesmos registros de vendas duas vezes.
  • As organizações criam dados duplicados intencionalmente, como backups e arquivos, e involuntariamente por meio de vários downloads, erros de cópia/colagem ou entrada de dados duplicados.
  • Lidar com dados duplicados em todas as suas formas cria uma carga de custo significativa, tanto diretamente usando recursos como indiretamente se a equipe deve corrigir erros em faturas e ordens de compra ou tomar outras ações que são baseadas em dados duplicados.

Explicação da Duplicação de Dados

Dados duplicados não são necessariamente uma coisa ruim. A duplicação intencional de dados pode oferecer benefícios significativos, incluindo backups facilmente acessíveis, arquivamento abrangente e recuperação de desastres mais eficaz. No entanto, obter esses benefícios sem custo indevido requer uma estratégia para executar backups e desduplicação regular e programada. Sem isso, dados duplicados podem, na melhor das hipóteses, ocupar desnecessariamente espaço de armazenamento adicional e, na pior das hipóteses, causar confusão entre os usuários e distorcer a análise de dados.

Embora os termos "duplicação de dados" e "redundância de dados" sejam frequentemente usados de forma intercambiável, há uma diferença. Dados duplicados não são necessariamente intencionalmente redundantes; às vezes, uma duplicação é feita descuidadamente ou por engano por um ser humano ou uma máquina. No entanto, do ponto de vista da engenharia, o conceito de redundância é produzir uma rede de segurança em caso de problema. Isso leva à duplicação com intenção. A redundância em si é um princípio de práticas de engenharia robustas, embora seja certamente possível criar redundância excessiva. Nesse caso, mesmo que os conjuntos extras de duplicatas sejam gerados com a finalidade, eles oferecem valor limitado para a quantidade de recursos que usam.

Por que ocorre a duplicação de dados?

Os dados podem ser duplicados de várias maneiras por humanos e processos automatizados. A maioria das pessoas salvou várias versões de um arquivo com nomes ligeiramente diferentes e, muitas vezes, alterações mínimas, à medida que um documento se move pelo processo de revisão — pense em "salesreport_final.docx" versus "salesreport_final_v2.docx" e assim por diante. Estes geralmente não são excluídos quando o relatório realmente é final. Ou, um arquivo pode ser enviado por email em toda a organização, e duas pessoas diferentes salvam a mesma versão em pontos separados em uma unidade compartilhada. Um arquivo .exe ou de mídia do aplicativo pode ser baixado várias vezes, e as instâncias de VM podem ser salvas em vários locais. Da mesma forma, dentro de um banco de dados, os mesmos dados podem ser inseridos duas vezes. Um cliente ou funcionários podem ter carregado informações duas vezes, seja por meio de várias pessoas importando um arquivo ou digitando os registros. Esse tipo de duplicação também pode acontecer quando diferentes departamentos criam o mesmo registro, como informações do cliente, em aplicativos locais ou em diferentes aplicativos com tipos de arquivo compatíveis. Isso significa que você pode ter cópias redundantes em diferentes versões de backup, que podem ser duplicadas.

Quanto mais orientada por dados uma organização é, mais duplicação pode ser um problema. O Big data pode levar a grandes custos de armazenamento em excesso. A automação também pode criar duplicatas. Nesse caso, um processo de backup automatizado pode criar arquivos duplicados com a intenção de redundância. No entanto, surgem problemas quando o mesmo arquivo é submetido a backup várias vezes. Níveis desnecessários de redundância levam ao uso ineficiente do armazenamento.

Menos comumente, eventos inesperados levam à duplicação de dados. Se ocorrer uma queda de energia ou um desastre natural durante um processo de backup, por exemplo, o backup pode ser redefinido, reiniciando o processo após alguns arquivos já terem sido gravados. Falhas de hardware podem criar problemas semelhantes, levando a uma duplicação não planejada durante um processo de backup ou arquivamento.

Tipos de Duplicação de Dados e Suas Implicações

Dados duplicados não são necessariamente uma coisa ruim. As equipes de TI precisam entender se a duplicação foi intencional, quantos recursos são usados para armazenar duplicatas e qual é o custo do status quo. Um arquivo de terceira geração intencional que contém ponteiros para duplicatas totalmente clonadas em um arquivo de segunda geração é uma circunstância completamente diferente de várias instâncias salvas do mesmo arquivo PowerPoint gigante em uma unidade compartilhada.

A seguir estão os tipos mais comuns de duplicação de dados e como eles podem afetar sua organização.

  • Duplicação superficial: A duplicação superficial cria um novo objeto quando os dados são copiados, mas em vez de clonar completamente os dados, o objeto armazena um ponteiro de referência para o objeto original. Embora isso ocupe muito menos espaço de armazenamento, as consultas precisarão passar por uma etapa adicional para obter os dados de origem. Além disso, a duplicata é, em essência, sincronizada com o original, de modo que qualquer alteração no original refletirá sobre a duplicata. Isso pode causar problemas se a duplicação for destinada a capturar um estado específico em vez de atuar como uma duplicata dinâmica.

  • Duplicação Profunda: Com a duplicação profunda, um novo objeto é criado como um clone completo e inalterado dos dados. O novo objeto requer a mesma quantidade de espaço de armazenamento que o original, o que significa que a duplicação profunda consome mais armazenamento do que a duplicação superficial. Apesar dessa desvantagem, a duplicação profunda tem a vantagem de oferecer redundância independente - se algo acontecer com o arquivo de origem, intencionalmente ou acidentalmente, a duplicação profunda ajuda a garantir um backup limpo capaz de recuperação de desastres.
  • Fragmentação de Dados: A fragmentação de dados refere-se ao processo de armazenamento de segmentos de um arquivo de dados em diferentes locais. Embora isso possa tornar o armazenamento mais eficiente gravando segmentos com base na frequência ou capacidade de acesso, a consulta do arquivo geralmente requer maior tempo e recursos de processamento porque o sistema deve procurar segmentos e compilar o arquivo completo. Para fins de recuperação, a fragmentação pode levar a problemas. Por exemplo, falhas mecânicas ou de conectividade podem levar a uma duplicação incompleta. Ou falhas baseadas em localização podem danificar apenas alguns fragmentos, corrompendo um processo de backup ou arquivamento.
  • Replicação Lógica: A replicação lógica é semelhante à duplicação superficial, pois usa referências para um processo de duplicação mais eficiente. Ao manter sistemas de backup, a replicação lógica trata a consistência como um modelo de editor/assinante, sendo o editor a origem e o assinante o destino de um volume de dados específico, geralmente identificado por um endereço. Quando o editor faz uma atualização de origem dentro de um intervalo de endereços especificado, os dados do assinante são atualizados para permanecerem sincronizados. Atualizações fora do intervalo inscrito são ignoradas para maximizar a eficiência.
  • Replicação Física: A replicação física é uma forma de replicação de banco de dados que copia dados em um processo metódico, byte a byte. Ao contrário da replicação lógica, este é um modelo mais lento, mas mais abrangente e com mais recursos, que também cria mais versões duplicadas.

Os custos da duplicação de dados

Dados duplicados criam um efeito cascata de encargos adicionais em hardware, largura de banda, manutenção e gerenciamento de dados, os quais somam uma montanha de custos desnecessários. Em alguns casos, os problemas são menores, mas nos piores cenários, os resultados podem ser desastrosos. Considere algumas das seguintes maneiras pelas quais a duplicação de dados prejudica os esforços da ciência de dados.

Espaço de armazenamento. Este é o custo mais direto da duplicação de dados. As cópias redundantes consomem uma capacidade valiosa em discos rígidos, servidores e armazenamento em nuvem locais, levando a custos mais altos. Imagine um departamento com 10 terabytes de dados e 10% é duplicado. Esse é um terabyte de armazenamento desperdiçado, o que pode se traduzir em custos significativos, especialmente se estiver no armazenamento primário baseado em nuvem versus armazenamento de arquivamento.

Ferramentas de eliminação de duplicidades de dados. Outro custo difícil, as ferramentas de desduplicação podem limpar duplicatas de volumes de armazenamento. Esses serviços e ferramentas geralmente se baseiam no volume por registro. Assim, quanto mais a deduplicar, maior o custo.

Dados corrompidos. Registros duplicados podem introduzir erros na análise de dados e nas visualizações, criando métricas imprecisas. Por exemplo, digamos que um novo cliente tenha sido inserido duas vezes em um banco de dados de vendas com nomes ligeiramente diferentes ou que dois administradores insiram o mesmo pedido de compra.

Cada um dos elementos acima também requer um trabalho de pessoal dispendioso. Os volumes de armazenamento devem ser mantidos. Alguém precisa avaliar, comprar e executar sistemas de desduplicação. Dados distorcidos exigem a remoção de registros e a limpeza de bancos de dados. Se dados incorretos forem propagados para outros relatórios ou comunicações, todo o trabalho subsequente deverá ser rastreado e desfeito, depois reparado.

Problemas Causados pela Duplicação de Dados

Arquivos e registros de banco de dados duplicados involuntariamente podem causar problemas em toda a organização quando deixados desmarcados. A seguir estão alguns dos problemas mais comuns que surgem com a duplicação de dados.

  • Problemas de Qualidade de Dados: Os dados são considerados de alta qualidade quando atendem aos critérios da organização para precisão, integridade, pontualidade e finalidade. Quando dados duplicados proliferam, cada um desses fatores pode ser comprometido, e os relatórios ou análises gerados serão menos precisos. Quanto mais longas as duplicações permanecerem, mais a qualidade geral dos dados da organização se degradará, criando problemas com qualquer tipo de análise, sejam revisões retroativas ou projeções prospectivas.
  • Diminuição da Eficiência da Equipe: quanto tempo é gasto procurando e corrigindo dados duplicados? Quando uma organização permite que dados duplicados se acumulem, os colaboradores perdem horas, dias e possivelmente semanas entre relatórios e registros de verificação dupla ou tripla e desfazendo ou corrigindo problemas. As correções necessárias podem incluir
    • Atualizando registros
    • Rastreando quantas versões do mesmo arquivo existem em um servidor compartilhado
    • Verificar como as estatísticas de um relatório podem ser distorcidas por informações duplicadas
    • Rastreando quem visualizou um relatório com dados incorretos
  • Dificuldade em gerar relatórios e análises precisos: quão bons são os insights que os tomadores de decisão extraem de seus relatórios e análise de dados? Com dados duplicados, ou mesmo dados de baixa qualidade, seus relatórios podem estar direcionando a empresa na direção errada. As organizações com problemas conhecidos de dados duplicados devem lidar com o aumento do trabalho de contornar isso, seja por meio de limpeza adicional de dados pré-relatórios ou compensando falhas de dados conhecidas.
  • Falha ao Atender aos Requisitos Regulatórios: Dados duplicados podem dificultar o cumprimento das diretrizes regulatórias, o que geralmente enfatiza a necessidade de gerenciamento abrangente de dados. Os órgãos reguladores podem exigir que as organizações enviem relatórios sobre seus dados financeiros, por exemplo, e dados duplicados podem levar a informações imprecisas ou inconsistentes nesses relatórios, potencialmente resultando em multas ou penalidades. Os requisitos regulatórios geralmente exigem práticas fortes de segurança de dados e a capacidade de identificar e relatar violações prontamente. É difícil fazer isso se dados confidenciais, como cartões de crédito de clientes, forem armazenados em vários locais. Finalmente, regulamentos como o Regulamento Geral de Proteção de Dados e a Lei de Privacidade do Consumidor da Califórnia concedem aos indivíduos o direito de acessar, corrigir ou excluir seus dados pessoais. Registros duplicados podem dificultar a localização de todos os dados relevantes associados a um indivíduo específico, dificultando a conformidade.
  • Custos de estoque aumentados: dados duplicados podem levar a um aumento nos custos de estoque à medida que as organizações se esforçam para reabastecer o estoque para resolver a escassez causada por dados imprecisos ou lidar com o excesso de estoque gerado por registros duplicados. Sem dados limpos, uma verdadeira operação enxuta se torna impossível.
  • Decisões de Negócios Insatisfatórias: As organizações podem prosperar quando tomam decisões baseadas em dados. No entanto, quando esses dados são corrompidos por duplicatas, as decisões são tomadas sob falsos pretextos. O resultado pode incluir um soluço menor que pode ser negligenciado, uma corrida para fazer uma correção ou uma decisão catastrófica tomada tarde demais.
  • Serviço de Atendimento ao Cliente Insatisfatório: quando um cliente interage com sua empresa, ter informações espalhadas por vários registros duplicados torna mais difícil para que os agentes de serviço obtenham uma visão abrangente de seu histórico. Seu agente pode estar perdendo detalhes cruciais sobre as compras anteriores de um cliente, tíquetes de suporte ou histórico de comunicação. Isso prejudica sua capacidade de fornecer um serviço personalizado e eficiente, e afeta a percepção da marca quando um cliente valorizado se pergunta: "Por que o agente não sabia da minha história?"
  • Visibilidade Reduzida: A visibilidade da rede refere-se ao conceito de organizações que sabem sobre todo o tráfego e dados que residem ou atravessam suas redes. Os dados duplicados afetam esse esforço em vários níveis, incluindo os seguintes exemplos:
    • Criando logs de dados imprecisos
    • Aumentar os processos de backup/arquivamento e consumir armazenamento em excesso
    • Desviar o desempenho da rede e as métricas de transmissão
    • Desperdiçando recursos de processamento e largura de banda

Estratégias para evitar a duplicação de dados

Com unidades compartilhadas, dispositivos Internet of Things, dados públicos e de parceiros importados, armazenamento em nuvem em camadas, replicação mais robusta e recuperação de desastres, e uma infinidade de outras fontes, as organizações mantêm mais dados do que nunca. Isso leva a mais oportunidades de duplicação, o que significa que as organizações devem priorizar estratégias para minimizar a criação de dados duplicados e eliminá-los quando eles se propagam.

Algumas das estratégias mais comuns a serem alcançadas são as seguintes:

  • Impor Regras de Validação de Dados: Ao importar dados para um repositório, como um data lake ou data warehouse, aproveite a oportunidade para limpar e validar esses dados. A execução da validação de dados no estágio de ingestão limita a aceitação de qualquer dado duplicado criado na origem. Os departamentos de TI devem configurar um processo para criar e impor regras para identificar e eliminar dados duplicados como parte de seu fluxo de trabalho de ingestão.
  • Estabelecer um Identificador Exclusivo: Os bancos de dados podem aplicar identificadores exclusivos a registros para ajudar a garantir que as versões duplicadas não sejam geradas. No caso de uma conta de cliente, por exemplo, o identificador exclusivo pode ser um novo campo para um número de identificação de cliente ou número de conta. O número da conta pode ser usado quando as equipes de vendas e marketing trabalham com o cliente, evitando que a oportunidade crie acidentalmente outro registro usando o mesmo nome do cliente.
  • Executar Auditorias Regulares: O uso de uma ferramenta de desduplicação em uma cadência regular é uma parte inteligente de uma estratégia eficaz de manutenção de TI. Embora a eficácia do processo de deduplicação varie com base nas circunstâncias, a frequência regular do processo ajuda a garantir que as duplicatas sejam sempre capturadas e reduzidas ao mínimo.
  • Usar Bibliotecas de Código e Estruturas Reutilizáveis: Para o desenvolvimento de aplicações, os desenvolvedores podem implementar bibliotecas de código e estruturas reutilizáveis para agilizar seu próprio trabalho, ajudando a reduzir o código duplicado. Esta iniciativa cria um repositório de funções e outros elementos reutilizáveis, ajudando a garantir que os desenvolvedores usem ativos modulares sem gerar código duplicado ou trabalho redundante.
  • Utilizar Restrições do Banco de Dados: Os gerenciadores de banco de dados podem estabelecer restrições para evitar registros duplicados em determinados campos. Por exemplo, em um banco de dados com registros de clientes, o sistema pode usar uma restrição exclusiva no campo de nome do cliente, o que ajuda a garantir que todos os nomes de clientes sejam exclusivos e, assim, minimiza a chance de alguém criar acidentalmente um registro duplicado que possa distorcer os dados de vendas.

Benefícios da Eliminação da Duplicação de Dados

À medida que as organizações se tornam mais orientadas por dados, a eliminação de dados duplicados se torna cada vez mais necessária e benéfica. Tomar medidas proativas para minimizar a redundância pode otimizar a infraestrutura de armazenamento, melhorar a eficiência do gerenciamento de dados, melhorar a conformidade e liberar dinheiro e recursos da equipe para outras prioridades.

Veja a seguir alguns dos benefícios mais comuns da desduplicação de dados:

  • Custos de Armazenamento Reduzidos: Quando você elimina dados duplicados, pode reduzir a quantidade de armazenamento que a empresa precisa pagar na nuvem e eliminar a necessidade de comprar novos hardwares para data centers próprios. Isso cria dois tipos de economia de custos. Em um nível direto, as organizações podem retardar seus ciclos de compra. Indiretamente, porém, o uso de menos armazenamento de dados permite que as equipes de TI monitorem e mantenham com mais eficiência o estado de seus recursos, economizando na manutenção geral e nas despesas gerais.
  • Melhor Precisão de Dados: Dados duplicados criam uma variedade de problemas de precisão. Registros de banco de dados duplicados para clientes podem levar a dois departamentos diferentes atualizando o mesmo registro, gerando confusão. Da mesma forma, a precisão dos relatórios de análise se torna distorcida por dados redundantes.
  • Experiência Geral Aprimorada do Cliente: quando uma empresa tem dados precisos, completos e limpos sobre sua clientela, o resultado geralmente é maior satisfação do cliente e melhor percepção da marca, bem como aumento das vendas. Ao evitar ter históricos de compras atribuídos a diferentes registros sobrepostos, você aumenta a precisão dos mecanismos de recomendação e os esforços de marketing de acompanhamento.
  • Maior Produtividade dos Funcionários: Outra consequência de dados imprecisos pode ser a diminuição da produtividade dos funcionários. Talvez trabalhadores de diferentes departamentos percam tempo tentando rastrear a fonte de imprecisão em seus relatórios, ou há sobrecarga adicional necessária para os esforços de manutenção e limpeza de dados. De qualquer forma, dados imprecisos significam mais dificuldades para obter informações corretas, o que pode afetar a programação, a comunicação, o fluxo de trabalho e, por fim, o orçamento.
  • Acesso mais fácil aos dados e melhor compartilhamento de informações entre departamentos ou equipes: os esforços de desduplicação de dados podem melhorar significativamente o compartilhamento de informações entre departamentos ou equipes de uma organização. Um benefício é quebrar os temidos silos de dados que assolam sistemas e aplicações departamentais. A desduplicação ajuda a consolidar informações em uma única fonte de dados, facilitando o acesso e o compartilhamento de informações precisas e consistentes por diferentes equipes. E, com menos cópias redundantes e armazenamento otimizado, é mais fácil para as equipes encontrarem as informações de que precisam. Eles não precisam perder tempo pesquisando em vários locais ou versões de dados potencialmente desatualizados.
  • Melhor tomada de decisão com base em dados precisos e atualizados: As decisões orientadas por dados só funcionam quando os dados são precisos. Ao melhorar a precisão dos dados por meio da eliminação de dados duplicados, as organizações podem tomar melhores decisões e, de uma perspectiva mais ampla, a confiança nesses dados cresce, levando a melhorias gerais de eficiência.
  • Backups e Restaurações Mais Rápidos de Bancos de Dados: O processo de desduplicação ajuda a reduzir o volume geral de dados usados na mídia de armazenamento. Isso significa que os backups e arquivos ocupam menos espaço, o que leva a um backup, movimentação e restauração mais rápidos dos dados. As transferências levam menos tempo graças a volumes menores e também processam mais rapidamente e consomem menos recursos de computação.

Mantenha seus Dados em Alta Forma com a Oracle HeatWave

A melhor maneira de minimizar problemas de duplicação de dados é evitar que eles ocorram. O Oracle HeatWave combina processamento de transações on-line, análise em tempo real em data warehouses e data lakes, machine learning (ML) e IA generativa em um único serviço de nuvem. Os clientes podem se beneficiar de várias maneiras.

  • Não há necessidade de duplicar dados transacionais no banco de dados para um banco de dados de análise separado para análise.
  • As equipes podem consultar dados facilmente no armazenamento de objetos, no MySQL Database ou em uma combinação de ambos sem recursos ou serviços adicionais.
  • Da mesma forma, não há necessidade de mover dados para um serviço de ML separado para criar modelos de ML.
  • Os clientes podem evitar a complexidade e os custos de usar diferentes serviços e extrair, transformar e carregar duplicação dispendiosa.
  • Os tomadores de decisão obtêm análises em tempo real, em vez de relatórios baseados em dados que podem estar desatualizados no momento em que estão disponíveis em um banco de dados de análise separado.
  • Os riscos de segurança de dados e conformidade regulatória diminuem, pois os dados não são transferidos entre os armazenamentos de dados.
  • Com o Oracle HeatWave GenAI, que inclui um armazenamento de vetores automatizado no banco de dados, os clientes podem aproveitar o poder de grandes modelos de linguagem com seus dados proprietários para obter respostas mais precisas e contextualmente relevantes do que usar modelos treinados apenas em dados públicos, sem duplicar dados em um banco de dados vetorial separado.

No geral, a desduplicação de dados quebra silos de informações, melhora a acessibilidade de dados e promove um ambiente colaborativo no qual as equipes podem aproveitar os insights de dados coletivos da organização para uma melhor tomada de decisões. Você pode evitar situações em que sua equipe de marketing usa um sistema de CRM com informações de contato do cliente, enquanto a equipe de vendas usa um sistema de gerenciamento de leads separado com dados semelhantes. Um programa para eliminar a duplicação pode consolidar essas informações, permitindo que ambas as equipes acessem uma visão unificada do cliente e colaborem de forma mais eficaz em campanhas de marketing e divulgação de vendas.

Dados e IA: um guia do CIO para o sucesso

Procurando aproveitar o potencial da IA? É tudo sobre sua infraestrutura de dados. Este guia abrangente equipa os CIOs com estratégias para alavancar dados e IA para impulsionar a tomada de decisões estratégicas, otimizar operações e obter uma vantagem competitiva.

Perguntas frequentes sobre duplicação de dados

Quais são algumas tendências futuras na duplicação de dados?

À medida que as capacidades tecnológicas evoluem, a TI ganhou uma maior capacidade de minimizar a quantidade de dados duplicados. Alguns exemplos desses avanços incluem o seguinte:

  • Ter a opção de executar a desduplicação na origem ou no destino
  • Desduplicação de dados em linha
  • Desduplicação global de dados em vez de apenas no armazenamento local
  • Deduplicação como parte do processo de validação e transformação com repositórios de dados
  • Deduplicação por bloco ou segmento em vez de apenas por arquivo

Como você monitora a duplicação de dados?

Diferentes estratégias estão disponíveis para monitorar e identificar dados duplicados. Isso inclui ferramentas como criação de perfil de dados, correspondência de dados e catalogação de dados. As ferramentas de limpeza de dados para fontes de dados de entrada podem oferecer algum nível de identificação, enquanto as ferramentas especializadas de eliminação de duplicidades de dados podem detectar e eliminar dados duplicados.

Quais são os desafios da duplicação de dados?

A duplicação de dados representa um desafio significativo para organizações de todos os tamanhos. O problema mais óbvio é o desperdício de espaço de armazenamento. As cópias duplicadas consomem uma capacidade valiosa em servidores, discos rígidos e armazenamento em nuvem, levando a custos mais altos. O gerenciamento de dados duplicados entre sistemas também é demorado para os trabalhadores de TI, que precisam identificar duplicatas, determinar a versão principal e, em seguida, excluir cópias redundantes. A duplicação excessiva de dados também pode retardar os sistemas, pois os arquivos duplicados espalhados pelos locais de armazenamento demoram mais para serem acessados e recuperados.

Há também inconsistência de dados, quando as atualizações não são aplicadas a todas as cópias. Isso pode levar a relatórios imprecisos, desperdício de esforço com base em informações desatualizadas e confusão quando diferentes equipes dependem de conjuntos de dados conflitantes. Dados duplicados podem dificultar o cumprimento de regulamentos que exigem práticas precisas de retenção e exclusão de dados e, do ponto de vista da segurança, quanto mais dados você tiver, maior será a sua superfície de ataque.

Há benefícios em ter dados duplicados?

Dados intencionalmente duplicados, como backups e arquivos, vêm com muitos benefícios para funções relacionadas à continuidade dos negócios e à recuperação de desastres. Para usar dados duplicados com sucesso, as organizações devem empregar uma abordagem estratégica que ajude a garantir que as duplicatas sejam mantidas em uma quantidade específica e limitada, evitando assim o uso excessivo de recursos e outros problemas.