Implicaciones y soluciones de duplicación de datos

Michael Chen | Estrategia de contenido | 4 de septiembre de 2024

La duplicación de datos es un concepto simple: es la idea de que cualquier parte de los datos tiene uno o más duplicados exactos en algún lugar de la infraestructura de una organización. Puede ser un registro en una base de datos, un archivo en un volumen de almacenamiento o una imagen de máquina virtual. Por sí sola, la duplicación puede parecer benigna, incluso beneficiosa. ¿A quién no le gusta una copia extra? Pero cuando se amplía a escala empresarial, el alcance del problema se vuelve claro. Con casi todos los dispositivos modernos produciendo constantemente datos, copias de seguridad y archivos programados y ejecutados regularmente, y archivos compartidos en muchas plataformas, la duplicación de datos ha pasado de ser una molestia a un costo masivo y una carga tecnológica. La resolución del problema comienza por comprender cómo y por qué se produce la duplicación de datos.

¿Qué es la duplicación de datos?

La duplicación de datos es el proceso de creación de una o más versiones idénticas de datos, ya sea intencionalmente, como para copias de seguridad planificadas, o involuntariamente. Es posible que existan duplicados como datos almacenados en archivos, imágenes de VM, bloques o registros en una base de datos u otros tipos de datos. Independientemente de la causa, la duplicación de datos desperdicia espacio de almacenamiento, y el costo aumenta junto con el tamaño de los almacenes de datos. También puede contribuir a problemas de gestión de datos. Por ejemplo, si todas las copias de un archivo no se actualizan simultáneamente, las inconsistencias pueden llevar a un análisis defectuoso.

La duplicación de datos está relacionada con la redundancia de datos o con varios registros para que actúen como redes de seguridad redundantes para las versiones principales de los datos. Lo opuesto a la duplicación de datos es la desduplicación de datos, que implica la eliminación de datos duplicados para liberar recursos y eliminar copias posiblemente obsoletas.

Conclusiones clave

  • Los datos duplicados hacen referencia a copias exactas de archivos o registros de base de datos dentro de una red. A menudo resulta de la falta de comunicación, de procesos obsoletos y de no adherirse a las mejores prácticas para compartir archivos.
  • Los datos duplicados pueden consumir recursos innecesariamente, como espacio de almacenamiento y potencia de procesamiento.
  • Los datos duplicados también pueden sesgar los resultados del análisis, como proporcionar los mismos registros de ventas dos veces.
  • Las organizaciones crean datos duplicados de forma intencional, como copias de seguridad y archivos, y de forma involuntaria a través de varias descargas, errores de copia/pegado o entrada de datos duplicados.
  • Tratar con datos duplicados en todos sus formularios crea una carga de costos significativa, tanto directamente mediante el uso de recursos como indirectamente si el personal debe corregir errores en facturas y órdenes de compra o tomar otras acciones basadas en datos duplicados.

Duplicación de datos: explicación

Los datos duplicados no son necesariamente algo malo. La duplicación intencional de datos puede ofrecer ventajas significativas, como copias de seguridad de fácil acceso, un archivado completo y una recuperación ante desastres más eficaz. Sin embargo, obtener estas ventajas sin costos excesivos requiere una estrategia para realizar copias de seguridad y desduplicación regular y programada. Sin eso, los datos duplicados pueden, en el mejor de los casos, ocupar innecesariamente espacio de almacenamiento adicional y, en el peor de los casos, causar confusión entre los usuarios y sesgar el análisis de datos.

Aunque los términos "duplicación de datos" y "redundancia de datos" a menudo se utilizan indistintamente, hay una diferencia. Los datos duplicados no son necesariamente redundantes a propósito; a veces, un duplicado se hace descuidadamente o por error por un humano o una máquina. Sin embargo, desde una perspectiva de ingeniería, el concepto de redundancia es producir una red de seguridad en caso de un problema. Esto provoca la duplicación intencionada. La redundancia en sí misma es un principio de prácticas de ingeniería sólidas, aunque ciertamente es posible crear un exceso de redundancia. En ese caso, incluso si los conjuntos adicionales de duplicados se generan con finalidad, ofrecen un valor limitado por la cantidad de recursos que utilizan.

¿Por qué ocurre la duplicación de datos?

Los datos pueden ser duplicados de varias maneras por humanos y procesos automatizados. La mayoría de las personas han guardado varias versiones de un archivo con nombres ligeramente diferentes y, a menudo, cambios mínimos, a medida que un documento avanza por el proceso de revisión, piense en "salesreport_final.docx" frente a "salesreport_final_v2.docx", etc. Por lo general, no se eliminan una vez que el informe es definitivo. O bien, se puede enviar un archivo por correo electrónico en toda la organización, y dos personas diferentes guardan la misma versión en lugares separados en una unidad compartida. Un archivo .exe o multimedia de la aplicación se puede descargar varias veces y las instancias de VM se pueden guardar en varios lugares. Del mismo modo, dentro de una base de datos, los mismos datos se pueden introducir dos veces. Es posible que un cliente o empleados hayan cargado información dos veces, ya sea a través de varias personas que importan un archivo o escriben los registros. Ese tipo de duplicación también puede ocurrir cuando diferentes departamentos crean el mismo registro, como la información del cliente, en aplicaciones locales o diferentes aplicaciones con tipos de archivo compatibles. Esto significa que puede tener copias redundantes en diferentes versiones de copia de seguridad, que en sí mismas pueden ser duplicados.

Cuanto más basada en datos esté una organización, más duplicación puede ser un problema. El big data puede generar grandes costos a causa de un exceso de almacenamiento. La automatización también puede provocar duplicaciones. En este caso, un proceso de copia de seguridad automatizado puede crear archivos duplicados con la intención de redundancia. Sin embargo, surgen problemas cuando se realiza una copia de seguridad del mismo archivo varias veces. Los niveles innecesarios de redundancia conducen a un uso ineficiente del almacenamiento.

Con menos frecuencia, los eventos inesperados conducen a la duplicación de datos. Si se produce un corte de energía o un desastre natural durante un proceso de copia de seguridad, por ejemplo, la copia de seguridad se puede restablecer, reiniciando el proceso después de que algunos archivos ya se hayan escrito. Los fallos de hardware pueden crear problemas similares, lo que lleva a la duplicación no planificada durante un proceso de copia de seguridad o archivado.

Tipos de duplicación de datos y sus implicaciones

Los datos duplicados no son necesariamente algo malo. Los equipos de TI deben comprender si se ha previsto la duplicación, cuántos recursos se utilizan para almacenar duplicados y cuán costoso es el statu quo. Un archivo intencional de tercera generación que contiene indicadores para duplicados totalmente clonados en un archivo de segunda generación es una circunstancia completamente diferente de varias instancias guardadas del mismo archivo PowerPoint gigante en una unidad compartida.

Los siguientes son los tipos más comunes de duplicados de datos y cómo pueden afectar a la organización.

  • Duplicación superficial: la duplicación superficial crea un nuevo objeto cuando se copian los datos, pero en lugar de clonarlos por completo, el objeto aloja un puntero de referencia al objeto original. Si bien esto ocupa mucho menos espacio de almacenamiento, las consultas tendrán que ir un paso adicional para obtener los datos de origen. Además, el duplicado se sincroniza, en esencia, con el original, por lo que cualquier cambio en el original se reflejará en el duplicado. Esto puede causar problemas si el duplicado está destinado a capturar un estado específico en lugar de actuar como un duplicado dinámico.

  • Duplicación profunda: con la duplicación profunda, se crea un nuevo objeto como un clon de datos completo y sin modificar. El nuevo objeto requiere la misma cantidad de espacio de almacenamiento que el original, lo que significa que la duplicación profunda consume más almacenamiento que la duplicación superficial. A pesar de este inconveniente, la duplicación profunda tiene la ventaja de ofrecer redundancia independiente: si algo le sucede al archivo de origen, ya sea intencionalmente o accidentalmente, la duplicación profunda ayuda a garantizar una copia de seguridad limpia capaz de recuperación ante desastres.
  • Fragmentación de datos: la fragmentación de datos hace referencia al proceso de almacenamiento de segmentos de un archivo de datos en diferentes ubicaciones. Aunque esto puede hacer que el almacenamiento sea más eficiente escribiendo segmentos en función de la frecuencia de acceso o la capacidad, la consulta del archivo generalmente requiere un mayor tiempo de procesamiento y recursos, ya que el sistema debe buscar segmentos y compilar el archivo completo. Para fines de recuperación, la fragmentación puede dar lugar a problemas. Por ejemplo, los fallos mecánicos o de conectividad pueden provocar una duplicación incompleta. O los fallos basados en la ubicación pueden dañar solo algunos fragmentos, lo que daña un proceso de copia de seguridad o archivo.
  • Replicación lógica: la replicación lógica es similar a la duplicación superficial, ya que utiliza referencias para un proceso de duplicación más eficaz. Al mantener los sistemas de copia de seguridad, la replicación lógica trata la consistencia como un modelo de editor/suscriptor, siendo el editor el origen y el suscriptor el destino de un volumen de datos específico, generalmente identificado por una dirección. Cuando el editor realiza una actualización de origen dentro de un rango de direcciones especificado, los datos del suscriptor se actualizan para permanecer sincronizados. Las actualizaciones fuera del rango suscrito se ignoran para maximizar la eficiencia.
  • Replicación física: la replicación física es una forma de replicación de base de datos que copia datos en un proceso metódico de byte a byte. A diferencia de la replicación lógica, se trata de un modelo más lento, pero más completo y con un uso intensivo de los recursos, que también crea versiones más duplicadas.

Los costos de la duplicación de datos

Los datos duplicados crean un efecto dominó de cargas adicionales en hardware, ancho de banda, mantenimiento y gestión de datos, todo lo cual se suma a una montaña de costos innecesarios. En algunos casos, los problemas son menores, pero en el peor de los casos, los resultados pueden ser desastrosos. Considere algunas de las siguientes formas en que la duplicación de datos perjudica los esfuerzos de data science.

Espacio de almacenamiento. Este es el costo más directo de la duplicación de datos. Las copias redundantes consumen una valiosa capacidad en discos duros locales, servidores y almacenamiento en la nube, lo que genera mayores costos. Imagine un departamento con 10 terabytes de datos y el 10 % es duplicado. Se trata de un terabyte de almacenamiento desperdiciado, lo que podría traducirse en costos significativos, especialmente si se trata de almacenamiento primario basado en la nube en lugar de almacenamiento de archivo.

Herramientas de desduplicación de datos. Otro costo difícil, las herramientas de desduplicación pueden eliminar duplicados de los volúmenes de almacenamiento. Estos servicios y herramientas generalmente se basan en el volumen por registro. Por lo tanto, cuanto más se deduzca, mayor será el costo.

Datos sesgados. Los registros duplicados pueden introducir errores en el análisis y las visualizaciones de datos mediante la creación de métricas inexactas. Por ejemplo, supongamos que un nuevo cliente se ha introducido dos veces en una base de datos de ventas con nombres ligeramente diferentes o que dos administradores introducen el mismo pedido.

Cada uno de los elementos anteriores también requiere un trabajo costoso del personal. Se deben mantener los volúmenes de almacenamiento. Alguien necesita evaluar, comprar y ejecutar sistemas de desduplicación. Los datos sesgados requieren eliminar registros y limpiar bases de datos. Si los datos incorrectos se propagan a otros informes o comunicaciones, todo el trabajo posterior se debe revertir y deshacer, luego se debe reparar.

Problemas causados por la duplicación de datos

Los archivos y registros de base de datos duplicados involuntariamente pueden causar problemas en toda la organización cuando no se marcan. Los siguientes son algunos de los problemas más comunes que surgen con la duplicación de datos.

  • Problemas de calidad de datos: los datos se consideran de alta calidad cuando cumplen con los criterios de precisión, integridad, puntualidad y finalidad de la organización. Cuando proliferan los datos duplicados, cada uno de esos factores puede verse comprometido, y los informes o análisis generados serán menos precisos. Cuanto más tiempo se permiten los duplicados, más se degrada la calidad general de los datos de la organización, creando problemas con cualquier tipo de análisis, ya sean revisiones retrospectivas o proyecciones prospectivas.
  • Reducción de la eficiencia del personal: ¿Cuánto tiempo se dedica a perseguir y corregir datos duplicados? Cuando una organización permite acumular datos duplicados, los trabajadores pierden horas, días y posiblemente semanas entre informes y registros de doble o triple comprobación, y deshacen o corrigen problemas. Las correcciones necesarias pueden incluir
    • Actualizando registros
    • Seguimiento de cuántas versiones del mismo archivo existen en un servidor compartido
    • Comprobación de cómo las estadísticas de un informe pueden estar sesgadas por información duplicada
    • Seguimiento de quién ha visto un informe con datos incorrectos
  • Dificultad para generar informes y análisis precisos: ¿cuán buenos son los insights que los responsables de la toma de decisiones obtienen de tus informes y análisis de datos? Con datos duplicados, o en realidad, cualquier dato de baja calidad, tus informes podrían estar dirigiendo a la empresa en la dirección equivocada. Las organizaciones con problemas de datos duplicados conocidos deben lidiar con el aumento de la mano de obra de trabajar a su alrededor, ya sea a través de la limpieza adicional de datos previa al informe o compensando las deficiencias de datos conocidas.
  • Fallo al cumplir los requisitos normativos: los datos duplicados pueden dificultar el cumplimiento de las directrices normativas, lo que a menudo hace hincapié en la necesidad de gestión integral de datos. Los organismos reguladores pueden exigir a las organizaciones que presenten informes sobre sus datos financieros, por ejemplo, y la duplicación de datos puede dar lugar a información inexacta o inconsistente en estos informes, lo que podría resultar en multas o sanciones. Los requisitos normativos a menudo exigen prácticas sólidas de seguridad de los datos y la capacidad de identificar y notificar infracciones con prontitud. Es difícil hacerlo si los datos confidenciales, como las tarjetas de crédito de los clientes, se almacenan en varios lugares. Finalmente, regulaciones como el Reglamento General de Protección de Datos y la Ley de Privacidad del Consumidor de California otorgan a las personas el derecho a acceder, corregir o eliminar sus datos personales. Los registros duplicados pueden dificultar la localización de todos los datos relevantes asociados a un individuo específico, lo que dificulta el cumplimiento.
  • Aumento de los costos de inventario: los datos duplicados pueden aumentar los costos de inventario, ya que las organizaciones se encuentran luchando para reabastecer el inventario para abordar la escasez causada por datos inexactos o lidiar con el exceso de stock generado por registros duplicados. Sin datos limpios, una verdadera operación lean se vuelve imposible.
  • Decisiones de negocio deficientes: las organizaciones pueden prosperar cuando toman decisiones basadas en datos. Sin embargo, cuando esos datos están dañados por duplicados, las decisiones se toman con falsas pretensiones. El resultado puede incluir un hipo menor que se puede pasar por alto, una lucha para hacer una solución, o una decisión catastrófica atrapada demasiado tarde.
  • Servicio al cliente deficiente: cuando un cliente interactúa con la compañía, tener información dispersa en varios registros duplicados dificulta que los agentes de servicio obtengan una visión holística de su historial. Es posible que a su agente le falten detalles cruciales sobre las compras anteriores, los tickets de soporte o el historial de comunicaciones de un cliente. Eso perjudica su capacidad para proporcionar un servicio personalizado y eficiente, y afecta la percepción de la marca cuando un cliente valioso se pregunta: "¿Por qué el agente no conoció mi historia?"
  • Visibilidad reducida: la visibilidad de red hace referencia al concepto de organizaciones que conocen todo el tráfico y los datos que residen o atraviesan sus redes. Los datos duplicados afectan a este esfuerzo en varios niveles, incluidos los siguientes ejemplos:
    • Creación de logs de datos inexactos
    • Alargar los procesos de copia de seguridad/archivo y consumir un exceso de almacenamiento
    • Métricas de transmisión y rendimiento de red sesgadas
    • Uso ineficiente de recursos de procesamiento y ancho de banda

Estrategias para evitar la duplicación de datos

Con las unidades compartidas, los dispositivos de Internet of Things, los datos públicos y de socios importados, el almacenamiento en la nube por niveles, la replicación y la recuperación ante desastres más robustas y muchas otras fuentes, las organizaciones tienen más datos que nunca. Esto genera más oportunidades de duplicación, lo que significa que las organizaciones deben priorizar estrategias para minimizar la creación de datos duplicados y eliminarlos cuando se propaguen.

Algunas de las estrategias más comunes para lograr que son las siguientes:

  • Aplicar reglas de validación de datos: al importar datos a un repositorio, como un lago de datos o un almacén de datos, aproveche la oportunidad para limpiar y validar esos datos. La validación de datos en la etapa de ingesta limita la aceptación de cualquier dato duplicado creado en el origen. Los departamentos de TI deben configurar un proceso para crear y aplicar reglas que permitan identificar y eliminar datos duplicados como parte de su flujo de trabajo de ingestión.
  • Establecer un identificador único: las bases de datos pueden aplicar identificadores únicos a los registros para ayudar a garantizar que no se generen versiones duplicadas. En el caso de una cuenta de cliente, por ejemplo, el identificador único puede ser un nuevo campo para un número de identificación de cliente o número de cuenta. A continuación, el número de cuenta se puede usar cuando los equipos de ventas y marketing trabajan con el cliente, lo que evita que se pueda crear accidentalmente otro registro con el mismo nombre de cliente.
  • Realizar auditorías regulares: el uso de una herramienta de desduplicación en una cadencia regular es una parte inteligente de una estrategia de mantenimiento de TI efectiva. Aunque la eficacia del proceso de desduplicación variará cada vez en función de las circunstancias, la frecuencia regular del proceso ayuda a garantizar que los duplicados siempre se capturan y se mantienen al mínimo.
  • Utilizar bibliotecas y marcos de código reutilizables: para el desarrollo de aplicaciones, los desarrolladores pueden implantar bibliotecas y marcos de código reutilizables para simplificar su propio trabajo y, al mismo tiempo, ayudar a reducir el código duplicado. Esta iniciativa crea un repositorio de funciones y otros elementos reutilizables, lo que ayuda a garantizar que los desarrolladores utilicen activos modulares sin generar código duplicado ni trabajo redundante.
  • Utilizar restricciones de base de datos: los gestores de bases de datos pueden establecer restricciones para evitar registros duplicados en determinados campos. Por ejemplo, en una base de datos con registros de cliente, el sistema puede utilizar una restricción única en el campo de nombre de cliente, lo que ayuda a garantizar que todos los nombres de cliente sean únicos y, por lo tanto, minimiza la posibilidad de que alguien cree accidentalmente un registro duplicado que pueda sesgar los datos de ventas.

Ventajas de eliminar la duplicación de datos

A medida que las organizaciones se basan más en los datos, la eliminación de los datos duplicados se vuelve cada vez más necesaria y beneficiosa. Tomar medidas proactivas para minimizar la redundancia puede optimizar la infraestructura de almacenamiento, mejorar la eficiencia de la gestión de datos, mejorar el cumplimiento y liberar dinero y recursos de personal para otras prioridades.

A continuación, se detallan algunas de las ventajas más comunes de la desduplicación de datos:

  • Reducción de los costos de almacenamiento: al eliminar los datos duplicados, puede reducir la cantidad de almacenamiento que la empresa debe pagar en la nube y descartar la necesidad de comprar hardware nuevo para centros de datos propios. Esto crea dos tipos de ahorro de costos. A nivel directo, las organizaciones pueden ralentizar sus ciclos de compra. Sin embargo, de forma indirecta, el uso de menos almacenamiento de datos permite a los equipos de TI supervisar y mantener de manera más eficiente el estado de sus recursos, lo que ahorra en gastos generales y de mantenimiento.
  • Precisión de datos mejorada: los datos duplicados crean una variedad de problemas de precisión. Los registros de base de datos duplicados para los clientes pueden llevar a dos departamentos diferentes a actualizar el mismo registro, lo que genera confusión. Del mismo modo, la precisión de los informes de análisis se ve sesgada por datos redundantes.
  • Experiencia de cliente general mejorada: cuando una empresa tiene datos precisos, completos y limpios sobre su clientela, el resultado suele ser una mayor satisfacción del cliente y una mejor percepción de la marca, así como un aumento de las ventas. Al evitar que los historiales de compras se asignen a diferentes registros superpuestos, aumenta la precisión de los motores de recomendación y los esfuerzos de marketing de seguimiento.
  • Aumento de la productividad de los empleados: otra consecuencia de los datos inexactos puede ser la disminución de la productividad de los empleados. Tal vez los trabajadores de diferentes departamentos pierdan tiempo tratando de rastrear la fuente de inexactitud en sus informes, o se requieren gastos generales adicionales para los esfuerzos de mantenimiento y limpieza de datos. De cualquier manera, los datos inexactos significan más dificultades para obtener información correcta, lo que puede afectar la programación, la comunicación, el flujo de trabajo y, en última instancia, el presupuesto.
  • Más fácil acceso a los datos y un mejor intercambio de información entre departamentos o equipos: los esfuerzos de desduplicación de datos pueden mejorar significativamente el intercambio de información entre departamentos o equipos dentro de una organización. Una de las ventajas es descomponer los temidos silos de datos que afectan a los sistemas y aplicaciones departamentales. La desduplicación ayuda a consolidar la información en un único origen de datos, lo que facilita que diferentes equipos accedan y compartan información precisa y coherente. Y, con menos copias redundantes y almacenamiento optimizado, es más fácil para los equipos encontrar la información que necesitan. No tienen que perder tiempo buscando en múltiples ubicaciones o versiones de datos potencialmente obsoletos.
  • Mejor toma de decisiones basada en datos precisos y actualizados: las decisiones basadas en datos solo funcionan cuando los datos son precisos. Al mejorar la precisión de los datos mediante la eliminación de datos duplicados, las organizaciones pueden tomar mejores decisiones, y desde una perspectiva más amplia, la confianza en esos datos crece, lo que lleva a mejoras generales de eficiencia.
  • Copias de seguridad y restauraciones más rápidas de bases de datos: el proceso de desduplicación ayuda a reducir el volumen general de datos utilizados en los medios de almacenamiento. Esto significa que las copias de seguridad y los archivos tienen una huella general más pequeña, lo que conduce a una copia de seguridad, un movimiento y una restauración más rápidos de los datos. Las transferencias en ambas direcciones tardan menos tiempo gracias a volúmenes más pequeños y también procesan más rápido y consumen menos recursos informáticos.

Mantenga sus datos en la mejor forma con Oracle HeatWave

La mejor manera de minimizar los problemas de duplicación de datos es evitarlos en primer lugar. Oracle HeatWave combina procesamiento de transacciones en línea, análisis en tiempo real en almacenes de datos y lagos de datos, aprendizaje automático (ML) e IA generativa en un solo servicio en la nube. Los clientes pueden beneficiarse de varias formas.

  • No es necesario duplicar los datos transaccionales de la base de datos en una base de datos de análisis independiente para el análisis.
  • Los equipos pueden consultar fácilmente datos en Object Storage, MySQL Database o una combinación de ambos sin funciones o servicios adicionales.
  • Del mismo modo, no es necesario mover datos a un servicio de aprendizaje automático independiente para crear modelos de aprendizaje automático.
  • Los clientes pueden evitar la complejidad y los costos del uso de diferentes servicios y la costosa duplicación de la extracción, la transformación y la carga.
  • Los responsables de la toma de decisiones obtienen análisis en tiempo real, en lugar de informes basados en datos que pueden estar obsoletos cuando están disponibles en una base de datos de análisis independiente.
  • Los riesgos de seguridad de datos y cumplimiento normativo disminuyen, ya que los datos no se transfieren entre almacenes de datos.
  • Con Oracle HeatWave GenAI, que incluye un almacén de vectores automatizado en la base de datos, los clientes pueden aprovechar el poder de los grandes modelos de lenguaje con sus datos propietarios para obtener respuestas más precisas y contextualmente relevantes que el uso de modelos entrenados solo en datos públicos, sin duplicar datos en una base de datos vectorial independiente.

En general, la desduplicación de datos rompe los silos de información, mejora la accesibilidad de los datos y fomenta un entorno colaborativo en el que los equipos pueden aprovechar la información colectiva de datos de la organización para una mejor toma de decisiones. Puede evitar situaciones en las que su equipo de marketing utilice un sistema CRM con información de contacto del cliente, mientras que el equipo de ventas utilice un sistema de gestión de oportunidades potenciales independiente con datos similares. Un programa para eliminar la duplicación puede consolidar esta información, lo que permite a ambos equipos acceder a una vista unificada del cliente y colaborar de manera más eficaz en las campañas de marketing y el alcance de ventas.

Datos e IA: una guía para el éxito del CIO

¿Buscas aprovechar el potencial de la IA? Todo se trata de su infraestructura de datos. Esta guía completa proporciona a los CIO estrategias para aprovechar los datos y la IA para impulsar la toma de decisiones estratégicas, optimizar las operaciones y obtener una ventaja competitiva.

Preguntas frecuentes sobre la duplicación de datos

¿Cuáles son algunas tendencias futuras en la duplicación de datos?

A medida que las capacidades tecnológicas evolucionan, TI ha ganado una mayor capacidad para minimizar la cantidad de datos duplicados. Algunos ejemplos de estos avances son los siguientes:

  • Tener la opción de realizar la desduplicación en el origen o en el destino
  • Desduplicación de datos en línea
  • Desduplicación de datos global en lugar de solo en el almacenamiento local
  • Desduplicación como parte del proceso de validación y transformación con repositorios de datos
  • Desduplicación por bloque o segmento en lugar de solo por archivo

¿Cómo se supervisa la duplicación de datos?

Existen diferentes estrategias disponibles para supervisar e identificar datos duplicados. Entre ellas se incluyen herramientas como la creación de perfiles de datos, la coincidencia de datos y la catálogo de datos. Las herramientas de limpieza de datos para orígenes de datos entrantes pueden ofrecer cierto nivel de identificación, mientras que las herramientas especializadas de desduplicación de datos pueden detectar y eliminar datos duplicados.

¿Cuáles son los desafíos de la duplicación de datos?

La duplicación de datos plantea un desafío importante para las organizaciones de todos los tamaños. El problema más evidente es el desperdicio de espacio de almacenamiento. Las copias duplicadas consumen una valiosa capacidad en servidores, discos duros y almacenamiento en la nube, lo que genera mayores costos. La gestión de datos duplicados en los sistemas también requiere mucho tiempo para los trabajadores de TI, que necesitan identificar duplicados, determinar la versión principal y, a continuación, eliminar copias redundantes. La duplicación excesiva de datos también puede ralentizar los sistemas, ya que los archivos duplicados dispersos en las ubicaciones de almacenamiento tardan más en acceder y recuperar.

También hay incoherencia de datos, cuando las actualizaciones no se aplican a todas las copias. Esto puede llevar a informes inexactos, esfuerzos desperdiciados basados en información obsoleta y confusión cuando diferentes equipos confían en conjuntos de datos conflictivos. Los datos duplicados pueden dificultar el cumplimiento de las regulaciones que requieren prácticas precisas de retención y eliminación de datos, y desde una perspectiva de seguridad, cuantos más datos tenga, mayor será su superficie de ataque.

¿Hay alguna ventaja de tener datos duplicados?

Los datos duplicados intencionalmente, como las copias de seguridad y los archivos, ofrecen numerosas ventajas para las funciones relacionadas con la continuidad del negocio y la recuperación ante desastres. Para utilizar con éxito datos duplicados, las organizaciones deben emplear un enfoque estratégico que ayude a garantizar que los duplicados se mantengan en una cantidad específica y limitada, evitando así el uso excesivo de recursos y otros problemas.