Michael Chen | Estrategia de contenido | 4 de septiembre de 2024
La duplicación de datos es un concepto simple: es la idea de que cualquier parte de los datos tiene uno o más duplicados exactos en algún lugar de la infraestructura de una organización. Puede ser un registro en una base de datos, un archivo en un volumen de almacenamiento o una imagen de máquina virtual. Por sí sola, la duplicación puede parecer benigna, incluso beneficiosa. ¿A quién no le gusta una copia extra? Pero cuando se amplía a escala empresarial, el alcance del problema se vuelve claro. Con casi todos los dispositivos modernos produciendo constantemente datos, copias de seguridad y archivos programados y ejecutados regularmente, y archivos compartidos en muchas plataformas, la duplicación de datos ha pasado de ser una molestia a un costo masivo y una carga tecnológica. La resolución del problema comienza por comprender cómo y por qué se produce la duplicación de datos.
La duplicación de datos es el proceso de creación de una o más versiones idénticas de datos, ya sea intencionalmente, como para copias de seguridad planificadas, o involuntariamente. Es posible que existan duplicados como datos almacenados en archivos, imágenes de VM, bloques o registros en una base de datos u otros tipos de datos. Independientemente de la causa, la duplicación de datos desperdicia espacio de almacenamiento, y el costo aumenta junto con el tamaño de los almacenes de datos. También puede contribuir a problemas de gestión de datos. Por ejemplo, si todas las copias de un archivo no se actualizan simultáneamente, las inconsistencias pueden llevar a un análisis defectuoso.
La duplicación de datos está relacionada con la redundancia de datos o con varios registros para que actúen como redes de seguridad redundantes para las versiones principales de los datos. Lo opuesto a la duplicación de datos es la desduplicación de datos, que implica la eliminación de datos duplicados para liberar recursos y eliminar copias posiblemente obsoletas.
Conclusiones clave
Los datos duplicados no son necesariamente algo malo. La duplicación intencional de datos puede ofrecer ventajas significativas, como copias de seguridad de fácil acceso, un archivado completo y una recuperación ante desastres más eficaz. Sin embargo, obtener estas ventajas sin costos excesivos requiere una estrategia para realizar copias de seguridad y desduplicación regular y programada. Sin eso, los datos duplicados pueden, en el mejor de los casos, ocupar innecesariamente espacio de almacenamiento adicional y, en el peor de los casos, causar confusión entre los usuarios y sesgar el análisis de datos.
Aunque los términos "duplicación de datos" y "redundancia de datos" a menudo se utilizan indistintamente, hay una diferencia. Los datos duplicados no son necesariamente redundantes a propósito; a veces, un duplicado se hace descuidadamente o por error por un humano o una máquina. Sin embargo, desde una perspectiva de ingeniería, el concepto de redundancia es producir una red de seguridad en caso de un problema. Esto provoca la duplicación intencionada. La redundancia en sí misma es un principio de prácticas de ingeniería sólidas, aunque ciertamente es posible crear un exceso de redundancia. En ese caso, incluso si los conjuntos adicionales de duplicados se generan con finalidad, ofrecen un valor limitado por la cantidad de recursos que utilizan.
Los datos pueden ser duplicados de varias maneras por humanos y procesos automatizados. La mayoría de las personas han guardado varias versiones de un archivo con nombres ligeramente diferentes y, a menudo, cambios mínimos, a medida que un documento avanza por el proceso de revisión, piense en "salesreport_final.docx" frente a "salesreport_final_v2.docx", etc. Por lo general, no se eliminan una vez que el informe es definitivo. O bien, se puede enviar un archivo por correo electrónico en toda la organización, y dos personas diferentes guardan la misma versión en lugares separados en una unidad compartida. Un archivo .exe o multimedia de la aplicación se puede descargar varias veces y las instancias de VM se pueden guardar en varios lugares. Del mismo modo, dentro de una base de datos, los mismos datos se pueden introducir dos veces. Es posible que un cliente o empleados hayan cargado información dos veces, ya sea a través de varias personas que importan un archivo o escriben los registros. Ese tipo de duplicación también puede ocurrir cuando diferentes departamentos crean el mismo registro, como la información del cliente, en aplicaciones locales o diferentes aplicaciones con tipos de archivo compatibles. Esto significa que puede tener copias redundantes en diferentes versiones de copia de seguridad, que en sí mismas pueden ser duplicados.
Cuanto más basada en datos esté una organización, más duplicación puede ser un problema. El big data puede generar grandes costos a causa de un exceso de almacenamiento. La automatización también puede provocar duplicaciones. En este caso, un proceso de copia de seguridad automatizado puede crear archivos duplicados con la intención de redundancia. Sin embargo, surgen problemas cuando se realiza una copia de seguridad del mismo archivo varias veces. Los niveles innecesarios de redundancia conducen a un uso ineficiente del almacenamiento.
Con menos frecuencia, los eventos inesperados conducen a la duplicación de datos. Si se produce un corte de energía o un desastre natural durante un proceso de copia de seguridad, por ejemplo, la copia de seguridad se puede restablecer, reiniciando el proceso después de que algunos archivos ya se hayan escrito. Los fallos de hardware pueden crear problemas similares, lo que lleva a la duplicación no planificada durante un proceso de copia de seguridad o archivado.
Los datos duplicados no son necesariamente algo malo. Los equipos de TI deben comprender si se ha previsto la duplicación, cuántos recursos se utilizan para almacenar duplicados y cuán costoso es el statu quo. Un archivo intencional de tercera generación que contiene indicadores para duplicados totalmente clonados en un archivo de segunda generación es una circunstancia completamente diferente de varias instancias guardadas del mismo archivo PowerPoint gigante en una unidad compartida.
Los siguientes son los tipos más comunes de duplicados de datos y cómo pueden afectar a la organización.
Los datos duplicados crean un efecto dominó de cargas adicionales en hardware, ancho de banda, mantenimiento y gestión de datos, todo lo cual se suma a una montaña de costos innecesarios. En algunos casos, los problemas son menores, pero en el peor de los casos, los resultados pueden ser desastrosos. Considere algunas de las siguientes formas en que la duplicación de datos perjudica los esfuerzos de data science.
Espacio de almacenamiento. Este es el costo más directo de la duplicación de datos. Las copias redundantes consumen una valiosa capacidad en discos duros locales, servidores y almacenamiento en la nube, lo que genera mayores costos. Imagine un departamento con 10 terabytes de datos y el 10 % es duplicado. Se trata de un terabyte de almacenamiento desperdiciado, lo que podría traducirse en costos significativos, especialmente si se trata de almacenamiento primario basado en la nube en lugar de almacenamiento de archivo.
Herramientas de desduplicación de datos. Otro costo difícil, las herramientas de desduplicación pueden eliminar duplicados de los volúmenes de almacenamiento. Estos servicios y herramientas generalmente se basan en el volumen por registro. Por lo tanto, cuanto más se deduzca, mayor será el costo.
Datos sesgados. Los registros duplicados pueden introducir errores en el análisis y las visualizaciones de datos mediante la creación de métricas inexactas. Por ejemplo, supongamos que un nuevo cliente se ha introducido dos veces en una base de datos de ventas con nombres ligeramente diferentes o que dos administradores introducen el mismo pedido.
Cada uno de los elementos anteriores también requiere un trabajo costoso del personal. Se deben mantener los volúmenes de almacenamiento. Alguien necesita evaluar, comprar y ejecutar sistemas de desduplicación. Los datos sesgados requieren eliminar registros y limpiar bases de datos. Si los datos incorrectos se propagan a otros informes o comunicaciones, todo el trabajo posterior se debe revertir y deshacer, luego se debe reparar.
Los archivos y registros de base de datos duplicados involuntariamente pueden causar problemas en toda la organización cuando no se marcan. Los siguientes son algunos de los problemas más comunes que surgen con la duplicación de datos.
Con las unidades compartidas, los dispositivos de Internet of Things, los datos públicos y de socios importados, el almacenamiento en la nube por niveles, la replicación y la recuperación ante desastres más robustas y muchas otras fuentes, las organizaciones tienen más datos que nunca. Esto genera más oportunidades de duplicación, lo que significa que las organizaciones deben priorizar estrategias para minimizar la creación de datos duplicados y eliminarlos cuando se propaguen.
Algunas de las estrategias más comunes para lograr que son las siguientes:
A medida que las organizaciones se basan más en los datos, la eliminación de los datos duplicados se vuelve cada vez más necesaria y beneficiosa. Tomar medidas proactivas para minimizar la redundancia puede optimizar la infraestructura de almacenamiento, mejorar la eficiencia de la gestión de datos, mejorar el cumplimiento y liberar dinero y recursos de personal para otras prioridades.
A continuación, se detallan algunas de las ventajas más comunes de la desduplicación de datos:
La mejor manera de minimizar los problemas de duplicación de datos es evitarlos en primer lugar. Oracle HeatWave combina procesamiento de transacciones en línea, análisis en tiempo real en almacenes de datos y lagos de datos, aprendizaje automático (ML) e IA generativa en un solo servicio en la nube. Los clientes pueden beneficiarse de varias formas.
En general, la desduplicación de datos rompe los silos de información, mejora la accesibilidad de los datos y fomenta un entorno colaborativo en el que los equipos pueden aprovechar la información colectiva de datos de la organización para una mejor toma de decisiones. Puede evitar situaciones en las que su equipo de marketing utilice un sistema CRM con información de contacto del cliente, mientras que el equipo de ventas utilice un sistema de gestión de oportunidades potenciales independiente con datos similares. Un programa para eliminar la duplicación puede consolidar esta información, lo que permite a ambos equipos acceder a una vista unificada del cliente y colaborar de manera más eficaz en las campañas de marketing y el alcance de ventas.
¿Buscas aprovechar el potencial de la IA? Todo se trata de su infraestructura de datos. Esta guía completa proporciona a los CIO estrategias para aprovechar los datos y la IA para impulsar la toma de decisiones estratégicas, optimizar las operaciones y obtener una ventaja competitiva.
¿Cuáles son algunas tendencias futuras en la duplicación de datos?
A medida que las capacidades tecnológicas evolucionan, TI ha ganado una mayor capacidad para minimizar la cantidad de datos duplicados. Algunos ejemplos de estos avances son los siguientes:
¿Cómo se supervisa la duplicación de datos?
Existen diferentes estrategias disponibles para supervisar e identificar datos duplicados. Entre ellas se incluyen herramientas como la creación de perfiles de datos, la coincidencia de datos y la catálogo de datos. Las herramientas de limpieza de datos para orígenes de datos entrantes pueden ofrecer cierto nivel de identificación, mientras que las herramientas especializadas de desduplicación de datos pueden detectar y eliminar datos duplicados.
¿Cuáles son los desafíos de la duplicación de datos?
La duplicación de datos plantea un desafío importante para las organizaciones de todos los tamaños. El problema más evidente es el desperdicio de espacio de almacenamiento. Las copias duplicadas consumen una valiosa capacidad en servidores, discos duros y almacenamiento en la nube, lo que genera mayores costos. La gestión de datos duplicados en los sistemas también requiere mucho tiempo para los trabajadores de TI, que necesitan identificar duplicados, determinar la versión principal y, a continuación, eliminar copias redundantes. La duplicación excesiva de datos también puede ralentizar los sistemas, ya que los archivos duplicados dispersos en las ubicaciones de almacenamiento tardan más en acceder y recuperar.
También hay incoherencia de datos, cuando las actualizaciones no se aplican a todas las copias. Esto puede llevar a informes inexactos, esfuerzos desperdiciados basados en información obsoleta y confusión cuando diferentes equipos confían en conjuntos de datos conflictivos. Los datos duplicados pueden dificultar el cumplimiento de las regulaciones que requieren prácticas precisas de retención y eliminación de datos, y desde una perspectiva de seguridad, cuantos más datos tenga, mayor será su superficie de ataque.
¿Hay alguna ventaja de tener datos duplicados?
Los datos duplicados intencionalmente, como las copias de seguridad y los archivos, ofrecen numerosas ventajas para las funciones relacionadas con la continuidad del negocio y la recuperación ante desastres. Para utilizar con éxito datos duplicados, las organizaciones deben emplear un enfoque estratégico que ayude a garantizar que los duplicados se mantengan en una cantidad específica y limitada, evitando así el uso excesivo de recursos y otros problemas.
