Michael Chen | Estrategia de contenido | 4 de septiembre de 2024
La duplicación de datos es un concepto simple: es la idea de que cualquier parte de los datos tiene uno o más duplicados exactos en algún lugar de la infraestructura de una organización. Puede ser un registro en una base de datos, un archivo en un volumen de almacenamiento o una imagen de máquina virtual. Por sí sola, la duplicación puede parecer adecuada, incluso beneficiosa. ¿A quién no le gusta una copia extra? Pero cuando se amplía a escala empresarial, el alcance del problema se hace evidente. Con casi todos los dispositivos modernos produciendo constantemente datos, copias de seguridad y archivos programados y ejecutados regularmente, y archivos compartidos en múltiples plataformas, la duplicación de datos ha pasado de ser una molestia a un costo masivo y una carga tecnológica. La resolución del problema comienza por comprender cómo y por qué se produce la duplicación de datos.
La duplicación de datos es el proceso de creación de una o más versiones idénticas de datos, ya sea intencionalmente, como para copias de seguridad planificadas, o involuntariamente. Es posible que existan duplicados como datos almacenados en archivos, imágenes de VM, bloques o registros en una base de datos u otros tipos de datos. Independientemente de la causa, la duplicación de datos desperdicia espacio de almacenamiento, y el costo aumenta al ritmo del tamaño de los almacenes de datos. También puede contribuir a problemas de gestión de datos. Por ejemplo, si todas las copias de un archivo no se actualizan simultáneamente, las inconsistencias pueden provocar análisis defectuosos.
La duplicación de datos está relacionada con la redundancia de datos o con varios registros para que actúen como redes de seguridad redundantes para las versiones principales de los datos. Lo opuesto a la duplicación de datos es la deduplicación de datos, que implica la eliminación de datos duplicados para liberar recursos y eliminar copias posiblemente obsoletas.
Conclusiones clave
Los datos duplicados no son necesariamente algo malo. La duplicación intencional de datos puede ofrecer ventajas significativas, como copias de seguridad de fácil acceso, un archivado completo y una recuperación ante desastres más eficaz. Sin embargo, obtener estas ventajas sin costos excesivos requiere una estrategia para realizar copias de seguridad y deduplicación frecuente y programada. Sin eso, los datos duplicados pueden, en el mejor de los casos, ocupar innecesariamente espacio de almacenamiento adicional y, en el peor de los casos, causar confusión entre los usuarios y sesgar el análisis de datos.
Aunque los términos "duplicación de datos" y "redundancia de datos" a menudo se utilizan indistintamente, son términos distintos. Los datos duplicados no son necesariamente redundantes a propósito; a veces, un duplicado es el resultado de un descuido o error por parte de un humano o una máquina. Sin embargo, desde una perspectiva de ingeniería, el concepto de redundancia es producir una red de seguridad en caso de un problema. Esto provoca una duplicación intencionada. La redundancia en sí misma es un principio de prácticas de ingeniería sólidas, aunque ciertamente es posible crear un exceso de redundancia. En ese caso, incluso si los conjuntos adicionales de duplicados se generan con finalidad, ofrecen un valor limitado por la cantidad de recursos que utilizan.
Las personas y los procesos automatizados puede duplicar los datos de varias formas. La mayoría de las personas han guardado varias versiones de un archivo con nombres ligeramente diferentes y, a menudo, cambios mínimos, a medida que un documento pasa al proceso de revisión —por ejemplo, "salesreport_final.docx" frente a "salesreport_final_v2.docx", etc. Por lo general, estos no se eliminan cuando el informe es definitivo. O bien, se puede enviar un archivo por correo electrónico a todos los miembros de la organización, y dos personas guardan la misma versión en lugares distintos dentro de una unidad compartida. Un archivo .exe o multimedia de la aplicación se puede descargar varias veces y las instancias de VM se pueden guardar en varios lugares. Del mismo modo, dentro de una base de datos, los mismos datos se pueden introducir dos veces. Es posible que un cliente o diversos empleados hayan subido información dos veces, ya sea porque varias personas importan un archivo o porque escriben los registros. Ese tipo de duplicación también puede ocurrir cuando diferentes departamentos crean el mismo registro, como la información del cliente, en aplicaciones locales o diferentes aplicaciones con tipos de archivo compatibles. Esto significa que podrías tener copias redundantes en diferentes versiones de copia de seguridad, que en sí mismas pueden ser duplicados.
Cuanto más basada en datos esté una organización, más problemática puede ser la duplicación. El big data puede generar elevados costos por exceso de almacenamiento. La automatización también puede crear duplicados. En este caso, un proceso de copia de seguridad automatizado puede crear archivos duplicados intencionadamente para generar redundancias. Sin embargo, los problemas aparecen cuando se realiza una copia de seguridad del mismo archivo varias veces. Unos niveles innecesarios de redundancia conducen a un uso ineficiente del almacenamiento.
Con menos frecuencia, los eventos inesperados conducen a la duplicación de datos. Si se produce un corte de energía o un desastre natural durante un proceso de copia de seguridad, por ejemplo, la copia de seguridad se puede restablecer, reiniciando el proceso después de que algunos archivos ya se hayan escrito. Los fallos de hardware pueden crear problemas similares, lo que lleva a la duplicación no planificada durante un proceso de copia de seguridad o archivado.
Los datos duplicados no son necesariamente algo malo. Los equipos de TI deben comprender si se ha previsto la duplicación, cuántos recursos se utilizan para almacenar duplicados y cuán costoso es el statu quo. Un archivo intencional de tercera generación que contiene indicadores para duplicados totalmente clonados en un archivo de segunda generación es una circunstancia completamente diferente de varias instancias guardadas del mismo archivo PowerPoint gigante en una unidad compartida.
Los siguientes son los tipos más comunes de duplicados de datos y cómo pueden afectar a la organización.
Los datos duplicados crean un efecto dominó de cargas adicionales en hardware, ancho de banda, mantenimiento y gestión de datos, todo lo cual se suma a una montaña de costos innecesarios. En algunos casos, los problemas son menores, pero en el peor de los casos, los resultados pueden ser desastrosos. Considera algunas de las siguientes formas en que la duplicación de datos perjudica los esfuerzos de data science.
Espacio de almacenamiento. Este es el costo más directo de la duplicación de datos. Las copias redundantes consumen una valiosa capacidad en discos duros locales, servidores y almacenamiento en la nube, lo que genera mayores costos. Imagina un departamento con 10 terabytes de datos y el 10 % es duplicado. Se trata de un terabyte de almacenamiento desperdiciado, lo que podría traducirse en costos significativos, especialmente si se trata de almacenamiento primario basado en la nube en lugar de almacenamiento de archivos.
Herramientas de deduplicación de datos. Otro costo directo, las herramientas de deduplicación pueden eliminar duplicados de los volúmenes de almacenamiento. Estos servicios y herramientas generalmente se basan en el volumen por registro. Por lo tanto, cuanto más se deba deduplicar, mayor será el costo.
Datos sesgados. Los registros duplicados pueden introducir errores en el análisis y las visualizaciones de datos al generar métricas inexactas. Por ejemplo, supongamos que un nuevo cliente se ha introducido dos veces en una base de datos de ventas con nombres ligeramente diferentes o que dos administradores introducen el mismo pedido.
Cada uno de los elementos anteriores también requiere un trabajo costoso del personal. Se deben mantener los volúmenes de almacenamiento. Alguien necesita evaluar, comprar y ejecutar sistemas de deduplicación. Los datos sesgados requieren eliminar registros y limpiar bases de datos. Si los datos incorrectos se propagan a otros informes o comunicaciones, todo el trabajo posterior se debe revertir y deshacer, luego se debe reparar.
Los archivos y registros de base de datos duplicados involuntariamente pueden causar problemas en toda la organización cuando no se marcan. Los siguientes son algunos de los problemas más comunes que surgen con la duplicación de datos.
Con las unidades compartidas, los dispositivos del Internet de las cosas, los datos importados, tanto públicos como de partners , el almacenamiento en la nube por niveles, la replicación y la recuperación ante desastres más robustas y muchas otras fuentes, las organizaciones cuentan con más datos que nunca antes. Esto genera más oportunidades de duplicación, lo que significa que las organizaciones deben priorizar estrategias para minimizar la creación de datos duplicados y eliminarlos cuando se propaguen.
Estas son algunas de las estrategias más comunes para lograrlo:
A medida que las organizaciones se basan más en los datos, la eliminación de los datos duplicados se vuelve cada vez más necesaria y beneficiosa. Tomar medidas proactivas para minimizar la redundancia puede optimizar la infraestructura de almacenamiento, mejorar la eficiencia de la gestión de datos, fortalecer el cumplimiento y liberar dinero y recursos de personal para otras prioridades.
A continuación, se detallan algunas de las ventajas más comunes de la deduplicación de datos:
La mejor manera de minimizar los problemas de duplicación de datos es evitarlos en primer lugar. Oracle HeatWave combina procesamiento de transacciones en línea, análisis en tiempo real en almacenes de datos y data lakes, aprendizaje automático (ML) e IA generativa en un solo servicio en la nube. Los clientes pueden beneficiarse de varias formas.
En general, la deduplicación de datos elimina los silos de información, mejora la accesibilidad de los datos y fomenta un entorno colaborativo en el que los equipos pueden aprovechar los insights colectivos de la organización, basados en datos, para reforzar la toma de decisiones. Puedes evitar situaciones en las que tu equipo de marketing utilice un sistema CRM con información de contacto del cliente mientras el equipo de ventas utiliza un sistema de gestión de oportunidades potenciales independiente con datos similares. Un programa para eliminar la duplicación puede consolidar esta información, lo que permite a ambos equipos acceder a una vista unificada del cliente y colaborar de manera más eficaz en las campañas de marketing y el alcance de ventas.
¿Estás tratando de aprovechar todo el potencial de la IA? Todo depende de tu infraestructura de datos. Esta guía completa proporciona a los CIO estrategias para aprovechar los datos y la IA de cara a impulsar la toma de decisiones estratégicas, optimizar las operaciones y obtener una ventaja competitiva.
¿Qué tendencias de duplicación de datos veremos en el futuro?
Con la evolución de las capacidades tecnológicas, la TI ha ganado mayor capacidad para minimizar la cantidad de datos duplicados. A continuación incluimos algunos ejemplos de estos avances:
¿Cómo se supervisa la duplicación de datos?
Existen diferentes estrategias disponibles para supervisar e identificar datos duplicados. Entre ellas se incluyen herramientas como la creación de perfiles de datos, la coincidencia de datos y la catálogo de datos. Las herramientas de limpieza de datos para orígenes de datos entrantes pueden ofrecer cierto nivel de identificación, mientras que las herramientas especializadas de deduplicación de datos pueden detectar y eliminar datos duplicados.
¿Cuáles son los desafíos de la duplicación de datos?
La duplicación de datos plantea un desafío enorme para organizaciones de todos los tamaños. El problema más evidente es el desperdicio de espacio de almacenamiento. Las copias duplicadas consumen una valiosa capacidad en servidores, discos duros y almacenamiento en la nube, lo que genera mayores costos. La gestión de datos duplicados en los sistemas también requiere mucho tiempo para los trabajadores de TI, que necesitan identificar duplicados, determinar la versión principal y, a continuación, eliminar copias redundantes. La duplicación excesiva de datos también puede ralentizar los sistemas, ya que los archivos duplicados dispersos en las ubicaciones de almacenamiento tardan más en acceder y recuperar.
También hay incoherencia de datos, cuando las actualizaciones no se aplican a todas las copias. Esto puede generar informes inexactos, esfuerzos desperdiciados basados en información obsoleta y confusión cuando diferentes equipos confían en conjuntos de datos conflictivos. Los datos duplicados pueden dificultar el cumplimiento de las regulaciones que requieren prácticas precisas de retención y eliminación de datos, y desde una perspectiva de seguridad, cuantos más datos tengas, mayor será tu superficie susceptible de ataques.
¿Hay alguna ventaja de tener datos duplicados?
Los datos duplicados intencionadamente, como las copias de seguridad y los archivos, ofrecen numerosas ventajas para las funciones relacionadas con la continuidad del negocio y la recuperación ante desastres. Para utilizar con éxito datos duplicados, las organizaciones deben emplear un enfoque estratégico que ayude a garantizar que los duplicados se mantengan en una cantidad específica y limitada, evitando así el uso excesivo de recursos y otros problemas.
