Implicaciones y soluciones de duplicación de datos

Michael Chen | Estrategia de contenido | 4 de septiembre de 2024

La duplicación de datos es un concepto simple: es la idea de que cualquier parte de los datos tiene uno o más duplicados exactos en algún lugar de la infraestructura de una organización. Puede ser un registro en una base de datos, un archivo en un volumen de almacenamiento o una imagen de máquina virtual. Por sí sola, la duplicación puede parecer adecuada, incluso beneficiosa. ¿A quién no le gusta una copia extra? Pero cuando se amplía a escala empresarial, el alcance del problema se hace evidente. Con casi todos los dispositivos modernos produciendo constantemente datos, copias de seguridad y archivos programados y ejecutados regularmente, y archivos compartidos en múltiples plataformas, la duplicación de datos ha pasado de ser una molestia a un costo masivo y una carga tecnológica. La resolución del problema comienza por comprender cómo y por qué se produce la duplicación de datos.

¿Qué es la duplicación de datos?

La duplicación de datos es el proceso de creación de una o más versiones idénticas de datos, ya sea intencionalmente, como para copias de seguridad planificadas, o involuntariamente. Es posible que existan duplicados como datos almacenados en archivos, imágenes de VM, bloques o registros en una base de datos u otros tipos de datos. Independientemente de la causa, la duplicación de datos desperdicia espacio de almacenamiento, y el costo aumenta al ritmo del tamaño de los almacenes de datos. También puede contribuir a problemas de gestión de datos. Por ejemplo, si todas las copias de un archivo no se actualizan simultáneamente, las inconsistencias pueden provocar análisis defectuosos.

La duplicación de datos está relacionada con la redundancia de datos o con varios registros para que actúen como redes de seguridad redundantes para las versiones principales de los datos. Lo opuesto a la duplicación de datos es la deduplicación de datos, que implica la eliminación de datos duplicados para liberar recursos y eliminar copias posiblemente obsoletas.

Conclusiones clave

  • Los datos duplicados hacen referencia a copias exactas de archivos o registros de base de datos dentro de una red. A menudo es el resultado de una pobre comunicación, de procesos obsoletos y de no adherirse a las mejores prácticas para compartir archivos.
  • Los datos duplicados pueden consumir recursos innecesariamente, como espacio de almacenamiento y capacidad de procesamiento.
  • Los datos duplicados también pueden sesgar los resultados del análisis, como proporcionar los mismos registros de ventas dos veces.
  • Las organizaciones crean datos duplicados de forma intencional, como copias de seguridad y archivos, y de forma involuntaria a través de varias descargas, errores de copia/pegado o entrada de datos duplicados.
  • Tratar con datos duplicados en todos sus formularios generar costos significativos, tanto directamente mediante el uso de recursos como indirectamente si el personal debe corregir errores en facturas y órdenes de compra o tomar otras acciones basadas en datos duplicados.

La duplicación de datos en detalle

Los datos duplicados no son necesariamente algo malo. La duplicación intencional de datos puede ofrecer ventajas significativas, como copias de seguridad de fácil acceso, un archivado completo y una recuperación ante desastres más eficaz. Sin embargo, obtener estas ventajas sin costos excesivos requiere una estrategia para realizar copias de seguridad y deduplicación frecuente y programada. Sin eso, los datos duplicados pueden, en el mejor de los casos, ocupar innecesariamente espacio de almacenamiento adicional y, en el peor de los casos, causar confusión entre los usuarios y sesgar el análisis de datos.

Aunque los términos "duplicación de datos" y "redundancia de datos" a menudo se utilizan indistintamente, son términos distintos. Los datos duplicados no son necesariamente redundantes a propósito; a veces, un duplicado es el resultado de un descuido o error por parte de un humano o una máquina. Sin embargo, desde una perspectiva de ingeniería, el concepto de redundancia es producir una red de seguridad en caso de un problema. Esto provoca una duplicación intencionada. La redundancia en sí misma es un principio de prácticas de ingeniería sólidas, aunque ciertamente es posible crear un exceso de redundancia. En ese caso, incluso si los conjuntos adicionales de duplicados se generan con finalidad, ofrecen un valor limitado por la cantidad de recursos que utilizan.

¿Por qué se produce la duplicación de datos?

Las personas y los procesos automatizados puede duplicar los datos de varias formas. La mayoría de las personas han guardado varias versiones de un archivo con nombres ligeramente diferentes y, a menudo, cambios mínimos, a medida que un documento pasa al proceso de revisión —por ejemplo, "salesreport_final.docx" frente a "salesreport_final_v2.docx", etc. Por lo general, estos no se eliminan cuando el informe es definitivo. O bien, se puede enviar un archivo por correo electrónico a todos los miembros de la organización, y dos personas guardan la misma versión en lugares distintos dentro de una unidad compartida. Un archivo .exe o multimedia de la aplicación se puede descargar varias veces y las instancias de VM se pueden guardar en varios lugares. Del mismo modo, dentro de una base de datos, los mismos datos se pueden introducir dos veces. Es posible que un cliente o diversos empleados hayan subido información dos veces, ya sea porque varias personas importan un archivo o porque escriben los registros. Ese tipo de duplicación también puede ocurrir cuando diferentes departamentos crean el mismo registro, como la información del cliente, en aplicaciones locales o diferentes aplicaciones con tipos de archivo compatibles. Esto significa que podrías tener copias redundantes en diferentes versiones de copia de seguridad, que en sí mismas pueden ser duplicados.

Cuanto más basada en datos esté una organización, más problemática puede ser la duplicación. El big data puede generar elevados costos por exceso de almacenamiento. La automatización también puede crear duplicados. En este caso, un proceso de copia de seguridad automatizado puede crear archivos duplicados intencionadamente para generar redundancias. Sin embargo, los problemas aparecen cuando se realiza una copia de seguridad del mismo archivo varias veces. Unos niveles innecesarios de redundancia conducen a un uso ineficiente del almacenamiento.

Con menos frecuencia, los eventos inesperados conducen a la duplicación de datos. Si se produce un corte de energía o un desastre natural durante un proceso de copia de seguridad, por ejemplo, la copia de seguridad se puede restablecer, reiniciando el proceso después de que algunos archivos ya se hayan escrito. Los fallos de hardware pueden crear problemas similares, lo que lleva a la duplicación no planificada durante un proceso de copia de seguridad o archivado.

Tipos de duplicación de datos y sus implicaciones

Los datos duplicados no son necesariamente algo malo. Los equipos de TI deben comprender si se ha previsto la duplicación, cuántos recursos se utilizan para almacenar duplicados y cuán costoso es el statu quo. Un archivo intencional de tercera generación que contiene indicadores para duplicados totalmente clonados en un archivo de segunda generación es una circunstancia completamente diferente de varias instancias guardadas del mismo archivo PowerPoint gigante en una unidad compartida.

Los siguientes son los tipos más comunes de duplicados de datos y cómo pueden afectar a la organización.

  • Duplicación superficial: la duplicación superficial crea un nuevo objeto cuando se copian los datos, pero en lugar de clonarlos por completo, el objeto aloja un puntero de referencia al objeto original. Si bien esto ocupa mucho menos espacio de almacenamiento, las consultas tendrán que ir un paso adicional para obtener los datos de origen. Además, en esencia, el duplicado se sincroniza con el original, por lo que cualquier cambio en el original se reflejará en el duplicado. Esto puede causar problemas si el duplicado está destinado a capturar un estado específico en lugar de actuar como un duplicado dinámico.

  • Duplicación profunda: con la duplicación profunda, se crea un nuevo objeto como un clon de datos completo y sin modificar. El nuevo objeto requiere la misma cantidad de espacio de almacenamiento que el original, lo que significa que la duplicación profunda consume más almacenamiento que la duplicación superficial. A pesar de este inconveniente, la duplicación profunda tiene la ventaja de ofrecer redundancia independiente: si algo le sucede al archivo de origen, ya sea intencionada o accidentalmente, la duplicación profunda ayuda a garantizar una copia de seguridad limpia capaz de realizar recuperación ante desastres.
  • Fragmentación de datos: la fragmentación de datos hace referencia al proceso de almacenamiento de segmentos de un archivo de datos en diferentes ubicaciones. Aunque esto puede hacer que el almacenamiento sea más eficiente escribiendo segmentos en función de la frecuencia de acceso o la capacidad, la consulta del archivo generalmente requiere un mayor tiempo de procesamiento y recursos, ya que el sistema debe buscar segmentos y compilar el archivo completo. A efectos de recuperación, la fragmentación puede generar problemas. Por ejemplo, los fallos mecánicos o de conectividad pueden provocar una duplicación incompleta. Por otro lado, los fallos basados en la ubicación pueden dañar solo algunos fragmentos, lo que daña un proceso de copia de seguridad o archivo.
  • Replicación lógica: la replicación lógica es similar a la duplicación superficial, ya que utiliza referencias para garantizar un proceso de duplicación más eficaz. Al mantener los sistemas de copia de seguridad, la replicación lógica trata la consistencia como un modelo de editor/suscriptor, siendo el editor el origen y el suscriptor el destino de un volumen de datos específico, generalmente identificado por una dirección. Cuando el editor realiza una actualización de origen dentro de un rango de direcciones especificado, los datos del suscriptor se actualizan para permanecer sincronizados. Las actualizaciones fuera del rango suscrito se ignoran para maximizar la eficiencia.
  • Replicación física: la replicación física es una forma de replicación de base de datos que copia datos en un proceso metódico de byte a byte. A diferencia de la replicación lógica, se trata de un modelo más lento, pero más completo y con un uso intensivo de los recursos, que también crea versiones más duplicadas.

Los costos de la duplicación de datos

Los datos duplicados crean un efecto dominó de cargas adicionales en hardware, ancho de banda, mantenimiento y gestión de datos, todo lo cual se suma a una montaña de costos innecesarios. En algunos casos, los problemas son menores, pero en el peor de los casos, los resultados pueden ser desastrosos. Considera algunas de las siguientes formas en que la duplicación de datos perjudica los esfuerzos de data science.

Espacio de almacenamiento. Este es el costo más directo de la duplicación de datos. Las copias redundantes consumen una valiosa capacidad en discos duros locales, servidores y almacenamiento en la nube, lo que genera mayores costos. Imagina un departamento con 10 terabytes de datos y el 10 % es duplicado. Se trata de un terabyte de almacenamiento desperdiciado, lo que podría traducirse en costos significativos, especialmente si se trata de almacenamiento primario basado en la nube en lugar de almacenamiento de archivos.

Herramientas de deduplicación de datos. Otro costo directo, las herramientas de deduplicación pueden eliminar duplicados de los volúmenes de almacenamiento. Estos servicios y herramientas generalmente se basan en el volumen por registro. Por lo tanto, cuanto más se deba deduplicar, mayor será el costo.

Datos sesgados. Los registros duplicados pueden introducir errores en el análisis y las visualizaciones de datos al generar métricas inexactas. Por ejemplo, supongamos que un nuevo cliente se ha introducido dos veces en una base de datos de ventas con nombres ligeramente diferentes o que dos administradores introducen el mismo pedido.

Cada uno de los elementos anteriores también requiere un trabajo costoso del personal. Se deben mantener los volúmenes de almacenamiento. Alguien necesita evaluar, comprar y ejecutar sistemas de deduplicación. Los datos sesgados requieren eliminar registros y limpiar bases de datos. Si los datos incorrectos se propagan a otros informes o comunicaciones, todo el trabajo posterior se debe revertir y deshacer, luego se debe reparar.

Problemas causados por la duplicación de datos

Los archivos y registros de base de datos duplicados involuntariamente pueden causar problemas en toda la organización cuando no se marcan. Los siguientes son algunos de los problemas más comunes que surgen con la duplicación de datos.

  • Problemas de calidad de datos: los datos se consideran de alta calidad cuando cumplen con los criterios de precisión, integridad, puntualidad y finalidad de la organización. Cuando proliferan los datos duplicados, cada uno de esos factores puede verse comprometido, y los informes o análisis generados serán menos precisos. Cuanto más tiempo se permiten los duplicados, más se degrada la calidad general de los datos de la organización, creando problemas con cualquier tipo de análisis, ya sean revisiones retrospectivas o proyecciones prospectivas.
  • Reducción de la eficiencia del personal: ¿cuánto tiempo se dedica a perseguir y corregir datos duplicados? Cuando una organización permite acumular datos duplicados, los trabajadores pierden horas, días y posiblemente semanas comprobando dos o tres veces los informes los registros y revirtiendo o corrigiendo problemas. Entre las correcciones necesarias se pueden incluir las siguientes:
    • Actualización de registros
    • Seguimiento del número de versiones del mismo archivo que existen en un servidor compartido
    • Comprobación de cómo las estadísticas de un informe pueden verse afectadas por información duplicada
    • Identificación de qué personas han tenido acceso a un informe con datos incorrectos
  • Dificultad para generar informes y análisis precisos: ¿en qué medida son buenos los insights que los responsables de la toma de decisiones obtienen de tus informes y análisis de datos? Con datos duplicados, o en realidad, cualquier dato de baja calidad, tus informes podrían estar dirigiendo a la empresa en la dirección equivocada. Las organizaciones con problemas de datos duplicados conocidos deben lidiar con el aumento de la mano de obra de trabajar a su alrededor, ya sea a través de la limpieza adicional de datos previa al informe o compensando las deficiencias de información ya conocidas.
  • Imposibilidad de cumplir los requisitos normativos: los datos duplicados pueden dificultar el cumplimiento de las directrices normativas, lo que a menudo subraya la necesidad de llevar a cabo una gestión integral de los datos. Los organismos reguladores pueden exigir a las organizaciones que presenten informes sobre sus datos financieros, por ejemplo, y la duplicación de datos puede producir información inexacta o inconsistente en estos informes, lo que podría resultar en multas o sanciones. Los requisitos normativos a menudo exigen prácticas sólidas de seguridad de los datos y la capacidad de identificar y notificar infracciones con prontitud. Es difícil hacerlo si los datos confidenciales, como las tarjetas de crédito de los clientes, se almacenan en varios lugares. Por último, regulaciones como el Reglamento General de Protección de Datos y la Ley de Privacidad del Consumidor de California otorgan a las personas el derecho a acceder, corregir o eliminar sus datos personales. Los registros duplicados pueden dificultar la localización de todos los datos relevantes asociados a un individuo específico, lo que dificulta el cumplimiento.
  • Aumento de los costos de inventario: los datos duplicados pueden aumentar los costos de inventario, ya que las organizaciones se encuentran luchando para reabastecer el inventario para abordar la escasez causada por datos inexactos o lidiar con el exceso de stock generado por registros duplicados. Sin datos limpios, se hace imposible operar con eficiencia.
  • Decisiones de negocio deficientes: las organizaciones pueden prosperar cuando toman decisiones basadas en datos. Sin embargo, cuando esos datos están dañados por duplicados, las decisiones se toman con falsas pretensiones. El resultado puede incluir un error menor que se pueda pasar por alto, esforzarse por llegar a una solución o una decisión catastrófica identificada demasiado tarde.
  • Servicio al cliente deficiente: cuando un cliente interactúa con la empresa, tener información dispersa en varios registros duplicados dificulta que los agentes de servicio obtengan una visión holística de su historial. Es posible que a tu agente le falten detalles cruciales sobre las compras anteriores, las incidencias de soporte o el historial de comunicaciones de un cliente. Eso perjudica tu capacidad para proporcionar un servicio personalizado y eficiente, y afecta la percepción de la marca cuando un cliente valioso se pregunta: "¿Por qué el agente no conoció mi historia?"
  • Visibilidad reducida: la visibilidad de red hace referencia al concepto de organizaciones que conocen todo el tráfico y los datos que residen o atraviesan sus redes. Los datos duplicados afectan a este esfuerzo en varios niveles, incluidos los siguientes ejemplos:
    • Creación de logs de datos inexactos
    • Alargar los procesos de copia de seguridad/archivo y consumir un exceso de almacenamiento
    • Métricas de transmisión y rendimiento de red sesgadas
    • Desperdiciando recursos de procesamiento y ancho de banda

Estrategias para evitar la duplicación de datos

Con las unidades compartidas, los dispositivos del Internet de las cosas, los datos importados, tanto públicos como de partners , el almacenamiento en la nube por niveles, la replicación y la recuperación ante desastres más robustas y muchas otras fuentes, las organizaciones cuentan con más datos que nunca antes. Esto genera más oportunidades de duplicación, lo que significa que las organizaciones deben priorizar estrategias para minimizar la creación de datos duplicados y eliminarlos cuando se propaguen.

Estas son algunas de las estrategias más comunes para lograrlo:

  • Aplicar reglas de validación de datos: al importar datos a un repositorio, como un lago de datos o un almacén de datos, aprovecha la oportunidad para limpiar y validar esos datos. La validación de datos en la etapa de ingesta limita la aceptación de cualquier dato duplicado creado en origen. Los departamentos de TI deben configurar un proceso para crear y aplicar reglas que permitan identificar y eliminar datos duplicados como parte de su flujo de trabajo de ingesta.
  • Establecer un identificador único: las bases de datos pueden aplicar identificadores únicos a los registros para garantizar que no se generen versiones duplicadas. En el caso de una cuenta de cliente, por ejemplo, el identificador único puede ser un nuevo campo para un número de identificación de cliente o número de cuenta. A continuación, el número de cuenta se puede usar cuando los equipos de ventas y marketing trabajan con el cliente, lo que evita que se pueda crear accidentalmente otro registro con el mismo nombre de cliente.
  • Realizar auditorías frecuentes: el uso de una herramienta de deduplicación a una cadencia regular es una parte inteligente de toda estrategia eficaz de mantenimiento de TI. Aunque la eficacia del proceso de deduplicación variará cada vez en función de las circunstancias, la frecuencia regular del proceso ayuda a garantizar que siempre se identifiquen y minimicen los duplicados.
  • Utilizar bibliotecas y marcos de código reutilizables: para el desarrollo de aplicaciones, los desarrolladores pueden implantar bibliotecas y marcos de código reutilizables para simplificar su propio trabajo y, al mismo tiempo, ayudar a reducir el código duplicado. Esta iniciativa crea un repositorio de funciones y otros elementos reutilizables, lo que ayuda a garantizar que los desarrolladores utilicen activos modulares sin generar código duplicado ni trabajos redundantes.
  • Utilizar restricciones de base de datos: los gestores de bases de datos pueden establecer restricciones para evitar registros duplicados en determinados campos. Por ejemplo, en una base de datos con registros de cliente, el sistema puede utilizar una restricción única en el campo de nombre de cliente, lo que ayuda a garantizar que todos los nombres de cliente sean únicos y, por lo tanto, minimiza la posibilidad de que alguien cree accidentalmente un registro duplicado que pueda sesgar los datos de ventas.

Ventajas de eliminar la duplicación de datos

A medida que las organizaciones se basan más en los datos, la eliminación de los datos duplicados se vuelve cada vez más necesaria y beneficiosa. Tomar medidas proactivas para minimizar la redundancia puede optimizar la infraestructura de almacenamiento, mejorar la eficiencia de la gestión de datos, fortalecer el cumplimiento y liberar dinero y recursos de personal para otras prioridades.

A continuación, se detallan algunas de las ventajas más comunes de la deduplicación de datos:

  • Reducción de los costos de almacenamiento: al eliminar los datos duplicados, puedes reducir la cantidad de almacenamiento que la empresa debe pagar en la nube y descartar la necesidad de comprar hardware nuevo para centros de datos propios. Esto crea dos tipos de ahorro de costos. A nivel directo, las organizaciones pueden ralentizar sus ciclos de compra. Sin embargo, de forma indirecta, el uso de menos almacenamiento de datos permite a los equipos de TI supervisar y mantener de manera más eficiente el estado de sus recursos, lo que cual genera ahorros en gastos generales y de mantenimiento.
  • Precisión de datos mejorada: los datos duplicados crean múltiples problemas de precisión. Los registros de base de datos duplicados para los clientes pueden provocar que dos departamentos diferentes a actualizar el mismo registro, lo que genera confusión. Del mismo modo, la precisión de los informes de análisis se ve sesgada por datos redundantes.
  • Mejora de la experiencia general de cliente: cuando una empresa tiene datos precisos, completos y limpios sobre su clientela, el resultado suele ser mayor satisfacción del cliente y mejor percepción de la marca, así como un aumento de las ventas. Al evitar que los historiales de compras se asignen a diferentes registros superpuestos, aumenta la precisión de los motores de recomendaciones y los esfuerzos de marketing de seguimiento.
  • Aumento de la productividad de los empleados: otra consecuencia de los datos inexactos puede ser la disminución de la productividad de los empleados. Tal vez los trabajadores de diferentes departamentos pierdan tiempo tratando de rastrear la fuente de inexactitudes de sus informes, o se necesiten asumir gastos generales adicionales para los esfuerzos de mantenimiento y depuración de datos. De cualquier manera, los datos inexactos significan más dificultades para obtener información correcta, lo que puede afectar a los plazos, la comunicación, el flujo de trabajo y, en última instancia, el presupuesto.
  • Más fácil acceso a los datos y un mejor intercambio de información entre departamentos o equipos: los esfuerzos de deduplicación de datos pueden mejorar significativamente el intercambio de información entre departamentos o equipos dentro de una organización. Una de las ventajas es descomponer los temidos silos de datos que afectan a los sistemas y aplicaciones departamentales. La deduplicación ayuda a consolidar la información en un único origen de datos, lo que facilita que diferentes equipos accedan y compartan información precisa y coherente. Y, con menos copias redundantes y almacenamiento optimizado, es más fácil para los equipos encontrar la información que necesitan. No tienen que perder tiempo buscando en múltiples ubicaciones o versiones de datos potencialmente obsoletos.
  • Mejor toma de decisiones basada en datos precisos y actualizados: las decisiones basadas en datos solo funcionan cuando los datos son precisos. Al mejorar la precisión de los datos mediante la eliminación de datos duplicados, las organizaciones pueden tomar mejores decisiones, y desde una perspectiva más amplia, la confianza en esos datos crece, lo que propicia mejoras generales de eficiencia.
  • Copias de seguridad y restauraciones más rápidas de bases de datos: el proceso de deduplicación ayuda a reducir el volumen general de datos utilizados en los medios de almacenamiento. Esto significa que las copias de seguridad y los archivos ocupan menos espacio, lo cual acelera la copia de seguridad, el movimiento y la restauración de los datos. Las transferencias en ambas direcciones tardan menos tiempo gracias a volúmenes más pequeños y también procesan más rápido y consumen menos recursos informáticos.

Mantén tus datos en la mejor unidad de computación con Oracle HeatWave

La mejor manera de minimizar los problemas de duplicación de datos es evitarlos en primer lugar. Oracle HeatWave combina procesamiento de transacciones en línea, análisis en tiempo real en almacenes de datos y data lakes, aprendizaje automático (ML) e IA generativa en un solo servicio en la nube. Los clientes pueden beneficiarse de varias formas.

  • No es necesario duplicar los datos transaccionales de la base de datos en una base de datos independiente específica para análisis.
  • Los equipos pueden consultar fácilmente datos en Object Storage, MySQL Database o una combinación de ambos sin funciones o servicios adicionales.
  • Del mismo modo, no es necesario mover datos a un servicio de aprendizaje automático independiente para crear modelos de aprendizaje automático.
  • Los clientes pueden evitar la complejidad y los costos del uso de diferentes servicios y la costosa duplicación de la extracción, la transformación y la carga.
  • Los responsables de la toma de decisiones obtienen análisis en tiempo real, en lugar de informes basados en datos que pueden estar obsoletos cuando están disponibles en una base de datos de análisis independiente.
  • Los riesgos de seguridad de datos y cumplimiento normativo disminuyen, ya que los datos no se transfieren entre almacenes de datos.
  • Con Oracle HeatWave GenAI, que incluye un almacén de vectores automatizado en la base de datos, los clientes pueden aprovechar el poder de los grandes modelos de lenguaje con sus datos propios para obtener respuestas más precisas y contextualmente relevantes que cuando utilizan modelos entrenados solo con datos públicos: y sin duplicar datos en una base de datos vectorial independiente.

En general, la deduplicación de datos elimina los silos de información, mejora la accesibilidad de los datos y fomenta un entorno colaborativo en el que los equipos pueden aprovechar los insights colectivos de la organización, basados en datos, para reforzar la toma de decisiones. Puedes evitar situaciones en las que tu equipo de marketing utilice un sistema CRM con información de contacto del cliente mientras el equipo de ventas utiliza un sistema de gestión de oportunidades potenciales independiente con datos similares. Un programa para eliminar la duplicación puede consolidar esta información, lo que permite a ambos equipos acceder a una vista unificada del cliente y colaborar de manera más eficaz en las campañas de marketing y el alcance de ventas.

Datos e IA: una guía para el éxito del CIO

¿Estás tratando de aprovechar todo el potencial de la IA? Todo depende de tu infraestructura de datos. Esta guía completa proporciona a los CIO estrategias para aprovechar los datos y la IA de cara a impulsar la toma de decisiones estratégicas, optimizar las operaciones y obtener una ventaja competitiva.

Preguntas frecuentes sobre la duplicación de datos

¿Qué tendencias de duplicación de datos veremos en el futuro?

Con la evolución de las capacidades tecnológicas, la TI ha ganado mayor capacidad para minimizar la cantidad de datos duplicados. A continuación incluimos algunos ejemplos de estos avances:

  • Tener la opción de realizar la deduplicación en el origen o en el destino
  • Deduplicación de datos en línea
  • Deduplicación de datos global y no únicamente en el almacenamiento local
  • Deduplicación como parte del proceso de validación y transformación con repositorios de datos
  • Deduplicación por bloque o segmento en lugar de solo por archivo

¿Cómo se supervisa la duplicación de datos?

Existen diferentes estrategias disponibles para supervisar e identificar datos duplicados. Entre ellas se incluyen herramientas como la creación de perfiles de datos, la coincidencia de datos y la catálogo de datos. Las herramientas de limpieza de datos para orígenes de datos entrantes pueden ofrecer cierto nivel de identificación, mientras que las herramientas especializadas de deduplicación de datos pueden detectar y eliminar datos duplicados.

¿Cuáles son los desafíos de la duplicación de datos?

La duplicación de datos plantea un desafío enorme para organizaciones de todos los tamaños. El problema más evidente es el desperdicio de espacio de almacenamiento. Las copias duplicadas consumen una valiosa capacidad en servidores, discos duros y almacenamiento en la nube, lo que genera mayores costos. La gestión de datos duplicados en los sistemas también requiere mucho tiempo para los trabajadores de TI, que necesitan identificar duplicados, determinar la versión principal y, a continuación, eliminar copias redundantes. La duplicación excesiva de datos también puede ralentizar los sistemas, ya que los archivos duplicados dispersos en las ubicaciones de almacenamiento tardan más en acceder y recuperar.

También hay incoherencia de datos, cuando las actualizaciones no se aplican a todas las copias. Esto puede generar informes inexactos, esfuerzos desperdiciados basados en información obsoleta y confusión cuando diferentes equipos confían en conjuntos de datos conflictivos. Los datos duplicados pueden dificultar el cumplimiento de las regulaciones que requieren prácticas precisas de retención y eliminación de datos, y desde una perspectiva de seguridad, cuantos más datos tengas, mayor será tu superficie susceptible de ataques.

¿Hay alguna ventaja de tener datos duplicados?

Los datos duplicados intencionadamente, como las copias de seguridad y los archivos, ofrecen numerosas ventajas para las funciones relacionadas con la continuidad del negocio y la recuperación ante desastres. Para utilizar con éxito datos duplicados, las organizaciones deben emplear un enfoque estratégico que ayude a garantizar que los duplicados se mantengan en una cantidad específica y limitada, evitando así el uso excesivo de recursos y otros problemas.