No se han encontrado resultados

Su búsqueda no coincide con ningún resultado

¿Qué es data warehouse?

Un data warehouse (almacén de datos) es un tipo de sistema de gestión de datos diseñado para permitir y respaldar actividades de inteligencia empresarial, especialmente análisis. Los almacenes de datos se han diseñado exclusivamente para realizar consultas y análisis y, a menudo, contienen grandes cantidades de datos históricos. Los datos de un almacén de datos se obtienen normalmente de una amplia variedad de fuentes, como archivos de registro de las aplicaciones y aplicaciones de transacciones.

Un almacén de datos centraliza y consolida grandes cantidades de datos de varias fuentes. Sus capacidades analíticas permiten que las organizaciones obtengan información empresarial valiosa de sus datos para mejorar la toma de decisiones. Con el tiempo, crea un registro histórico que puede llegar a tener un valor incalculable para los científicos de datos y los analistas del negocio. Gracias a estas funciones, un almacén de datos puede considerarse una “única fuente de verdad” de una organización.

Un almacén de datos típico incluye normalmente los siguientes elementos:

  • Una base de datos relacional para almacenar y gestionar datos
  • Una solución de extracción, carga y transformación (ELT) para preparar los datos para el análisis
  • Funciones de análisis estadísticos, elaboración de informes y extracción de datos
  • Herramientas de análisis de clientes para visualizar y presentar los datos a los usuarios de empresa
  • Otras aplicaciones analíticas más avanzadas que generan información procesable
  • aplicando algoritmos de aprendizaje automático e inteligencia artificial (IA)

¿Por qué no realizar análisis en su entorno OLTP?

Los almacenes de datos son entornos relacionales que se utilizan para el análisis de datos, en concreto de datos históricos. Las organizaciones utilizan los almacenes de datos para detectar patrones y relaciones en los datos que desarrollan con el tiempo.

Por el contrario, los entornos transaccionales se utilizan para procesar transacciones de forma continua y se emplean comúnmente para el registro de pedidos y transacciones financieras y comerciales. No se basan en datos históricos; de hecho, en los entornos OLTP, los datos históricos a menudo se archivan o simplemente se eliminan para mejorar el rendimiento.

Los almacenes de datos y los sistemas OLTP presentan diferencias importantes.

Almacén de datos Sistema OLTP
Carga de trabajo Contiene consultas ad hoc y análisis de datos Solo admite operaciones predefinidas
Modificaciones de datos Actualizaciones automáticas de manera regular Actualizaciones de los usuarios finales mediante el envío de instrucciones individuales
Diseño de esquemas Utiliza esquemas parcialmente desnormalizados para optimizar el rendimiento Utiliza esquemas completamente normalizados para garantizar la coherencia de los datos
Escaneo de datos Abarca miles o millones de filas Accede solo a unos pocos registros a la vez
Datos históricos Almacena muchos meses o años de datos Almacena solamente los datos de semanas o meses

Almacenes de datos, data marts y almacenes de datos de operaciones

Aunque desempeñan funciones similares, los almacenes de datos son diferentes de los data marts y los almacenes de datos de operaciones (ODS). Un data mart realiza las mismas funciones que un almacén de datos, pero con un alcance mucho más limitado (por lo general, para un solo departamento o línea de negocio). Esto hace que los data marts sean más fáciles de diseñar que los almacenes de datos. Sin embargo, suelen introducir incoherencias porque puede ser difícil administrar y controlar los datos de manera uniforme en numerosos data marts.

Los ODS solo admiten operaciones diarias, por lo que su visión de los datos históricos es muy limitada. Aunque funcionan muy bien como fuentes de datos actuales y, a menudo, se utilizan como tales en los almacenes de datos, no admiten consultas de datos históricos.

¿Necesito un data lake?

Las organizaciones utilizan tanto los data lakes como los almacenes de datos para grandes volúmenes de datos de diversas fuentes. Saber cuándo elegir uno y otro depende de lo que la organización pretenda hacer con los datos. A continuación se describe cuál es el mejor uso de cada uno de ellos:

  • Los data lakes almacenan una gran cantidad de datos dispares, sin filtrar, que se pueden utilizar más adelante para un fin específico. Los datos de las aplicaciones de línea de negocio, aplicaciones móviles, redes sociales, dispositivos de IoT, etc., se capturan como datos sin procesar en un data lake. La estructura, la integridad, la selección y el formato de los diversos conjuntos de datos se obtienen en el momento del análisis por parte de la persona que lo realiza. Cuando las organizaciones necesiten un almacenamiento de bajo coste para datos sin formato no estructurados de varias fuentes que pretendan usar para algún propósito en el futuro, un data lake podría ser la opción correcta.
  • Los almacenes de datos están específicamente diseñados para analizar datos. El procesamiento analítico dentro de un almacén de datos se realiza con datos que se han preparado para su análisis: se han recopilado, contextualizado y transformado con el fin de generar conocimientos basados en análisis. Los almacenes de datos también son hábiles en el manejo de grandes cantidades de datos de diversas fuentes. Cuando las organizaciones necesitan análisis de datos avanzados o análisis que se basen en datos históricos de varias fuentes de su empresa, un almacén de datos es probablemente la opción correcta.

Ventajas de un almacén de datos

Los almacenes de datos ofrecen el beneficio único y global de permitir a las organizaciones analizar grandes cantidades de datos variables y extraer un gran valor de ellos, además de mantener un registro histórico.

Cuatro características exclusivas (descritas por el científico informático William Inmon, considerado el padre del almacén de datos) permiten a los almacenes de datos ofrecer este beneficio importante. Según esta definición, los almacenes de datos

  • Están orientados a temas concretos.. Pueden analizar datos de un tema o una área funcional determinada (como ventas).
  • Están integrados. Los almacenes de datos proporcionan coherencia entre diferentes tipos de datos de fuentes dispares.
  • Son no volátiles. Una vez que los datos están en un almacén de datos, son estables y no cambian.
  • Tienen en cuenta los cambios a lo largo del tiempo. Los análisis del almacén de datos analizan los cambios a lo largo del tiempo.

Un almacén de datos bien diseñado realizará las consultas muy rápidamente, ofrecerá un alto rendimiento de datos y proporcionará suficiente flexibilidad para que los usuarios finales puedan “segmentar y desglosar” o reducir el volumen de datos para un examen más detallado con el fin de satisfacer una serie de necesidades, tanto generales como muy específicas. El almacén de datos constituye la base funcional para los entornos de middleware BI que proporcionan a los usuarios finales informes, paneles y otras interfaces.

Arquitectura del almacén de datos

La arquitectura de un almacén de datos está determinada por las necesidades específicas de la organización. Algunas arquitecturas comunes son las siguientes:

  • Sencilla. Todos los almacenes de datos comparten un diseño básico en el que los metadatos, los datos de resumen y los datos sin procesar se almacenan en el repositorio central del almacén. El repositorio se alimenta de fuentes de datos en un extremo y los usuarios finales acceden a él para su análisis, elaboración de informe y extracción en el otro extremo.
  • Sencilla con un área de almacenamiento provisional. Los datos operativos se deben limpiar y procesar antes de colocarlos en el almacén. Aunque esto se puede hacer mediante programación, muchos almacenes de datos incorporan un área de almacenamiento provisional para los datos antes de que entren en el almacén, para simplificar la preparación de los datos.
  • Hub and spoke. La incorporación de data marts entre el repositorio central y los usuarios finales permite que las organizaciones personalicen su almacén de datos para atender varias líneas de negocio. Cuando los datos están listos para su uso, se mueven al data mart apropiado.
  • Espacios aislados. Los espacios aislados son áreas privadas y seguras que permiten a las empresas explorar de forma rápida e informal nuevos conjuntos de datos o formas de analizar los datos sin tener que cumplir las reglas formales y el protocolo del almacén de datos.

La evolución de los almacenes de datos: desde los análisis de datos hasta la inteligencia artificial y el aprendizaje automático

Cuando los almacenes de datos aparecieron por primera vez en escena a finales de la década de 1980, su propósito era ayudar a que los datos fluyeran de los sistemas de operaciones a los sistemas de ayuda a la toma de decisiones (DSS). Estos primeros almacenes de datos requerían una enorme cantidad de redundancia. La mayoría de las organizaciones tenían varios entornos DSS que servían a sus diversos usuarios. Aunque los entornos DSS utilizaban gran parte de los mismos datos, la recopilación, limpieza e integración de los datos a menudo se replicaban para cada entorno.

A medida que los almacenes de datos se volvieron más eficientes, dejaron de ser los almacenes de información que admitían las plataformas de BI tradicionales para convertirse en amplias infraestructuras de análisis que admiten una amplia variedad de aplicaciones, como análisis operativos y gestión del rendimiento.

Las iteraciones del almacén de datos han evolucionado a lo largo del tiempo para proporcionar un valor adicional a la empresa que va en aumento.

Paso Prestación Valor empresarial
1 Informes transaccionales Proporciona información relacional para crear instantáneas del rendimiento del negocio
2 Segmentar y desglosar, consultas ad hoc, herramientas de BI Amplía las prestaciones para proporcionar información más detallada y análisis más robustos
3 Predecir el rendimiento futuro (minería de datos) Desarrolla visualizaciones e inteligencia empresarial con visión de futuro
4 Análisis tácticos (espaciales, estadísticos) Ofrece escenarios “hipotéticos” para fundamentar las decisiones prácticas en análisis más exhaustivos
5 Almacena muchos meses o años de datos Almacena solamente los datos de semanas o meses

Cada uno de estos cinco pasos ha requerido una variedad cada vez mayor de conjuntos de datos. Los últimos tres pasos, en particular, exigen disponer de un conjunto aún mayor de datos y funciones analíticas.

Hoy en día, la inteligencia artificial y el aprendizaje automático están transformando casi todos los activos de la industria, los servicios y las empresas, y los almacenes de datos no son una excepción. La expansión del big data y la aplicación de las nuevas tecnologías digitales están impulsando el cambio en los requisitos y prestaciones del almacén de datos.

El almacén de datos autónomo es el último paso de esta evolución, y ofrece a las empresas la posibilidad de extraer un valor aún mayor de sus datos al tiempo que reduce los costes y mejora la fiabilidad y el rendimiento del almacenamiento de datos.

Obtenga más información sobre los almacenes de datos autónomos en nuestro ebook y después póngase manos a la obra con su propio almacén de datos autónomo.

Diseño de un almacén de datos

Cuando una organización se propone diseñar un almacén de datos, debe comenzar por definir sus requisitos comerciales específicos, acordar el alcance y elaborar un diseño conceptual. A continuación, la organización puede crear el diseño lógico y físico para el almacén de datos. El diseño lógico implica definir las relaciones entre los objetos y el diseño físico implica encontrar la mejor manera de almacenar y recuperar los objetos. El diseño físico también incorpora procesos de transporte, copia de seguridad y recuperación.

Cualquier diseño de almacén de datos debe abordar lo siguiente:

  • Contenido de datos específicos
  • Relaciones dentro y entre grupos de datos
  • El entorno de sistemas que admitirá el almacén de datos
  • Los tipos de transformaciones de datos requeridos
  • La frecuencia de actualización de los datos

Un factor primordial en el diseño son las necesidades de los usuarios finales. La mayoría de los usuarios finales están interesados en realizar análisis y ver los datos en conjunto, en lugar de realizar transacciones individuales. Sin embargo, a menudo, los usuarios finales no saben realmente lo que quieren hasta que surge una necesidad específica. Por lo tanto, el proceso de planificación debe incluir suficiente exploración para prever las necesidades. Por último, el diseño del almacén de datos debe permitir un espacio de expansión y evolución para seguir el ritmo de las necesidades cambiantes de los usuarios finales.

La nube y el almacén de datos

Los almacenes de datos en la nube ofrecen las mismas características y beneficios que los almacenes de datos on-premises, pero con los beneficios adicionales del Cloud Computing, como flexibilidad, escalabilidad, agilidad, seguridad y reducción de costes. Los almacenes de datos en la nube permiten que las empresas se centren únicamente en extraer valor de sus datos, en lugar de tener que crear y administrar la infraestructura de hardware y software para mantener el almacén de datos.

Obtenga más información sobre Oracle Cloud y los almacenes de datos (PDF)

Implementación con complejidad cero: el almacén de datos autónomo

La iteración más reciente del almacén de datos es el almacén de datos autónomo, que utiliza la inteligencia artificial y el aprendizaje automático para eliminar las tareas manuales y simplificar la configuración, la implementación y la administración de datos. Un almacén de datos autónomo como servicio en la nube no requiere la intervención humana para administrar las bases de datos, configurar o administrar el hardware o instalar el software.

La creación del almacén de datos, las copias de seguridad, la aplicación de parches y la actualización de la base de datos, así como la ampliación o reducción de la base de datos, se realizan automáticamente, con la misma flexibilidad, escalabilidad, agilidad y reducción de costes que ofrecen las plataformas en la nube. El almacén de datos autónomo elimina la complejidad, acelera la implementación y libera recursos para que las organizaciones puedan centrarse en actividades que añadan valor a la empresa.

Oracle Autonomous Data Warehouse

Oracle Autonomous Data Warehouse es un almacén de datos totalmente autónomo y fácil de usar que se amplía dinámicamente, ofrece un rendimiento de consulta rápido y no requiere la administración de la base de datos. La configuración de Oracle Autonomous Data Warehouse es muy rápida y sencilla.

Obtenga más información sobre Oracle Autonomous Data Warehouse Cloud (PDF)