¿Qué es Data Lakehouse?

Almacén de datos + lago de datos = Data Lakehouse

Un almacén de datos se puede definir como una plataforma de datos moderna creada a partir de una combinación de un lago de datos y un almacén de datos. Más específicamente, un Data Lakehouse toma el almacenamiento flexible de datos no estructurados de un lago de datos y las funciones y herramientas de gestión de almacenes de datos y, a continuación, los implementa estratégicamente juntos como un sistema más grande. Esta integración de dos herramientas únicas aporta lo mejor de ambos mundos a los usuarios. Para desglosar aún más un Data Lakehouse, es importante primero comprender completamente la definición de los dos términos originales.

Data Lakehouse frente a Data Lake frente a Data Warehouse

Cuando hablamos de un Data Lakehouse, nos referimos al uso combinado de las plataformas de repositorio de datos actuales.

Entonces, ¿cómo combina un data lakehouse estas dos ideas? En general, un Data Lakehouse elimina las paredes del silo entre un lago de datos y un almacén de datos. Esto significa que los datos se pueden mover fácilmente entre el almacenamiento flexible y de bajo costo de un lago de datos a un almacén de datos y viceversa, lo que proporciona un acceso sencillo a las herramientas de gestión de un almacén de datos para implementar esquemas y gobernanza, a menudo con tecnología de aprendizaje automático e inteligencia artificial para la limpieza de datos. El resultado crea un repositorio de datos que integra la recopilación asequible y no estructurada de lagos de datos y la sólida preparación de un almacén de datos. Al proporcionar el espacio necesario para recopilar de fuentes de datos seleccionadas al tiempo que se utilizan herramientas y funciones que preparan los datos para el uso empresarial, un Data Lakehouse acelera los procesos. De alguna manera, los almacenes de datos son almacenes de datos, que conceptualmente se originaron a principios de la década de 1980, reiniciados para nuestro mundo moderno basado en datos.

Características de un Data Lakehouse

Al comprender el concepto general de un data lakehouse, veamos un poco más a fondo los elementos específicos implicados. Un Data Lakehouse ofrece muchas piezas que están familiarizadas con los conceptos históricos de lago de datos y almacén de datos, pero de una manera que las fusiona en algo nuevo y más eficaz para el mundo digital actual.

Funciones de gestión de datos

Un almacén de datos suele ofrecer funciones de gestión de datos como la depuración de datos, ETL y la aplicación de esquemas. Estos se incorporan a un Data Lakehouse como un medio para preparar rápidamente los datos, lo que permite que los datos de fuentes seleccionadas trabajen de forma natural y estén preparados para nuevas herramientas de análisis e inteligencia empresarial (BI).

Formatos de almacenamiento abiertos

El uso de formatos de almacenamiento abiertos y estandarizados significa que los datos de orígenes de datos seleccionados tienen una ventaja importante para poder trabajar juntos y estar listos para el análisis o la generación de informes.

Almacenamiento flexible

La capacidad de separar los recursos informáticos de los recursos de almacenamiento facilita la ampliación del almacenamiento, según sea necesario.

Soporte para la transmisión

Muchos orígenes de datos utilizan transmisión en tiempo real directamente desde los dispositivos. Un Data Lakehouse está diseñado para admitir mejor este tipo de ingestión en tiempo real en comparación con un almacén de datos estándar. A medida que el mundo se integra más con los dispositivos de Internet of Things, el soporte en tiempo real es cada vez más importante.

Cargas de trabajo diversas

Dado que un Data Lakehouse integra las funciones de un almacén de datos y un lago de datos, es una solución ideal para una serie de cargas de trabajo diferentes. Desde informes empresariales hasta equipos de ciencia de datos hasta herramientas de análisis, las cualidades inherentes de un data lakehouse pueden soportar distintas cargas de trabajo dentro de una organización.

Ventajas de un Data Lakehouse: una plataforma de datos moderna

Al crear un Data Lakehouse, las organizaciones pueden simplificar el proceso de gestión de datos global con una plataforma de datos unificada. Un Data Lakehouse puede ocupar el lugar de las soluciones individuales al romper los muros del silo entre varios repositorios. Esta integración crea un proceso integral mucho más eficiente en comparación con los orígenes de datos seleccionados. Esto crea varios beneficios.

  • Menos administración: al utilizar un Data Lakehouse, cualquier fuente conectada a él puede tener sus datos accesibles y consolidados para su uso, en lugar de extraerlos de los datos no procesados y prepararse para trabajar dentro de un almacén de datos.
  • Mejor gobernanza de datos: los almacenes de datos simplifican y mejoran la gobernanza mediante la consolidación de recursos y orígenes de datos y se crean con un esquema abierto estandarizado que permite un mayor control sobre la seguridad, las métricas, el acceso basado en roles y otros elementos de gestión cruciales.
  • Estándares simplificados: los almacenes de datos se originaron en la década de 1980, cuando la conectividad era extremadamente limitada, lo que significa que a menudo se creaban estándares de esquema localizados en las organizaciones, incluso en los departamentos. Hoy en día, existen estándares de esquema abierto para muchos tipos de datos, y los data lakehouses los aprovechan al ingerir varios orígenes de datos con un esquema estandarizado solapado para simplificar los procesos.
  • Mayor rentabilidad: los almacenes de datos se crean con una infraestructura que separa los recursos informáticos y el almacenamiento, lo que permite una adición sencilla del almacenamiento sin necesidad de aumentar la potencia informática. Esto crea una ampliación rentable con el uso sencillo del almacenamiento de datos de bajo costo.

Si bien algunas organizaciones crearán un Data Lakehouse, otras adquirirán un servicio en la nube de Data Lakehouse.

Experiencias exitosas de clientes: Data Lakehouse

Miniatura de vídeo de Experian
Experian

Experian mejoró el rendimiento en un 40 % y redujo los costos en un 60 % cuando trasladó cargas de trabajo de datos esenciales de otras nubes a un data lakehouse en OCI, acelerando el procesamiento de datos e innovación de productos al tiempo que amplía las oportunidades de acceso a crédito en todo el mundo.

Miniatura de vídeo de Generali
Generali

Generali Group es una compañía de seguros italiana con una de las bases de clientes más grandes del mundo. Generali tenía numerosas fuentes de datos, tanto de Oracle Cloud HCM como de otras fuentes locales y regionales. Su proceso de decisión de RR. HH. y su compromiso de los empleados estaban afectando a los obstáculos, y la compañía buscaba una solución para mejorar la eficiencia. La integración de Oracle Autonomous Data Warehouse con los orígenes de datos de Generali, eliminó los silos y creó un único recurso para todos los análisis de RR. HH. Esto mejoró la eficiencia y aumentó la productividad del personal de RR. HH., lo que les permitió centrarse en actividades de valor añadido en lugar de en la pérdida de generación de informes.

Miniatura de video de Lyft
Lyft

Lyft, uno de los principales proveedores de recursos compartidos del mundo, se ocupaba de 30 sistemas financieros aislados diferentes. Esta separación obstaculizó el crecimiento de la empresa y ralentizó los procesos. Gracias a la integración de Oracle Cloud ERP y Oracle Cloud EPM con Oracle Autonomous Data Warehouse, Lyft pudo consolidar las finanzas, las operaciones y los análisis en un solo sistema. Esto redujo el tiempo para cerrar sus libros en un 50%, con el potencial de un proceso aún más racionalizado. Esto también se ahorró en costos al reducir las horas de inactividad.

Miniatura de video de Agroscout
Agroscout

Agroscout es un desarrollador de software que trabaja con ayuda a los agricultores a maximizar los cultivos sanos y seguros. Para aumentar la producción de alimentos, Agroscout utilizó una red de drones para investigar cultivos para insectos o enfermedades. La organización necesitaba una manera eficiente de consolidar los datos y procesarlos para identificar signos de peligro de cultivos. Con Oracle Object Storage Data Lake, los drones subieron cultivos directamente. Los modelos de aprendizaje automático se crearon con OCI Data Science para procesar las imágenes. El resultado fue un proceso ampliamente mejorado que permitió una respuesta rápida para aumentar la producción de alimentos.

Descubre por qué OCI es el mejor lugar para crear un Lakehouse

Cada día que pasa, cada vez hay más orígenes de datos que envían mayores volúmenes de datos por todo el mundo. Para cualquier organización, esta combinación de datos estructurados y no estructurados sigue siendo un desafío. Los almacenes de datos enlazan, correlacionan y analizan estos diversos resultados en un único sistema gestionable.