O que é um Data Lakehouse?

Data Warehouse + Data Lake = Data Lakehouse

Um data lakehouse pode ser definido como uma plataforma de dados moderna construída a partir de uma combinação de um data lake e um data warehouse. Mais especificamente, um data lakehouse utiliza o armazenamento flexível de dados não estruturados de um data lake e os recursos e ferramentas de gerenciamento de data warehouses e, em seguida, implementá-los estrategicamente juntos como um sistema maior. Essa integração de duas ferramentas exclusivas traz o melhor dos dois mundos para os usuários. Para dividir ainda mais um data lakehouse, é importante primeiro entender totalmente a definição dos dois termos originais.

Data Lakehouse vs. Data Lake vs. Data Warehouse

Quando falamos sobre um data lakehouse, estamos nos referindo ao uso combinado das plataformas atuais de repositório de dados.

Então, como um data lakehouse combina essas duas ideias? Em geral, um data lakehouse remove as paredes de silo entre um data lake e um data warehouse. Isso significa que os dados podem ser facilmente movidos entre o armazenamento flexível e de baixo custo de um data lake para um data warehouse e vice-versa, fornecendo acesso fácil às ferramentas de gerenciamento de um data warehouse para implementar esquema e governança, muitas vezes alimentados por aprendizado de máquina e inteligência artificial para limpeza de dados. O resultado cria um repositório de dados que integra a coleta de dados acessível e não estruturada de data lakes e a preparação robusta de um data warehouse. Ao fornecer o espaço para coletar de fontes de dados selecionadas enquanto usa ferramentas e recursos que preparam os dados para uso comercial, um data lakehouse acelera os processos. De certa forma, data lakehouses são data warehouses - que têm origem conceitual no início dos anos 1980 - reinicializados para nosso mundo moderno orientado a dados.

Recursos de um Data Lakehouse

Com uma compreensão do conceito geral de um data lakehouse, vamos olhar um pouco mais fundo para os elementos específicos envolvidos. Um data lakehouse oferece muitas peças que estão familiarizadas com conceitos históricos de data lake e data warehouse, mas de uma forma que os mescla em algo novo e mais eficaz para o mundo digital de hoje.

Recursos de Gerenciamento de Dados

Um data warehouse geralmente oferece recursos de gerenciamento de dados, como limpeza de dados, ETL e aplicação de esquema. Eles são trazidos para um data lakehouse como um meio de preparar dados rapidamente, permitindo que dados de fontes selecionadas trabalhem naturalmente juntos e estejam preparados para outras ferramentas de análise e inteligência de negócios (BI).

Formatos de Armazenamento em Aberto

O uso de formatos de armazenamento abertos e padronizados significa que os dados de origens de dados curadas têm um começo significativo em poder trabalhar juntos e estar prontos para análise ou geração de relatórios.

Armazenamento Flexível

A capacidade de separar a computação dos recursos de armazenamento facilita a escalação do armazenamento conforme a necessidade.

Suporte para Streaming

Muitas origens de dados usam streaming em tempo real diretamente de dispositivos. Um data lakehouse foi criado para suportar melhor esse tipo de ingestão em tempo real em comparação com um data warehouse padrão. À medida que o mundo se torna mais integrado com dispositivos Internet of Things, o suporte em tempo real está se tornando cada vez mais importante.

Cargas de Trabalho Diversas

Como um data lakehouse integra os recursos de um data warehouse e de um data lake, é uma solução ideal para várias cargas de trabalho diferentes. Desde relatórios de negócios até equipes de ciência de dados até ferramentas de análise, as qualidades inerentes de um data lakehouse podem suportar diferentes cargas de trabalho em uma organização.

Vantagens de um Data Lakehouse: Uma Plataforma de Dados Moderna

Criando um data lakehouse, as organizações podem agilizar seu processo geral de gerenciamento de dados com uma plataforma de dados unificada. Um data lakehouse pode tomar o lugar de soluções individuais dividindo as paredes de silo entre vários repositórios. Essa integração cria um processo de ponta a ponta muito mais eficiente em relação a origens de dados com curadoria. Isso cria vários benefícios.

  • Menos administração: Ao usar um data lakehouse, qualquer origem conectada a ele pode ter seus dados acessíveis e consolidados para uso, em vez de extraí-los de dados brutos e se preparar para trabalhar em um data warehouse.
  • Melhor governança de dados: Os data lakehouses simplificam e melhoram a governança consolidando recursos e origens de dados e são criados com um esquema aberto padronizado, o que permite maior controle sobre segurança, métricas, acesso baseado em atribuição e outros elementos de gerenciamento cruciais.
  • Padrões simplificados: Data warehouses originados na década de 1980, quando a conectividade era extremamente limitada, o que significa que padrões de esquema localizados geralmente eram criados em organizações, até mesmo departamentos. Atualmente, existem padrões de esquema abertos para muitos tipos de dados, e os data lakehouses aproveitam isso ao ingerir várias origens de dados com um esquema padronizado sobreposto para simplificar processos.
  • Maior relação custo-benefício: Os data lakehouses são criados com infraestrutura que separa computação e armazenamento, o que permite fácil adição de armazenamento sem a necessidade de aumentar o poder de computação. Isso cria um escalonamento econômico com o uso simples de armazenamento de dados de baixo custo.

Enquanto algumas organizações criarão um data lakehouse, outras comprarão um serviço de nuvem de data lakehouse.

Histórias de Sucesso de Clientes: Data Lakehouse

Miniatura do vídeo da Experian
Experian

A Experian melhorou o desempenho em 40% e reduziu os custos em 60% quando transferiu cargas de trabalho de dados críticos de outras nuvens para um data lakehouse na OCI, acelerando o processamento de dados e a inovação de produtos enquanto expandia as oportunidades de crédito no mundo todo.

Miniatura do vídeo da Generali
Generali

A Generali Group é uma seguradora italiana com uma das maiores bases de clientes do mundo. A Generali tinha diversas origens de dados, tanto do Oracle Cloud HCM quanto de outras fontes locais e regionais. Seu processo de decisão de RH e envolvimento dos funcionários estavam atingindo obstáculos, e a empresa buscou uma solução para melhorar a eficiência. Integrando o Oracle Autonomous Data Warehouse às origens de dados da Generali, removeu silos e criou um único recurso para toda a análise de RH. Isso melhorou a eficiência e aumentou a produtividade entre os funcionários de RH, permitindo que eles se concentrem em atividades de valor agregado em vez de na rotatividade da geração de relatórios.

Miniatura do vídeo da Lyft
Lyft

Uma das principais operadoras de rideshare do mundo, a Lyft estava lidando com 30 sistemas financeiros isolados diferentes. Essa separação prejudicou o crescimento da empresa e reduziu os processos. Integrando o Oracle Cloud ERP e o Oracle Cloud EPM com o Oracle Autonomous Data Warehouse, a Lyft conseguiu consolidar finanças, operações e análises em um sistema. Isso reduziu o tempo de fechamento de seus livros em 50%, com o potencial de simplificar ainda mais o processo. Isso também economizou em custos, reduzindo as horas ociosas.

Miniatura do vídeo da Agroscout
Agroscout

Agroscout é um desenvolvedor de software que trabalha com ajuda os agricultores a maximizar culturas saudáveis e seguras. Para aumentar a produção de alimentos, a Agroscout usou uma rede de drones para pesquisar culturas de insetos ou doenças. A organização precisava de uma maneira eficiente de consolidar os dados e processá-los para identificar sinais de perigo das culturas. Usando o Oracle Object Storage Data Lake, os drones transferiram culturas diretamente. Os modelos de aprendizado de máquina foram criados com o OCI Data Science para processar as imagens. O resultado foi um processo muito melhorado que permitiu uma resposta rápida para aumentar a produção de alimentos.

Descubra por que a OCI é o melhor lugar para construir um Lakehouse

Com cada dia que passa, cada vez mais fontes de dados estão enviando maiores volumes de dados em todo o mundo. Para qualquer organização, essa combinação de dados estruturados e não estruturados continua sendo um desafio. Os data lakehouses vinculam, correlacionam e analisam essas diversas saídas em um único sistema gerenciável.