Um data lakehouse pode ser definido como uma plataforma de dados moderna construída a partir de uma combinação de um data lake e um data warehouse. Mais especificamente, um data lakehouse utiliza o armazenamento flexível de dados não estruturados de um data lake e os recursos e ferramentas de gerenciamento de data warehouses e, em seguida, implementá-los estrategicamente juntos como um sistema maior. Essa integração de duas ferramentas exclusivas traz o melhor dos dois mundos para os usuários. Para dividir ainda mais um data lakehouse, é importante primeiro entender totalmente a definição dos dois termos originais.
Quando falamos sobre um data lakehouse, estamos fazendo referência ao uso combinado de plataformas de repositório de dados existentes no momento:
Então, como um data lakehouse combina essas duas ideias? Em geral, um data lakehouse remove as paredes de silo entre um data lake e um data warehouse. Isso significa que os dados podem ser facilmente movidos entre o armazenamento flexível e de baixo custo de um data lake para um data warehouse e vice-versa, fornecendo acesso fácil às ferramentas de gerenciamento de um data warehouse para implementar esquema e governança, muitas vezes alimentados por aprendizado de máquina e inteligência artificial para limpeza de dados. O resultado cria um repositório de dados que integra a coleta de dados acessível e não estruturada de data lakes e a preparação robusta de um data warehouse. Ao fornecer o espaço para coletar de fontes de dados selecionadas enquanto usa ferramentas e recursos que preparam os dados para uso comercial, um data lakehouse acelera os processos. De certa forma, data lakehouses são data warehouses - que têm origem conceitual no início dos anos 1980 - reinicializados para nosso mundo moderno orientado a dados.
Com uma compreensão do conceito geral de um data lakehouse, vamos olhar um pouco mais fundo para os elementos específicos envolvidos. Um data lakehouse oferece muitas peças que estão familiarizadas com conceitos históricos de data lake e data warehouse, mas de uma forma que os mescla em algo novo e mais eficaz para o mundo digital de hoje.
Um data warehouse geralmente oferece recursos de gerenciamento de dados, como limpeza de dados, ETL e aplicação de esquema. Eles são trazidos para um data lakehouse como um meio de preparar dados rapidamente, permitindo que dados de fontes selecionadas trabalhem naturalmente juntos e estejam preparados para outras ferramentas de análise e inteligência de negócios (BI).
O uso de formatos de armazenamento abertos e padronizados significa que os dados de origens de dados curadas têm um começo significativo em poder trabalhar juntos e estar prontos para análise ou geração de relatórios.
A capacidade de separar a computação dos recursos de armazenamento facilita a escalação do armazenamento conforme a necessidade.
Muitas origens de dados usam streaming em tempo real diretamente de dispositivos. Um data lakehouse foi criado para suportar melhor esse tipo de ingestão em tempo real em comparação com um data warehouse padrão. À medida que o mundo se torna mais integrado com dispositivos Internet of Things, o suporte em tempo real está se tornando cada vez mais importante.
Como um data lakehouse integra os recursos de um data warehouse e de um data lake, é uma solução ideal para várias cargas de trabalho diferentes. Desde relatórios de negócios até equipes de ciência de dados até ferramentas de análise, as qualidades inerentes de um data lakehouse podem suportar diferentes cargas de trabalho em uma organização.
Criando um data lakehouse, as organizações podem agilizar seu processo geral de gerenciamento de dados com uma plataforma de dados moderna unificada. Um data lakehouse pode tomar o lugar de soluções individuais dividindo as paredes de silo entre vários repositórios. Essa integração cria um processo de ponta a ponta muito mais eficiente em relação a origens de dados com curadoria. Isso cria vários benefícios:
A Experian melhorou o desempenho em 40% e reduziu os custos em 60% quando transferiu cargas de trabalho de dados críticos de outras nuvens para um data lakehouse na OCI, acelerando o processamento de dados e a inovação de produtos enquanto expandia as oportunidades de crédito no mundo todo.
A Generali Group é uma seguradora italiana com uma das maiores bases de clientes do mundo. A Generali tinha diversas origens de dados, tanto do Oracle Cloud HCM quanto de outras fontes locais e regionais. Seu processo de decisão de RH e envolvimento dos funcionários estavam atingindo obstáculos, e a empresa buscou uma solução para melhorar a eficiência. Integrando o Oracle Autonomous Data Warehouse às origens de dados da Generali, removeu silos e criou um único recurso para toda a análise de RH. Isso melhorou a eficiência e aumentou a produtividade entre os funcionários de RH, permitindo que eles se concentrem em atividades de valor agregado em vez de na rotatividade da geração de relatórios.
Uma das principais operadoras de rideshare do mundo, a Lyft estava lidando com 30 sistemas financeiros isolados diferentes. Essa separação prejudicou o crescimento da empresa e reduziu os processos. Integrando o Oracle Cloud ERP e o Oracle Cloud EPM com o Oracle Autonomous Data Warehouse, a Lyft conseguiu consolidar finanças, operações e análises em um sistema. Isso reduziu o tempo de fechamento de seus livros em 50%, com o potencial de simplificar ainda mais o processo. Isso também economizou em custos, reduzindo as horas ociosas.
Agroscout é um desenvolvedor de software que trabalha com ajuda os agricultores a maximizar culturas saudáveis e seguras. Para aumentar a produção de alimentos, a Agroscout usou uma rede de drones para pesquisar culturas de insetos ou doenças. A organização precisava de uma maneira eficiente de consolidar os dados e processá-los para identificar sinais de perigo das culturas. Usando o Oracle Object Storage Data Lake, os drones transferiram culturas diretamente. Os modelos de aprendizado de máquina foram criados com o OCI Data Science para processar as imagens. O resultado foi um processo muito melhorado que permitiu uma resposta rápida para aumentar a produção de alimentos.
Com cada dia que passa, cada vez mais fontes de dados estão enviando maiores volumes de dados em todo o mundo. Para qualquer organização, essa combinação de dados estruturados e não estruturados continua sendo um desafio. Os data lakehouses vinculam, correlacionam e analisam essas diversas saídas em um único sistema gerenciável.