데이터 저장소는 데이터 호수와 데이터 웨어하우스를 결합하여 구축된 최신 데이터 플랫폼으로 정의할 수 있습니다. 더 구체적으로, 데이터 레이크하우스는 데이터 레이크에서 구조화되지 않은 데이터를 유연하게 저장하고 데이터 웨어하우스의 관리 기능과 도구를 사용하여 전략적으로 더 큰 시스템으로 함께 구현합니다. 이 두 가지 독특한 도구의 통합은 사용자에게 두 세계의 장점을 제공합니다. 데이터 레이크하우스를 더욱 자세히 분석하려면 먼저 두 가지 원래 용어의 정의를 완전히 이해하는 것이 중요합니다.
데이터 레이크하우스에 대해 이야기할 때 현재 기존 데이터 리포지토리 플랫폼의 결합된 사용을 언급하고 있습니다.
데이터 레이크하우스는 이 두 가지 아이디어를 어떻게 결합합니까? 일반적으로 데이터 레이크하우스는 데이터 레이크와 데이터 웨어하우스 사이의 사일로 벽을 제거합니다. 즉, 데이터 레이크의 저비용 및 유연한 스토리지 간에 데이터를 데이터 웨어하우스로 쉽게 이동할 수 있으며, 그 반대도 가능하므로 스키마 및 거버넌스를 구현하기 위한 데이터 웨어하우스의 관리 툴에 쉽게 액세스할 수 있으며, 이는 종종 데이터 정제용 머신 러닝 및 인공 지능을 기반으로 합니다. 결과적으로 데이터 레이크의 경제적이고 구조화되지 않은 컬렉션과 데이터 웨어하우스의 강력한 준비를 통합하는 데이터 저장소가 생성됩니다. 데이터 레이크하우스는 데이터를 비즈니스용으로 준비하는 도구와 기능을 사용하면서 선별된 데이터 소스에서 수집할 수 있는 공간을 제공함으로써 프로세스를 가속화합니다. 데이터 레이크하우스는 개념적으로 1980년대 초에 시작된 데이터 웨어하우스로, 현대화된 데이터 중심 세계를 위해 재부팅되었습니다.
데이터 레이크하우스의 일반적인 개념에 대한 이해를 바탕으로 관련된 특정 요소를 좀 더 자세히 살펴보겠습니다. 데이터 레이크하우스는 과거 데이터 레이크와 데이터 웨어하우스 개념에 익숙하지만 오늘날의 디지털 세상에 더 효과적이고 새로운 개념으로 데이터를 병합하는 방식으로 많은 부분을 제공합니다.
데이터 웨어하우스는 일반적으로 데이터 정리, ETL 및 스키마 적용과 같은 데이터 관리 기능을 제공합니다. 데이터를 빠르게 준비하는 수단으로 데이터 레이크하우스에 도입되어 선별된 소스의 데이터가 자연스럽게 함께 작동하고 추가 분석 및 비즈니스 인텔리전스(BI) 도구에 대비할 수 있습니다.
표준화된 개방형 스토리지 형식을 사용하면 선별된 데이터 소스의 데이터가 함께 작동하고 분석 또는 보고를 위한 준비를 갖추는 데 있어 매우 중요한 출발점이 됩니다.
컴퓨트를 스토리지 리소스와 분리할 수 있으므로 필요에 따라 간편하게 스토리지를 확장할 수 있습니다.
많은 데이터 소스는 디바이스에서 직접 실시간 스트리밍을 사용합니다. 데이터 레이크하우스는 표준 데이터 웨어하우스에 비해 이러한 유형의 실시간 수집을 더 잘 지원하도록 구축되었습니다. 세계가 IoT(Internet of Things) 장치와 더욱 통합됨에 따라 실시간 지원이 점점 더 중요해지고 있습니다.
데이터 레이크하우스는 데이터 웨어하우스와 데이터 레이크의 기능을 통합하기 때문에 여러 워크로드에 이상적인 솔루션입니다. 비즈니스 보고부터 데이터 과학 팀, 분석 도구에 이르기까지 데이터 레이크하우스의 고유 품질은 조직 내에서 다양한 워크로드를 지원할 수 있습니다.
데이터 레이크하우스를 구축함으로써 조직은 통합 모던 데이터 플랫폼을 통해 전반적인 데이터 관리 프로세스를 간소화할 수 있습니다. 데이터 레이크하우스는 여러 저장소 간의 사일로 벽을 분할하여 개별 솔루션을 대신할 수 있습니다. 이 통합은 선별된 데이터 소스에 비해 훨씬 효율적인 엔드 투 엔드 프로세스를 생성합니다. 이렇게 하면 다음과 같은 여러 가지 이점이 있습니다.
타사 클라우드에서 OCI 데이터 레이크하우스로 크리티컬 데이터 워크로드를 이전한 뒤 Experian은 40%의 성능 개선과 60%의 비용 절감을 달성했습니다. 데이터 처리 및 제품 혁신 속도 역시 증가했죠. 동시에 신용 기회를 전 세계로 확대했습니다.
Generali Group은 세계 최대 규모의 고객 기반을 보유한 이탈리아 보험 회사입니다. Generali는 Oracle Cloud HCM 및 기타 지역/지역 소스에서 제공하는 수많은 데이터 소스를 보유하고 있었습니다. 이 회사의 HR 의사 결정 프로세스와 직원 참여가 장애물로 이어졌고, 회사는 효율성을 개선하기 위한 솔루션을 모색했습니다. Oracle Autonomous Data Warehouse를 Generali의 데이터 소스와 통합하여 사일로를 제거하고 모든 HR 분석을 위한 단일 리소스를 만들었습니다. 이로써 HR 직원의 효율성이 향상되고 생산성이 향상되어 보고서 생성 이탈 대신 부가가치 활동에 집중할 수 있습니다.
세계 최고의 라이드셰어 제공업체 중 하나인 Lyft는 30개의 서로 다른 사일로화된 재무 시스템을 다루고 있었습니다. 이러한 분리로 인해 회사의 성장과 프로세스 속도가 저하되었습니다. Lyft는 Oracle Cloud ERP 및 Oracle Cloud EPM을 Oracle Autonomous Data Warehouse와 통합하여 재무, 운영 및 분석을 하나의 시스템으로 통합할 수 있었습니다. 이로써 장부를 마감하는 데 걸리는 시간을 50% 단축했으며, 이로 인해 더 많은 프로세스 간소화가 가능해졌습니다. 또한 유휴 시간을 줄여 비용을 절감할 수 있습니다.
Agroscout는 농부가 건강하고 안전한 작물을 극대화하는 데 도움이되는 소프트웨어 개발자입니다. 식품 생산을 증가시키기 위해 Agroscout은 벌레 또는 질병에 대한 작물을 조사하기 위해 드론 네트워크를 사용했습니다. 이 조직은 데이터를 통합하고 작물 위험 징후를 식별하기 위해 처리하는 효율적인 방법이 필요했습니다. 드론은 Oracle Object Storage Data Lake를 사용하여 작물을 직접 업로드했습니다. 머신 러닝 모델은 OCI Data Science를 사용하여 이미지를 처리하도록 구축되었습니다. 그 결과, 급격한 반응으로 식품 생산을 늘릴 수 있는 프로세스가 크게 향상되었습니다.
매일 점점 더 많은 데이터 소스가 전 세계적으로 더 많은 양의 데이터를 전송하고 있습니다. 어떤 조직이든 이러한 구조화된 데이터와 비구조화된 데이터의 조합은 여전히 어려운 과제입니다. 데이터 레이크하우스는 이러한 다양한 출력을 하나의 관리 가능한 시스템으로 연결, 상관 및 분석합니다.