데이터 레이크하우스는 데이터 레이크와 데이터 웨어하우스의 조합으로 구축된 모던 데이터 플랫폼이라고 정의할 수 있습니다. 더 구체적으로, 데이터 레이크하우스는 데이터 레이크로부터 비정형 데이터에 대한 유연한 저장 방식을 취하고, 데이터 웨어하우스로부터 관리 기능과 도구를 취해 더 큰 시스템으로서 이 둘을 함께 전략적으로 구현합니다. 이 두 가지 특별한 도구의 통합은 사용자에게 두 세계 최고의 장점들을 제공합니다. 데이터 레이크하우스를 더욱 자세히 분석하려면 먼저 두 가지 원래 용어의 정의를 완전히 이해하는 것이 중요합니다.
데이터 레이크하우스란 현재 사용되는 다양한 데이터 저장소 플랫폼의 통합적 사용 방식을 의미하는 표현입니다.
그렇다면, 데이터 레이크하우스는 이 두 가지 아이디어를 어떻게 결합할까요? 일반적으로 데이터 레이크하우스는 데이터 레이크와 데이터 웨어하우스 사이의 사일로를 제거합니다. 다시 말해, 데이터가 데이터 레이크의 유연한 저비용 스토리지와 데이터 웨어하우스 사이를 손쉽게 이동할 수 있어, 종종 데이터 클렌징을 위해 머신러닝과 인공지능이 구동하는, 스키마 및 거버넌스 구현을 위한 데이터 웨어하우스의 관리 도구에도 쉽게 액세스할 수 있다는 뜻입니다. 그 결과 데이터 레이크의 경제적인 비정형 컬렉션과 데이터 웨어하우스의 강력한 준비도를 통합한 데이터 저장소가 생성됩니다. 데이터 레이크하우스는 선별된 데이터 소스로부터 데이터를 수집할 공간을 제공하는 동시에 해당 데이터를 비즈니스에 유용하게 사용할 수 있도록 전환해 주는 도구와 기능을 사용해 프로세스를 가속화해 줍니다. 어떻게 보면 데이터 레이크하우스는 현재의 모던 데이터 중심 세계를 위해 재부팅된 데이터 웨어하우스(1980년대에 처음 개념화됨)라고 할 수 있습니다.
데이터 레이크하우스의 일반적인 개념에 대한 이해를 바탕으로 관련된 특정 요소들을 좀 더 자세히 살펴보겠습니다. 데이터 레이크하우스는 역사적으로 잘 알려진 데이터 레이크 및 데이터 웨어하우스의 개념에 가까운 다양한 요소들을 제공합니다. 하지만 데이터 레이크하우스는 이 개념들을 오늘날의 디지털 세상을 위해 새롭고 보다 효과적인 방식으로 병합했습니다.
데이터 웨어하우스는 보통 데이터 클렌징, ETL 및 스키마 적용과 같은 데이터 관리 기능을 제공합니다. 이 기능들은 신속한 데이터 준비를 위한 방법으로써 데이터 레이크하우스에 도입되었으며, 소스로부터 선별된 데이터가 자연스럽게 호환되고, 추가 분석 및 BI 도구 사용을 위해 준비되도록 합니다.
표준화된 오픈 스토리지 형식을 사용한다는 것은, 선별된 데이터 소스로부터 수집한 데이터가 서로 호환되고, 분석 또는 보고를 위한 준비를 갖추는 데 있어 매우 유리한 지점에 서게 된다는 의미입니다.
컴퓨트를 스토리지 리소스와 분리할 수 있게 하는 이 기능 덕분에 필요에 따라 간편하게 스토리지를 확장할 수 있습니다.
많은 데이터 소스가 기기에서 직접 실시간 스트리밍을 사용합니다. 데이터 레이크하우스는 표준 데이터 웨어하우스에 비해 이러한 유형의 실시간 수집을 더 잘 지원하도록 구축되었습니다. 세계가 다양한 IoT(Internet of Things) 기기들과 더욱 통합됨에 따라 실시간 지원이 점점 더 중요해지고 있습니다.
데이터 레이크하우스는 데이터 웨어하우스와 데이터 레이크의 기능을 통합하기 때문에 다양한 워크로드에 이상적인 솔루션입니다. 비즈니스 보고서 작성은 물론 데이터 과학 팀, 분석 도구에 이르기까지 데이터 레이크하우스에 내재된 품질은 조직 내 다양한 워크로드를 지원할 수 있습니다.
데이터 레이크하우스를 구축하면 통합 데이터 플랫폼을 활용하여 기업의 전반적인 데이터 관리 프로세스를 간소화할 수 있습니다. 데이터 레이크하우스는 여러 저장소 간의 사일로를 허물어 개별 솔루션을 대체할 수 있습니다. 이 통합은 선별된 데이터 소스에 대한 훨씬 효율적인 엔드 투 엔드 프로세스를 생성합니다. 결과적으로 다음과 같이 다양한 이점을 누릴 수 있습니다.
데이터 레이크하우스를 직접 구축하는 기업도 있고, 데이터 레이크하우스 클라우드 서비스를 구매하는 기업도 있습니다.
타사 클라우드에서 OCI 데이터 레이크하우스로 크리티컬 데이터 워크로드를 이전한 뒤 Experian은 40%의 성능 개선과 60%의 비용 절감을 달성했습니다. 데이터 처리 및 제품 혁신 속도 역시 증가했죠. 동시에 신용 기회를 전 세계로 확대했습니다.
이탈리아 보험사인 Generali Group은 세계 최대 규모의 고객 기반을 보유한 기업 중 하나입니다. Generali는 Oracle Cloud HCM 및 기타 로컬/리전별 소스로부터 얻은 수많은 데이터 소스를 보유하고 있었습니다. 그러던 중 HR 의사 결정 프로세스와 직원 관계 개선 과정이 어려움에 부딛쳤고, Generali는 효율성 개선을 위한 방안을 모색했습니다. Oracle Autonomous Data Warehouse와 Generali의 데이터 소스 간 통합 결과 사일로가 제거됐고, 모든 HR 분석을 위한 단일 리소스가 생성되었습니다. 그 결과 HR 팀의 효율성과 생산성이 개선되었고, 덕분에 직원들은 보고서 생성과 같은 까다로운 작업 대신 부가가치를 창출하는 활동에 집중할 수 있게 되었습니다.
세계 최고의 승차공유 서비스 제공업체 중 하나인 Lyft는 30개의 서로 다른 사일로화된 재무 시스템을 보유하고 있었습니다. 이러한 단절은 기업의 성장과 프로세스 속도 저하로 이어졌습니다. Lyft는 Oracle Cloud ERP 및 Oracle Cloud EPM을 Oracle Autonomous Data Warehouse와 통합하여 재무, 운영 및 분석을 하나의 시스템으로 통합할 수 있었습니다. 이로써 장부를 마감하는 데 걸리는 시간을 50% 단축했으며, 이로 인해 더 많은 프로세스 간소화가 가능해졌습니다. 또한 유휴 시간을 줄여 비용 절감 효과도 얻을 수 있었습니다.
Agroscout는 농민들이 건강하고 안전한 작물의 생산량을 극대화하는 데 도움을 주는 소프트웨어를 개발합니다. 식품 생산량 증대를 위해 Agroscout는 드론 네트워크를 사용해 각 작물의 병충해 상태를 조사했습니다. Agroscout에게는 작물이 처한 위험 신호를 알아차리기 위한 데이터와 프로세스의 효율적인 통합 방법이 필요했습니다. Agroscout의 드론들은 Oracle Object Storage Data Lake를 사용하여 작물 상태를 직접 업로드했습니다. 이미지 처리를 위한 머신러닝 모델 역시 OCI Data Science로 구축되었습니다. 그 결과 프로세스가 크게 개선되었고, 신속한 대응이 가능해져 식품 생산량을 늘릴 수 있었습니다.
매일같이 점점 더 많은 데이터 소스가 점점 더 많은 양의 데이터를 전 세계로 전송하고 있습니다. 어떤 조직에게든 이러한 정형 데이터와 비정형 데이터의 조합은 여전히 어려운 과제입니다. 데이터 레이크하우스는 이 다양한 결과물들을 하나의 관리 가능한 시스템으로 연결, 상관 및 분석합니다.