데이터 레이크하우스란 무엇인가?

Data Warehouse + Data Lake = Data Lakehouse

데이터 레이크하우스는 데이터 레이크와 데이터 웨어하우스를 결합하여 구축된 최신 데이터 플랫폼으로 정의할 수 있습니다. 더 구체적으로, 데이터 레이크하우스는 데이터 레이크에서 구조화되지 않은 데이터의 유연한 스토리지와 데이터 웨어하우스의 관리 기능 및 도구를 활용한 다음 이를 보다 큰 시스템으로 전략적으로 구현합니다. 이 두 가지 고유한 도구를 통합하면 두 환경의 장점을 사용자에게 제공할 수 있습니다. 데이터 레이크하우스를 더욱 세분화하기 위해서는 먼저 두 원래 용어의 정의를 완전히 이해하는 것이 중요합니다.

데이터 레이크하우스와 데이터 레이크, 데이터 웨어하우스 비교

데이터 레이크하우스에 대해 이야기할 때, 우리는 현재 데이터 저장소 플랫폼의 결합된 사용을 언급하고 있습니다.

그렇다면 데이터 레이크하우스는 이 두 가지 아이디어를 어떻게 결합합니까? 일반적으로 데이터 레이크하우스는 데이터 레이크와 데이터 웨어하우스 사이의 사일로 벽을 제거합니다. 즉, 데이터 레이크의 저비용 및 유연한 스토리지 간 데이터를 데이터 웨어하우스로 손쉽게 이동할 수 있으며, 그 반대의 경우도 마찬가지입니다. 데이터 웨어하우스는 스키마 및 거버넌스를 구현하기 위한 관리 툴에 손쉽게 액세스할 수 있으며, 데이터 정리를 위해 머신 러닝과 인공 지능을 기반으로 합니다. 결과적으로 경제적이고 구조화되지 않은 데이터 레이크 모음과 데이터 웨어하우스의 강력한 준비성을 통합한 데이터 저장소가 생성됩니다. 데이터 레이크하우스는 선별된 데이터 소스에서 수집할 수 있는 공간을 제공하는 동시에 비즈니스 사용을 위한 데이터를 준비하는 툴과 기능을 사용함으로써 프로세스를 가속화합니다. 어떤 식으로든 데이터 레이크하우스는 개념적으로 1980년대 초반에 시작되는 데이터 웨어하우스로서 최신 데이터 기반 환경을 위해 재부팅됩니다.

데이터 레이크하우스의 기능

데이터 레이크하우스의 일반적인 개념을 이해하면 관련된 특정 요소에 대해 조금 더 자세히 살펴보겠습니다. 데이터 레이크하우스는 과거 데이터 레이크와 데이터 웨어하우스 개념에 익숙한 여러 부분을 제공하지만 오늘날의 디지털 세계에서 새롭고 더 효과적인 것으로 통합합니다.

데이터 관리 기능

일반적으로 데이터 웨어하우스는 데이터 정리, ETL 및 스키마 시행과 같은 데이터 관리 기능을 제공합니다. 데이터를 빠르게 준비하는 수단으로 데이터 레이크하우스에 도입되어 선별된 소스의 데이터가 자연스럽게 함께 작동하고 추가 분석 및 BI(Business Intelligence) 도구에 대비할 수 있습니다.

저장소 형식 열기

표준화된 개방형 스토리지 형식을 사용하면 선별된 데이터 소스의 데이터가 처음부터 함께 작동하고 분석 또는 보고를 위한 준비를 갖출 수 있습니다.

유연한 스토리지

컴퓨팅을 스토리지 리소스와 분리하는 기능을 통해 필요에 따라 스토리지를 쉽게 확장할 수 있습니다.

스트리밍 지원

많은 데이터 소스는 디바이스에서 직접 실시간 스트리밍을 사용합니다. 데이터 레이크하우스는 표준 데이터 웨어하우스에 비해 이러한 유형의 실시간 수집을 더 효과적으로 지원하도록 구축되었습니다. 세상이 Internet of Things 장치와 더욱 통합되면서 실시간 지원이 점점 더 중요해지고 있습니다.

다양한 업무

데이터 레이크하우스는 데이터 웨어하우스와 데이터 레이크의 기능을 통합하기 때문에 다양한 워크로드에 이상적인 솔루션입니다. 비즈니스 보고에서 데이터 과학 팀에 이르기까지, 데이터 레이크하우스의 고유 품질은 조직 내 다양한 워크로드를 지원할 수 있습니다.

데이터 레이크하우스의 이점: 모던 데이터 플랫폼

데이터 레이크하우스를 구축함으로써 조직은 통합 데이터 플랫폼으로 전체 데이터 관리 프로세스를 간소화할 수 있습니다. 데이터 레이크하우스는 여러 저장소 간의 사일로 벽을 허물어 개별 솔루션을 대신할 수 있습니다. 이 통합은 선별된 데이터 소스에 대해 훨씬 더 효율적인 엔드 투 엔드 프로세스를 만듭니다. 이렇게 하면 몇 가지 이점이 있습니다.

  • 관리 감소: 데이터 레이크하우스를 사용함으로써 연결된 모든 소스는 원시 데이터에서 추출하고 데이터 웨어하우스 내에서 작업을 준비하는 것과는 달리 데이터에 접근하여 사용할 수 있도록 통합할 수 있습니다.
  • 더 나은 데이터 거버넌스: 데이터 레이크하우스는 리소스 및 데이터 소스를 통합하여 거버넌스를 단순화하고 개선합니다. 표준화된 개방형 스키마로 구축되어 보안, 측정 지표, 역할 기반 액세스 및 기타 중요한 관리 요소를 더 효과적으로 제어할 수 있습니다.
  • 간소화된 표준: 데이터 웨어하우스는 연결이 매우 제한적이었을 때 1980년대에 시작되어 지역화된 스키마 표준이 조직, 심지어 부서에도 생성되었다는 것을 의미합니다. 오늘날 다양한 유형의 데이터에 개방형 스키마 표준이 존재하며, 데이터 레이크하우스는 표준화된 스키마가 겹치는 여러 데이터 소스를 수집하여 프로세스를 간소화함으로써 이를 활용합니다.
  • 비용 효율성 향상: 데이터 레이크하우스는 컴퓨팅과 스토리지를 분리하는 인프라로 구축되므로 컴퓨팅 성능을 증대하지 않고도 스토리지를 쉽게 추가할 수 있습니다. 따라서 저렴한 데이터 스토리지를 간단히 사용하여 비용 효율적인 확장이 가능합니다.

일부 조직은 데이터 레이크하우스를 구축하지만 다른 조직은 데이터 레이크하우스 클라우드 서비스를 구매합니다.

고객 성공 사례: 데이터 레이크하우스

Experian 비디오 썸네일
Experian

타사 클라우드에서 OCI 데이터 레이크하우스로 크리티컬 데이터 워크로드를 이전한 뒤 Experian은 40%의 성능 개선과 60%의 비용 절감을 달성했습니다. 데이터 처리 및 제품 혁신 속도 역시 증가했죠. 동시에 신용 기회를 전 세계로 확대했습니다.

Generali 비디오 썸네일
Generali

Generali Group은 세계에서 가장 큰 고객 기반 중 하나를 가진 이탈리아 보험 회사입니다. Generali는 Oracle Cloud HCM과 기타 로컬 및 지역 소스에서 제공하는 다양한 데이터 소스를 보유하고 있었습니다. HR 의사 결정 프로세스와 직원 참여가 방해 요인에 부딪혔으며 이 회사는 효율성을 개선하기 위한 솔루션을 모색했습니다. Oracle Autonomous Data Warehouse를 Generali의 데이터 소스와 통합하여 사일로를 제거하고 모든 HR 분석을 위한 단일 리소스를 생성했습니다. 이를 통해 HR 직원 간의 효율성과 생산성이 향상되어 보고서 생성의 이탈이 아닌 부가 가치 활동에 집중할 수 있게 되었습니다.

Lyft 비디오 썸네일
Lyft

세계 최고의 라이드쉐어 제공업체 중 하나인 Lyft는 30개의 서로 다른 사일로화된 재무 시스템을 처리하고 있었습니다. 이러한 분리로 인해 회사의 성장이 방해를 받고 프로세스가 느려졌습니다. Lyft는 Oracle Cloud ERP 및 Oracle Cloud EPM을 Oracle Autonomous Data Warehouse와 통합하여 재무, 운영 및 분석을 하나의 시스템으로 통합할 수 있었습니다. 이로써 장부를 마감하는 시간이 50% 단축되었으며 프로세스 간소화가 더욱 빨라질 수 있습니다. 또한 유휴 시간을 줄여 비용을 절감할 수 있었습니다.

Agroscout 비디오 썸네일
Agroscout

Agroscout는 농부들이 건강하고 안전한 작물을 최대한 활용할 수 있도록 돕는 소프트웨어 개발자입니다. 식품 생산을 증가시키기 위해 Agroscout는 드론 네트워크를 사용하여 버그 또는 질병에 대한 작물을 조사했습니다. 조직은 데이터를 통합하고 작물 위험 징후를 식별하기 위해 데이터를 처리하는 효율적인 방법이 필요했습니다. 드론은 Oracle Object Storage 데이터 레이크를 사용하여 직접 작물을 업로드했습니다. 머신 러닝 모델은 OCI Data Science로 구축되어 이미지를 처리합니다. 결과적으로 식품 생산을 증가시키기 위해 신속한 대응을 가능하게 하는 프로세스가 크게 개선되었습니다.

OCI가 레이크하우스 구축하기에 가장 적합한 이유 알아보기

매일매일 점점 더 많은 데이터 소스가 전 세계에 더 많은 양의 데이터를 전송하고 있습니다. 모든 조직에서는 이러한 정형 데이터와 비정형 데이터의 조합이 계속해서 어려움을 겪고 있습니다. 데이터 레이크하우스는 이러한 다양한 출력을 하나의 관리 가능한 시스템으로 연결, 상관 및 분석합니다.