HeatWave Lakehouse 기능

객체 스토리지 및 선택적으로 MySQL 데이터베이스에서 사용 가능한 데이터 쿼리 엔진

CSV, Parquet, Avro 등 다양한 파일 형식으로 객체 스토리지의 데이터를 쿼리하고, 표준 SQL 구문을 사용해 다른 데이터베이스의 파일을 내보내고, 선택적으로 MySQL 데이터베이스의 트랜잭션 데이터와 결합할 수 있습니다. 모든 쿼리 프로세싱이 HeatWave 엔진 내에서 진행되므로 비MySQL 워크로드 및 MySQL 호환 워크로드에도 HeatWave를 사용할 수 있습니다. 모든 소스로부터 HeatWave 클러스터로 로드된 데이터는 최적화된 단일 내부 파일 형식으로 자동 변환됩니다. 결과적으로 데이터베이스보다 객체 스토리지에서 더 빠르게 데이터를 쿼리할 수 있는 업계 최초의 엔진이 탄생하였습니다.

쿼리 결과를 객체 스토리지에 기록할 수 있으므로 사용자가 쿼리 결과를 간단히 공유하고, 객체 스토리지에 저렴한 비용으로 저장할 수 있습니다. 또한 개발자는 MapReduce 애플리케이션에 HeatWave를 사용할 수 있습니다.

JSON 및 JavaScript 지원

객체 스토리지의 JSON 데이터를 사용하여 콘텐츠 관리 앱이나 실시간 대시보드를 개발하는 등의 다양한 용도로 HeatWave를 사용해 객체 스토리지의 반정형 데이터를 JSON 형식으로 쿼리할 수 있습니다. HeatWave Lakehouse는 네이티브 JavaScript를 지원하므로 JavaScript를 사용해 오브젝트 스토리지의 데이터를 처리하고 쿼리할 수 있습니다. 예를 들어, JavaScript의 다양한 기능을 사용해 동적 콘텐츠 로딩 애플리케이션을 구축할 수 있습니다.

HeatWave Vector Store의 비정형 문서 지원

HeatWave Vector Store를 사용하면 비정형 문서를 업로드하고 질의할 수 있습니다.

수평 확장 아키텍처

HeatWave의 독보적인 성능을 뒷받침하는 것은 최대 512개 노드를 사용하여 클러스터를 프로비저닝하고, 데이터를 로드하고, 쿼리를 처리할 수 있는 대규모 병렬 실행을 가능케 하는 수평 확장 아키텍처입니다. 클러스터를 구성하는 각각의 HeatWave 노드 및 각각의 노드마다 존재하는 코어가 분할된 데이터를 병렬 처리합니다. 병렬 스캔, 조인, 그룹화, top-k 처리 등의 작업이 이에 포함됩니다. 우수한 확장성을 제공하기 위해 연산 시점과 노드 간 데이터 통신이 중첩되도록 알고리즘을 설계하였습니다.

HeatWave Autopilot의 머신러닝 기반 자동화

HeatWave Autopilot은 머신러닝(ML) 기술을 활용하는 HeatWave용 워크로드 자동화 도구입니다. 자동 프로비저닝, 자동 쿼리 계획 개선(과거 쿼리 실행 사례로부터 다양한 런타임 통계를 학습하여 향후 쿼리 실행 계획을 개선), 자동 병렬 로딩 등의 다양한 HeatWave Autopilot 기능이 HeatWave Lakehouse에 부합하도록 개선되었습니다. 그에 더하여 HeatWave Lakehouse를 위해 새롭게 추가된 기능들은 다음과 같습니다.

  • 자동 스키마 추론 기능은 CSV를 포함한 모든 지원되는 파일 유형에 상응하는 스키마 정의에 대한 파일 데이터 매핑을 자동으로 추론합니다. 따라서 고객사가 파일의 스키마 매핑을 직접 정의 및 업데이트할 필요가 없어지고, 그에 따르는 시간과 노력을 절약할 수 있습니다.
  • 적응형 데이터 샘플링 기능은 객체 스토리지 내 파일을 스마트하게 샘플링해 HeatWave Autopilot이 자동화를 위한 예측에 사용하는 정보를 도출합니다. HeatWave Autopilot은 적응형 데이터 샘플링 기능을 사용해 데이터를 스캔하고 예측을 수행할 수 있습니다(예: 1분 이내에 400TB 규모의 파일에 대한 스키마 매핑 수행).
  • 적응형 데이터 흐름 기능은 HeatWave Lakehouse가 모든 리전의 객체 저장소 성능에 동적으로 적응할 수 있게 해 줍니다. 이를 통해 전반적인 성능 및 가용성이 개선됩니다.
  • 적응형 쿼리 최적화 기능은 쿼리 실행이 시작된 이후 다양한 통계를 사용해 데이터 구조 및 시스템 리소스를 조정하고, 런타임 시 실제 데이터 분포를 기반으로 각 노드에 대한 쿼리 실행을 개별적으로 최적화합니다. 이를 통해 임시 쿼리의 성능이 최대 25% 개선될 수 있습니다.
  • 자동 압축 기능은 각 열에 대한 최적의 압축 알고리즘을 결정합니다. 그 결과 빠른 데이터 압축 및 압축 해제를 통해 로드 및 쿼리 성능이 향상됩니다. 메모리 사용량을 줄임으로써 최대 20%의 비용을 줄일 수 있습니다.

내장된 머신러닝

HeatWave AutoML을 사용하면 객체 스토리지, 데이터베이스 또는 양쪽 모두의 데이터를 사용하여 ML 모델을 구축, 학습, 배포, 설명할 수 있습니다. 데이터를 별도의 ML 클라우드 서비스로 이동하거나 ML 전문가가 될 필요는 없습니다. HeatWave AutoML은 알고리즘 선택, 모델 교육을 위한 지능형 데이터 샘플링, 기능 선택, 하이퍼변수 최적화 등의 머신러닝 파이프라인을 자동화합니다. 데이터 분석가들의 많은 시간과 수고를 절약할 수 있죠. HeatWave AutoML은 텍스트 열 단위까지 적용 가능한 세부적 이상 징후 탐지, 예측, 분류, 회귀, 추천 시스템 작업을 지원합니다. HeatWave AutoML은 추가 비용 없이 사용 가능합니다.

고가용성, 완전 관리형 데이터베이스 서비스

고가용성 관리, 패치, 업그레이드, 백업 등의 작업을 자동화시켜주는 완전 관리형 서비스입니다. 컴퓨트 노드 장애가 발생하면 HeatWave 클러스터에 로드된 데이터를 자동으로 복구하므로 외부 데이터 포맷을 다시 변환할 필요가 없습니다.

보안 액세스 제어

Oracle Cloud Infrastructure(OCI) 리소스 주체 인증 또는 사전 인증된 요청 등의 액세스 제어 메커니즘을 통해 데이터 레이크 소스에 대한 액세스를 완벽하게 제어할 수 있습니다.