CSV, Parquet, Avro 등 다양한 파일 형식으로 객체 스토리지의 데이터를 쿼리하고, 표준 SQL 구문을 사용해 다른 데이터베이스의 파일을 내보내고, 선택적으로 MySQL 데이터베이스의 트랜잭션 데이터와 결합할 수 있습니다. 모든 쿼리 프로세싱이 HeatWave 엔진 내에서 진행되므로 비MySQL 워크로드 및 MySQL 호환 워크로드에도 HeatWave를 사용할 수 있습니다. 모든 소스로부터 HeatWave 클러스터로 로드된 데이터는 최적화된 단일 내부 파일 형식으로 자동 변환됩니다. 결과적으로 데이터베이스보다 객체 스토리지에서 더 빠르게 데이터를 쿼리할 수 있는 업계 최초의 엔진이 탄생하였습니다.
쿼리 결과를 객체 스토리지에 기록할 수 있으므로 사용자가 쿼리 결과를 간단히 공유하고, 객체 스토리지에 저렴한 비용으로 저장할 수 있습니다. 또한 개발자는 MapReduce 애플리케이션에 HeatWave를 사용할 수 있습니다.
객체 스토리지의 JSON 데이터를 사용하여 콘텐츠 관리 앱이나 실시간 대시보드를 개발하는 등의 다양한 용도로 HeatWave를 사용해 객체 스토리지의 반정형 데이터를 JSON 형식으로 쿼리할 수 있습니다. HeatWave Lakehouse는 네이티브 JavaScript를 지원하므로 JavaScript를 사용해 오브젝트 스토리지의 데이터를 처리하고 쿼리할 수 있습니다. 예를 들어, JavaScript의 다양한 기능을 사용해 동적 콘텐츠 로딩 애플리케이션을 구축할 수 있습니다.
HeatWave Vector Store를 사용하면 비정형 문서를 업로드하고 질의할 수 있습니다.
HeatWave의 독보적인 성능을 뒷받침하는 것은 최대 512개 노드를 사용하여 클러스터를 프로비저닝하고, 데이터를 로드하고, 쿼리를 처리할 수 있는 대규모 병렬 실행을 가능케 하는 수평 확장 아키텍처입니다. 클러스터를 구성하는 각각의 HeatWave 노드 및 각각의 노드마다 존재하는 코어가 분할된 데이터를 병렬 처리합니다. 병렬 스캔, 조인, 그룹화, top-k 처리 등의 작업이 이에 포함됩니다. 우수한 확장성을 제공하기 위해 연산 시점과 노드 간 데이터 통신이 중첩되도록 알고리즘을 설계하였습니다.
HeatWave Autopilot은 머신러닝(ML) 기술을 활용하는 HeatWave용 워크로드 자동화 도구입니다. 자동 프로비저닝, 자동 쿼리 계획 개선(과거 쿼리 실행 사례로부터 다양한 런타임 통계를 학습하여 향후 쿼리 실행 계획을 개선), 자동 병렬 로딩 등의 다양한 HeatWave Autopilot 기능이 HeatWave Lakehouse에 부합하도록 개선되었습니다. 그에 더하여 HeatWave Lakehouse를 위해 새롭게 추가된 기능들은 다음과 같습니다.
HeatWave AutoML을 사용하면 객체 스토리지, 데이터베이스 또는 양쪽 모두의 데이터를 사용하여 ML 모델을 구축, 학습, 배포, 설명할 수 있습니다. 데이터를 별도의 ML 클라우드 서비스로 이동하거나 ML 전문가가 될 필요는 없습니다. HeatWave AutoML은 알고리즘 선택, 모델 교육을 위한 지능형 데이터 샘플링, 기능 선택, 하이퍼변수 최적화 등의 머신러닝 파이프라인을 자동화합니다. 데이터 분석가들의 많은 시간과 수고를 절약할 수 있죠. HeatWave AutoML은 텍스트 열 단위까지 적용 가능한 세부적 이상 징후 탐지, 예측, 분류, 회귀, 추천 시스템 작업을 지원합니다. HeatWave AutoML은 추가 비용 없이 사용 가능합니다.
고가용성 관리, 패치, 업그레이드, 백업 등의 작업을 자동화시켜주는 완전 관리형 서비스입니다. 컴퓨트 노드 장애가 발생하면 HeatWave 클러스터에 로드된 데이터를 자동으로 복구하므로 외부 데이터 포맷을 다시 변환할 필요가 없습니다.