HeatWave 기능

HeatWave

HeatWave는 하이브리드 컬럼 형식의 대규모 데이터를 병렬 처리할 수 있는 인메모리 엔진입니다. 최신 알고리즘이 우수한 성능의 분산형 쿼리 프로세싱을 구현합니다.

대규모 확장과 성능을 고려한 설계

HeatWave는 노드 클러스터 전체에 병렬 처리가 가능한 데이터를 대량으로 분할합니다. 이는 탁월한 노드간 확장성을 제공합니다. 클러스터 내 각 노드 및 노드 내 각 코어는 분할된 데이터를 병렬로 처리할 수 있습니다. HeatWave의 지능형 쿼리 스케줄러는 연산과 네트워크 통신 작업을 중첩시켜 수천 개의 코어에 적합한 강력한 확장성을 보장합니다.

클라우드 환경 및 객체 스토리지 데이터에 최적화

HeatWave에서의 쿼리 프로세스는 클라우드의 상용 서버에 최적화되었습니다. 분할 영역의 크기는 기본 설정된 캐시에 맞춰 최적화되었습니다. 중첩된 연산과 데이터 통신은 운영 가능한 네트워크 대역폭에 최적화되어 있습니다. 분석 처리에 필요한 다양한 원시 자료형(primitives)은 기본 가상머신의 하드웨어 명령어를 사용합니다. 또한 HeatWave는 객체 스토리지에서의 데이터 쿼리에 최적화된 수평 확장 데이터 처리 엔진으로서 설계되었습니다.


HeatWave GenAI

HeatWave GenAI는 인데이터베이스 대규모 언어 모델(LLM), 자동화된 인데이터베이스 벡터 스토어, 문맥 기반 자연어 대화 등을 지원하는 자동화된 생성형 AI 기능을 기본 제공합니다. AI 전문 지식이나 다른 장소로 데이터를 이동할 필요 없이 생성형 AI를 자유롭게 활용해 보세요.

인데이터베이스 LLM

모든 Oracle Cloud Infrastructure (OCI) 리전, OCI Dedicated Region 및 기타 다양한 클라우드 환경에 최적화된 내장 LLM을 사용하고, 배포 환경이 서로 다르더라도 예측 가능한 성능을 바탕으로 일관된 결과를 도출할 수 있습니다. GPU를 프로비저닝할 필요가 없으므로 인프라 비용이 절감됩니다.

OCI Generative AI와 통합

OCI Generative AI 서비스를 통해 Cohere 및 Meta의 사전 학습된 기본 모델을 활용 가능합니다.

인데이터베이스 벡터 저장소

별도의 벡터 데이터베이스로 데이터를 옮길 필요 없이 원하는 LLM을 활용하여 HeatWave Vector Store에 보관된 다양한 형식의 독점 문서를 대상으로 검색 증강 생성(RAG) 작업을 수행하여 보다 정확하고 맥락에 부합하는 답변을 도출할 수 있습니다.

임베딩 자동 생성

자동화된 파이프라인을 활용하여 HeatWave Vector Store에서 독점 문서를 검색하고 수집할 수 있으므로 AI 전문가가 아닌 개발자 및 데이터 분석가도 간단히 벡터 스토어를 사용할 수 있습니다.

수평 확장 벡터 프로세싱

최대 512개의 HeatWave 클러스터 노드를 통해 벡터 프로세싱이 병렬화되고 메모리 대역폭에서 실행되므로 최대한 정확하고 빠른 결과를 도출할 수 있습니다.

HeatWave Chat

자연어를 사용해 객체 스토리지에 저장된 비정형 문서에 대한 정보를 바탕으로 문맥에 기반한 대화를 나눌 수 있습니다. 내장된 Lakehouse Navigator를 사용하여 LLM이 특정 데이터 세트를 검색하도록 유도함으로써 비용을 절감하고 더 정확한 결과를 더 빠르게 도출할 수 있습니다.

HeatWave GenAI 더 알아보기


HeatWave MySQL

HeatWave MySQL은 완전 관리형 데이터베이스 서비스이자 암호화, 데이터 마스킹, 인증, 데이터베이스 방화벽 관련 고급 보안 기능을 갖춘 MySQL Enterprise Edition을 기반으로 구축된 유일한 클라우드 서비스입니다. HeatWave를 사용하면 MySQL 쿼리 성능을 대폭 개선하고, 데이터 보안을 강화하고, MySQL 데이터베이스에 저장된 트랜잭션 데이터에 대한 실시간 분석 결과를 얻을 수 있습니다. 별도의 데이터 분석용 데이터베이스로의 데이터 복제를 위한 추출, 변환, 로드(ETL) 과정에서 발생하는 복잡성, 지연 시간, 위험, 비용은 일체 발생하지 않습니다.

ETL이 필요없는 실시간 분석

트랜잭션 업데이트 내용이 HeatWave 분석 클러스터에 실시간으로 자동 복제되므로 언제나 최신 데이터를 대상으로 분석 쿼리를 실행할 수 있습니다. 분석 쿼리를 실행하기 전 데이터를 인덱싱할 필요가 없습니다. 까다로운 ETL 프로세스나 분석 데이터베이스 통합에 많은 시간과 비용을 소모할 필요가 없습니다.

HeatWave MySQL 더 알아보기


HeatWave Lakehouse

HeatWave Lakehouse 사용자는 객체 스토리지에서 CSV, Parquet, Avro, JSON과 같은 다양한 파일 형식으로 0.5 페타바이트의 데이터를 쿼리하고, 다른 데이터베이스에서 가져온 파일도 내보낼 수 있습니다. HeatWave 엔진에서 모든 쿼리가 처리되므로 고객은 MySQL 호환 워크로드와 더불어 실행 중인 비MySQL 워크로드에도 HeatWave를 활용할 수 있습니다.

모든 데이터에 대한 고속 레이크하우스 분석 및 머신러닝 성능

고객은 객체 스토리지 내에서 다양한 형식의 데이터를, MySQL 데이터베이스에서 트랜잭션 데이터를, 표준 SQL 명령을 사용해 둘의 조합을 쿼리할 수 있습니다. 10TB TPC-H 벤치마크 테스트 결과 입증된 것처럼 객체 스토리지에서의 쿼리 속도가 데이터베이스에서의 쿼리 속도만큼 빨라졌습니다.

HeatWave AutoML을 사용하면 고객은 데이터를 별도의 ML 클라우드 서비스로 이전하지 않고도 객체 스토리지, 데이터베이스 또는 둘 모두에서 데이터를 사용해 ML 모델을 자동으로 구축, 훈련, 배포 및 설명할 수 있습니다.

데이터 관리 및 쿼리 처리를 위한 수평 확장 아키텍처

HeatWave의 대규모 분할 아키텍처는 HeatWave Lakehouse의 수평 확장 아키텍처를 지원합니다. 데이터 로딩/재로딩 등 쿼리 처리 및 데이터 관리 작업을 데이터 크기에 따라 확장할 수 있습니다. HeatWave Lakehouse를 사용하면 객체 스토리지에서 최대 0.5 페타바이트 규모의 데이터를 MySQL 데이터베이스에 복사하지 않고도 쿼리할 수 있습니다. HeatWave 클러스터는 512 노드까지 확장됩니다.

머신러닝 기반의 자동화를 통한 성능 향상 및 시간 절약

자동 프로비저닝, 자동 쿼리 계획 향상, 자동 병렬 로딩과 같은 HeatWave Autopilot의 기능들이 HeatWave Lakehouse를 위해 새롭게 개선되었습니다. 덕분에 데이터베이스 관리 간접비가 줄고 성능은 향상됩니다. 새로운 HeatWave Autopilot 기능은 HeatWave Lakehouse에서도 사용할 수 있습니다.

  • 자동 스키마 추론 기능은 CSV를 포함한 모든 지원되는 파일 유형에 상응하는 스키마 정의에 대한 파일 데이터 매핑을 자동으로 추론합니다. 그 결과 고객은 파일의 스키마 매핑을 직접 정의 및 업데이트할 필요가 없어서 그만큼의 시간과 노력을 절약할 수 있습니다.
  • 적응형 데이터 샘플링 기능은 객체 스토리지 내 파일을 스마트하게 샘플링해 HeatWave Autopilot이 자동화를 위한 예측에 사용하는 정보를 도출합니다. HeatWave Autopilot은 적응형 데이터 샘플링 기능을 사용해 데이터를 스캔하고 예측을 수행할 수 있습니다(예: 1분 이내에 400TB 규모의 파일에 대한 스키마 매핑 수행).
  • 적응형 데이터 흐름 기능은 HeatWave Lakehouse가 모든 리전의 객체 저장소 성능에 동적으로 적응할 수 있게 해 줍니다. 이를 통해 전반적인 성능, 가격 대비 성능, 가용성이 개선됩니다.

HeatWave Lakehouse 더 알아보기


HeatWave AutoML

HeatWave AutoML은 HeatWave에서 머신러닝 모델을 구축, 교육, 설명하는 데 필요한 모든 도구를 추가 비용 없이 무료로 제공합니다.

별도의 머신러닝 서비스 불필요

HeatWave의 인데이터베이스 네이티브 머신러닝을 활용하면 별도의 머신러닝 서비스로 데이터를 이전할 필요가 없습니다. HeatWave Lakehouse를 사용하면 머신러닝 교육, 인퍼런싱, 설명을 MySQL 및 객체 저장소 내에 저장된 데이터에 손쉽고 안전하게 적용할 수 있습니다. 이를 통해 ML 이니셔티브를 가속화하고, 보안을 강화하고, 비용을 절감할 수 있습니다.

머신러닝 수명 주기 자동화로 시간과 노동력 절약

HeatWave AutoML은 알고리즘 선택, 모델 교육을 위한 지능형 데이터 샘플링, 기능 선택, 하이퍼변수 최적화 등 머신러닝 수명 주기를 자동화합니다. 덕분에 데이터 분석가 및 과학자들의 시간과 수고를 절약할 수 있죠. 알고리즘 선택, 기능 선택, 하이퍼파라미터 최적화 등 머신러닝 파이프라인의 측면을 사용자 정의할 수 있습니다. HeatWave AutoML은 텍스트 열을 포함한 이상 감지, 예측, 분류, 회귀, 추천 시스템 작업을 지원합니다.

개인화된 추천을 위한 추천 시스템

HeatWave AutoML의 추천 시스템은 암시적인 피드백(과거 구매 이력, 탐색 활동 등)과 명시적인 피드백(평점, 좋아요 등)을 모두 고려하여 개인화된 추천을 생성할 수 있습니다. 예를 들어 분석가들은 사용자가 좋아할 만한 항목, 특정 항목을 좋아할 만한 사용자, 해당 항목에 기대되는 평점 등을 예측할 수 있습니다. 또한 한 사용자와 유사한 사용자들의 목록을 얻고, 특정 항목과 유사한 항목들의 목록을 얻을 수도 있습니다.

대화식 HeatWave AutoML 콘솔

이 인터랙티브 콘솔은 비즈니스 분석가가 SQL 명령이나 코딩 없이도 시각 인터페이스를 사용해 ML 모델을 구축, 교육, 실행 및 설명할 수 있게 해 줍니다. 이 콘솔은 또한 What-If 시나리오를 손쉽게 탐색해 비즈니스 가정을 평가할 수 있게 해 줍니다(예: "유료 소셜 미디어 광고에 대한 투자를 30% 늘리면 매출과 수익에 어떤 영향이 있을까?").

설명 가능한 ML 모델

HeatWave AutoML을 통해 학습한 모든 모델은 설명 가능합니다. HeatWave AutoML은 학습 결과에 대한 설명과 관련 예측을 함께 제공하므로, 기업의 규제 준수, 공정성, 반복성, 인과성, 신뢰도 관련 분야에 활용할 수 있습니다.

최신 기술 사용

개발자 및 데이터 분석가들은 새로운 도구나 언어를 배울 필요 없이 친숙한 SQL 명령을 사용해 머신러닝 모델을 구축할 수 있습니다. 또한 HeatWave AutoML은 Jupyter, Apache Zeppelin 등 인기 노트북과 통합되었습니다.


HeatWave Autopilot

HeatWave Autopilot은 워크로드 인식 기능과 머신러닝 기반 자동화 기능을 제공합니다. 또한 데이터베이스 튜닝을 위한 전문성 없이도 성능과 확장성을 개선할 수 있게 해 주고, 개발자 및 DBA의 생산성을 높여주고, 인적 오류의 발생 가능성을 줄여줍니다. HeatWave Autopilot은 대규모 쿼리의 고성능 처리를 위해 프로비저닝, 데이터 로딩, 쿼리 실행, 장애 처리와 같은 고난이도의 주요 작업들을 자동화합니다. HeatWave Autopilot 고객은 추가 비용 없이 HeatWave MySQL을 사용할 수 있습니다.

HeatWave Autopilot은 HeatWave 및 OLTP 모두에 대한 다음과 같은 다양한 기능을 제공합니다

  • 자동 프로비저닝은 적응적 샘플링(adaptive sampling) 기법을 이용해 분석이 필요한 테이블의 데이터에서 표본을 추출하여 워크로드 실행에 필요한 HeatWave 노드의 수를 예측합니다. 이는 개발자 및 DBA가 더 이상 최적의 클러스터 사이즈를 직접 예측할 필요가 없음을 의미합니다.
  • 자동 스레드 풀링을 사용하면 데이터베이스 서비스가 지정된 하드웨어 구성에 대해 더 많은 트랜잭션을 처리할 수 있으므로 OLTP 워크로드에 더 높은 처리량을 제공하고 높은 수준의 트랜잭션 및 동시성을 유지하면서 처리량이 감소하지 않도록 할 수 있습니다.
  • 자동 구성 예측은 처리량 및 버퍼 풀 적중률을 비롯한 OLTP 작업 로드를 지속적으로 모니터링하여 시간대별로 적절한 컴퓨트 구성을 제안해 주므로 고객은 언제나 최고의 가격 대비 성능을 누릴 수 있습니다.
  • 자동 인코딩은 쿼리를 고려하여 HeatWave에 로드되는 컬럼을 위한 최적의 표현을 결정합니다. 최적화된 표현은 최적의 쿼리 성능을 제공하며 비용 최소화가 가능하도록 클러스터 크기를 최소화합니다.
  • 자동 query 계획 향상은 실행되는 쿼리를 바탕으로 다양한 통계를 학습하여 추후 실행하기로 계획한 쿼리의 성능을 향상합니다. 이렇게 하면 더욱 많은 쿼리가 실행되어 시스템 성능이 개선됩니다.
  • 적응형 쿼리 최적화는 쿼리 실행이 시작된 이후 다양한 통계를 사용해 데이터 구조 및 시스템 리소스를 조정합니다. 이 기능은 런타임 시 실제 데이터 분포를 기반으로 각 노드에 대한 쿼리 실행을 개별적으로 최적화합니다. 이를 통해 임시 쿼리의 성능이 최대 25% 개선될 수 있습니다.
  • 자동 데이터 배치는 메모리에서 최적의 쿼리 성능을 위해 어떤 테이블의 컬럼을 분할해야 할지 예측합니다. 새로운 컬럼을 추천하고 이에 따라 향상되는 쿼리 성능 또한 예측이 가능합니다. 이렇게 하면 운영자가 직접 차선으로 컬럼을 선택할 때에도 노드 사이를 이동하는 데이터가 최소화됩니다.
  • 자동 압축 기능은 각 열에 대한 최적의 압축 알고리즘을 결정합니다. 그 결과 빠른 데이터 압축 및 압축 해제를 통해 로드 및 쿼리 성능이 향상됩니다. 메모리 사용량을 줄임으로써 최대 25%의 비용을 줄일 수 있습니다.
  • 인덱싱(제한적 제공) 기능은 머신러닝을 통해 개별 애플리케이션 워크로드 기반 예측을 수행함으로써 고객이 테이블에서 생성 또는 삭제해야 하는 인덱스를 자동으로 결정하여 OLTP 처리량을 최적화합니다. 이를 통해 고객은 OLTP 워크로드에 대한 최적의 인덱스를 직접 생성하고, 갈수록 확대되는 워크로드를 유지보수하는 과정에서 요구되는 시간과 노력을 아낄 수 있습니다.

실시간 탄력성

실시간 탄력성은 고객이 다운타임 또는 읽기 전용 시간을 발생시키지 않고도 원하는 노드 수에 따라 HeatWave 클러스터의 크기를 늘리거나 줄일 수 있게 해줍니다.

피크 타임에도 유지되는 일관적인 고성능, 제로 다운타임으로 비용 절감

크기 재조정은 몇 분이면 완료됩니다. 그동안 HeatWave는 온라인 상태로 유지되며, 모든 작업을 수행할 수 있습니다. 재조정이 완료되면 객체 스토리지에서 데이터가 다운로드되고, 가용한 모든 클러스터 노드의 균형이 자동으로 조정되고, 쿼리를 즉시 사용할 수 있게 됩니다. 이를 통해 고객은 피크 타임에도 일관적인 고성능을 누릴 수 있고, 필요할 때 다운타임 또는 읽기 전용 시간 발생 없이 HeatWave 클러스터를 다운사이즈해 비용을 절감할 수 있죠.

오브젝트 스토리지에서 효율적인 데이터 재로드를 통해 고객은 HeatWave 클러스터를 일시 중지했다가 다시 시작하여 비용을 절감할 수도 있습니다.

인스턴스 오버프로비저닝 없는 HeatWave

고객은 HeatWave 클러스터를 원하는 개수의 노드만큼 확장 또는 축소할 수 있습니다. 경직된 크기의 모델을 사용하기 위해 오버프로비저닝을 하거나 값비싼 인스턴스를 사용할 필요는 없습니다. HeatWave 고객은 사용한 리소스에 비례하는 비용만을 지불하면 됩니다.


퍼블릭 클라우드와 데이터 센터에서 사용 가능

OCI, AWS, 또는 Azure에 HeatWave를 배포할 수 있습니다. 온프레미스 OLTP 앱으로부터 HeatWave로 데이터를 복제하여 클라우드 환경에서 실시간에 가까운 데이터 분석 및 벡터 데이터 처리를 수행할 수 있습니다. 또한 OCI Dedicated Region을 통해 자체 데이터 센터에서 HeatWave를 사용할 수도 있습니다.

AWS 기반 HeatWave는 AWS 고객을 위한 네이티브 경험을 제공합니다. 콘솔, 제어 플레인, 데이터 플레인은 AWS에 상주합니다.