HeatWave 的特性

HeatWave

HeatWave 是一个内存中大规模并行的混合列数据处理引擎。它可提供杰出的算法,实现超高的分布式查询处理性能。

采用大规模扩展和高性能架构设计

HeatWave 可将数据大规模分区到一组可并行运行的 HeatWave 节点上,提供出色的节点间可扩展性。集群内的每个节点和节点内的每个核心都可以并行处理分区数据。同时,HeatWave 搭载了一个智能查询调度器,可并行处理计算与网络通信任务,为数千个核心提供高度的可伸缩性。

针对云端和对象存储中的数据进行了优化

HeatWave 查询处理已针对云端商用服务器进行了优化。首先,分区大小经过专门优化,即使基础配置的缓存也能正常运行。其次,计算与通信重叠特性也针对可用网络带宽进行了优化。最后,各种分析处理原语使用底层虚拟机 (VM) 的硬件指令。HeatWave 也被设计为一个横向扩展数据处理引擎,针对查询对象存储中的数据进行了优化。


HeatWave GenAI

HeatWave GenAI 提供集成且自动化的生成式 AI,具有数据库内大型语言模型 (LLM)、自动化的数据库内向量存储以及以自然语言进行情景对话的能力 — 让您无需掌握 AI 专业知识或迁移数据,即可利用生成式 AI。

数据库内 LLM

在所有 Oracle Cloud Infrastructure (OCI) 区域、OCI Dedicated Region 和跨云端中使用内置的、优化的 LLM;并在跨各种部署环境中获得具有可预测性能的一致结果。无需预配 GPU,可降低基础设施成本。

与 OCI Generative AI 集成

通过 OCI Generative AI 服务,访问 Cohere 和 Meta 的预训练基础模型。

数据库中向量存储

在 HeatWave Vector Store 中,以各种格式对 LLM 和您的专有文档执行检索增强生成 (RAG),以获得更准确和与情景相关的答案,而无需将数据移至单独的向量数据库。

自动生成嵌入

利用自动化管道,帮助在 HeatWave Vector Store 中发现和摄取专有文档,让没有 AI 专业知识的开发人员和分析人员也可以轻松使用向量存储。

横向扩展向量处理

向量处理在多达 512 个 HeatWave 集群节点上并行化,以内存带宽执行,有助于快速提供结果并降低影响准确性的可能性。

HeatWave Chat

使用自然语言,在对象存储中通过非结构化文档提供情景化对话。使用集成的 Lakehouse Navigator,引导 LLM 搜索特定数据集,从而帮助您降低成本,同时更快地获得更准确的结果。

了解有关 HeatWave GenAI 的更多信息


HeatWave MySQL

HeatWave MySQL 是一个完全托管的数据库服务,也是一个基于 MySQL Enterprise Edition 构建的云技术服务,具有用于加密、数据屏蔽、验证和数据库防火墙的高级安全功能。HeatWave 可将 MySQL 查询性能提高几个数量级,让您能够对 MySQL 中的事务处理数据进行实时分析,而无需面对通过提取、转换和加载 (ETL) 复制到单独分析数据库的复杂性、延迟、风险和成本。

无 ETL 的实时分析

事务更新会自动、实时复制到 HeatWave 分析集群,分析查询可以访问新的数据。在运行分析查询之前无需编录数据索引。无需执行复杂、耗时且成本高昂的 ETL 流程,也无需与单独的分析数据库集成。

了解有关 HeatWave MySQL 的更多信息


HeatWave Lakehouse

HeatWave Lakehouse 支持用户查询对象存储中的半 PB 数据,包括 CSV、Parquet、Avro、JSON 以及其它数据库中的导出文件等各种文件格式。查询处理完全在 HeatWave 引擎中完成,客户除了可以利用 HeatWave 处理与 MySQL 兼容工作负载之外,还可以处理非 MySQL 工作负载。

针对所有数据,快速执行数据池分析和机器学习

除了查询对象存储中各种格式的数据,客户还可以使用标准 MySQL 命令查询 SQL 数据库中的事务数据,或同时执行这两种查询。10 TB TPC-H 基准测试结果显示,MySQL 在对象存储中查询数据的速度与查询数据库的速度一样快。

通过 HeatWave AutoML,客户可以使用对象存储和/或数据库中的数据,自动构建、训练、部署和解释机器学习模型,而无需将数据迁移至单独的机器学习云技术服务。

面向数据管理和查询处理的横向扩展架构

HeatWave 的大规模分区架构可为 HeatWave Lakehouse 提供一个横向扩展架构,支持根据数据规模扩展或收缩查询处理和数据管理操作(如加载/重新加载数据)。客户可以使用 HeatWave Lakehouse 在对象存储中查询多达半 PB 数据,且无需将数据复制到 MySQL 数据库。HeatWave 集群可扩展至 512 个节点。

利用基于机器学习的自动化功能提高性能,节省时间

HeatWave Lakehouse 不仅增强了已有的自动供应、自动查询计划改进和自动并行加载等 HeatWave Lakehouse 功能,进一步降低数据库管理开销并提高性能。HeatWave Lakehouse 还推出了新的 HeatWave Autopilot 功能。

  • 自动模式推断可针对所有支持的文件类型(包括 CSV)自动推断文件数据到对应模式定义的映射。因此,客户无需手动定义和更新文件的模式映射,从而节省大量时间和精力。
  • 自适应数据采样可智能地对对象存储中的文件进行抽样,并推导信息供 HeatWave Autopilot 执行自动化预测。借助自适应数据采样,HeatWave Autopilot 可在不到一分钟的时间内对 400 TB 文件的模式映射完成扫描并执行预测。
  • 自适应数据流让 HeatWave Lakehouse 可动态适应任何区域中底层对象存储的性能,改善整体性能、性价比和可用性。

了解有关 HeatWave Lakehouse 的更多信息


HeatWave AutoML

HeatWave AutoML 免费为用户提供在 HeatWave 中构建、训练和解释机器学习模型所需的一切资源。

无需额外的机器学习服务

借助 HeatWave 的数据库内机器学习,客户不需要将数据迁移到其它机器学习服务。客户可以使用 MySQL Lakehouse,轻松、安全地将存储在 HeatWave 和对象存储中的数据应用于机器学习训练、推断和解释。加速推进机器学习计划、增强安全性并降低成本。

利用机器学习生命周期自动化节省时间并减轻工作量

HeatWave AutoML 能够推动机器学习生命周期自动化,包括算法选择、面向模型训练的智能数据采样、特征选择和超参数优化,为数据分析师和数据科学家节省大量时间和精力。您还可以对算法选择、特征选择和超参数优化等机器学习管道选项进行自定义。HeatWave AutoML 支持异常检测、预测、分类、回归和推荐系统任务,包括在文本列中。

个性化推荐系统

HeatWave AutoML 推荐系统可以基于隐式反馈(如购买历史和浏览行为)和显式反馈(如评分、点赞)来生成个性化推荐方案。分析人员可以预测用户可能会喜欢的商品、特定商品能够吸引的用户以及某个商品的评分。还可以根据某个用户,获取相似用户的列表;或根据特定的产品,获取相似产品的列表。

交互式 HeatWave AutoML 控制台

交互式控制台支持业务分析师在一个可视界面中轻松构建、训练、运行和解释 ML 模型,无需使用 SQL 命令或编写任何代码。此外,它还能简化 What-if 场景分析,帮助企业评估业务假设,例如“追加 30% 的付费社交媒体广告投资将对收入和利润产生哪些影响?”

可解释的机器学习模型

经 HeatWave AutoML 训练的所有模型都可解释。HeatWave AutoML 可提供预测并解释结果,在合规性、公平性、可重复性、因果关系和信任方面为企业提供强大支持。

运用现有的技能

使用 HeatWave AutoML,开发人员和数据分析师不必学习新的工具和语言,可以使用熟悉的 SQL 命令构建机器学习模型。此外,HeatWave AutoML 还与 Jupyter 和 Apache Zeppelin 等主流记事本相集成。


HeatWave Autopilot

HeatWave Autopilot 提供工作负载感知、基于机器学习的自动化。它无需您拥有数据库调优专业知识即可提高性能和可扩展性,不仅能提高开发人员和 DBA 的工作效率,还有助于消除人为错误。HeatWave Autopilot 可自动化执行众多富于挑战的重要操作,包括供应、数据加载、查询执行和故障处理,规模化提供高查询性能。HeatWave Autopilot 客户可免费使用 HeatWave MySQL Autopilot。

HeatWave Autopilot 面向 HeatWave 和 OLTP 提供了众多功能。

  • 自动供应:对待分析的表数据进行自适应抽样,预测运行工作负载所需的 HeatWave 节点数量。这意味着开发人员和 DBA 无需手动估算集群大小。
  • 自动线程池:支持数据库服务在指定硬件配置上处理更多事务,为 OLTP 工作负载提供更高的吞吐量,并防止在事务并发水平较高时吞吐量下降。
  • 自动配置预测:持续监视 OLTP 工作负载(包括吞吐量和缓冲池命中率),从而在任意指定时间推荐适当的计算配置,确保客户始终获得理想性价比。
  • 自动编码:判断加载到 HeatWave 的列的最佳表示,从而改善查询性能,尽可能降低集群大小和成本。
  • 自动改进查询计划:基于查询执行的统计信息开展学习,改进未来查询的执行计划。随着查询数量增长,系统性能将越来越高。
  • 自适应查询执行:支持在启动查询执行后,使用各种统计信息来调整数据结构和系统资源,同时根据运行时实际的数据分布,单独优化每个节点的查询执行。这有助于将临时查询的性能提高多达 25%。
  • 自动放置数据:预测应在哪些列上对表进行内存中分区,从而实现最佳的查询性能。它还能预测新列建议可带来的查询性能提升。鉴于操作人员在手动选择列时可能会做出次优选择,这可以尽可能减少跨节点数据移动。
  • 自动压缩可帮助客户判断适合该列的压缩算法,加速数据压缩和解压,进而提高加载和查询性能。通过减少内存使用量,客户可以将成本降低多达 25%。
  • 索引编制功能(有限可用性)自动确定客户应在其表中创建或删除的索引,以优化 OLTP 吞吐量,从而利用机器学习基于各应用工作负载进行预测。这有助于客户消除耗时的任务,也就是为 OLTP 工作负载创建最佳索引以及随着工作负载变化而持续维护这些索引所做的耗时的工作。

实时弹性

实时弹性功能让客户将 HeatWave 集群扩展和缩小到任意数量的节点,无需任何停机时间或只读时间。

在高峰时间始终提供稳定的高性能,同时零停机地降低成本

调整大小的操作只需几分钟即可完成。在此期间,HeatWave 全程保持在线状态,不影响其他操作。操作完成后,数据将从对象存储下载,在所有可用集群节点之间自动重新平衡,然后立即用于查询。因此,客户不仅可以始终享有高性能(即使在高峰时间),还可以在适当的时候缩小 HeatWave 集群来降低成本 — 无需停机或进入只读状态。

通过从对象存储高效地重新加载数据,客户还可以暂停和恢复 HeatWave 集群,降低成本。

避免超额供应实例

客户可以将 HeatWave 集群的大小调整为任意数量的节点。不受刚性集群大小调整模式的限制,可避免过度供应和成本浪费。现在,HeatWave 客户只需为自己所使用的资源付费。


可在公有云环境和您的本地数据中心运行

您可以在 OCI、AWS 或 Azure 上部署 HeatWave,将数据从本地部署 OLTP 应用复制到 HeatWave,在云端获得接近实时的分析和处理向量数据。您还可以借助 OCI Dedicated Region,在您的本地数据中心使用 HeatWave。

基于 AWS 的 HeatWave 为 AWS 客户提供原生体验。控制台、控制层和数据层皆位于 AWS 中。

注:为免疑义,本网页所用以下术语专指以下含义:

  1. Oracle专指Oracle境外公司而非甲骨文中国。
  2. 相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。