MySQL HeatWave Lakehouse 的特性

面向非 MySQL 和 MySQL 工作负载的统一查询引擎

查询对象存储中的数据,支持各种文件格式(例如 CSV、Parquet、Avro)、从其他数据库导出的文件、MySQL 数据库中的事务处理数据或使用标准 SQL 语法的组合。数据不会复制到 MySQL 数据库。相反的,整个查询过程将在 HeatWave 引擎中完成,因此您可以将 HeatWave 用于非 MySQL 工作负载和与 MySQL 兼容的工作负载。加载到 HeatWave 集群中时,任何来源的数据都将自动转换为一个经过优化的内部格式。如此一来,查询对象存储数据的速度可以像查询数据库数据一样快。

横向扩展架构

Oracle MySQL HeatWave 的高性能是横向扩展架构的结果,该架构支持通过大规模并行来预配集群、加载数据和处理多达 512 个节点的查询。集群中的每个 HeatWave 节点和节点中的每个核心都可以并行处理分区数据,包括并行扫描、连接、分组、聚合和 top-k 处理。这些算法旨在将计算时间与节点间数据通信重叠,有助于实现高可扩展性。

借助 MySQL Autopilot 实现基于机器学习的自动化功能

MySQL Autopilot 为基于机器学习 (ML) 的 MySQL HeatWave 提供工作负载感知自动化。为了 MySQL HeatWave Lakehouse,Oracle 增强了 MySQL Autopilot 的功能,例如自动预配、自动查询计划改进(从过去的查询执行中学习各种运行时统计信息,以改进未来查询的执行计划)和自动并行加载。HeatWave Lakehouse 的其他功能包括:

  • 自动模式推断可针对所有支持的文件类型(包括 CSV)自动推断文件数据到对应模式定义的映射。因此,您无需手动定义和更新文件的模式映射,从而节省大量时间和精力。
  • 自适应数据采样可智能地对对象存储中的文件进行抽样,并推导信息供 MySQL Autopilot 执行自动化预测。借助自适应数据采样,MySQL Autopilot 可在不到一分钟的时间内对 400 TB 文件的模式映射完成扫描并执行预测。
  • 自适应数据流让 MySQL HeatWave Lakehouse 可动态适应任何区域中底层对象存储的性能,改善整体性能和可用性。
  • 自适应查询执行:支持在启动查询执行后,使用各种统计信息来调整数据结构和系统资源,同时根据运行时实际的数据分布,单独优化每个节点的查询执行。这有助于将临时查询的性能提高多达 25%。

内置机器学习

通过 HeatWave AutoML,您可以使用对象存储和/或数据库中的数据来构建、训练、部署和解释 ML 模型,无需将数据迁移到单独的 ML 云技术服务,更无需成为 ML 专家。HeatWave AutoML 能够推动机器学习管道自动化,包括算法选择、面向模型训练的智能数据采样、特征选择和超参数优化,为数据分析师节省大量时间和精力。HeatWave AutoML 支持异常检测、预测、分类、回归和推荐系统任务,甚至是文本列。您可以免费使用 HeatWave AutoML。

生成式 AI 和 MySQL HeatWave 向量存储

应用可以使用大型语言模型,以自然语言与 HeatWave Lakehouse 进行交互。目前在私有预览中,向量存储支持您利用 LLM 的功能及专有数据,其相关性和准确性比仅使用公开数据进行训练的模型更高。通过生成式 AI 和向量存储功能,您可以使用自然语言与 MySQL HeatWave 交互,并高效地在 HeatWave Lakehouse 中搜索各种格式专有文档。

可用性高的全面管理型数据库服务

全面管理型数据库服务可自动处理可用性管理、打补丁、升级和备份等耗时工作。在发生意外计算节点故障时,加载到 HeatWave 集群中的数据会自动恢复,无需从外部数据格式重新转换。

安全访问控制

通过访问控制机制(例如 Oracle Cloud Infrastructure (OCI) 资源主用户验证或预先验证身份的请求),您可以完全掌控对数据湖源的访问。在 AWS 中运行 HeatWave Lakehouse 时,您可以定义身份和访问管理角色和策略,仅对特定 S3 数据授予访问权限。

注:为免疑义,本网页所用以下术语专指以下含义:

  1. Oracle专指Oracle境外公司而非甲骨文中国。
  2. 相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。