非常抱歉,您的搜索操作未匹配到任何结果。

我们建议您尝试以下操作,以帮助您找到所需内容:

  • 检查关键词搜索的拼写。
  • 使用同义词代替键入的关键词,例如,尝试使用“应用”代替“软件”。
  • 重新搜索。
联系我们 登录 Oracle Cloud

AI 基础设施

在一个 GPU 到数千个 GPU 的支持下,Oracle Cloud Infrastructure (OCI) Compute 虚拟机和裸金属实例可以为计算机视觉识别、自然语言处理、推荐系统等应用提供支持。对于训练大型语言模型 (LLM),包括会话式 AI 和扩散模型,OCI Supercluster 提供了由 NVIDIA GPU 提供支持的超低延迟集群网络、HPC 存储和 OCI Compute 裸金属实例。

甲骨文全球云大会:甲骨文公司首席执行官 Safra Catz 对话 NVIDIA 首席执行官 Jensen Huang (9:58)

联系 Oracle,了解如何加速运行 GPU 工作负载。

OCI 参加 NVIDIA GTC(2023 年 3 月 20 日至 23 日)

了解 OCI 的超级集群架构,并聆听 Adept 和 MosaicML 客户的分享。

了解 OCI 如何支持模型训练和并行应用

部署多达 32768 个 NVIDIA A100 GPU

每个 OCI Compute 裸金属实例都使用 OCI 的超低延迟集群网络进行连接,可以在单个集群中扩展多达 32768 个 NVIDIA A100 GPU。这些实例使用 OCI 高性能网络架构,该架构利用基于聚合以太网 (RoCE) v2 提供的 RDMA 创建 RDMA 超级集群,节点之间仅有微秒级的延迟,GPU 之间接近线速的带宽为 200 Gb/秒。

OCI 的 RoCE v2 实施提供了:

  • 每个服务器 1600 Gb/秒的带宽,每个 A100 GPU 200 Gb/秒的带宽
  • 每个服务器 3200 Gb/秒的带宽,每个 H100 GPU 400 Gb/秒的带宽

高速 RDMA 集群网络

基于 Oracle Cloud Infrastructure (OCI) 的高性能计算提供经济高效的强大计算功能,可以解决各行各业复杂的数学和科学问题。

通过 OCI 的裸金属服务器以及 Oracle 的集群网络,您可以享有超低延迟(对于数万个核心集群不超过 2 微秒)的基于融合以太网的 RDMA (RoCE) v2。

该图表显示 Oracle 集群网络框架的性能。OCI 可通过常见的 CFD 代码进行 100% 的扩展,每个内核高达 10000 个模拟单元,实现与本地部署相同的性能。需要注意的是,如果不受虚拟化的影响,裸金属 HPC 机就可以使用节点上的所有核心,而无需因保留任何核心而产生高昂的开销。

基于 OCI 的高性能计算 (HPC)

基于 OCI 的 HPC 的性能堪比本地部署解决方案,并且具备云的弹性和基于用量的经济性,支持用户按需同步扩展数万个内核。

借助基于 OCI 的 HPC,您可以享有高频率处理器、快速且密集的本地存储、高吞吐量、超低延迟的 RDMA 集群网络以及可自动无缝运行作业的工具。

根据 Exabyte.io 的分析结果显示,OCI 可以提供低至 1.7 微秒的延迟。通过启用 RDMA 连接的集群,OCI 扩展了配备有 NVIDIA A100 GPU 的裸金属服务器的集群网络。

Oracle 的突破性后端网络结构采用 Mellanoxs ConnectX-5,100 Gbps 网络接口卡,基于融合以太网的 RDMA (RoCE) v2,从而创建与具有与本地部署集群同样低延迟网络和应用可扩展性的集群。

优秀的裸金属 GPU 集群

OCI 的裸金属 NVIDIA GPU 实例为初创企业提供高性能计算平台,该平台有助于依赖机器学习、映像处理和大规模并行高性能计算作业的应用。GPU 实例是运行模型训练、推理计算、物理和图像渲染以及大规模并行应用的理想选择。

BM.GPU4.8 实例有八个 NVIDIA A100 GPU,通过基于融合以太网的 RDMA (RoCE) 的 Oracle 低延迟集群网络,实现低于 2 微秒的延迟。现在,客户可以托管超过 500 个 GPU 集群并轻松按需扩展。

=

了解 OCI 和 NVIDIA 如何为新一代 AI 模型提供强大支持

Adept 是开发通用 AI 团队成员的机器学习研究和产品实验室,该企业和其他 Oracle 客户正在利用 OCI 和 NVIDIA 技术来构建新一代 AI 模型。Adept 在 OCI 裸金属计算实例集群上运行数千个 NVIDIA GPU,并利用 OCI 的网络带宽,比以前更快、更经济地进行 AI 和 ML 模型的大规模训练。

Adept 携手 Oracle 和 NVIDIA 为每个人打造强大的 AI 队友

“With the scalability and computing power of OCI and NVIDIA technology, we are training a neural network to use every software application, website, and API in existence—building on the capabilities that software makers have already created.”

Adept 首席执行官 David Luan

SoundHound 使用 OCI 驱动企业高速增长

“We view this relationship with OCI as long term.We’re excited about taking advantage of the GPUs and using that to train our next generation of voice AI.There's a lot that we think that OCI will provide for us in terms of future growth.”

联合创始人兼产品副总裁 James Hom
SoundHound

“We selected Oracle because of the affordability and performance of the GPUs combined with Oracle’s extensive cloud footprint.GPUs are very important for training deep neural network models.The higher the GPU performance, the better our models.And because we work in several different countries and regions, we needed the infrastructure to support that.”

联合创始人兼首席执行官 Nils Helset
DigiFarm

密歇根大学改善 AI 文本摘要

“When running experiments with the same configuration, the A100 uses about 25% less time on average.What makes it even better is the smooth process of setting up the machine on Oracle Cloud.”

美国密歇根大学研究生助理 Shuyang Cao

MosaicML 在 OCI 上扩展 AI/ML 训练

了解 MosaicML 为什么认为 OCI 是 AI 训练的理想基础。

基于 OCI 的 GPU 实例包含哪些功能?

专门的工程支持

OCI 的资深技术专家可帮助您顺利启动和运行。我们将消除在复杂的部署中,包括从计划到启动的技术障碍,确保您取得成功。

  • 解决方案架构开发
  • 网络、安全性和审计
  • OCI 引导
  • 应用迁移
  • 迁移后培训

改善经济学

OCI 旨在帮助企业以更低的成本,更轻松地将现有的本地部署应用迁移到云端,获得更高性能。

  • 专用网络连接,成本降低 74%
  • 计算性价比提升 3 倍以上
  • 基础设施成本降低多达 44%,具有本地固态磁盘、双倍的暂存、RDMA 网络和性能 SLA
  • 每秒输入/输出操作增加了 20 倍,成本降低超过一半
2023 年 2 月 14 日

First Principles:规模化、超高性能的 RDMA 超级集群

OCI 副总裁兼杰出工程师 Jag Brar,以及 OCI 高级副总裁兼首席技术架构师 Pradeep Vincent

OCI 提供许多特别的服务,包括集群网络,一个支持远程直接内存访问 (RDMA) 的超高性能网络。在之前的《First Principles:在 Public Cloud 中构建高性能网络》视频和文章中,我们介绍了 OCI 的集群网络如何使用基于融合以太网的 RDMA (RoCE) 来支持 RDMA。

阅读全文

其他云架构和部署资源

OCI Cloud Adoption Framework (CAF)

IDC 对 OCI 和混合云的观点

注:为免疑义,本网页所用以下术语专指以下含义:

  1. Oracle 专指 Oracle 境外公司而非甲骨文中国。
  2. 相关 Cloud 或云术语均指代 Oracle 境外公司提供的云技术或其解决方案。