OCI Supercluster and AI Infrastructure

Oracle Cloud Infrastructure (OCI) Supercluster provides ultrafast cluster networking, HPC storage, and OCI Compute bare metal instances. OCI Supercluster is ideal for training generative AI, including conversational applications and diffusion models. With support for up to tens of thousands of NVIDIA GPUs, OCI Compute bare metal instances and VMs can power applications for computer vision, natural language processing, recommendation systems, and more.

Oracle and NVIDIA partner to speed AI adoption for enterprises (2:06)

OCI Supercluster 的独特优势

  • 面向生成式 AI 的出色的可扩展性

    每个集群可部署多达数千个 GPU,实现更高的可扩展性。

  • 超低延迟和超高带宽 *

    通过简单的以太网网络架构提供大规模的超高性能,可有效缩短 AI 模型训练用时。

  • AI 主题专家支持

    Oracle 提供专业的工程支持,涵盖解决方案架构、网络、安全性、审计、入门引导、应用迁移等各个方面。

* NVIDIA H100 集群的带宽为 3200 Gb/秒,NVIDIA A100 集群的带宽为 1600 Gb/秒。

联系 Oracle,了解如何加速运行 GPU 工作负载。

了解 OCI 如何支持模型训练和并行应用

部署数万个 NVIDIA H100 和 A100 GPU

每个 OCI Compute 裸金属实例都使用 OCI 的超低延迟集群网络进行连接,在单个集群中可以扩展到数千个 NVIDIA H100 或 A100 GPU。这些实例使用 OCI 高性能网络架构,该架构利用基于聚合以太网 (RoCE) v2 提供的 RDMA 创建 RDMA 超级集群,节点之间仅有微秒级的延迟,带宽接近线速。

OCI 的 RoCE v2 实施提供了:

  • 每个服务器 1600 Gb/秒的带宽,每个 A100 GPU 200 Gb/秒的带宽
  • 每个服务器 3200 Gb/秒的带宽,每个 H100 GPU 400 Gb/秒的带宽

高速 RDMA 集群网络

基于 OCI 的高性能计算提供经济高效的强大计算功能,可以解决各行各业复杂的数学和科学问题。

该图表显示 Oracle 集群网络框架的性能。当每个内核的模拟单元少于 10000 个时,OCI 可通过常见的 CFD 代码进行超过 100% 的扩展,实现与本地部署相同的性能。需要注意的是,如果不受虚拟化的影响,裸金属 HPC 机就可以使用节点上的所有核心,而无需因保留任何核心而产生高昂的开销。

基于 OCI 的高性能计算 (HPC)

基于 OCI 的 HPC 的性能堪比本地部署解决方案,并且具备云技术的弹性和基于用量的经济性,支持用户按需同步扩展数万个内核。您可以享有高频率处理器、快速且密集的本地存储、高吞吐量、超低延迟的 RDMA 集群网络以及可自动无缝运行作业的工具。

根据 Exabyte.io 的分析结果显示,OCI 可以提供低至 1.7 微秒的延迟。通过启用 RDMA 连接的集群,OCI 扩展了配备有 NVIDIA H100A100 GPU 的裸金属服务器的集群网络。这一突破性后端网络结构助力客户创建具备与本地部署集群同等的低延迟网络和应用可扩展性的集群。

优秀的裸金属 GPU 集群

OCI 的裸金属 NVIDIA GPU 实例为初创企业提供高性能计算平台,该平台有助于依赖深度学习、推荐系统和大规模并行高性能计算作业的应用。GPU 实例是运行模型训练、推理计算、物理和图像渲染以及大规模并行应用的理想选择。

OCI 提供具有八个 NVIDIA H100 或 NVIDIA A100 GPU 的实例。OCI Supercluster 提供在每个集群中扩展至数百或数千个 GPU 的功能,同时 OCI 还支持低至一个 GPU 的小规模部署。

OCI 参加 NVIDIA GTC — AI 和元宇宙会议

了解 OCI 和 NVIDIA 如何为新一代 AI 模型提供强大支持

Adept 是开发通用 AI 团队成员的机器学习研究和产品实验室,该企业和其他 Oracle 客户正在利用 OCI 和 NVIDIA 技术来构建新一代 AI 模型。Adept 在 OCI 裸金属计算实例集群上运行数千个 NVIDIA GPU,并利用 OCI 的网络带宽,比以前更快、更经济地进行 AI 和 ML 模型的大规模训练。

OCI 助力 Microsoft 打造 Bing 对话式搜索

“Our collaboration with Oracle and use of Oracle Cloud Infrastructure along with our Microsoft Azure AI infrastructure, will expand access to customers and improve the speed of many of our search results.”

搜索与人工智能全球营销负责人 Divya Kumar
Microsoft

Adept 携手 Oracle 和 NVIDIA 为每个人打造强大的 AI 队友

“With the scalability and computing power of OCI and NVIDIA technology, we are training a neural network to use every software application, website, and API in existence—building on the capabilities that software makers have already created.”

Adept 首席执行官 David Luan

MosaicML 在 OCI 上扩展 AI/ML 训练

了解 MosaicML 为什么认为 OCI 是 AI 训练的理想基础。

SoundHound 使用 OCI 驱动企业高速增长

“We view this relationship with OCI as long term.We’re excited about taking advantage of the GPUs and using that to train our next generation of voice AI.There's a lot that we think that OCI will provide for us in terms of future growth.”

联合创始人兼产品副总裁 James Hom
SoundHound

美国埃默里大学借助 Oracle Cloud 对抗帕金森病

“With Oracle Cloud, we’re running between four and eight GPUs in parallel to vastly accelerate our research progress, meaning we can complete an experiment in just a few hours.”

Hyeokhyen Kwon,生物医学信息学助理教授
埃默里大学 (Emory University)

Softdrive 利用 OCI Compute 和 NVIDIA A10 提供新一代工作站

“Softdrive is the future of business computers.In the cloud PC market, performance means everything.NVIDIA GPUs on OCI bare metal servers have dramatically improved the experience for our customers.”

Leonard Ivey,联合创始人
Softdrive

密歇根大学改善学术期刊的 AI 文本摘要

研究人员使用了高性能虚拟机和远程 NVIDIA A100 Tensor Core GPU,结果证明这对于运行占用大量内存的汇总算法非常有效。

基于 OCI 的 GPU 实例包含哪些功能?

专门的工程支持

OCI 的资深技术专家可帮助您顺利启动和运行。我们将消除在复杂的部署中,包括从计划到启动的技术障碍,确保您取得成功。

  • 解决方案架构开发
  • 网络、安全性和审计
  • OCI 引导
  • 应用迁移
  • 迁移后培训

改善经济学

OCI 旨在帮助企业以更低的成本,更轻松地将现有的本地部署应用迁移到云端,获得更高性能。

  • 专用网络连接,成本降低 74%
  • 计算性价比提升 3 倍以上
  • 基础设施成本降低多达 44%,具有本地固态磁盘、双倍的暂存、RDMA 网络和性能 SLA
  • 每秒输入/输出操作增加了 20 倍,成本降低超过一半
2023 年 11 月 13 日

Oracle 宣布将在 OCI 上提供 NVIDIA Grace Hopper 超级芯片

Oracle Cloud Infrastructure 副总裁 Sagar Rawal

今天,在 SC23 大会上,我们宣布即将推出由 NVIDIA GH200 Grace Hopper 超级芯片提供支持的 Oracle Cloud Infrastructure (OCI) Compute 实例。GH200 包含一颗 Arm CPU(Grace),通过 576 GB 的高带宽内存空间连接 NVIDIA H100 Tensor Core GPU(Hopper)。

阅读全文

其它云架构和部署资源

OCI Cloud Adoption Framework (CAF)

Omdia 报告:为什么云技术平台各不相同

注:为免疑义,本网页所用以下术语专指以下含义:

  1. Oracle专指Oracle境外公司而非甲骨文中国。
  2. 相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。