非常抱歉,您的搜索操作未匹配到任何结果。

我们建议您尝试以下操作,以帮助您找到所需内容:

  • 检查关键词搜索的拼写。
  • 使用同义词代替键入的关键词,例如,尝试使用“应用”代替“软件”。
  • 重新搜索。
Country 联系我们 登录 Oracle Cloud

OCI Supercluster and AI Infrastructure

Oracle Cloud Infrastructure (OCI) Supercluster provides ultrafast cluster networking, HPC storage, and OCI Compute bare metal instances. OCI Supercluster is ideal for training generative AI, including conversational applications and diffusion models. With support for up to tens of thousands of NVIDIA GPUs, OCI Compute bare metal instances and VMs can power applications for computer vision, natural language processing, recommendation systems, and more.

Oracle and NVIDIA partner to speed AI adoption for enterprises (2:06)

OCI Supercluster 的独特优势

  • 面向生成式 AI 的杰出可扩展性

    每个集群可部署多达数千个 GPU,实现更高的可扩展性。

  • 超低延迟和超高带宽 *

    通过简单的以太网网络架构提供大规模的超高性能,可有效缩短 AI 模型训练用时。

  • AI 主题专家支持

    Oracle 提供专业的工程支持,涵盖解决方案架构、网络、安全性、审计、入门引导、应用迁移等各个方面。

* NVIDIA H100 集群的带宽为 3200 Gb/秒,NVIDIA A100 集群的带宽为 1600 Gb/秒。

联系 Oracle,了解如何加速运行 GPU 工作负载。

了解 OCI 如何支持模型训练和并行应用

部署数万个 NVIDIA H100 和 A100 GPU

每个 OCI Compute 裸金属实例都使用 OCI 的超低延迟集群网络进行连接,在单个集群中可以扩展到数千个 NVIDIA H100 或 A100 GPU。这些实例使用 OCI 高性能网络架构,该架构利用基于聚合以太网 (RoCE) v2 提供的 RDMA 创建 RDMA 超级集群,节点之间仅有微秒级的延迟,带宽接近线速。

OCI 的 RoCE v2 实施提供了:

  • 每个服务器 1600 Gb/秒的带宽,每个 A100 GPU 200 Gb/秒的带宽
  • 每个服务器 3200 Gb/秒的带宽,每个 H100 GPU 400 Gb/秒的带宽

高速 RDMA 集群网络

基于 OCI 的高性能计算提供经济高效的强大计算功能,可以解决各行各业复杂的数学和科学问题。

该图表显示 Oracle 集群网络框架的性能。当每个内核的模拟单元少于 10000 个时,OCI 可通过常见的 CFD 代码进行超过 100% 的扩展,实现与本地部署相同的性能。需要注意的是,如果不受虚拟化的影响,裸金属 HPC 机就可以使用节点上的所有核心,而无需因保留任何核心而产生高昂的开销。

基于 OCI 的高性能计算 (HPC)

基于 OCI 的 HPC 的性能堪比本地部署解决方案,并且具备云技术的弹性和基于用量的经济性,支持用户按需同步扩展数万个内核。您可以享有高频率处理器、快速且密集的本地存储、高吞吐量、超低延迟的 RDMA 集群网络以及可自动无缝运行作业的工具。

根据 Exabyte.io 的分析结果显示,OCI 可以提供低至 1.7 微秒的延迟。通过启用 RDMA 连接的集群,OCI 扩展了配备有 NVIDIA H100A100 GPU 的裸金属服务器的集群网络。这一突破性后端网络结构助力客户创建具备与本地部署集群同等的低延迟网络和应用可扩展性的集群。

优秀的裸金属 GPU 集群

OCI 的裸金属 NVIDIA GPU 实例为初创企业提供高性能计算平台,该平台有助于依赖深度学习、推荐系统和大规模并行高性能计算作业的应用。GPU 实例是运行模型训练、推理计算、物理和图像渲染以及大规模并行应用的理想选择。

OCI 提供具有八个 NVIDIA H100 或 NVIDIA A100 GPU 的实例。OCI Supercluster 提供在每个集群中扩展至数百或数千个 GPU 的功能,同时 OCI 还支持低至一个 GPU 的小规模部署。

OCI 参加 NVIDIA GTC — AI 和元宇宙会议

了解 OCI 和 NVIDIA 如何为新一代 AI 模型提供强大支持

Adept 是开发通用 AI 团队成员的机器学习研究和产品实验室,该企业和其他 Oracle 客户正在利用 OCI 和 NVIDIA 技术来构建新一代 AI 模型。Adept 在 OCI 裸金属计算实例集群上运行数千个 NVIDIA GPU,并利用 OCI 的网络带宽,比以前更快、更经济地进行 AI 和 ML 模型的大规模训练。

Adept 携手 Oracle 和 NVIDIA 为每个人打造强大的 AI 队友

“With the scalability and computing power of OCI and NVIDIA technology, we are training a neural network to use every software application, website, and API in existence—building on the capabilities that software makers have already created.”

Adept 首席执行官 David Luan

SoundHound 使用 OCI 驱动企业高速增长

“We view this relationship with OCI as long term.We’re excited about taking advantage of the GPUs and using that to train our next generation of voice AI.There's a lot that we think that OCI will provide for us in terms of future growth.”

联合创始人兼产品副总裁 James Hom
SoundHound

美国埃默里大学借助 Oracle Cloud 对抗帕金森病

“With Oracle Cloud, we’re running between four and eight GPUs in parallel to vastly accelerate our research progress, meaning we can complete an experiment in just a few hours.”

Hyeokhyen Kwon,生物医学信息学助理教授
埃默里大学 (Emory University)

密歇根大学改善 AI 文本摘要

“When running experiments with the same configuration, the A100 uses about 25% less time on average.What makes it even better is the smooth process of setting up the machine on Oracle Cloud.”

美国密歇根大学研究生助理 Shuyang Cao

MosaicML 在 OCI 上扩展 AI/ML 训练

了解 MosaicML 为什么认为 OCI 是 AI 训练的理想基础。

Softdrive 利用 OCI Compute 和 NVIDIA A10 提供新一代工作站

“Softdrive is the future of business computers.In the cloud PC market, performance means everything.NVIDIA GPUs on OCI bare metal servers have dramatically improved the experience for our customers.”

Leonard Ivey,联合创始人
Softdrive

基于 OCI 的 GPU 实例包含哪些功能?

专门的工程支持

OCI 的资深技术专家可帮助您顺利启动和运行。我们将消除在复杂的部署中,包括从计划到启动的技术障碍,确保您取得成功。

  • 解决方案架构开发
  • 网络、安全性和审计
  • OCI 引导
  • 应用迁移
  • 迁移后培训

改善经济学

OCI 旨在帮助企业以更低的成本,更轻松地将现有的本地部署应用迁移到云端,获得更高性能。

  • 专用网络连接,成本降低 74%
  • 计算性价比提升 3 倍以上
  • 基础设施成本降低多达 44%,具有本地固态磁盘、双倍的暂存、RDMA 网络和性能 SLA
  • 每秒输入/输出操作增加了 20 倍,成本降低超过一半
2023 年 9 月 12 日

MLPerf Inference v3.1 结果验证了 OCI 出色的 AI 性能

甲骨文公司代表 Seshadri Dehalisan、Akshai Parthasarathy 和 Ruzhu Chen

MLCommons Inference Datacenter v3.1 套件 是用于衡量 AI 基础设施性能的行业标准,Oracle Cloud Infrastructure (OCI) 在多个相关的基准测试中取得了显著成就。OCI 基于 NVIDIA GPU 的多种配置进行了测试,其中包括了 NVIDIA H100 Tensor Core GPU、NVIDIA A100 Tensor Core GPU 和 NVIDIA A10 Tensor Core GPU,关键结果如下:

  • OCI 的 BM.GPU.H100.8 配置具有八个 NVIDIA H100 GPU,在 RESNET、RetinaNet、BERT、DLRMv2 和 GPT-J 基准测试中匹敌或超越其他产品。
  • 带有八个 NVIDIA A100 GPU 的 BM.GPU.A100-v2.8 也展示了出色的性能。
阅读全文

其它云架构和部署资源

OCI Cloud Adoption Framework (CAF)

Omdia 报告:为什么云技术平台各不相同

注:为免疑义,本网页所用以下术语专指以下含义:

  1. Oracle 专指 Oracle 境外公司而非甲骨文中国。
  2. 相关 Cloud 或云术语均指代 Oracle 境外公司提供的云技术或其解决方案。