在一个 GPU 到数千个 GPU 的支持下,Oracle Cloud Infrastructure (OCI) Compute 虚拟机和裸金属实例可以为计算机视觉识别、自然语言处理、推荐系统等应用提供支持。对于训练大型语言模型 (LLM),包括会话式 AI 和扩散模型,OCI Supercluster 提供了由 NVIDIA GPU 提供支持的超低延迟集群网络、HPC 存储和 OCI Compute 裸金属实例。
了解 OCI 的超级集群架构,并聆听 Adept 和 MosaicML 客户的分享。
每个 OCI Compute 裸金属实例都使用 OCI 的超低延迟集群网络进行连接,可以在单个集群中扩展多达 32768 个 NVIDIA A100 GPU。这些实例使用 OCI 高性能网络架构,该架构利用基于聚合以太网 (RoCE) v2 提供的 RDMA 创建 RDMA 超级集群,节点之间仅有微秒级的延迟,GPU 之间接近线速的带宽为 200 Gb/秒。
OCI 的 RoCE v2 实施提供了:
基于 Oracle Cloud Infrastructure (OCI) 的高性能计算提供经济高效的强大计算功能,可以解决各行各业复杂的数学和科学问题。
通过 OCI 的裸金属服务器以及 Oracle 的集群网络,您可以享有超低延迟(对于数万个核心集群不超过 2 微秒)的基于融合以太网的 RDMA (RoCE) v2。
该图表显示 Oracle 集群网络框架的性能。OCI 可通过常见的 CFD 代码进行 100% 的扩展,每个内核高达 10000 个模拟单元,实现与本地部署相同的性能。需要注意的是,如果不受虚拟化的影响,裸金属 HPC 机就可以使用节点上的所有核心,而无需因保留任何核心而产生高昂的开销。
基于 OCI 的 HPC 的性能堪比本地部署解决方案,并且具备云的弹性和基于用量的经济性,支持用户按需同步扩展数万个内核。
借助基于 OCI 的 HPC,您可以享有高频率处理器、快速且密集的本地存储、高吞吐量、超低延迟的 RDMA 集群网络以及可自动无缝运行作业的工具。
根据 Exabyte.io 的分析结果显示,OCI 可以提供低至 1.7 微秒的延迟。通过启用 RDMA 连接的集群,OCI 扩展了配备有 NVIDIA A100 GPU 的裸金属服务器的集群网络。
Oracle 的突破性后端网络结构采用 Mellanoxs ConnectX-5,100 Gbps 网络接口卡,基于融合以太网的 RDMA (RoCE) v2,从而创建与具有与本地部署集群同样低延迟网络和应用可扩展性的集群。
OCI 的裸金属 NVIDIA GPU 实例为初创企业提供高性能计算平台,该平台有助于依赖机器学习、映像处理和大规模并行高性能计算作业的应用。GPU 实例是运行模型训练、推理计算、物理和图像渲染以及大规模并行应用的理想选择。
BM.GPU4.8 实例有八个 NVIDIA A100 GPU,通过基于融合以太网的 RDMA (RoCE) 的 Oracle 低延迟集群网络,实现低于 2 微秒的延迟。现在,客户可以托管超过 500 个 GPU 集群并轻松按需扩展。
Adept 是开发通用 AI 团队成员的机器学习研究和产品实验室,该企业和其他 Oracle 客户正在利用 OCI 和 NVIDIA 技术来构建新一代 AI 模型。Adept 在 OCI 裸金属计算实例集群上运行数千个 NVIDIA GPU,并利用 OCI 的网络带宽,比以前更快、更经济地进行 AI 和 ML 模型的大规模训练。
“With the scalability and computing power of OCI and NVIDIA technology, we are training a neural network to use every software application, website, and API in existence—building on the capabilities that software makers have already created.”
Adept 首席执行官 David Luan
“We view this relationship with OCI as long term.We’re excited about taking advantage of the GPUs and using that to train our next generation of voice AI.There's a lot that we think that OCI will provide for us in terms of future growth.”
联合创始人兼产品副总裁 James Hom
SoundHound
“We selected Oracle because of the affordability and performance of the GPUs combined with Oracle’s extensive cloud footprint.GPUs are very important for training deep neural network models.The higher the GPU performance, the better our models.And because we work in several different countries and regions, we needed the infrastructure to support that.”
联合创始人兼首席执行官 Nils Helset
DigiFarm
“When running experiments with the same configuration, the A100 uses about 25% less time on average.What makes it even better is the smooth process of setting up the machine on Oracle Cloud.”
美国密歇根大学研究生助理 Shuyang Cao
OCI 的资深技术专家可帮助您顺利启动和运行。我们将消除在复杂的部署中,包括从计划到启动的技术障碍,确保您取得成功。
OCI 旨在帮助企业以更低的成本,更轻松地将现有的本地部署应用迁移到云端,获得更高性能。
OCI 副总裁兼杰出工程师 Jag Brar,以及 OCI 高级副总裁兼首席技术架构师 Pradeep Vincent
OCI 提供许多特别的服务,包括集群网络,一个支持远程直接内存访问 (RDMA) 的超高性能网络。在之前的《First Principles:在 Public Cloud 中构建高性能网络》视频和文章中,我们介绍了 OCI 的集群网络如何使用基于融合以太网的 RDMA (RoCE) 来支持 RDMA。
阅读全文注:为免疑义,本网页所用以下术语专指以下含义: