Oracle Cloud Infrastructure (OCI) Supercluster provides ultrafast cluster networking, HPC storage, and OCI Compute bare metal instances. OCI Supercluster is ideal for training generative AI, including conversational applications and diffusion models. With support for up to tens of thousands of NVIDIA GPUs, OCI Compute bare metal instances and VMs can power applications for computer vision, natural language processing, recommendation systems, and more.
Oracle and NVIDIA partner to speed AI adoption for enterprises (2:06)
每个集群可部署多达数千个 GPU,实现更高的可扩展性。
通过简单的以太网网络架构提供大规模的超高性能,可有效缩短 AI 模型训练用时。
Oracle 提供专业的工程支持,涵盖解决方案架构、网络、安全性、审计、入门引导、应用迁移等各个方面。
每个 OCI Compute 裸金属实例都使用 OCI 的超低延迟集群网络进行连接,在单个集群中可以扩展到数千个 NVIDIA H100 或 A100 GPU。这些实例使用 OCI 高性能网络架构,该架构利用基于聚合以太网 (RoCE) v2 提供的 RDMA 创建 RDMA 超级集群,节点之间仅有微秒级的延迟,带宽接近线速。
OCI 的 RoCE v2 实施提供了:
基于 OCI 的高性能计算提供经济高效的强大计算功能,可以解决各行各业复杂的数学和科学问题。
该图表显示 Oracle 集群网络框架的性能。当每个内核的模拟单元少于 10000 个时,OCI 可通过常见的 CFD 代码进行超过 100% 的扩展,实现与本地部署相同的性能。需要注意的是,如果不受虚拟化的影响,裸金属 HPC 机就可以使用节点上的所有核心,而无需因保留任何核心而产生高昂的开销。
基于 OCI 的 HPC 的性能堪比本地部署解决方案,并且具备云技术的弹性和基于用量的经济性,支持用户按需同步扩展数万个内核。您可以享有高频率处理器、快速且密集的本地存储、高吞吐量、超低延迟的 RDMA 集群网络以及可自动无缝运行作业的工具。
根据 Exabyte.io 的分析结果显示,OCI 可以提供低至 1.7 微秒的延迟。通过启用 RDMA 连接的集群,OCI 扩展了配备有 NVIDIA H100 和A100 GPU 的裸金属服务器的集群网络。这一突破性后端网络结构助力客户创建具备与本地部署集群同等的低延迟网络和应用可扩展性的集群。
OCI 的裸金属 NVIDIA GPU 实例为初创企业提供高性能计算平台,该平台有助于依赖深度学习、推荐系统和大规模并行高性能计算作业的应用。GPU 实例是运行模型训练、推理计算、物理和图像渲染以及大规模并行应用的理想选择。
OCI 提供具有八个 NVIDIA H100 或 NVIDIA A100 GPU 的实例。OCI Supercluster 提供在每个集群中扩展至数百或数千个 GPU 的功能,同时 OCI 还支持低至一个 GPU 的小规模部署。
Adept 是开发通用 AI 团队成员的机器学习研究和产品实验室,该企业和其他 Oracle 客户正在利用 OCI 和 NVIDIA 技术来构建新一代 AI 模型。Adept 在 OCI 裸金属计算实例集群上运行数千个 NVIDIA GPU,并利用 OCI 的网络带宽,比以前更快、更经济地进行 AI 和 ML 模型的大规模训练。
“With the scalability and computing power of OCI and NVIDIA technology, we are training a neural network to use every software application, website, and API in existence—building on the capabilities that software makers have already created.”
Adept 首席执行官 David Luan
“We view this relationship with OCI as long term.We’re excited about taking advantage of the GPUs and using that to train our next generation of voice AI.There's a lot that we think that OCI will provide for us in terms of future growth.”
联合创始人兼产品副总裁 James Hom
SoundHound
“With Oracle Cloud, we’re running between four and eight GPUs in parallel to vastly accelerate our research progress, meaning we can complete an experiment in just a few hours.”
Hyeokhyen Kwon,生物医学信息学助理教授
埃默里大学 (Emory University)
“When running experiments with the same configuration, the A100 uses about 25% less time on average.What makes it even better is the smooth process of setting up the machine on Oracle Cloud.”
美国密歇根大学研究生助理 Shuyang Cao
了解 MosaicML 为什么认为 OCI 是 AI 训练的理想基础。
“Softdrive is the future of business computers.In the cloud PC market, performance means everything.NVIDIA GPUs on OCI bare metal servers have dramatically improved the experience for our customers.”
Leonard Ivey,联合创始人
Softdrive
OCI 的资深技术专家可帮助您顺利启动和运行。我们将消除在复杂的部署中,包括从计划到启动的技术障碍,确保您取得成功。
OCI 旨在帮助企业以更低的成本,更轻松地将现有的本地部署应用迁移到云端,获得更高性能。
甲骨文公司代表 Seshadri Dehalisan、Akshai Parthasarathy 和 Ruzhu Chen
MLCommons Inference Datacenter v3.1 套件 是用于衡量 AI 基础设施性能的行业标准,Oracle Cloud Infrastructure (OCI) 在多个相关的基准测试中取得了显著成就。OCI 基于 NVIDIA GPU 的多种配置进行了测试,其中包括了 NVIDIA H100 Tensor Core GPU、NVIDIA A100 Tensor Core GPU 和 NVIDIA A10 Tensor Core GPU,关键结果如下:
注:为免疑义,本网页所用以下术语专指以下含义: