Oracle 云 HPC 解决方案既有本地部署解决方案的高性能,又具有云的弹性和基于用量的经济性,客户可以选择直接迁移,或者作为其资本密集型本地部署系统的补充。Oracle 云基础设施 HPC 平台包含裸金属计算实例、适用于 RDMA 的低延迟集群网络、高性能存储解决方案和文件系统、网络流量隔离以及在云中自动无缝运行作业所需的工具。从汽车制造商的碰撞模拟到石油和天然气公司的地震分析,再到媒体公司的特殊效果渲染,Oracle 云端基础设施可支持客户更加快速地解决各种复杂的技术问题。
制造业中的计算流体动力学
图片来自 Altair计算流体动力学 (CFD) 是一种常见负载,旨在通过模拟空气和流体运动来简化和加快产品设计。例如,在汽车领域,它可以帮助制造商模拟机舱气流、发动机机油动力学以及汽车周围的气流,从而提高燃油效率。它是一种紧密耦合、基于 MPI 的负载,可受益于 Oracle 100 Gbps 集群网络、Oracle 基于 Intel 的高频处理器计算实例以及最新的 NVIDIA GPU。Oracle HPC 的成本要比 AWS 的产品低 44%。
信息来源:The Open CAE Society of Japan

“We’re excited to collaborate with Oracle to offer our customers CONVERGE on Oracle Cloud Infrastructure.With Oracle Cloud Infrastructure’s bare metal HPC shapes and low latency remote direct memory access (RDMA) networking, we were able to get excellent scaling for CONVERGE.”
—Convergent Science 老板兼副总裁 Kelly Senecal 博士
下图显示了基于 Oracle 云基础设施的 CONVERGE 3.0,它以最理想的、接近线性的方式扩展至 4000 个核心,可支持经过部分预混合、包含 1.7 亿个单元的 Sandia Flame D 爆燃模拟。
Nissan 选择采用 Oracle 云基础设施 (OCI) 来运行其计算流体动力学 (CFD) 负载。Nissan 依靠数字产品设计来快速做出关键设计决策,从而改善其汽车的燃油效率、可靠性和安全性。计算密集型以及对延迟敏感的 CFD 模拟对于帮助其实现这些效率至关重要。通过将这些负载迁移至 Oracle 云基础设施,Nissan 实现了与本地部署相当的性能以及云的灵活性。

“We selected Oracle Cloud Infrastructure’s HPC solutions as a part of our multi-cloud strategy to meet the challenges of increased simulation demand under constant cost savings pressure.I believe Oracle will bring significant ROI to Nissan.”
—Nissan Motor Co, Ltd 集成系统部总经理 Bing Xu

“In the world of computational fluid dynamics (CFD), there is constant pressure to accelerate the speed of product design and today, our customers are looking turn around high-fidelity simulations in hours, not weeks.Running Simcenter STAR-CCM+ on Oracle Cloud Infrastructure has enabled our customers to scale-up their simulations quickly and easily without expensive hardware investment or compromising solution fidelity.Our customers get the same performance and scaling as they get on-premise at lower cost, enabling them to make better engineering decisions faster.”
—Siemens 云产品经理 Keith Foston
制造业中的数字孪生产品工程和测试
数字孪生通常用于在生产物理产品之前加快原型设计和测试速度。制造商使用各种产品生命周期管理 (PLM) 和工程仿真软件包,这都需要大量基于 CPU 或基于 GPU 的计算资源。
借助 Oracle RDMA 集群网络,Altair AcuSolve 成功在 Oracle 云基础设施上实现了接近理想水平的节点扩展性能。
深度学习和 GPU 加速计算
随着客户数据和物联网 (IoT) 数据的爆炸式增长,数据科学家需要能够灵活、快速地探索和构建深度学习模型,同时获得比传统本地部署 IT 硬件更高的灵活性。Oracle 云提供适用于深度学习的 GPU 计算实例,易于部署的映像,还支持灵活运行单 GPU 工作站或多 GPU 规格集群。
视觉识别和深度学习模型将广泛受益于丰富的 Oracle 云基础设施功能和创新。这包括已发布的 NVIDIA A100 Tensor Core GPU 计算实例,它搭载多达 8 个 GPU 和 NVLink、最新第二代 AMD EPYC 2.9 GHz 处理器、多达 64 个物理核心和本地 NVMe 存储,可与依靠繁重检查点的负载实现低延迟数据访问。这些 GPU 实例将率先在 Oracle 云基础设施上支持集群网络,100 Gbps RDMA 互联让客户能够以低于 2 微秒的延迟和 1.6 Tbps 的总带宽来运行 MPI 负载。
“Oracle Cloud Infrastructure was the first to come out with a new NVIDIA Tesla Cloud solution.The Tensor cores run about 125 teraflops but use only about 300 watts of power.It allows us to run models and data sets far in advance of anything we had done before and see patterns in data we couldn’t see before which are not obvious to humans.The first model we ran with machine learning was 40% more accurate than the version of the model that was in production at that time.We had expected it to take hours, but it only took minutes.”
—National Grid ESO 能源智能经理 James Kelloway
高频交易
金融应用(包括交易应用)需要依靠高性能、低延迟的基础设施来提供高度一致的“低抖动”性能。这些应用并不是早期云架构的设计目标,而且迁移至云的速度也非常慢。Oracle 云基础设施可以满足这些性能需求,例如实现低于 2 微秒的集群内延迟,性能与成本高昂的定制化本地部署解决方案相当,并支持客户赋能这些应用。
“Oracle Cloud Infrastructure is able to support deterministic latencies at the 10μs level at very high message volumes.There is sufficient evidence to justify exploring deployment of low-latency sensitive applications to OCI.This is significant because services requiring this service level avoid expensive on-site deployments.”
—BJSS 首席技术官 Larry Ryan
视觉效果渲染
高性能计算为当今无所不在的视觉效果提供了强大的动力,无论是开发电影特效、电视广告还是最新的 PC 和主机游戏,媒体和游戏公司都需要依托于按需可用的 HPC 和 GPU 性能。基于 OCI 的 NVIDIA Quadro 虚拟工作站可提供与成本昂贵的高端图形工作站相一致的性能,采用 Oracle 解决方案,您只需每小时支付几美元的成本就可以获得这一高性能。下面分享一些 SPECviewperf 13 基准测试结果。您可以自行试用,在 Oracle 云中供应一个 GPU 并运行可用基准测试。
为了让用户直观了解其性能,Oracle 在 VM.2.1 GPU 款型(提供一个 NVIDIA P100 GPU)上运行了 SPECviewperf®13 基准测试,并与基于 P2000 的工作站进行了对比。SPECviewperf® 13 基准测试是基于专业应用衡量图形性能的全球标准。

“With Oracle Cloud Infrastructure, there’s no need to queue requests or schedule renderings.Our customers can access an unlimited number of machines whenever they need them, without having to pay for unused capacity when they don’t.”
—GridMarkets 联合创始人 Mark Ross

“Around the globe, virtualization is helping enterprises stay productive during these challenging times.With Quadro Virtual Workstations on Oracle Cloud, creative and technical professionals can easily access the performance they need to work anywhere.”
—NVIDIA 虚拟化产品营销高级总监 Anne Hecht
研究
Oracle 云基础设施的超级计算平台支持研究人员访问裸金属 NVIDIA GPU、高性能计算实例和低延迟集群网络。研究人员可以创建集群来运行大规模计算,从而加速科学和工程多个分支领域的研究,例如药物发现、基因组学、天气预报和太空探索等。通过 Oracle for Research 等计划,Oracle 与布里斯托大学和伦敦皇家霍洛威大学等研究组织开展紧密合作,共同帮助加速疫苗研发以及开发应对气候变化的前沿解决方案。

“We can simulate carbon capture sequestration scenarios, address complex environmental problems, and drive meaningful change in the world.Oracle has helped us break the barrier of computational power in the lab.&rdquol
—伦敦大学皇家霍洛威学院 Hier-Majumder 教授
借助可突破、扩展和响应研究人员需求的 HPC 解决方案,加速推进医学研究并招募疾病的潜在候选者。英国布里斯托大学利用 Oracle HPC 解决方案来分析影像数据,助力开展医学研究。

“Our ambition is to create a platform to react quickly to disease, which involves the creation of terabytes of imaging data.Using Oracle Cloud, we can distribute the data across multiple processors and get results in a fraction of the time of a traditional on-premise system.”
—布里斯托大学生物化学与化学教授 Imre Berger
高性能存储
数据吞吐量对于 HPC 应用高效运行以及实现跨计算集群的数据共享至关重要。在处理过程中加载和存储海量数据集需要一个强大的文件系统,它能够快速可靠地响应请求,并提供一致的线性响应能力。Oracle 云提供了多种 HPC 文件系统模型,包括具有稳定、高速高吞吐量的 GlusterFS、BeeGFS、Lustre 和 IBM Spectrum Scale 高性能文件系统。

“My team has tested SAS Grid on many public clouds.We are happy to say that Oracle Cloud’s infrastructure provides the I/O throughput to the IBM Spectrum Scale shared file system that is needed for SAS Grid.”
—SAS 公司 SAS 性能实验室高级经理 Margaret Crevar

“Oracle’s bare metal compute and cluster networking technologies allowed BeeGFS on Oracle Cloud to outperform our on-premises HPC file system latency and throughput for MPAS workloads at a very low price point.Using Oracle Cloud’s RDMA cluster networking, BeeGFS can see performance of up to 140 GB/s with as little as 14 servers.”
—YellowDog 首席技术官 Simon Ponsford
基于 Oracle 云的 HPC 服务
裸金属 HPC 计算实例
凭借高内核频率和集群网络,Oracle 裸金属计算实例在性能上大幅领先于其他公有云和现场数据中心。裸金属计算实例可提供超乎寻常的隔离性、可见性和控制力。
集群网络
Oracle 标准裸金属服务器包含支持极速网络的双 25 Gbps 以太网,而 Oracle 的突破性后端网络结构则采用了 Mellanoxs ConnectX-5,100 Gbps 网络接口卡,可基于融合以太网 (RoCE) v2 提供 RDMA,从而创建与具有与本地部署集群同样低延迟网络和应用可扩展性的集群。
裸金属和 VM 上的 GPU
Oracle 云提供高性能虚拟机和基于 NVIDIA 的裸金属选项,可支持渲染、人工智能和深度学习负载的图形密集型处理需求。
Oracle Linux
面向高性能计算的 Oracle Linux 兼有一个全面受支持、开放和功能完备的操作环境,该操作环境与 Red Hat Enterprise Linux 保持 100% 二进制兼容。Oracle Linux 提供虚拟化、管理、云原生计算工具和 Linux 操作系统 (OS),通过一个统一的解决方案来满足高性能计算需求。在 Oracle 云中的 Oracle Linux 上运行 HPC 的客户可以实现显著的性能提升,而无需做出任何牺牲或任何支持成本。借助碰撞模拟和 CFD 负载,Oracle Linux 将模拟时间缩短了 4-6%。
HPC 文件系统
传统存储无法为需要快速处理大量数据的性能密集型负载提供足够的吞吐量。为了满足这些需求,Oracle 让 GlusterFS、BeeGFS、Lustre 和 IBM Spectrum Scale 高性能文件系统的部署工作简单易行,可为 HPC 集群提供高达 453 GBps 的聚合吞吐量。
可直接部署的 HPC 解决方案
简易的自动化集群部署
利用 Oracle 云市场体系(Terraform 模板)轻松快捷地部署集群 — 该体系包含快速启动和运行所需的一切关键组件,包含 Slurm 调度程序和 OpenMPI 安装路径以及用于测试 MPI 连接性的工具。
简易文件系统部署
借助 Oracle 云市场体系,Oracle 大幅简化了行业领先的高性能文件服务器的 PB 级部署,包括利用基于优秀实践的自动化来降低复杂性以及缩短部署时间。只需数次单击操作,即可在不到 15 分钟的时间内启动并运行文件系统。Oracle 云市场在其易于部署的体系中涵盖 BeeGFS、Lustre 和 GlusterFS,并针对各个文件系统提供了额外的可定制体系。
面向数据科学的 VM
面向数据科学的 Oracle 云基础设施虚拟机 (VM)为用户提供预先配置的环境,帮助其构建模型并加快业务价值实现。它们可提供卓越的性能、安全性和控制力。您可以使用计算自动缩放功能根据需要扩展计算资源,在不需要时停止计算实例,从而控制成本。
您可以在 15 分钟内启动并运行一个搭载 NVIDIA GPU 的虚拟机,其中随带预先安装的常见 IDE、笔记本和框架。面向数据科学的 Oracle 云基础设施 VM 包含基本样例数据和代码,可供您测试和探索。
Oracle 云 HPC 性价比
Oracle 专门针对需要极速单线程性能和超低延迟网络的计算密集型负载设计了 HPC 实例。所有 HPC 实例均提供独一无二的直接内存互联网络,依托于非虚拟裸金属 RDMA 网络。Oracle 提供高频处理器、高速密集型本地存储和 RDMA 集群网络,可在数万个内核构成的集群中实现 2 微秒的延迟水平。AWS 未提供这一架构,并且其最接近的 C5n 解决方案要贵得多。
Oracle 云基础设施 BM.HPC2.36 | AWS c5n.metal | |
---|---|---|
标价 | $2.70 | 3.888 美元(美国东部) |
存储 | 本地 NVME SSD | 非本地 NVMe SSD |
内存 | 384 GB | 192GB |
网络 | RDMA | 无 RDMA |
性能 SLA | 支持 | 不支持 |
基准测试 | ||
SPECrate 2017 整型运算速度 | 238 | 237 |
SPECrate 2017 浮点运算速度 | 206 | 206 |
流处理(MB/秒) | 146,984 | 140,833 |
概要1 2 3 | 通过 RDMA 和性能保证降低成本并提升性能 | 成本高 44%,无本地 SSD 存储,一半的 RAM,无 RDM,无性能 SLA |

“Oracle Cloud Infrastructure and Rocky DEM have collaborated to provide a scalable experience to customers with performance similar to on-premises clusters.The bare metal NVIDIA GPU servers, without hypervisor overhead, further help to tackle very large problems in a reasonable amount of time.”
—ESSS 副总裁 Marcus Reis