GPU Scanner

Oracle Cloud Infrastructure (OCI) GPU Scanner 是一款专用解决方案，可为 GPU 工作负载提供可观测性、健康检查及性能监控功能。

现场演示日：Oracle、Meta 和 NVIDIA 专家在 OCI 上部署 Llama
不要错过 10 月 30 日的独家现场演示，我们将展示 Llama 在 OCI 上的部署。了解新的生成式 AI 技术的实际应用，了解实际应用场景，学习如何逐步构建更智能、更自动化的工作流。

立即报名
首要原则：Zettascale OCI Superclusters
OCI 的优秀架构师揭示了集群网络如何为可扩展的 GenAI 提供强大支持，从几个 GPU 到具有 131072 个 NVIDIA Blackwell GPU 的 Zettascale OCI Supercluster。

阅读博客
使用 OCI 加速 AI 工作负载 (PDF)
Oracle AI 基础设施可扩展、高性能且可随时随地部署。了解我们如何凭借出色的可扩展性、裸金属 GPU 实例等优势脱颖而出。

获取解决方案手册 (PDF)
AMD Instinct 企业策略组 MI300X
了解分析师对使用搭载 AMD GPU 的 OCI AI 基础设施的看法，以及此组合如何提高生产力、加快价值实现速度并降低能源成本。

了解更多

GPU Scanner 功能

集中 GPU 监控

一种托管式集中化解决方案，它无需在租户的所有区域手动运行脚本或开展兼容性研究。支持共享大型集群的团队实现分片可视性。
全面的运行状况检查

详细的运行状况检查覆盖初始阶段（基准测试）、启用阶段（实时监控）及持续运行阶段（持续诊断），包括节点级、多节点级及高级诊断功能，结合历史数据对比精准定位问题。
不受供应商限制的兼容性

支持 NVIDIA 和 AMD GPU，计划后续扩展支持更多芯片厂商及下一代架构。
租户级别监控

监控所有区域的 GPU 资源，无需按区域单独安装，支持 Oracle Cloud Infrastructure Kubernetes 引擎集群、高性能计算集群、裸金属服务器及虚拟机。
云原生集成

兼容 Grafana 和 Prometheus 等主流开源工具，支持定制控制面板，实现数据的无缝存储/导出以满足客户应用场景需求。
富有实用价值的洞察和自动化

提供建议的修复操作（例如针对 GPU 总线断开错误的重启操作），并可通过 API 或门户自动执行运行状况检查，减少客户停机时间与误报。