GPU Scanner

Oracle Cloud Infrastructure (OCI) GPU Scanner 是一款专用解决方案,可为 GPU 工作负载提供可观测性、健康检查及性能监控功能。

为何要使用 OCI GPU Scanner?

  • 集中 GPU 监控

    OCI GPU Scanner 是一款集中化的托管式 GPU 性能监控解决方案,可省去手动研究与脚本编写工作,简化基准测试流程。

  • 富有实用价值的洞察

    OCI GPU Scanner 通过全面的运行状况检查、基准值对比及自动化诊断功能,最大限度减少停机时间与误报情况。

  • 云原生灵活性

    OCI GPU Scanner 提供可定制的租户级全局可视性及团队专属洞察,助力企业级 GPU 集群优化资源共享与成本管理。

GPU Scanner 功能

  • 集中 GPU 监控

    一种托管式集中化解决方案,它无需在租户的所有区域手动运行脚本或开展兼容性研究。支持共享大型集群的团队实现分片可视性。

  • 全面的运行状况检查

    详细的运行状况检查覆盖初始阶段(基准测试)、启用阶段(实时监控)及持续运行阶段(持续诊断),包括节点级、多节点级及高级诊断功能,结合历史数据对比精准定位问题。

  • 不受供应商限制的兼容性

    支持 NVIDIA 和 AMD GPU,计划后续扩展支持更多芯片厂商及下一代架构。

  • 租户级别监控

    监控所有区域的 GPU 资源,无需按区域单独安装,支持 Oracle Cloud Infrastructure Kubernetes 引擎集群、高性能计算集群、裸金属服务器及虚拟机。

  • 云原生集成

    兼容 Grafana 和 Prometheus 等主流开源工具,支持定制控制面板,实现数据的无缝存储/导出以满足客户应用场景需求。

  • 富有实用价值的洞察和自动化

    提供建议的修复操作(例如针对 GPU 总线断开错误的重启操作),并可通过 API 或门户自动执行运行状况检查,减少客户停机时间与误报。

开始使用 OCI GPU Scanner

联系 AI 主题专家

获取帮助,构建您的下一个 AI 解决方案或在 OCI GPU Scanner 上部署工作负载。

  • 专家能为您解答以下问题:

    • 如何开始使用 Oracle Cloud?
    • 可以在 OCI 上运行哪些 AI 工作负载?
    • OCI 提供哪些类型的 AI 服务?

了解如何立即应用 AI

使用专为企业构建的生成式 AI 解决方案,帮助您的企业走进生产力新时代。了解 Oracle 如何帮助客户在整个技术堆栈中嵌入 AI。

  • Oracle AI 可助力企业实现哪些目标?

    • 在 OCI 中微调 LLM
    • 实现发票处理自动化
    • 使用 RAG 构建聊天机器人
    • 使用生成式 AI 汇总网络内容
    • 等等!

更多资源

详细了解 RDMA 集群网络、GPU 实例和裸金属服务器等等。

了解您可以通过 OCI 节省多少成本

在定价方面,Oracle Cloud 采用全球统一超低定价,并支持各种使用场景。请利用成本估算器并配置所需服务,以估算低费率。

体验不同之处

  • 1/4 出站带宽成本
  • 3 倍计算性价比
  • 全球统一超低价格
  • 无长期承诺的低定价

注:为免疑义,本网页所用以下术语专指以下含义:

  1. 除Oracle隐私政策外,本网站中提及的“Oracle”专指Oracle境外公司而非甲骨文中国 。
  2. 相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。