不要错过 10 月 30 日的独家现场演示,我们将展示 Llama 在 OCI 上的部署。了解新的生成式 AI 技术的实际应用,了解实际应用场景,学习如何逐步构建更智能、更自动化的工作流。
OCI 的优秀架构师揭示了集群网络如何为可扩展的 GenAI 提供强大支持,从几个 GPU 到具有 131072 个 NVIDIA Blackwell GPU 的 Zettascale OCI Supercluster。
Oracle AI 基础设施可扩展、高性能且可随时随地部署。了解我们如何凭借出色的可扩展性、裸金属 GPU 实例等优势脱颖而出。
了解分析师对使用搭载 AMD GPU 的 OCI AI 基础设施的看法,以及此组合如何提高生产力、加快价值实现速度并降低能源成本。
OCI GPU Scanner 是一款集中化的托管式 GPU 性能监控解决方案,可省去手动研究与脚本编写工作,简化基准测试流程。
OCI GPU Scanner 通过全面的运行状况检查、基准值对比及自动化诊断功能,最大限度减少停机时间与误报情况。
OCI GPU Scanner 提供可定制的租户级全局可视性及团队专属洞察,助力企业级 GPU 集群优化资源共享与成本管理。
一种托管式集中化解决方案,它无需在租户的所有区域手动运行脚本或开展兼容性研究。支持共享大型集群的团队实现分片可视性。
详细的运行状况检查覆盖初始阶段(基准测试)、启用阶段(实时监控)及持续运行阶段(持续诊断),包括节点级、多节点级及高级诊断功能,结合历史数据对比精准定位问题。
支持 NVIDIA 和 AMD GPU,计划后续扩展支持更多芯片厂商及下一代架构。
监控所有区域的 GPU 资源,无需按区域单独安装,支持 Oracle Cloud Infrastructure Kubernetes 引擎集群、高性能计算集群、裸金属服务器及虚拟机。
兼容 Grafana 和 Prometheus 等主流开源工具,支持定制控制面板,实现数据的无缝存储/导出以满足客户应用场景需求。
提供建议的修复操作(例如针对 GPU 总线断开错误的重启操作),并可通过 API 或门户自动执行运行状况检查,减少客户停机时间与误报。
详细了解 RDMA 集群网络、GPU 实例和裸金属服务器等等。
注:为免疑义,本网页所用以下术语专指以下含义:
现场演示日:Oracle、Meta 和 NVIDIA 专家在 OCI 上部署 Llama
首要原则:Zettascale OCI Superclusters
使用 OCI 加速 AI 工作负载 (PDF)
AMD Instinct 企业策略组 MI300X