GPU 掃描器

Oracle Cloud Infrastructure (OCI) GPU Scanner 是專屬的解決方案，可針對 GPU 工作負載提供可觀察性、狀況檢查及效能監控。

即時示範日：Oracle、Meta 和 NVIDIA 專家在 OCI 上部署 Llama
請不要錯過我們在 10 月 30 日的獨家即時示範，屆時將展示如何在 OCI 上部署 Llama。瞭解最新生成式 AI 技術的實際應用、探索實際使用案例，以及瞭解如何逐步建置更智慧、更自動化的工作流程。

立即報名
首要原則：Zettascale OCI 超級叢集
OCI 的頂尖架構師說明叢集網路如何支援可擴展的 GenAI，從少數 GPU 擴展到有 131,072 個 NVIDIA Blackwell GPU 的 Zettascale OCI 超級叢集。

閱讀部落格
使用 OCI 加速 AI 工作負載 (PDF)
Oracle AI 基礎架構可隨時隨地擴展、發揮效能和部署。瞭解我們為何以業界頂尖的擴展性、裸機 GPU 執行處理等功能脫穎而出。

取得解決方案手冊 (PDF)
AMD Instinct MI300X 企業策略群組
探索分析師對具有 AMD GPU 的 OCI AI 基礎架構的看法，以及這種組合如何提高生產力、加速實現價值並降低能源成本。

瞭解詳情

GPU 掃描器功能

集中式 GPU 監控

這是一個受管理的集中式解決方案，可免除租用戶中所有區域的手動命令檔執行和相容性研究步驟。為共用大型叢集的團隊啟用分區可見性。
全方位的狀況檢查

第 0 天 (基準)、第 1 天 (作用中監督) 以及第 2 天 (連同診斷) 的詳細狀況檢查，包括節點、多節點和進階診斷以及歷史比較，以找出問題。
廠商中立相容性

支援 NVIDIA 和 AMD GPU，並計畫為未來的晶片製造商和新一代架構提供支援。
租用戶層次監督

監控所有區域的 GPU 資源，無需在每個區域安裝，支援 Oracle Cloud Infrastructure Kubernetes Engine 叢集、高效能運算叢集、裸機和虛擬機器。
雲端原生整合

與常見的開放原始碼工具 (包括 Grafana 和 Prometheus) 相容，可為客戶使用案例提供可自訂儀表板和順暢的資料儲存/匯出功能。
可行洞察力與自動化功能

提供建議的修正動作 (例如針對 GPU 離線錯誤重新啟動)，並透過 API 或入口網站自動執行狀況檢查，以減少客戶停機時間和誤報情形。