GPU 掃描器

Oracle Cloud Infrastructure (OCI) GPU Scanner 是專屬的解決方案,可針對 GPU 工作負載提供可觀察性、狀況檢查及效能監控。

為何選擇 OCI GPU 掃描器?

  • 集中式 GPU 監控

    OCI GPU 掃描器是集中管理的 GPU 效能監控解決方案,有助於免除手動研究和指令碼編寫步驟,簡化基準流程。

  • 可行洞察力

    OCI GPU 掃描器透過全方位的狀況檢查、基準比較和自動化診斷,將停機時間和誤報情形降到最低。

  • 雲端原生彈性

    OCI GPU 掃描器提供可自訂的全租用戶可見性和團隊專屬洞察力,有助於為企業級 GPU 叢集打造最佳化的資源共用和成本管理。

GPU 掃描器功能

  • 集中式 GPU 監控

    這是一個受管理的集中式解決方案,可免除租用戶中所有區域的手動命令檔執行和相容性研究步驟。為共用大型叢集的團隊啟用分區可見性。

  • 全方位的狀況檢查

    第 0 天 (基準)、第 1 天 (作用中監督) 以及第 2 天 (連同診斷) 的詳細狀況檢查,包括節點、多節點和進階診斷以及歷史比較,以找出問題。

  • 廠商中立相容性

    支援 NVIDIA 和 AMD GPU,並計畫為未來的晶片製造商和新一代架構提供支援。

  • 租用戶層次監督

    監控所有區域的 GPU 資源,無需在每個區域安裝,支援 Oracle Cloud Infrastructure Kubernetes Engine 叢集、高效能運算叢集、裸機和虛擬機器。

  • 雲端原生整合

    與常見的開放原始碼工具 (包括 Grafana 和 Prometheus) 相容,可為客戶使用案例提供可自訂儀表板和順暢的資料儲存/匯出功能。

  • 可行洞察力與自動化功能

    提供建議的修正動作 (例如針對 GPU 離線錯誤重新啟動),並透過 API 或入口網站自動執行狀況檢查,以減少客戶停機時間和誤報情形。

開始使用 OCI GPU 掃描器

洽詢 AI 主題專家

由專家協助您打造全新的 AI 解決方案,或在 OCI GPU 掃描器上部署工作負載。

  • 我們的業務代表可以為您解答以下問題:

    • 如何開始使用 Oracle Cloud?
    • 我可以在 OCI 上執行哪些類型的 AI 工作負載?
    • OCI 提供哪些類型的 AI 服務?

立即瞭解如何應用 AI

邁入新生產力時代,為您的企業採用生成式 AI 解決方案。瞭解 Oracle 如何協助客戶運用內嵌於完整技術堆疊中的 AI。

  • 使用 Oracle AI 可以實現什麼?

    • OCI 中微調 LLM
    • 自動化發票處理
    • 使用 RAG 建置聊天機器人
    • 使用生成式 AI 總結 Web 內容
    • 還有更多!

其他資源

深入瞭解 RDMA 叢集網路、GPU 執行個體、裸機伺服器等。

瞭解 OCI 可以助您節省多少成本

Oracle Cloud 的定價簡單明瞭,在全球各地保持一致的實惠價格,而且支援廣泛的使用案例。若要預估您的費率,請查看費用預估工具,並依照您的需要設定服務。

體驗與眾不同之處

  • 1/4 的外送頻寬成本
  • 3 倍運算性價比
  • 每個區域的定價同樣實惠
  • 定價實惠,且無須長期履行合約