AI 解决方案

利用 OCI Container Engine for Kubernetes 实现大规模 NVIDIA NIM 推断微服务

AI 解决方案主题

介绍

如何大规模地为大型语言模型提供推理请求并加速 AI 部署?在 Oracle Cloud Infrastructure (OCI) Container Engine for Kubernetes (OKE) 上部署企业级解决方案 NVIDIA NIM。在本演示中,我们将展示如何在 OKE 上部署 NVIDIA NIM,并将模型存储库托管在 OCI Object Storage 上。使用 Helm 部署,可以根据推断请求数量轻松扩展和收缩副本数量,并轻松进行监视。利用 OCI Object Storage 从任意位置部署模型,并支持各种类型的模型。由 NVIDIA GPU 提供支持,充分利用 NIM 来帮助您获得推断请求的最大吞吐量和最低延迟。

先决条件和设置

  1. Oracle Cloud 账户 - 注册页面
  2. 访问基于单个 NVIDIA A10 Tensor Core GPU 的 VM.GPU.A10.1 — 服务限制
  3. 实例主体— 文档
  4. 作为 OCI 市场的一部分的 NVIDIA AI Enterprise — 文档
  5. 具有用户访问令牌的 HuggingFace — 文档
  6. OCI Container Engine for Kubernetes — 文档

注:为免疑义,本网页所用以下术语专指以下含义:

  1. 除Oracle隐私政策外,本网站中提及的“Oracle”专指Oracle境外公司而非甲骨文中国。
  2. 相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。