Solution IA

Microservice d'inférence NVIDIA NIM à grande échelle avec OCI Container Engine for Kubernetes

Sujets relatifs à la solution AI

Introduction

Comment pouvez-vous fournir des demandes d'inférence à grande échelle pour votre modèle de langage et accélérer votre déploiement d'IA ? En déployant la solution NVIDIA NIM adaptée à l'entreprise sur Oracle Cloud Infrastructure (OCI) Container Engine for Kubernetes (OKE). Dans cette démonstration, nous allons montrer comment déployer NVIDIA NIM sur OKE avec le référentiel de modèles hébergé sur OCI Object Storage. A l'aide d'un déploiement Helm, augmentez et réduisez facilement le nombre de répliques en fonction du nombre de demandes d'inférence, et bénéficiez d'une surveillance facile. Tirez parti d'OCI Object Storage pour déployer des modèles où que vous soyez, avec la prise en charge de différents types de modèles. Optimisé par les GPU NVIDIA, tirez pleinement parti de NIM pour vous aider à obtenir le débit maximal et la latence minimale pour vos demandes d'inférence.

Prérequis et configuration

  1. Compte Oracle Cloud - Page d'inscription
  2. Accès à VM.GPU.A10.1 alimenté par un seul GPU NVIDIA A10 Tensor Core - Limites de service
  3. Principaux d'instance - documentation
  4. NVIDIA AI Enterprise, qui fait partie d'OCI Marketplace - documentation
  5. HuggingFace avec jetons d'accès utilisateur - documentation
  6. OCI Container Engine for Kubernetes - documentation