Solución de IA

Microservicio de inferencia NIM de NVIDIA a escala con OCI Container Engine for Kubernetes

Introducción

¿Cómo puede entregar solicitudes de inferencia a escala para su modelo de lenguaje de gran tamaño y acelerar su despliegue de IA? Mediante el despliegue de la solución empresarial NVIDIA NIM en Oracle Cloud Infrastructure (OCI) Container Engine for Kubernetes (OKE). En esta demostración, se mostrará cómo desplegar NVIDIA NIM en OKE con el repositorio de modelos alojado en OCI Object Storage. Mediante un despliegue de Helm, puede ampliar o reducir fácilmente el número de réplicas en función del número de solicitudes de inferencia, además de obtener una supervisión sencilla. Aprovecha OCI Object Storage para desplegar modelos desde cualquier lugar, con soporte para varios tipos de modelos. Con tecnología de GPU NVIDIA, aprovecha al máximo NIM para obtener el máximo rendimiento y la latencia mínima para tus solicitudes de inferencia.

Requisitos y configuración

  1. Cuenta de Oracle Cloud: página de registro
  2. Acceso a VM.GPU.A10.1 con tecnología de una única GPU NVIDIA A10 Tensor Core: límites de servicio
  3. Principales de instancia: documentación
  4. NVIDIA AI Enterprise, parte de la documentación de OCI Marketplace
  5. HuggingFace con tokens de acceso de usuario: documentación
  6. OCI Container Engine for Kubernetes: documentación