Solución de IA

Despliegue de LLM con GPU NVIDIA en OCI Compute Bare Metal

Introducción

¿Alguna vez te has preguntado cómo desplegar un modelo de lenguaje grande (LLM) en Oracle Cloud Infrastructure (OCI)? En esta solución, aprenderá a desplegar LLM mediante instancias con hardware dedicado de OCI Compute aceleradas por GPU NVIDIA con un servidor de inferencia llamado vLLM.

vLLM se puede desplegar como un servidor que implanta el protocolo de API OpenAI. Esto permite que vLLM se utilice como un reemplazo directo para aplicaciones que utilizan la API OpenAI, lo que significa que podemos elegir modelos OpenAI (como GPT-3.5 o GPT-4) para generar texto para nuestra solicitud en función de dos cosas.

  • Consulta del usuario original
  • El nombre de modelo del LLM en el que desea ejecutar la generación de texto

Estos LLM pueden provenir de cualquier repositorio bien formado de Hugging Face (la elección del desarrollador), por lo que tendremos que autenticarnos en Hugging Face para extraer los modelos (si no los hemos creado a partir del código fuente) con un token de autenticación.

Los LLM también se pueden implementar con NVIDIA NIM, un conjunto de microservicios fáciles de usar diseñados para el despliegue seguro y confiable de inferencias de modelos de IA de alto rendimiento en instancias aceleradas por GPU de NVIDIA en OCI.

Demostración

Demostración: despliegue de LLM con GPU NVIDIA en OCI Compute con hardware dedicado (1:17)

Requisitos y configuración

  1. Cuenta de Oracle Cloud—página de registro
  2. Oracle Cloud Infrastructure: documentación
  3. OCI Generative AI—documentación
  4. vLLM: obtención de documentación de inicio