Solución de IA

Despliegue de LLM con Hugging Face y Kubernetes en OCI

Introducción

Los grandes modelos de lenguaje (LLM) han hecho avances significativos en la generación de texto, la resolución de problemas y las siguientes instrucciones. A medida que las empresas utilizan LLM para desarrollar soluciones de vanguardia, la necesidad de plataformas de implementación escalables, seguras y eficientes se vuelve cada vez más importante. Kubernetes se ha convertido en la opción preferida por su escalabilidad, flexibilidad, portabilidad y resiliencia.

En esta demostración, demostramos cómo desplegar contenedores de inferencia de LLM ajustados en Oracle Cloud Infrastructure Container Engine for Kubernetes (OKE), un servicio de Kubernetes gestionado que simplifica los despliegues y las operaciones a escala de las empresas. El servicio les permite conservar el modelo personalizado y los juegos de datos dentro de su propio arrendamiento sin tener que depender de una API de inferencia de terceros.

Utilizaremos la Inferencia de Generación de Texto (TGI) como marco de inferencia para exponer los LLM.

Demostración

Demostración: despliegue de LLM con Hugging Face y Kubernetes en OCI (1:30)

Requisitos y configuración

  1. Cuenta en Oracle Cloud: página de registro
  2. Oracle Cloud Infrastructure: documentación
  3. OCI Generative AI: documentación
  4. OCI Container Engine for Kubernetes: documentación