Los grandes modelos de lenguaje (LLM) han hecho avances significativos en la generación de texto, la resolución de problemas y las siguientes instrucciones. A medida que las empresas utilizan LLM para desarrollar soluciones de vanguardia, la necesidad de plataformas de implementación escalables, seguras y eficientes se vuelve cada vez más importante. Kubernetes se ha convertido en la opción preferida por su escalabilidad, flexibilidad, portabilidad y resiliencia.
En esta demostración, demostramos cómo desplegar contenedores de inferencia de LLM ajustados en Oracle Cloud Infrastructure Container Engine for Kubernetes (OKE), un servicio de Kubernetes gestionado que simplifica los despliegues y las operaciones a escala de las empresas. El servicio les permite conservar el modelo personalizado y los juegos de datos dentro de su propio arrendamiento sin tener que depender de una API de inferencia de terceros.
Utilizaremos la Inferencia de Generación de Texto (TGI) como marco de inferencia para exponer los LLM.