Grandes modelos de linguagem (LLMs) fizeram avanços significativos na geração de texto, resolução de problemas e seguindo instruções. À medida que as empresas usam LLMs para desenvolver soluções de ponta, a necessidade de plataformas de implementação escaláveis, seguras e eficientes se torna cada vez mais importante. O Kubernetes se tornou a opção preferida por sua escalabilidade, flexibilidade, portabilidade e resiliência.
Nesta demonstração, demonstramos como implantar contêineres de inferência de LLM ajustados no Oracle Cloud Infrastructure Container Engine for Kubernetes (OKE), um serviço Kubernetes gerenciado que simplifica implantações e operações em escala para empresas. O serviço permite que eles mantenham o modelo personalizado e os conjuntos de dados em sua própria tenancy sem depender de uma API de inferência de terceiros.
Usaremos a Inferência de Geração de Texto (TGI) como estrutura de inferência para expor os LLMs.