Solução de IA

Implantando LLMs com o Hugging Face e o Kubernetes na OCI

Introdução

Grandes modelos de linguagem (LLMs) fizeram avanços significativos na geração de texto, resolução de problemas e seguindo instruções. À medida que as empresas usam LLMs para desenvolver soluções de ponta, a necessidade de plataformas de implementação escaláveis, seguras e eficientes se torna cada vez mais importante. O Kubernetes se tornou a opção preferida por sua escalabilidade, flexibilidade, portabilidade e resiliência.

Nesta demonstração, demonstramos como implantar contêineres de inferência de LLM ajustados no Oracle Cloud Infrastructure Container Engine for Kubernetes (OKE), um serviço Kubernetes gerenciado que simplifica implantações e operações em escala para empresas. O serviço permite que eles mantenham o modelo personalizado e os conjuntos de dados em sua própria tenancy sem depender de uma API de inferência de terceiros.

Usaremos a Inferência de Geração de Texto (TGI) como estrutura de inferência para expor os LLMs.

Demonstração

Demonstração: Implantando LLMs Usando a Face Abraçada e o Kubernetes na OCI (1:30)

Pré-requisitos e configuração

  1. Conta da Oracle Cloud - página de inscrição
  2. Oracle Cloud Infrastructure - documentação
  3. OCI Generative AI — documentação
  4. Container Engine for Kubernetes - documentação