Você já se perguntou como implantar um modelo de linguagem grande (LLM) na Oracle Cloud Infrastructure (OCI)? Nesta solução, você aprenderá a implementar LLMs usando instâncias OCI Compute Bare Metal aceleradas por GPUs NVIDIA com um servidor de inferência chamado vLLM.
O vLLM pode ser implantado como um servidor que implementa o protocolo de API OpenAI. Isso permite que o vLLM seja usado como um substituto direto para aplicativos usando a API OpenAI, o que significa que podemos escolher modelos OpenAI (como GPT-3.5 ou GPT-4) para gerar texto para nossa solicitação com base em apenas duas coisas.
Esses LLMs podem vir de qualquer repositório bem formado do Hugging Face (escolha do desenvolvedor), então precisaremos autenticar o Hugging Face para extrair os modelos (se não os tivermos construído a partir do código-fonte) com um token de autenticação.
Os LLMs também podem ser implementados com o NVIDIA NIM, um conjunto de microsserviços fáceis de usar projetados para implementação segura e confiável de inferência de modelo de IA de alto desempenho em instâncias aceleradas por GPU NVIDIA na OCI.