Solução de IA

Implementação de LLMs com GPUs NVIDIA no OCI Compute Bare Metal

Introdução

Você já se perguntou como implementar um grande modelo de linguagem (LLM) na Oracle Cloud Infrastructure (OCI)? Nesta solução, você aprenderá a implementar LLMs usando instâncias OCI Compute Bare Metal aceleradas por GPUs NVIDIA com um servidor de inferência chamado vLLM.

O vLLM pode ser implantado como um servidor que implementa o protocolo de API OpenAI. Isso permite que o vLLM seja usado como um substituto drop-in para aplicativos usando a API OpenAI, o que significa que podemos escolher modelos OpenAI (como GPT-3.5 ou GPT-4) para gerar texto para nossa solicitação com base em apenas duas coisas.

  • A consulta do usuário original
  • O nome do modelo do LLM no qual você deseja executar a geração de texto

Esses LLMs podem vir de qualquer repositório bem formado do Hugging Face (escolha do desenvolvedor), portanto, precisaremos autenticar o Hugging Face para extrair os modelos (se não os tivermos criado a partir do código-fonte) com um token de autenticação.

Os LLMs também podem ser implementados com o NVIDIA NIM, um conjunto de microsserviços fáceis de usar projetados para implementação segura e confiável de inferência de modelo de IA de alto desempenho em instâncias aceleradas por GPU da NVIDIA na OCI.

Demonstração

Demonstração: Implementação de LLMs com GPUs NVIDIA no OCI Compute Bare Metal (1:17)

Pré-requisitos e configuração

  1. Conta Oracle Cloud —página de cadastro
  2. Oracle Cloud Infrastructure — documentação
  3. OCI Generative AI — documentação
  4. vLLM—obtendo documentação inicial