Solução de IA

Implantação de LLMs com GPUs NVIDIA no OCI Compute Bare Metal

Introdução

Você já se perguntou como implantar um modelo de linguagem grande (LLM) na Oracle Cloud Infrastructure (OCI)? Nesta solução, você aprenderá a implementar LLMs usando instâncias OCI Compute Bare Metal aceleradas por GPUs NVIDIA com um servidor de inferência chamado vLLM.

O vLLM pode ser implantado como um servidor que implementa o protocolo de API OpenAI. Isso permite que o vLLM seja usado como um substituto direto para aplicativos usando a API OpenAI, o que significa que podemos escolher modelos OpenAI (como GPT-3.5 ou GPT-4) para gerar texto para nossa solicitação com base em apenas duas coisas.

  • A consulta do usuário original
  • O nome do modelo do LLM no qual você deseja executar a geração de texto

Esses LLMs podem vir de qualquer repositório bem formado do Hugging Face (escolha do desenvolvedor), então precisaremos autenticar o Hugging Face para extrair os modelos (se não os tivermos construído a partir do código-fonte) com um token de autenticação.

Os LLMs também podem ser implementados com o NVIDIA NIM, um conjunto de microsserviços fáceis de usar projetados para implementação segura e confiável de inferência de modelo de IA de alto desempenho em instâncias aceleradas por GPU NVIDIA na OCI.

Demonstração

Demonstração: Implementação de LLMs com GPUs NVIDIA no OCI Compute Bare Metal (1:17)

Pré-requisitos e configuração

  1. Conta da Oracle Cloud - página de inscrição
  2. Oracle Cloud Infrastructure - documentação
  3. OCI Generative AI — documentação
  4. vLLM — documentação inicial