Solução de IA

Implementação de LLMs com GPUs NVIDIA no OCI Compute Bare Metal

Tópicos da solução de IA

Introdução
Demonstração
Pré-requisitos e configuração
Vamos começar

Introdução

Você já se perguntou como implementar um grande modelo de linguagem (LLM) na Oracle Cloud Infrastructure (OCI)? Nesta solução, você aprenderá a implementar LLMs usando instâncias OCI Compute Bare Metal aceleradas por GPUs NVIDIA com um servidor de inferência chamado vLLM.

O vLLM pode ser implantado como um servidor que implementa o protocolo de API OpenAI. Isso permite que o vLLM seja usado como um substituto drop-in para aplicativos usando a API OpenAI, o que significa que podemos escolher modelos OpenAI (como GPT-3.5 ou GPT-4) para gerar texto para nossa solicitação com base em apenas duas coisas.

A consulta do usuário original
O nome do modelo do LLM no qual você deseja executar a geração de texto

Esses LLMs podem vir de qualquer repositório bem formado do Hugging Face (escolha do desenvolvedor), portanto, precisaremos autenticar o Hugging Face para extrair os modelos (se não os tivermos criado a partir do código-fonte) com um token de autenticação.

Os LLMs também podem ser implementados com o NVIDIA NIM, um conjunto de microsserviços fáceis de usar projetados para implementação segura e confiável de inferência de modelo de IA de alto desempenho em instâncias aceleradas por GPU da NVIDIA na OCI.

Demonstração

Pré-requisitos e configuração

Conta Oracle Cloud —página de cadastro
Oracle Cloud Infrastructure — documentação
OCI Generative AI — documentação
vLLM—obtendo documentação inicial

Conheça

Etapas detalhadas e código de amostra no GitHub