Soluzione AI

Distribuzione di LLM con GPU NVIDIA su OCI Compute Bare Metal

Argomenti della soluzione AI

Introduzione
Demo
Prerequisiti e impostazione
Inizia

Introduzione

Ti sei mai chiesto come implementare un modello linguistico di grandi dimensioni (LLM, large language model) su Oracle Cloud Infrastructure (OCI)? In questa soluzione, imparerai come distribuire LLM utilizzando istanze Bare Metal di OCI Compute accelerate dalle GPU NVIDIA con un server di inferenza denominato vLLM.

vLLM può essere distribuito come server che implementa il protocollo API OpenAI. Ciò consente a vLLM di essere utilizzato come sostituto drop-in per le applicazioni che utilizzano l'API OpenAI, il che significa che possiamo scegliere modelli OpenAI (come GPT-3.5 o GPT-4) per generare testo per la nostra richiesta in base a due cose.

Query dell'utente originale
Nome del modello del LLM su cui si desidera eseguire la generazione del testo

Questi LLM possono provenire da qualsiasi repository ben formato di Hugging Face (scelta dello sviluppatore), quindi dovremo autenticarci su Hugging Face per estrarre i modelli (se non li abbiamo creati dal codice sorgente) con un token di autenticazione.

Gli LLM possono anche essere implementati con NVIDIA NIM, un set di microservizi facili da usare progettati per una distribuzione sicura e affidabile dell'inferenza di modelli AI ad alte prestazioni su istanze accelerate dalla GPU NVIDIA su OCI.

Demo

Prerequisiti e impostazione

Account Oracle Cloud: pagina di iscrizione
Oracle Cloud Infrastructure: documentazione
OCI Generative AI: documentazione
vLLM: documentazione introduttiva

Inizia

Passi dettagliati e codice di esempio su GitHub