Ti sei mai chiesto come implementare un modello linguistico di grandi dimensioni (LLM, large language model) su Oracle Cloud Infrastructure (OCI)? In questa soluzione, imparerai come distribuire LLM utilizzando istanze Bare Metal di OCI Compute accelerate dalle GPU NVIDIA con un server di inferenza denominato vLLM.
vLLM può essere distribuito come server che implementa il protocollo API OpenAI. Ciò consente a vLLM di essere utilizzato come sostituto drop-in per le applicazioni che utilizzano l'API OpenAI, il che significa che possiamo scegliere modelli OpenAI (come GPT-3.5 o GPT-4) per generare testo per la nostra richiesta in base a due cose.
Questi LLM possono provenire da qualsiasi repository ben formato di Hugging Face (scelta dello sviluppatore), quindi dovremo autenticarci su Hugging Face per estrarre i modelli (se non li abbiamo creati dal codice sorgente) con un token di autenticazione.
Gli LLM possono anche essere implementati con NVIDIA NIM, un set di microservizi facili da usare progettati per una distribuzione sicura e affidabile dell'inferenza di modelli AI ad alte prestazioni su istanze accelerate dalla GPU NVIDIA su OCI.