Ti sei mai chiesto come implementare un modello di linguaggio di grandi dimensioni (LLM) su Oracle Cloud Infrastructure (OCI)? In questa soluzione imparerai come distribuire LLM utilizzando istanze OCI Compute Bare Metal accelerate dalle GPU NVIDIA con un server di inferenza denominato vLLM.
vLLM può essere distribuito come server che implementa il protocollo API OpenAI. Ciò consente di utilizzare vLLM come sostituto drop-in per le applicazioni che utilizzano l'API OpenAI, il che significa che possiamo scegliere i modelli OpenAI (come GPT-3.5 o GPT-4) per generare testo per la nostra richiesta basato solo su due cose.
Questi LLM possono provenire da qualsiasi repository ben formato di Hugging Face (scelta dello sviluppatore), quindi dovremo autenticarci su Hugging Face per estrarre i modelli (se non li abbiamo costruiti dal codice sorgente) con un token di autenticazione.
Gli LLM possono anche essere distribuiti con NVIDIA NIM, un set di microservizi facili da usare progettati per una distribuzione sicura e affidabile di inferenze di modelli AI ad alte prestazioni su istanze accelerate dalla GPU NVIDIA sull'infrastruttura OCI.