Soluzione AI

Distribuzione di LLM con GPU NVIDIA su OCI Compute Bare Metal

Argomenti sulla soluzione AI

Introduzione

Ti sei mai chiesto come implementare un modello di linguaggio di grandi dimensioni (LLM) su Oracle Cloud Infrastructure (OCI)? In questa soluzione imparerai come distribuire LLM utilizzando istanze OCI Compute Bare Metal accelerate dalle GPU NVIDIA con un server di inferenza denominato vLLM.

vLLM può essere distribuito come server che implementa il protocollo API OpenAI. Ciò consente di utilizzare vLLM come sostituto drop-in per le applicazioni che utilizzano l'API OpenAI, il che significa che possiamo scegliere i modelli OpenAI (come GPT-3.5 o GPT-4) per generare testo per la nostra richiesta basato solo su due cose.

  • La query dell'utente originale
  • Nome del modello dell'LLM su cui si desidera eseguire la generazione del testo

Questi LLM possono provenire da qualsiasi repository ben formato di Hugging Face (scelta dello sviluppatore), quindi dovremo autenticarci su Hugging Face per estrarre i modelli (se non li abbiamo costruiti dal codice sorgente) con un token di autenticazione.

Gli LLM possono anche essere distribuiti con NVIDIA NIM, un set di microservizi facili da usare progettati per una distribuzione sicura e affidabile di inferenze di modelli AI ad alte prestazioni su istanze accelerate dalla GPU NVIDIA sull'infrastruttura OCI.

Demo

Demo: Distribuzione di LLM con GPU NVIDIA su OCI Compute Bare Metal (1:17)

Prerequisiti e impostazione

  1. Account Oracle Cloud: pagina di registrazione
  2. Oracle Cloud Infrastructure: documentazione
  3. Documentazione sull'IA generativa OCI
  4. vLLM-documentazione introduttiva