AI-oplossing

LLM's met NVIDIA GPU's implementeren op OCI Compute Bare Metal

Inleiding

Heeft u zich ooit afgevraagd hoe u een groot taalmodel (LLM) implementeert op Oracle Cloud Infrastructure (OCI)? In deze oplossing leert u hoe u LLM's implementeert met behulp van OCI Compute Bare Metal-instances die worden versneld door NVIDIA GPU's met een inferentieserver met de naam vLLM.

vLLM kan worden geïmplementeerd als een server die het API-protocol OpenAI implementeert. Hierdoor kan vLLM worden gebruikt als een drop-in vervanging voor applicaties met behulp van de OpenAI API, wat betekent dat we OpenAI-modellen (zoals GPT-3.5 of GPT-4) kunnen kiezen om tekst voor ons verzoek te genereren op basis van slechts twee dingen.

  • De query van de oorspronkelijke gebruiker
  • De modelnaam van de LLM waarvoor u tekst wilt genereren

Deze LLM's kunnen afkomstig zijn uit een goed gevormde Hugging Face-repository (de keuze van de ontwikkelaar), dus we moeten ons verifiëren bij Hugging Face om de modellen (als we ze niet uit de broncode hebben opgebouwd) te halen met een verificatietoken.

LLM's kunnen ook worden geïmplementeerd met NVIDIA NIM, een set gebruiksvriendelijke microservices die zijn ontworpen voor een veilige, betrouwbare implementatie van hoogwaardige AI-modelinferencing op NVIDIA GPU-versnelde instances op OCI.

-demonstratie

Demo: LLM's met NVIDIA GPU's implementeren op OCI Compute Bare Metal (1:17)

Vereisten en instellingen

  1. Oracle Cloud account: aanmeldingspagina
  2. Documentatie over Oracle Cloud Infrastructure
  3. OCI Generative AI: documentatie
  4. vLLM: documentatie over aan de slag