Bereitstellung von LLMs mit NVIDIA-GPUs auf OCI Compute Bare Metal

KI-Lösungsthemen

Einführung
Präsentation
Voraussetzungen und Setup
Erste Schritte

Einführung

Haben Sie sich jemals gefragt, wie Sie ein großes Sprachmodell (LLM) auf Oracle Cloud Infrastructure (OCI) bereitstellen können? In dieser Lösung erfahren Sie, wie Sie LLMs mit OCI Compute Bare Metal-Instanzen bereitstellen, die von NVIDIA-GPUs mit einem Inferenzserver namens vLLM beschleunigt werden.

vLLM kann als Server bereitgestellt werden, der das API-Protokoll OpenAI implementiert. Dadurch kann vLLM als Drop-in-Ersatz für Anwendungen verwendet werden, die die OpenAI-API verwenden. Das bedeutet, dass wir OpenAI-Modelle (wie GPT-3.5 oder GPT-4) auswählen können, um Text für unsere Anforderung basierend auf zwei Dingen zu generieren.

Abfrage des ursprünglichen Benutzers
Der Modellname des LLM, für das Sie die Textgenerierung ausführen möchten

Diese LLMs können aus jedem wohlgeformten Repository von Hugging Face (Entwicklerwahl) stammen, sodass wir uns bei Hugging Face authentifizieren müssen, um die Modelle (wenn wir sie nicht aus dem Quellcode erstellt haben) mit einem Authentifizierungstoken abzurufen.

LLMs können auch mit NVIDIA NIM bereitgestellt werden, einem Satz benutzerfreundlicher Microservices, die für eine sichere, zuverlässige Bereitstellung von leistungsstarken KI-Modellinferenzen auf NVIDIA-GPU-beschleunigten Instanzen auf OCI entwickelt wurden.

Demo

Voraussetzungen und Setup

Oracle Cloud-Account – Anmeldeseite
Oracle Cloud Infrastructure – Dokumentation
OCI Generative AI – Dokumentation
vLLM – Dokumentation für die ersten Schritte

Erste Schritte

Detaillierte Schritte und Beispielcode auf GitHub