AI 解决方案

在 OCI Compute Bare Metal 上部署使用 NVIDIA GPU 的 LLM

AI 解决方案主题

介绍

您是否曾想过如何在 Oracle Cloud Infrastructure (OCI) 上部署大型语言模型 (LLM)？在此解决方案中，您将了解如何使用 OCI Compute Bare Metal 实例部署 LLM，这些实例由 NVIDIA GPU 加速，并具有名为 vLLM 的推断服务器。

vLLM 可以部署为实施 OpenAI API 协议的服务器。这允许使用 vLLM 作为使用 OpenAI API 的应用程序的直接替代，这意味着我们可以选择 OpenAI 模型（例如 GPT-3.5 或 GPT-4）来基于两件事为我们的请求生成文本。

这些 LLM 可以来自任何 Hugging Face 格式良好的存储库（开发人员的选择），因此我们需要向 Hugging Face 进行身份验证，以使用身份验证令牌拉取模型（如果我们没有从源代码构建它们）。

LLM 还可以与 NVIDIA NIM 一组易于使用的微服务一起部署，这些微服务旨在安全可靠地在 OCI 上的 NVIDIA GPU 加速实例上部署高性能 AI 模型推断。

注：为免疑义，本网页所用以下术语专指以下含义：