AIソリューション

OCIコンピュート・ベア・メタルへのNVIDIA GPUを使用したLLMの導入

AIソリューションのトピック

概要
デモ
前提条件および設定
ここから始めよう

概要

Oracle Cloud Infrastructure(OCI)に大規模言語モデル(LLM)を導入する方法について疑問に思ったことがありますか? このソリューションでは、VLLMと呼ばれる推論サーバーを使用して、NVIDIA GPUによって高速化されたOCI Compute Bare Metalインスタンスを使用してLLMを導入する方法を学習します。

vLLMは、OpenAI APIプロトコルを実装するサーバーとしてデプロイできます。これにより、vLLMをOpenAI APIを使用したアプリケーションのドロップイン置換として使用できます。つまり、OpenAIモデル(GPT-3.5やGPT-4など)を選択して、2つのことのみに基づいてリクエスト用のテキストを生成できます。

元のユーザーの問合せ
テキスト生成を実行するLLMのモデル名

これらのLLMは、Hugging Faceの整形式のリポジトリ(開発者による選択)から取得できるため、認証トークンを使用してモデル(ソース・コードからモデルを構築していない場合)をプルするために、Hugging Faceに認証する必要があります。

LLMは、OCI上のNVIDIA GPU加速インスタンス上で高性能AIモデル推論をセキュアかつ確実に導入できるように設計された、使いやすい一連のマイクロサービスであるNVIDIA NIMとともに導入することもできます。

デモ

前提条件および設定

Oracle Cloudアカウント—サインアップ・ページ
Oracle Cloud Infrastructure—ドキュメンテーション
OCIの生成AI—ドキュメント
vLLM—スタート・ガイド

ここから始めよう

GitHubの詳細なステップおよびサンプル・コード