AIソリューション

OCI Computeベア・メタルへのNVIDIA GPUを使用したLLMの導入

AIソリューション・トピック

概要

Oracle Cloud Infrastructure(OCI)に大規模言語モデル(LLM)を導入する方法について考えたことがありますか?このソリューションでは、vLLMと呼ばれる推論サーバーを使用してNVIDIA GPUによって高速化されたOCI Compute Bare Metalインスタンスを使用してLLMをデプロイする方法を学習します。

vLLMは、OpenAI APIプロトコルを実装するサーバーとしてデプロイできます。これにより、OpenAI APIを使用するアプリケーションのドロップイン置換としてvLLMを使用できます。つまり、OpenAIモデル(GPT-3.5やGPT-4など)を選択して、2つのことのみに基づいてリクエスト用のテキストを生成できます。

  • 元のユーザーの問合せ
  • テキスト生成を実行するLLMのモデル名

これらのLLMは、Hugging Faceの整形式のリポジトリ(開発者による選択)から得られる可能性があるため、Hugging Faceに対して認証を行い、モデルを(ソース・コードから構築していない場合)認証トークンでプルする必要があります。

また、LLMは、OCI上のNVIDIA GPUアクセラレーテッド・インスタンス上で推論する高パフォーマンスAIモデルの安全かつ信頼性の高い導入のために設計された、使いやすい一連のマイクロサービスであるNVIDIA NIMを使用してデプロイすることもできます。

デモ

デモ: OCI Compute Bare MetalへのNVIDIA GPUを使用したLLMの導入(1:17)

前提条件と設定

  1. Oracle Cloudアカウント- サインアップ・ページ
  2. Oracle Cloud Infrastructure - ドキュメンテーション
  3. OCI生成AI - ドキュメント
  4. vLLM—開始ドキュメントの取得