AIソリューション

OCIコンピュート・ベア・メタルへのNVIDIA GPUを使用したLLMの導入

概要

Oracle Cloud Infrastructure(OCI)に大規模言語モデル(LLM)を導入する方法について疑問に思ったことがありますか? このソリューションでは、VLLMと呼ばれる推論サーバーを使用して、NVIDIA GPUによって高速化されたOCI Compute Bare Metalインスタンスを使用してLLMを導入する方法を学習します。

vLLMは、OpenAI APIプロトコルを実装するサーバーとしてデプロイできます。これにより、vLLMをOpenAI APIを使用したアプリケーションのドロップイン置換として使用できます。つまり、OpenAIモデル(GPT-3.5やGPT-4など)を選択して、2つのことのみに基づいてリクエスト用のテキストを生成できます。

  • 元のユーザーの問合せ
  • テキスト生成を実行するLLMのモデル名

これらのLLMは、Hugging Faceの整形式のリポジトリ(開発者による選択)から取得できるため、認証トークンを使用してモデル(ソース・コードからモデルを構築していない場合)をプルするために、Hugging Faceに認証する必要があります。

LLMは、OCI上のNVIDIA GPU加速インスタンス上で高性能AIモデル推論をセキュアかつ確実に導入できるように設計された、使いやすい一連のマイクロサービスであるNVIDIA NIMとともに導入することもできます。

デモ

デモ: OCI ComputeベアメタルにNVIDIA GPUを搭載したLLMを導入(1:17)

前提条件および設定

  1. Oracle Cloudアカウント—サインアップ・ページ
  2. Oracle Cloud Infrastructure—ドキュメンテーション
  3. OCIの生成AI—ドキュメント
  4. vLLM—スタート・ガイド