Oracle Cloud Infrastructure(OCI)に大規模言語モデル(LLM)を導入する方法について疑問に思ったことがありますか? このソリューションでは、VLLMと呼ばれる推論サーバーを使用して、NVIDIA GPUによって高速化されたOCI Compute Bare Metalインスタンスを使用してLLMを導入する方法を学習します。
vLLMは、OpenAI APIプロトコルを実装するサーバーとしてデプロイできます。これにより、vLLMをOpenAI APIを使用したアプリケーションのドロップイン置換として使用できます。つまり、OpenAIモデル(GPT-3.5やGPT-4など)を選択して、2つのことのみに基づいてリクエスト用のテキストを生成できます。
これらのLLMは、Hugging Faceの整形式のリポジトリ(開発者による選択)から取得できるため、認証トークンを使用してモデル(ソース・コードからモデルを構築していない場合)をプルするために、Hugging Faceに認証する必要があります。
LLMは、OCI上のNVIDIA GPU加速インスタンス上で高性能AIモデル推論をセキュアかつ確実に導入できるように設計された、使いやすい一連のマイクロサービスであるNVIDIA NIMとともに導入することもできます。