Oracle Cloud Infrastructure(OCI)に大規模言語モデル(LLM)を導入する方法について考えたことがありますか?このソリューションでは、vLLMと呼ばれる推論サーバーを使用してNVIDIA GPUによって高速化されたOCI Compute Bare Metalインスタンスを使用してLLMをデプロイする方法を学習します。
vLLMは、OpenAI APIプロトコルを実装するサーバーとしてデプロイできます。これにより、OpenAI APIを使用するアプリケーションのドロップイン置換としてvLLMを使用できます。つまり、OpenAIモデル(GPT-3.5やGPT-4など)を選択して、2つのことのみに基づいてリクエスト用のテキストを生成できます。
これらのLLMは、Hugging Faceの整形式のリポジトリ(開発者による選択)から得られる可能性があるため、Hugging Faceに対して認証を行い、モデルを(ソース・コードから構築していない場合)認証トークンでプルする必要があります。
また、LLMは、OCI上のNVIDIA GPUアクセラレーテッド・インスタンス上で推論する高パフォーマンスAIモデルの安全かつ信頼性の高い導入のために設計された、使いやすい一連のマイクロサービスであるNVIDIA NIMを使用してデプロイすることもできます。