Oracle Cloud Infrastructure(OCI)에 대규모 언어 모델(LLM)을 배포하는 방법을 궁금해한 적이 있습니까? 이 솔루션에서는 vLLM이라는 추론 서버를 통해 NVIDIA GPU가 가속한 OCI Compute Bare Metal 인스턴스를 사용하여 LLM을 배포하는 방법을 알아봅니다.
vLLM은 OpenAI API 프로토콜을 구현하는 서버로 배치할 수 있습니다. 이렇게 하면 vLLM을 OpenAI API를 사용하는 응용 프로그램에 대한 드롭인 대체로 사용할 수 있습니다. 즉, OpenAI 모델(예: GPT-3.5 또는 GPT-4)을 선택하여 두 가지를 기반으로 요청에 대한 텍스트를 생성할 수 있습니다.
이러한 LLM은 Hugging Face의 올바른 형식 저장소(개발자의 선택)에서 제공될 수 있으므로 인증 토큰을 사용하여 모델을 가져오려면 Hugging Face에 인증해야 합니다(소스 코드에서 모델을 구축하지 않은 경우).
LLM은 NVIDIA GPU 가속형 OCI 인스턴스에서 고성능 AI 모델 추론을 안전하고 안정적으로 배포할 수 있도록 설계된 사용하기 쉬운 마이크로서비스 세트인 NVIDIA NIM과 함께 배포할 수도 있습니다.