AI 솔루션

OCI Compute Bare Metal에서 NVIDIA GPU를 사용한 LLM 배포

개요

Oracle Cloud Infrastructure(OCI)에 대규모 언어 모델(LLM)을 배포하는 방법을 궁금해한 적이 있습니까? 이 솔루션에서는 vLLM이라는 추론 서버를 통해 NVIDIA GPU가 가속한 OCI Compute Bare Metal 인스턴스를 사용하여 LLM을 배포하는 방법을 알아봅니다.

vLLM은 OpenAI API 프로토콜을 구현하는 서버로 배치할 수 있습니다. 이렇게 하면 vLLM을 OpenAI API를 사용하는 응용 프로그램에 대한 드롭인 대체로 사용할 수 있습니다. 즉, OpenAI 모델(예: GPT-3.5 또는 GPT-4)을 선택하여 두 가지를 기반으로 요청에 대한 텍스트를 생성할 수 있습니다.

  • 원래 사용자의 질의
  • 텍스트 생성을 실행할 LLM의 모델 이름

이러한 LLM은 Hugging Face의 올바른 형식 저장소(개발자의 선택)에서 제공될 수 있으므로 인증 토큰을 사용하여 모델을 가져오려면 Hugging Face에 인증해야 합니다(소스 코드에서 모델을 구축하지 않은 경우).

LLM은 NVIDIA GPU 가속형 OCI 인스턴스에서 고성능 AI 모델 추론을 안전하고 안정적으로 배포할 수 있도록 설계된 사용하기 쉬운 마이크로서비스 세트인 NVIDIA NIM과 함께 배포할 수도 있습니다.

데모

데모: OCI Compute Bare Metal에서 NVIDIA GPU를 사용한 LLM 배포(1:17)

선수 과정 및 설정

  1. Oracle Cloud 계정—사인업 페이지
  2. Oracle Cloud Infrastructure—설명서
  3. OCI Generative AI—설명서
  4. vLLM—시작 설명서