AI Solution

OCI 컴퓨트 베어메탈에 NVIDIA GPU를 탑재한 LLM 배포

개요

OCI(Oracle Cloud Infrastructure)에서 대규모 언어 모델(LLM)을 배포하는 방법을 궁금해 한 적이 있습니까? 이 솔루션에서는 NVIDIA GPU로 가속화된 OCI Compute Bare Metal 인스턴스를 사용하여 vLLM이라는 추론 서버를 통해 LLM을 배포하는 방법을 알아봅니다.

vLLM은 OpenAI API 프로토콜을 구현하는 서버로 배치할 수 있습니다. 이를 통해 vLLM은 OpenAI API를 사용하여 응용 프로그램에 대한 드롭 인 대체로 사용할 수 있습니다. 즉, OpenAI 모델(예: GPT-3.5 또는 GPT-4)을 선택하여 두 가지를 기반으로 요청에 대한 텍스트를 생성할 수 있습니다.

  • 원래 사용자의 질의
  • 텍스트 생성을 실행할 LLM의 모델 이름

이러한 LLM은 모든 Hugging Face의 잘 구성된 저장소(개발자 선택)에서 제공될 수 있으므로 인증 토큰을 사용하여 모델(소스 코드에서 모델을 구축하지 않은 경우)을 풀링하려면 Hugging Face에 대해 인증해야 합니다.

또한 OCI의 NVIDIA GPU 가속 인스턴스에서 고성능 AI 모델 추론의 안전하고 안정적인 배포를 위해 설계된 사용하기 쉬운 마이크로서비스 세트인 NVIDIA NIM을 사용하여 LLM을 배포할 수 있습니다.

데모

데모: OCI 컴퓨트 베어메탈에서 NVIDIA GPU로 LLM 배포하기(1:17)

선행 조건 및 설정

  1. Oracle Cloud 계정—등록 페이지
  2. Oracle Cloud Infrastructure—설명서
  3. OCI Generative AI—설명서
  4. vLLM—문서 시작하기