AI Solution

OCI Kubernetes Engine으로 대규모 NVIDIA NIM 추론 마이크로서비스

AI 솔루션 주제

개요
데모
선행 조건 및 설정
시작하기

개요

대규모 언어 모델에 대한 추론 요청을 대규모로 제공하고 AI 배포를 가속화하려면 어떻게 해야 할까요? 엔터프라이즈급 솔루션인 NVIDIA NIM을 Oracle Cloud Infrastructure(OCI) Kubernetes Engine(OKE)에 배포합니다. 이 데모에서는 OCI Object Storage에서 호스팅되는 모델 저장소를 사용하여 OKE에 NVIDIA NIM을 배포하는 방법을 소개합니다. Helm 배포를 사용하면 추론 요청 수에 따라 복제본 수를 손쉽게 확장 및 축소하고 간편한 모니터링을 수행할 수 있습니다. OCI Object Storage를 활용하여 다양한 유형의 모델을 지원하며 어디서나 모델을 배포할 수 있습니다. NVIDIA GPU로 구동되는 NIM을 최대한 활용하여 추론 요청의 최대 처리량과 최소 대기 시간을 확보할 수 있습니다.

데모

선행 조건 및 설정

Oracle Cloud 계정—등록 페이지
단일 NVIDIA A10 Tensor Core GPU 기반 VM.GPU.A10.1 액세스—서비스 제한
인스턴스 주체 - 설명서
OCI Marketplace의 일부인 NVIDIA AI Enterprise—설명서
HuggingFace - 사용자 액세스 토큰—설명서
OCI Kubernetes Engine—설명서

시작하기

GitHub의 자세한 단계 및 샘플 코드