AI 솔루션

OCI Container Engine for Kubernetes를 통해 대규모 NVIDIA NIM 추론 마이크로서비스

개요

대규모 언어 모델에 대한 추론 요청을 대규모로 제공하고 AI 배포를 가속화하려면 어떻게 해야 할까요? Oracle Cloud Infrastructure(OCI) Container Engine for Kubernetes(OKE)에 엔터프라이즈 지원 솔루션 NVIDIA NIM을 배포합니다. 이 데모에서는 OCI Object Storage에 호스팅된 모델 저장소를 사용하여 OKE에 NVIDIA NIM을 배포하는 방법을 보여드리겠습니다. Helm 배포를 사용하여 추론 요청 수에 따라 복제본 수를 손쉽게 확장 및 축소하고 모니터링을 간편하게 수행할 수 있습니다. OCI Object Storage를 활용하여 다양한 유형의 모델을 지원하며 어디서나 모델을 배포할 수 있습니다. NVIDIA GPU를 기반으로 NIM을 최대한 활용하여 추론 요청에 대한 최대 처리량과 최소 대기 시간을 확보할 수 있습니다.

데모

데모: OCI Container Engine for Kubernetes를 활용한 대규모 NVIDIA NIM 추론 마이크로서비스(1:18)

선수 과정 및 설정

  1. Oracle Cloud 계정—사인업 페이지
  2. 단일 NVIDIA A10 Tensor Core GPU 기반 VM.GPU.A10.1에 액세스 - 서비스 제한
  3. 인스턴스 주체 - 설명서
  4. OCI Marketplace의 일부인 NVIDIA AI Enterprise - 설명서
  5. HuggingFace(사용자 액세스 토큰 포함) - 설명서
  6. OCI Container Engine for Kubernetes—설명서