대규모 언어 모델에 대한 추론 요청을 대규모로 제공하고 AI 배포를 가속화하려면 어떻게 해야 할까요? Oracle Cloud Infrastructure(OCI) Container Engine for Kubernetes(OKE)에 엔터프라이즈 지원 솔루션 NVIDIA NIM을 배포합니다. 이 데모에서는 OCI Object Storage에 호스팅된 모델 저장소를 사용하여 OKE에 NVIDIA NIM을 배포하는 방법을 보여드리겠습니다. Helm 배포를 사용하여 추론 요청 수에 따라 복제본 수를 손쉽게 확장 및 축소하고 모니터링을 간편하게 수행할 수 있습니다. OCI Object Storage를 활용하여 다양한 유형의 모델을 지원하며 어디서나 모델을 배포할 수 있습니다. NVIDIA GPU를 기반으로 NIM을 최대한 활용하여 추론 요청에 대한 최대 처리량과 최소 대기 시간을 확보할 수 있습니다.