Solução de IA

Microsserviço de inferência NVIDIA NIM em escala com o OCI Container Engine for Kubernetes

Introdução

Como você pode entregar solicitações de inferência em escala para seu modelo de linguagem grande e acelerar sua implementação de IA? Implantando a solução pronta para a empresa NVIDIA NIM no Oracle Cloud Infrastructure (OCI) Container Engine for Kubernetes (OKE). Nesta demonstração, mostraremos como implantar o NVIDIA NIM no OKE com o repositório de modelos hospedado no OCI Object Storage. Usando uma implantação do Helm, dimensione facilmente o número de réplicas para cima e para baixo, dependendo do número de solicitações de inferência, além de obter monitoramento fácil. Aproveite o OCI Object Storage para implementar modelos de qualquer lugar, com suporte para vários tipos de modelos. Com GPUs NVIDIA, aproveite ao máximo o NIM para ajudá-lo a obter o throughput máximo e a latência mínima para suas solicitações de inferência.

Pré-requisitos e configuração

  1. Conta da Oracle Cloud - página de inscrição
  2. Acesso ao VM.GPU.A10.1 com uma única GPU NVIDIA A10 Tensor Core - limites de serviço
  3. Entidades da instância - documentação
  4. NVIDIA AI Enterprise, parte do OCI Marketplace - documentação
  5. HuggingFace com tokens de acesso do usuário - documentação
  6. OCI Container Engine for Kubernetes - documentação