Implemente, dimensione e monitore cargas de trabalho de IA generativa em minutos com o Oracle Cloud Infrastructure (OCI) AI Blueprints. Obtenha blueprints de implementação pré-empacotados e verificados pela OCI, completos com recomendações de hardware, componentes de software e monitoramento pronto para uso.
Amenize as preocupações com a implementação de cargas de trabalho de IA para dimensionar implementações, determinar a compatibilidade de drivers e aplicações e gerenciar decisões de observabilidade e gerenciamento com projetos desenvolvidos com base nas melhores práticas verificadas pela OCI.
Implemente e monitore cargas de trabalho de IA generativa de missão crítica em minutos com blueprints que incluem hardware, software e monitoramento prontos para uso verificados.
Adote conexões predefinidas com aplicações de observabilidade de terceiros, como Prometheus, Grafana e MLflow, para amenizar as preocupações com monitoramento e observabilidade nas cargas de trabalho de IA.
Simplifique a implementação de grandes modelos de linguagem (LLMs) e modelos de linguagem de visão (VLMs) usando um mecanismo de interface de código aberto chamado de grande modelo de linguagem virtual (vLLM). Implemente um modelo personalizado ou selecione um dos vários modelos abertos no Hugging Face.
Simplifique o benchmarking de infraestrutura para ajustes finos usando a metodologia MLCommons. Ela ajusta um modelo Llama-2-70B quantizado com um conjunto de dados padrão.
O OCI AI Blueprints permite o ajuste eficiente de modelos usando a adaptação de baixa classificação (LoRA), um método altamente eficiente de ajuste fino de LLM. Ajuste um LLM personalizado ou use a maioria dos LLMs abertos do Hugging Face.
Antes de implementar cargas de trabalho de produção ou pesquisa, você pode usar um modelo robusto e pré-verificado para validação completa da integridade da GPU para detectar e resolver problemas de forma proativa. Verifique se s infraestrutura de GPU está preparada para experimentos de alta demanda em ambientes de nó único e de vários nós.
Adote uma estrutura abrangente para atender LLMs em CPUs usando a plataforma Ollama com uma variedade de modelos compatíveis, como Mistral, Gemma e outros.
Com esse modelo, é possível distribuir o serviço de inferência entre vários nós de computação, cada um normalmente equipado com uma ou mais GPUs. Por exemplo, implemente LLMs do Llama de 405B em vários nós H100 com RDMA usando vLLM e LeaderWorkerSet.
Atenda LLMs com dimensionamento automático usando KEDA, que pode ser dimensionado para várias GPUs e nós usando métricas de aplicação, como latência de inferência.
Implemente LLMs em uma fração de uma GPU com GPUs de várias instâncias NVIDIA e use um vLLM.
Coloque a aplicação de IA em execução de forma rápida e eficiente com recomendações de hardware opinativas, pilhas de software pré-empacotadas e ferramentas de observabilidade prontas para uso.
Implemente suas cargas de trabalho de IA generativa com confiança usando modelos pré-empacotados testados nas configurações recomendadas de GPU, CPU e rede da OCI, poupando você de testes de desempenho demorados e suposições.
Adote as estruturas, bibliotecas e configurações de modelo necessárias para casos de uso populares de IA, como RAG, ajuste fino e inferência, ou personalize os casos de uso de acordo com as necessidades do seu negócio.
Obtenha gerenciamento de infraestrutura simplificado com tarefas de MLOps automatizadas, incluindo monitoramento, registro e dimensionamento. Comece rapidamente com ferramentas pré-instaladas, como Prometheus, Grafana, MLflow e KEDA, para obter um ambiente de nível de produção com o mínimo de esforço.
Introdução ao OCI AI Blueprints, uma plataforma de gerenciamento de carga de trabalho de IA do Kubernetes com um conjunto de blueprints que podem ajudar você a implementar, dimensionar e monitorar cargas de trabalho de IA em produção em minutos.
Leia a publicação completaTeste mais de 20 serviços de nuvem de uso livre com uma avaliação de 30 dias para ter ainda mais.
Explore, experimente ou implemente o OCI AI Blueprints na tenancy de produção.
Veja como a Oracle permite que os clientes economizem de forma consistente em computação, armazenamento e rede em comparação com outros provedores de serviços de nuvem em hiperescala.
Interessado em saber mais sobre a Oracle Cloud Infrastructure? Deixe um de nossos especialistas ajudar.