Com suporte de uma GPU até dezenas de milhares de GPUs, as máquinas virtuais Oracle Cloud Infrastructure (OCI) Compute e instâncias bare metal podem permitir que as aplicações processem visão computacional, processamento de linguagem natural, sistemas de recomendação e muito mais. Para treinar grandes modelos de linguagem (LLMs, Large Language Models), incluindo IA conversacional e modelos de difusão, o OCI Supercluster fornece rede de cluster de latência ultrabaixa, armazenamento HPC e instâncias bare metal OCI Compute alimentadas por GPUs NVIDIA.
Conheça a arquitetura de supercluster da OCI e veja e experiência de dois clientes: Adept e MosaicML.
Cada instância bare metal da OCI Compute está conectada através a rede de cluster de latência ultrabaixa da OCI que pode ser redimensionada para até 32.768 GPUs NVIDIA A100 em um único cluster. Essas instâncias usam a arquitetura de rede de alto desempenho exclusiva da OCI que aproveita RDMA sobre Ethernet Convergente (RoCE) v2 para criar superclusters RDMA com microssegundos de latência entre nós e largura de banda de taxa próxima da linha de 200 Gb/s entre GPUs.
A implementação do RoCE v2 da OCI oferece
A computação de alto desempenho na Oracle Cloud Infrastructure fornece recursos poderosos e econômicos de computação para resolver problemas matemáticos e científicos complexos em todas as indústrias.
Os servidores bare metal da OCI, juntamente com a rede de cluster da Oracle, fornecem acesso a RDMA de latência ultrabaixa (menos de 2 microssegundos em clusters de dezenas de milhares de núcleos) sobre ethernet convergente (RoCE) v2.
A tabela nos mostra o desempenho da malha de rede de clusters da Oracle. A OCI pode redimensionar para além de 100% abaixo de 10.000 células de simulação por núcleo com códigos CFD populares, o mesmo desempenho que você veria on-premises. É importante observar que, sem a penalidade da virtualização, as máquinas HPC bare metal podem usar todos os núcleos no nó sem ter que reservar nenhum núcleo para despesas dispendiosas.
A HPC na OCI supera o desempenho das soluções on-premises com a elasticidade e os custos baseados no consumo da nuvem, oferecendo potencial sob demanda para dimensionar dezenas de milhares de núcleos simultaneamente.
Com HPC na OCI, você obtém acesso a processadores de alta frequência; armazenamento local rápido e denso; redes de cluster RDMA de alta taxa de transferência e latência ultrabaixa; e as ferramentas para automatizar e executar tarefas sem problemas.
A OCI pode fornecer latências tão baixas quanto 1,7 microssegundos — menor do que qualquer outro fornecedor de nuvem, de acordo com uma análise da Exabyte.io. Ao habilitar clusters conectados por RDMA, a OCI expandiu a rede de cluster para servidores bare metal equipados com GPUs NVIDIA A100.
A inovadora malha de rede de back-end permite que os clientes usem as placas de interface de rede ConnectX-5 de 100 Gb/s da Mellanox com RDMA sobre Ethernet convergente (RoCE) v2 para criar clusters com a mesma rede de baixa latência e escalabilidade de aplicações que podem ser obtidos on-premises.
As instâncias de GPU NVIDIA bare metal da OCI oferecem às startups uma plataforma de computação de alto desempenho para aplicações que dependam de machine learning, processamento de imagem e trabalhos de computação de alto desempenho massivamente paralelos. As instâncias de GPU são ideais para treinamento de modelo, computação de inferência, física e renderização de imagem e aplicações massivamente paralelas.
As instâncias BM.GPU4.8 têm oito GPUs NVIDIA A100 e usam a rede de cluster de baixa latência da Oracle, baseada em acesso remoto direto à memória (RDMA) executado em Ethernet convergente (RoCE) com latência inferior a 2 microssegundos. Agora, os clientes podem hospedar mais de 500 clusters de GPU e redimensionar facilmente sempre que necessário.
Clientes como a Adept, um laboratório de pesquisa e produto de ML que desenvolve um companheiro de equipe de IA universal, estão aproveitando o poder das tecnologias da OCI e da NVIDIA para criar a próxima geração de modelos de IA. Executando milhares de GPUs NVIDIA em clusters de instâncias de computação bare metal da OCI e aproveitando a largura de banda da rede da OCI, a Adept pode treinar modelos de IA e ML em larga escala com mais rapidez e economia do que antes.
“Com a escalabilidade e o poder de computação da tecnologia OCI e NVIDIA, estamos treinando uma rede neural para usar todas as aplicações de software, sites e APIs existentes, aproveitando os recursos que os fabricantes de software já criaram.”
David Luan, CEO
Adept
"Para nós, esse relacionamento com a OCI será de longo prazo. Estamos animados para aproveitar as GPUs em breve, a usá-las para treinar a nossa próxima geração de IA para voz. Pensamos que a OCI ainda tem muito a nos oferecer, quando falamos de crescimento futuro.
James Hom, Cofundador e Vice Presidente de Produtos
SoundHound
“Escolhemos a Oracle por causa da acessibilidade e desempenho das GPUs combinadas com o extenso espaço na nuvem da Oracle. As GPUs são muito importantes para treinar modelos de rede neural profunda. Quanto maior o desempenho da GPU, melhores serão os modelos. E como trabalhamos em vários países e regiões diferentes, precisávamos da infraestrutura para dar suporte a isso.”
Nils Helset, Cofundador e CEO
DigiFarm
"Ao rodar experimentos com a mesma configuração, a A100 precisa de 25% menos tempo em média. E para melhorar, o processo de configuração da máquina na Oracle Cloud é perfeito.”
Shuyang Cao, Assistente de Pesquisa como Aluno de Pós-Graduação
Universidade de Michigan
Descubra porque a MosaicML decidiu que a OCI é a melhor base para treinamento de IA.
A OCI oferece especialistas de renome mundial para ajudar você na configuração e implementação. Removemos as barreiras técnicas de uma implementação complexa, desde o planejamento até o lançamento - para ajudar a garantir o seu sucesso.
A OCI foi criada para empresas que buscam maior desempenho, custos consistentemente mais baixos e migração para a nuvem mais fácil para suas aplicações on-premises.
Jag Brar, VP e Engenheiro Independente da OCI e Pradeep Vincent, VP Sênior e Arquiteto Técnico Chefe da OCI
A OCI oferece muitos serviços exclusivos, incluindo rede de cluster, uma rede de altíssimo desempenho com suporte para acesso remoto direto à memória (RDMA). Em nosso vídeo e blog post anterior do First Principles, "Como construir uma rede de alto desempenho na nuvem pública", explicamos como a rede de cluster da OCI usa RDMA sobre Ethernet convergente (RoCE) para oferecer suporte a RDMA.
Leia a publicação completa