OCI Supercluster and AI Infrastructure

Oracle Cloud Infrastructure (OCI) Supercluster provides ultrafast cluster networking, HPC storage, and OCI Compute bare metal instances. OCI Supercluster is ideal for training generative AI, including conversational applications and diffusion models. With support for up to tens of thousands of NVIDIA GPUs, OCI Compute bare metal instances and VMs can power applications for computer vision, natural language processing, recommendation systems, and more.

Oracle and NVIDIA partner to speed AI adoption for enterprises (2:06)

Como o OCI Supercluster supera a concorrência

  • Escalabilidade líder do setor para IA generativa

    Implemente até dezenas de milhares de GPUs por cluster para obter escalabilidade muito maior do que ofertas semelhantes de outros fornecedores.

  • Latência ultrabaixa e largura de banda ultraelevada*

    Reduza o tempo necessário para treinar IA com uma arquitetura de rede Ethernet simples que fornece desempenho ultraelevado em grande escala.

  • Acesso a especialistas em assuntos de IA

    Receba ajuda de engenharia com arquitetura de solução, rede, segurança, auditoria, integração, migração de aplicações e muito mais.

* A largura de banda para clusters NVIDIA H100 é de 3.200 Gb/s e a largura de banda para clusters NVIDIA A100 é de 1.600 Gb/s.

Fale com um especialista da Oracle sobre como acelerar as suas cargas de trabalho em GPU.

Explore e descubra como a OCI suporta aplicações paralelas e treinamento de modelos

Implemente dezenas de milhares de GPUs NVIDIA H100 e A100

Cada instância bare metal do OCI Compute é conectada usando a rede de cluster de latência ultrabaixa da OCI, que pode escalar até dezenas de milhares de GPUs NVIDIA H100 ou A100 em um único cluster. Essas instâncias usam a arquitetura de rede exclusiva de alto desempenho da OCI, que aproveita RDMA sobre Ethernet Convergente (RoCE) v2 para microssegundos de latência entre nós e largura de banda próxima à taxa de linha.

A implementação do RoCE v2 da OCI oferece

  • 1.600 Gb/s de largura de banda por servidor e 200 Gb/s de largura de banda para cada GPU A100
  • 3,200 Gb/s de largura de banda por servidor e 400 Gb/s de largura de banda para cada GPU H100

Redes de cluster RDMA de alta velocidade

A computação de alto desempenho na OCI fornece recursos poderosos e econômicos para resolver problemas matemáticos e científicos complexos em todos os setores.

A tabela nos mostra o desempenho da malha de rede de clusters da Oracle. Abaixo de 10.000 células de simulação por núcleo, a OCI pode escalar acima de 100% com códigos CFD populares, o mesmo desempenho que você veria on-premises. É importante observar que, sem a penalidade da virtualização, as máquinas HPC bare metal podem usar todos os núcleos no nó sem ter que reservar nenhum núcleo para despesas dispendiosas.

Computação de alto desempenho (HPC, High Performance Computing) na OCI

A HPC na OCI supera o desempenho das soluções on-premises com a elasticidade e os custos baseados no consumo da nuvem, oferecendo potencial sob demanda para dimensionar dezenas de milhares de núcleos simultaneamente. Os clientes têm acesso a processadores de alta frequência; armazenamento local rápido e denso; redes de cluster RDMA de alto rendimento e latência ultrabaixa; e as ferramentas para automatizar e executar trabalhos de forma integrada.

A OCI pode fornecer latências tão baixas quanto 1,7 microssegundos — menor do que qualquer outro fornecedor de nuvem, de acordo com uma análise da Exabyte.io. Ao habilitar clusters conectados por RDMA, a OCI expandiu a rede de cluster para servidores bare metal equipados com GPUs NVIDIA H100 e A100. A inovadora estrutura de rede de back-end permite que os clientes criem clusters com a mesma rede de baixa latência e escalabilidade de aplicações que podem ser alcançadas on-premises.

Cluster GPU bare metal exclusivo

As instâncias de GPU NVIDIA bare metal da OCI oferecem às startups uma plataforma de computação de alto desempenho para aplicações que dependem de deep learning (aprendizado profundo), sistemas de recomendação e jobs de computação massivamente paralelos de alto desempenho. As instâncias de GPU são ideais para treinamento de modelo, computação de inferência, física e renderização de imagem e aplicações massivamente paralelas.

A OCI oferece instâncias com oito GPUs NVIDIA H100 ou NVIDIA A100. Embora o OCI Supercluster ofereça a capacidade de escalar até centenas ou milhares de GPUs por cluster, a OCI também oferece a capacidade de implementação em uma escala muito menor, começando com apenas uma GPU.

OCI no NVIDIA GTC, a conferência sobre IA e metaverso

Descubra como a OCI e NVIDIA impulsionam a próxima geração de modelos de IA

Clientes como a Adept, um laboratório de pesquisa e produto de ML que desenvolve um companheiro de equipe de IA universal, estão aproveitando o poder das tecnologias da OCI e da NVIDIA para criar a próxima geração de modelos de IA. Executando milhares de GPUs NVIDIA em clusters de instâncias de computação bare metal da OCI e aproveitando a largura de banda da rede da OCI, a Adept pode treinar modelos de IA e ML em larga escala com mais rapidez e economia do que antes.

OCI é usada pela Microsoft para pesquisa conversacional do Bing

"Nossa colaboração com a Oracle e o uso da Oracle Cloud Infrastructure, juntamente com a infraestrutura de IA do Microsoft Azure, ampliarão o acesso para nossos clientes e aumentarão a velocidade de muitos dos nossos resultados de pesquisa."

Divya Kumar, Diretor Global de Marketing para Pesquisa e AI
Microsoft

A Adept cria um auxiliar de IA poderoso para todos com a Oracle e NVIDIA

“Com a escalabilidade e o poder de computação da tecnologia OCI e NVIDIA, estamos treinando uma rede neural para usar todas as aplicações de software, sites e APIs existentes, aproveitando os recursos que os fabricantes de software já criaram.”

David Luan, CEO
Adept

A MosaicML escala o treinamento de IA/ML na OCI

Descubra porque a MosaicML decidiu que a OCI é a melhor base para treinamento de IA.

A SoundHound escolheu a OCI para apoiar o crescimento vertiginoso da empresa

"Para nós, esse relacionamento com a OCI será de longo prazo. Estamos animados para aproveitar as GPUs em breve, a usá-las para treinar a nossa próxima geração de IA para voz. Pensamos que a OCI ainda tem muito a nos oferecer, quando falamos de crescimento futuro.

James Hom, Cofundador e Vice Presidente de Produtos
SoundHound

A Emory University usa a Oracle Cloud para ajudar a combater a doença de Parkinson

“Com a Oracle Cloud, estamos executando entre quatro e oito GPUs em paralelo para acelerar consideravelmente o progresso de nossa pesquisa, o que significa que podemos concluir um experimento em apenas algumas horas.”

Hyeokhyen Kwon, Professor Assistente, Informática Biomédica
Emory University

A Softdrive oferece estações de trabalho de última geração com OCI Compute e NVIDIA A10

"A Softdrive é o futuro dos computadores de negócios. No mercado de PC na nuvem, desempenho importa. As GPUs NVIDIA em servidores bare metal da OCI melhoraram drasticamente a experiência para nossos clientes."

Leonard Ivey, Cofundador
Softdrive

Universidade de Michigan melhora os resumos de revistas acadêmicas com IA

Pesquisadores usaram máquinas virtuais de alto desempenho e GPUs A100 Tensor Core remotas da NVIDIA , que se mostraram eficazes para executar os algoritmos de sumarização de uso intensivo pela equipe.

O que está incluído nas instâncias de GPU da OCI?

Suporte dedicado de engenharia

A OCI oferece especialistas de renome mundial para ajudar você na configuração e implementação. Removemos as barreiras técnicas de uma implementação complexa, desde o planejamento até o lançamento - para ajudar a garantir o seu sucesso.

  • Desenvolvimento de arquiteturas de solução
  • Rede, segurança e auditoria
  • Integração à OCI
  • Migração de aplicações
  • Treinamento pós-migração

Ainda mais economia

A OCI foi criada para empresas que buscam maior desempenho, custos consistentemente mais baixos e migração para a nuvem mais fácil para suas aplicações on-premises.

  • Conectividade de rede privada que custa 74% menos
  • Preço por desempenho 3x melhor para processamento
  • Infraestrutura até 44% mais barata com SSDs locais, o dobro de RAM, rede RDMA e um SLA de desempenho
  • 20x operações de entrada/saída por segundo por menos da metade do custo
13 de novembro de 2023

Anunciando planos para oferecer o NVIDIA Grace Hopper Superchip na OCI

Sagar Rawal, Vice-presidente, Oracle Cloud Infrastructure

Hoje, no SC23, estamos anunciando nossos próximos planos de oferecer instâncias do Oracle Cloud Infrastructure (OCI) Compute com a tecnologia do GH200 Grace Hopper Superchip da NVIDIA. O GH200 consiste em uma CPU Arm (Grace) vinculada a uma GPU H100 Tensor Core (Hopper) da NVIDIA, com memória de alta largura de banda de 576 GB.

Leia a publicação completa

Arquitetura na nuvem e recursos de desenvolvimento adicionais

OCI Cloud Adoption Framework (CAF)

Visão da Omdia do porquê as nuvens não são todas iguais