OCI Supercluster and AI Infrastructure

Oracle Cloud Infrastructure (OCI) Supercluster provides ultrafast cluster networking, HPC storage, and OCI Compute bare metal instances. OCI Supercluster is ideal for training generative AI, including conversational applications and diffusion models. With support for up to tens of thousands of NVIDIA GPUs, OCI Compute bare metal instances and VMs can power applications for computer vision, natural language processing, recommendation systems, and more.

Oracle and NVIDIA partner to speed AI adoption for enterprises (2:06)

Découvrez comment OCI Supercluster bat la concurrence

  • Évolutivité de pointe pour l'IA générative

    Déployez jusqu'à des dizaines de milliers de processeurs graphiques par cluster pour une évolutivité considérablement accrue.

  • Latence ultra faible et bande passante ultra haute*

    Réduisez le temps nécessaire pour entraîner votre IA avec une architecture réseau Ethernet simple qui fournit des performances ultra élevées à grande échelle.

  • Mise en contact avec des experts de l'IA

    Obtenez l'aide d'ingénieurspour l'architecture de solution, le réseau, la sécurité, l'audit, l'intégration, la migration d'applications et bien plus encore.

* La bande passante pour les clusters NVIDIA H100 est de 3 200 Gb/s et la bande passante pour les clusters NVIDIA A100 est de 1 600 Gb/s.

Discutez avec un membre d'Oracle de l'accélération de vos workloads de GPU.

Découvrez comment OCI prend en charge l'entraînement de modèles et les applications parallèles

Déployez des dizaines de milliers de processeurs graphiques NVIDIA H100 et A100

Chaque instance bare metal d'OCI Compute est connectée à l'aide du réseau de cluster à très faible latence d'OCI, qui peut évoluer jusqu'à des dizaines de milliers de processeurs graphiques NVIDIA H100 ou A100 dans un seul cluster. Ces instances utilisent l'architecture réseau à hautes performances unique d'OCI, qui tire parti du RDMA sur l'Ethernet convergé (RoCE) v2 pour une latence en microsecondes entre les nœuds et une bande passante proche du débit de ligne.

L'implémentation d'OCI de RoCE v2 fournit

  • 1 600 Go/s de bande passante par serveur et 200 Go/s de bande passante par GPU A100
  • 3 200 Go/s de bande passante par serveur et 400 Go/s de bande passante par GPU H100

Mise en réseau de clusters RDMA à grande vitesse

Le calcul haute performance sur OCI offre des fonctionnalités informatiques puissantes et économiques qui permettent de résoudre des problèmes mathématiques et scientifiques complexes dans tous les secteurs.

Le graphique présente les performances de la structure réseau de cluster d'Oracle. En dessous de 10 000 cellules de simulation par cœur, OCI peut évoluer au-delà de 100 % avec des codes CFD répandus, soit les mêmes performances qu'on-premises. Il est important de noter que sans la contrainte de la virtualisation, les machines HPC bare metal peuvent utiliser tous les cœurs du nœud sans avoir à réserver aucun cœur pour des frais généraux coûteux.

Calcul haute performance sur OCI

Le calcul haute performance sur OCI rivalise sur les performances des solutions sur site avec l'élasticité et les coûts basés sur la consommation du cloud, offrant un potentiel à la demande d'évolution simultanée vers des dizaines de milliers de cœurs. Les clients ont accès à des processeurs à haute fréquence, à un stockage local rapide et dense, à des réseaux de cluster RDMA à haut débit et à très faible latence et aux outils permettant d'automatiser et d'exécuter des tâches avec aisance.

OCI peut fournir des latences allant jusqu'à 1,7 microseconde, une performance inégalée par les autres fournisseurs de cloud, selon une analyse de Exabyte.io. En activant les clusters connectés à RDMA, OCI étend le réseau de cluster pour les serveurs bare metal équipés de NVIDIA H100 et de GPU A100. La structure réseau back-end révolutionnaire permet aux clients de créer des clusters avec la même évolutivité d'application et de réseau à faible latence qu'on-premises.

Clusters uniques de GPU bare metal

Les instances de processeurs graphiques NVIDIA bare metal d'OCI offrent aux start-up une plateforme de calcul haute performance pour les applications qui tirent parti du deep learning, des systèmes de recommandations et des tâches de calcul haute performance massivement parallèles. Les instances GPU sont idéales pour l'entraînement de modèles, le calcul d’inférence, la physique et le rendu d’image et les applications massivement parallèles.

OCI propose des instances avec huit GPU NVIDIA H100 ou NVIDIA A100. Alors qu'OCI Supercluster offre la possibilité d'évoluer jusqu'à des centaines ou des milliers de GPU par cluster, OCI offre également la possibilité de se déployer à une échelle beaucoup plus petite, en commençant par un seul GPU.

OCI à NVIDIA GTC, la conférence pour l'IA et le métavers.

Découvrez comment OCI et NVIDIA rendent possibles les modèles d'IA de nouvelle génération

Des clients tels qu'Adept, un laboratoire de recherche et de produits de ML développant un coéquipier d'IA universel, utilisent la puissance des technologies d'OCI et de NVIDIA pour créer la prochaine génération de modèles d'IA. En exécutant des milliers de GPU NVIDIA sur des clusters d'instances de calcul bare metal OCI et en capitalisant sur la bande passante réseau d'OCI, Adept peut entraîner des modèles d'IA et de machine learning à grande échelle plus rapidement et plus économiquement qu'auparavant.

Adept crée un coéquipier pour tous avec l'IA à l'aide d'Oracle et de NVIDIA

« Grâce à l'évolutivité et à la puissance de calcul des technologies d'OCI et de NVIDIA, nous pouvons entraîner un réseau neuronal qui permet d'utiliser toutes les applications, tous les sites Web et toutes les API imaginables, en s'appuyant sur les fonctionnalités déjà créées par les éditeurs de logiciels. »

David Luan, PDG
Adept

SoundHound choisit OCI pour soutenir son importante croissance

« Cette relation avec OCI est, à nos yeux, une relation à long terme. Nous sommes ravis de tirer parti des GPU et de les utiliser pour entraîner notre nouvelle génération d'IA vocale. Nous pensons qu'OCI sera un soutien essentiel dans la poursuite de notre croissance. »

James Hom, Cofondateur et Vice-Président des produits
SoundHound

L'Université Emory se sert d'Oracle Cloud pour lutter contre la maladie de Parkinson

« Avec Oracle Cloud, nous exécutons entre quatre et huit GPU en parallèle pour accélérer grandement la progression de nos recherches, ce qui signifie que nous pouvons réaliser une expérience en quelques heures. »

Hyeokhyen Kwon, Professeur adjoint en informatique biomédicale
à l'Université Emory

L'Université du Michigan améliore les résumés de texte par l'IA

« Lors de l'exécution d'expériences avec la même configuration, A100 utilise environ 25 % de temps en moins en moyenne. Et le processus fluide de configuration de la machine sur Oracle Cloud le rend encore meilleur. »

Shuyang Cao, assistant en recherche
à l'Université du Michigan

MosaicML fait évoluer son entraînement de l'IA/du ML sur OCI

Découvrez pourquoi MosaicML a constaté qu'OCI était la meilleure base pour entraîner son IA.

Softdrive propose des stations de travail de nouvelle génération avec OCI Compute et NVIDIA A10

« Softdrive est l'avenir des ordinateurs professionnels. Sur le marché des PC cloud, la performance est reine. Les processeurs graphiques NVIDIA sur les serveurs bare metal OCI ont considérablement amélioré l'expérience de nos clients. »

Leonard Ivey, Cofondateur de
Softdrive

Qu'est-ce qui est inclus avec les instances de GPU sur OCI ?

Assistance technique dédiée

OCI fournit des experts techniques de premier ordre pour vous aider à être opérationnel. Nous supprimons les obstacles techniques d'un déploiement complexe, de la planification au lancement, pour vous aider à réussir.

  • Développement d’architecture de solution
  • Mise en réseau, sécurité et audit
  • Intégration à OCI
  • Migration d’applications
  • Formation post-migration

Économie améliorée

OCI est conçu pour les entreprises qui recherchent des performances supérieures, des coûts toujours plus bas et une migration vers le cloud plus facile pour leurs applications actuelles sur site.

  • Connectivité réseau privée 74 % moins chère
  • Rapport performances-prix 3 fois supérieur pour le calcul
  • Infrastructure jusqu'à 44 % moins chère avec des disques SSD locaux, deux fois la RAM, la mise en réseau RDMA et un contrat de niveau de service performant
  • 20 fois les opérations d'entrée/sortie par seconde pour moins de la moitié du coût
12 septembre 2023 

Performances exceptionnelles d'OCI pour l'IA validées dans les résultats MLPerf Inference v3.1

Seshadri Dehalisan, Akshai Parthasarathy et Ruzhu Chen d'Oracle

Oracle Cloud Infrastructure (OCI) obtient d'excellents résultats suite à plusieurs tests de performance de la suite MLCommons Inference Datacenter v3.1, la norme du secteur pour mesurer les performances d'infrastructure d'IA. OCI a été testé sur plusieurs formes alimentées par des processeurs graphiques NVIDIA, notamment le processeur graphique Tensor Core NVIDIA H100, le processeur graphique Tensor Core NVIDIA A100 et le processeur graphique Tensor Core NVIDIA A10, avec les résultats clés suivants :

Lire la suite de l'article

Ressources complémentaires d'architecture et déploiement de cloud

OCI Cloud Adoption Framework (CAF)

Le point de vue d'Omdia sur les raisons pour lesquels tous les clouds ne sont pas similaires

OCI pour les entreprises innovantes