Oracle Cloud Infrastructure (OCI) Supercluster provides ultrafast cluster networking, HPC storage, and OCI Compute bare metal instances. OCI Supercluster is ideal for training generative AI, including conversational applications and diffusion models. With support for up to tens of thousands of NVIDIA GPUs, OCI Compute bare metal instances and VMs can power applications for computer vision, natural language processing, recommendation systems, and more.
Oracle and NVIDIA partner to speed AI adoption for enterprises (2:06)
Stellen Sie bis zu Zehntausende von GPUs pro Cluster bereit, um sich eine wesentlich größere Skalierbarkeit zu sichern
Reduzieren Sie den Zeitaufwand für das Trainieren von KI mit einer einfachen Ethernet-Netzwerkarchitektur, die eine extrem hohe Leistung in großem Maßstab bietet.
Holen Sie sich technische Hilfe in Bezug auf Lösungsarchitektur, Netzwerk, Sicherheit, Auditing, Onboarding, Anwendungsmigration und vielem mehr.
Jede Bare Metal-Instanz von OCI Compute ist über das latenzarme Cluster-Netzwerk von OCI verbunden, das auf Zehntausende NVIDIA H100- oder A100-GPUs in einem einzigen Cluster skaliert werden kann. Diese Instanzen nutzen die einzigartige Hochleistungs-Netzwerkarchitektur von OCI, die RDMA über Converged Ethernet (RoCE) v2 mit einer Latzenz von Mikrosekunden zwischen Knoten und eine nahezu lineare Bandbreite nutzt.
Die OCI-Implementierung von RoCE v2 bietet
High Performance Computing auf OCI bietet leistungsstarke, kostengünstige Computing-Funktionen zur branchenübergreifenden Lösung komplexer mathematischer und wissenschaftlicher Probleme.
Das Diagramm zeigt die Performance der Netzwerkstruktur von Oracle. Unter 10.000 Simulationszellen pro Kern kann OCI mit gängigen CFD-Codes auf über 100 % skaliert werden, also die gleiche Leistung, die Sie in On-Premises-Umgebungen sehen würden. Es ist wichtig, anzumerken, dass Bare Metal-HPC-Maschinen ohne den Nachteil der Virtualisierung alle Kerne des Knotens nutzen können, ohne Kerne für kostspielige indirekte Kosten reservieren zu müssen.
HPC auf OCI konkurriert mit der Leistungsfähigkeit von On-Premises-Lösungen, mit der Elastizität und den verbrauchsbasierten Kosten der Cloud und bietet On-Demand-Potenzial, um Zehntausende von Kernen zeitgleich zu skalieren. Kunden erhalten Zugriff auf Hochfrequenzprozessoren, schnellen und dichten lokalen Speicher, RDMA-Clusternetzwerke mit hohem Durchsatz sowie hoher Latenz und die Tools zur nahtlosen Automatisierung und Ausführung ihrer Jobs.
OCI kann laut einer Analyse von Exabyte.io Latenzzeiten von bis zu 1,7 Mikrosekunden bieten – weniger als jeder andere Cloud-Anbieter. Durch die Ermöglichung von RDMA-verbundenen Clustern hat OCI die Clustervernetzung für Bare Metal-Server erweitert, die mit NVIDIA H100- und A100-GPUs ausgestattet sind. Mit der bahnbrechenden Backend-Netzwerkstruktur können Kunden Cluster mit der gleichen latenzarmen Netzwerk- und Anwendungsskalierbarkeit erstellen, die in On-Premises-Umgebungen erreicht werden kann.
Die Bare Metal-NVIDIA-GPU-Instanzen von OCI ermöglichen Start-ups eine High-Performance-Computing-(HPC-)Plattform für Anwendungen, die auf Deep Learning und massiv parallele High-Performance-Computing-Aufgaben angewiesen sind. GPU-Instanzen eignen sich ideal für Modell-Schulungen, Inferenzberechnungen, Physik- und Bildrendering sowie massiv parallele Anwendungen.
OCI bietet Instanzen mit acht NVIDIA H100- oder NVIDIA A100-GPUs. Während OCI Supercluster die Möglichkeit bietet, bis auf Hunderte oder Tausende von GPUs pro Cluster zu skalieren, bietet OCI auch die Möglichkeit, in viel kleinerem Maßstab bereitzustellen, beginnend mit nur einer einzigen GPU.
Kunden wie Adept, ein ML-Forschungs- und Produktlabor zur Entwicklung eines universellen KI-Teams, nutzen die Leistungsfähigkeit von OCI- und NVIDIA-Technologien, um die nächste Generation von KI-Modellen zu entwickeln. Durch die Ausführung Tausender NVIDIA-GPUs in Clustern von OCI-Bare-Metal-Compute-Instanzen und die Nutzung der Netzwerkbandbreite von OCI kann Adept umfangreiche KI- und ML-Modelle schneller und wirtschaftlicher als zuvor trainieren.
„Mit der Skalierbarkeit und Rechenleistung der OCI- und NVIDIA-Technologie trainieren wir ein neuronales Netzwerk, um jede existierende Softwareanwendung, Website und API zu nutzen – aufbauend auf den Funktionen, die Softwarehersteller bereits geschaffen haben.“
David Luan, CEO
Adept
„Wir sehen diese Beziehung zu OCI als langfristig an. Wir freuen uns, die GPUs nutzen und damit unsere nächste Generation von Sprach-KI trainieren zu können. Wir glauben, dass OCI uns in Bezug auf zukünftiges Wachstum einiges bieten wird.“
James Hom, Cofounder und Vice President of Products
SoundHound
„Mit Oracle Cloud betreiben wir zwischen vier und acht GPUs parallel, um unseren Forschungsfortschritt erheblich zu beschleunigen. So können wir ein Experiment in nur wenigen Stunden abschließen.“
Hyeokhyen Kwon, Assistant Professor, Biomedical Informatics
Emory University
„Bei der Durchführung von Experimenten mit der gleichen Konfiguration benötigt der A100 im Durchschnitt etwa 25 % weniger Zeit. Was es noch besser macht, ist der reibungslose Prozess der Einrichtung der Maschine auf Oracle Cloud.“
Shuyang Cao, Graduate Student Research Assistant
University of Michigan
Erfahren Sie, warum MosaicML festgestellt hat, dass OCI die beste Grundlage für KI-Training ist.
„Softdrive ist die Zukunft der Business-Computer. Auf dem Cloud-PC-Markt ist Performance alles. NVIDIA-GPUs auf OCI-Bare Metal-Servern haben das Erlebnis für unsere Kunden erheblich verbessert.“
Leonard Ivey, Mitbegründer
Softdrive
OCI stellt Ihnen erstklassige technische Experten zur Seite, die Sie bei der Inbetriebnahme unterstützen. Wir beseitigen die technischen Hürden einer komplexen Bereitstellung, von der Planung bis zur Einführung, und tragen so zu Ihrem Erfolg bei.
OCI wurde für Unternehmen entwickelt, die an einer höheren Performance, durchgängig niedrigeren Kosten und einer einfacheren Cloud-Migration für ihre aktuellen On-Premises-Anwendungen interessiert sind.
Seshadri Dehalisan, Akshai Parthasarathy, and Ruzhu Chen, Oracle
Oracle Cloud Infrastructure (OCI) hat in mehreren Benchmarks in der MLCommons Inference Datacenter v3.1 Suite, dem Industriestandard zur Messung der KI-Infrastrukturleistung, starke Ergebnisse erzielt. OCI wurde in mehreren Formen mit NVIDIA-GPUs getestet, darunter die NVIDIA H100 Tensor Core-GPU, die NVIDIA A100 Tensor Core-GPU und die NVIDIA A10 Tensor Core-GPU, und konnte die folgenden wichtigen Ergebnisse erzielen: