Oracle Cloud Infrastructure (OCI) Supercluster bietet ultraschnelles Cluster-Networking, HPC-Speicher und OCI Compute-Bare-Metal-Instanzen. OCI Supercluster eignet sich ideal für das Training generativer KI, einschließlich Konversationsanwendungen und Diffusionsmodelle. Dank der Unterstützung von bis zu Zehntausenden von NVIDIA-GPUs können OCI Compute-Bare-Metal-Instanzen und VMs Anwendungen für Computer Vision, Natural Language Processing, Empfehlungssysteme und vieles mehr betreiben.
Stellen Sie für eine wesentlich größere Skalierbarkeit bis zu 32.768 NVIDIA A100-GPUs pro Cluster bereit.
Reduzieren Sie den Zeitaufwand für das Trainieren von KI mit einer einfachen Ethernet-Netzwerkarchitektur, die eine extrem hohe Leistung in großem Maßstab bietet.
Holen Sie sich technische Hilfe in Bezug auf Lösungsarchitektur, Netzwerk, Sicherheit, Auditing, Onboarding, Anwendungsmigration und vielem mehr.
Jede OCI Compute-Bare-Metal-Instanz wird mit dem Clusternetzwerk mit extrem geringer Latenz von OCI verbunden, das auf bis zu 32.768 NVIDIA A100-GPUs in einem einzelnen Cluster skalieren kann. Diese Instanzen verwenden die einzigartige leistungsstarke Netzwerkarchitektur von OCI, die RDMA over Converged Ethernet (RoCE) v2 zum Erstellen von RDMA-Superclustern mit einer Latenzzeit im Mikrosekundenbereich zwischen den Knoten und einer Bandbreite von nahezu 200 Gb/s zwischen den GPUs nutzt.
Die OCI-Implementierung von RoCE v2 bietet
High Performance Computing auf Oracle Cloud Infrastructure bietet leistungsstarke, kostengünstige Computing-Funktionen zur branchenübergreifenden Lösung komplexer mathematischer und wissenschaftlicher Probleme.
Die Bare-Metal-Server von OCI in Verbindung mit dem Clusternetzwerk von Oracle bieten Zugang zu RDMA over Converged Ethernet (RoCE) v2 mit extrem niedriger Latenz (weniger als 2 Mikrosekunden über Cluster mit Zehntausenden von Kernen).
Das Diagramm zeigt die Performance der Netzwerkstruktur von Oracle. OCI kann über 100 % unter 10.000 Simulationszellen pro Kern mit gängigen CFD-Codes skalieren, was der Leistung entspricht, die Sie On-Premises sehen würden. Es ist wichtig anzumerken, dass Bare-Metal-HPC-Maschinen ohne den Nachteil der Virtualisierung alle Kerne des Knotens nutzen können, ohne Kerne für kostspieligen Overhead reservieren zu müssen.
HPC auf OCI konkurriert mit der Leistungsfähigkeit von On-Premises-Lösungen, mit der Elastizität und den verbrauchsbasierten Kosten der Cloud und bietet On-Demand-Potenzial, um Zehntausende von Kernen zeitgleich zu skalieren.
Mit HPC auf OCI erhalten Sie Zugriff auf Hochfrequenzprozessoren, schnellen und dichten lokalen Speicher, RDMA-Clusternetzwerke mit hohem Durchsatz sowie hoher Latenz und die Tools zur nahtlosen Automatisierung und Ausführung von Ihrer Jobs.
OCI kann laut einer Analyse von Exabyte.io Latenzzeiten von bis zu 1,7 Mikrosekunden bieten – weniger als jeder andere Cloud-Anbieter. Durch die Ermöglichung von RDMA-verbundenen Clustern hat OCI die Clustervernetzung für Bare-Metal-Server erweitert, die mit NVIDIA A100 GPUs ausgestattet sind.
Die bahnbrechende Backend-Netzwerkstruktur ermöglicht es Kunden, die ConnectX-5-Netzwerkschnittstellenkarten von Mellanox mit 100 Gbit/s und RDMA over Converged Ethernet (RoCE) v2 zu verwenden, um Cluster mit denselben niedrigen Latenzzeiten und der gleichen Anwendungsskalierbarkeit zu erstellen, wie sie On-Premises erreicht werden können.
Die Bare-Metal-NVIDIA-GPU-Instanzen von OCI ermöglichen Start-ups eine Hochleistungs-Rechenplattform für Anwendungen, die auf maschinelles Lernen, Bildverarbeitung und massiv parallele Hochleistungs-Computing-Aufgaben angewiesen sind. GPU-Instanzen eignen sich ideal für Modell-Schulungen, Inferenzberechnungen, Physik- und Bildrendering sowie massiv parallele Anwendungen.
Die BM.GPU4.8-Instanzen verfügen über acht NVIDIA A100-GPUs und verwenden das Clusternetzwerk mit geringer Latenz von Oracle, das auf dem Remote Direct Memory Access (RDMA) basiert, der über konvergiertes Ethernet (RoCE) mit einer Latenzzeit von unter 2 Mikrosekunden ausgeführt wird. Kunden können jetzt mehr als 500 GPU-Cluster hosten und einfach nach Bedarf skalieren.
Kunden wie Adept, ein ML-Forschungs- und Produktlabor zur Entwicklung eines universellen KI-Teams, nutzen die Leistungsfähigkeit von OCI- und NVIDIA-Technologien, um die nächste Generation von KI-Modellen zu entwickeln. Durch die Ausführung Tausender NVIDIA-GPUs in Clustern von OCI-Bare-Metal-Compute-Instanzen und die Nutzung der Netzwerkbandbreite von OCI kann Adept umfangreiche KI- und ML-Modelle schneller und wirtschaftlicher als zuvor trainieren.
„Mit der Skalierbarkeit und Rechenleistung der OCI- und NVIDIA-Technologie trainieren wir ein neuronales Netzwerk, um jede existierende Softwareanwendung, Website und API zu nutzen – aufbauend auf den Funktionen, die Softwarehersteller bereits geschaffen haben.“
David Luan, CEO
Adept
„Wir sehen diese Beziehung zu OCI als langfristig an. Wir freuen uns, die GPUs nutzen und damit unsere nächste Generation von Sprach-KI trainieren zu können. Wir glauben, dass OCI uns in Bezug auf zukünftiges Wachstum einiges bieten wird.“
James Hom, Cofounder und Vice President of Products
SoundHound
„Wir haben uns aufgrund der Erschwinglichkeit und Performance der GPUs in Kombination mit dem umfangreichen Cloud-Angebot für Oracle entschieden. GPUs sind sehr wichtig für das Training von tiefen neuronalen Netzwerkmodellen. Je höher die GPU-Leistung, desto besser unsere Modelle. Und weil wir in verschiedenen Ländern und Regionen arbeiten, brauchten wir die Infrastruktur, um das zu unterstützen.“
Nils Helset, Mitgründer und CEO
DigiFarm
„Bei der Durchführung von Experimenten mit der gleichen Konfiguration benötigt der A100 im Durchschnitt etwa 25 % weniger Zeit. Was es noch besser macht, ist der reibungslose Prozess der Einrichtung der Maschine auf Oracle Cloud.“
Shuyang Cao, Graduate Student Research Assistant
University of Michigan
Erfahren Sie, warum MosaicML festgestellt hat, dass OCI die beste Grundlage für KI-Training ist.
„Softdrive ist die Zukunft der Business-Computer. Auf dem Cloud-PC-Markt ist Performance alles. NVIDIA-GPUs auf OCI-Bare Metal-Servern haben das Erlebnis für unsere Kunden erheblich verbessert.“
Leonard Ivey, Mitbegründer
Softdrive
OCI stellt Ihnen erstklassige technische Experten zur Seite, die Sie bei der Inbetriebnahme unterstützen. Wir beseitigen die technischen Hürden einer komplexen Bereitstellung, von der Planung bis zur Einführung, und tragen so zu Ihrem Erfolg bei.
OCI wurde für Unternehmen entwickelt, die an einer höheren Performance, durchgängig niedrigeren Kosten und einer einfacheren Cloud-Migration für ihre aktuellen On-Premises-Anwendungen interessiert sind.
Bandish Shah, Engineering Manager, MosaicML and Akshai Parthasarathy, Product Marketing Director, Oracle
Generative KI-Modelle haben uns mit ihrer Fähigkeit verblüfft, Fragen zusammenzufassen und zu beantworten, Software zu entwickeln und sogar Gedichte zu schreiben. Solche Tools haben praktische Auswirkungen auf Branchen wie den Finanzdienstleistungssektor, wo sie zur Risikoerkennung, zum Schutz vor Betrug und zur Kundenbetreuung eingesetzt werden können.
Vollständigen Beitrag lesen