Lo Scanner GPU di Oracle Cloud Infrastructure (OCI) è una soluzione dedicata che fornisce osservabilità, controlli e monitoraggio delle prestazioni per i carichi di lavoro GPU.
Non perdere la nostra demo live esclusiva il 30 ottobre, dove mostreremo l'implementazione di Llama su OCI. Scopri le ultime tecnologie di AI generativa in azione, esplora i casi d'uso del mondo reale e scopri come creare flussi di lavoro più intelligenti e automatizzati passo dopo passo.
I principali architetti di OCI rivelano come le reti di cluster alimentano una GenAI scalabile, da alcune GPU a un Supercluster OCI zettascale con 131.072 GPU NVIDIA Blackwell.
L'infrastruttura Oracle AI è scalabile, performante e distribuibile ovunque. Scopri perché ci distinguiamo con scalabilità leader del settore, istanze GPU Bare Metal e altro ancora.
Scopri il punto di vista dell'analista sull'infrastruttura AI OCI con GPU AMD e su come questa combinazione può migliorare la produttività, accelerare il time-to-value e ridurre i costi energetici.
Lo Scanner GPU OCI è una soluzione centralizzata e gestita per il monitoraggio delle prestazioni della GPU che aiuta a eliminare la ricerca e gli script manuali, semplificando il processo di benchmarking.
Lo Scanner GPU OCI riduce al minimo i tempi di inattività e i falsi positivi attraverso controlli dello stato completi, confronti di base e diagnostica automatizzata.
Lo Scanner GPU OCI offre visibilità personalizzabile a livello di tenant e insight specifici del team che possono aiutare a ottimizzare la condivisione delle risorse e la gestione dei costi per i cluster GPU su scala aziendale.
Una soluzione gestita e centralizzata che elimina l'esecuzione manuale degli script e la ricerca di compatibilità in tutte le regioni all'interno di una tenancy. Consente la visibilità del partizionamento per i team che condividono cluster di grandi dimensioni.
Controlli dettagliati sullo stato per il giorno zero (punto di partenza), il primo giorno (monitoraggio attivo), il secondo giorno e successivi (diagnostica continua), inclusi nodi, multinodi e diagnostica avanzata con confronti basati sui dati storici per individuare i problemi.
Supporta GPU NVIDIA e AMD, con piani per estendere il supporto ai futuri produttori di chip e ad architetture di nuova generazione.
Monitora le risorse GPU in tutte le regioni senza aver bisogno di installazioni per regione, supportando i cluster Oracle Cloud Infrastructure Kubernetes Engine, i cluster di elaborazione ad alte prestazioni, Bare Metal e virtual machine.
Compatibile con i più diffusi strumenti open source, tra cui Grafana e Prometheus, che consentono dashboard personalizzabili e storage/esportazione dei dati senza interruzioni per i casi d'uso dei clienti.
Fornisce azioni di correzione consigliate (ad esempio, il riavvio per errori GPU off-bus) e automatizza i controlli dello stato tramite API o portale, riducendo i tempi di inattività del cliente e i falsi positivi.
Ottieni assistenza per creare la tua soluzione AI o distribuire il tuo carico di lavoro sullo Scanner GPU OCI.
Entra in una nuova era di produttività con soluzioni di intelligenza artificiale generativa per la tua azienda. Scopri come Oracle aiuta i clienti a sfruttare l'intelligenza artificiale integrata in tutto lo stack tecnologico.
Ulteriori informazioni sulla rete di cluster RDMA, sulle istanze GPU, sui server Bare Metal e altro ancora.
Le tariffe di Oracle Cloud sono semplici e a prezzi bassi equiparati a livello globale e supportano una vasta gamma di casi d'uso. Per stimare un tasso ridotto, prova lo strumento di stima dei costi e configura i servizi in base alle tue esigenze.
Giorno della demo live: gli esperti di Oracle, Meta e NVIDIA implementano Llama su OCI
Primi principi: supercluster OCI Zettascale
Accelerare i carichi di lavoro AI con OCI (PDF)
Gruppo di strategie aziendali su AMD Instinct MI300X