Oracle Cloud Infrastructure (OCI) Supercluster provides ultrafast cluster networking, HPC storage, and OCI Compute bare metal instances. OCI Supercluster is ideal for training generative AI, including conversational applications and diffusion models. With support for up to tens of thousands of NVIDIA GPUs, OCI Compute bare metal instances and VMs can power applications for computer vision, natural language processing, recommendation systems, and more.
Oracle and NVIDIA partner to speed AI adoption for enterprises (2:06)
Implementa decenas de miles de GPU por clúster para lograr una escalabilidad mucho mayor
Reduce el tiempo necesario para entrenar la IA con una arquitectura de red Ethernet sencilla que proporciona rendimiento ultraalto a escala masiva.
Recibe ayuda en materia de ingeniería y diseño con la arquitectura de soluciones, redes, seguridad, auditoría, incorporación, migración de aplicaciones y mucho más.
Cada instancia de hardware dedicado de OCI Compute está conectada mediante la red de clúster de ultrabaja latencia de OCI, que puede escalar hasta decenas de miles de NVIDIA H100 o GPU A100 en un solo cluster. Estas instancias utilizan la arquitectura de red de alto rendimiento única de OCI, que aprovecha RDMA sobre Ethernet Convergente (RoCE) v2 para microsegundos de latencia entre nodos, y ancho de banda cercano a la velocidad de línea.
La implementación de RoCE v2 en OCI proporciona
La informática de alto rendimiento en OCI proporciona capacidades de cálculo potentes y rentables para resolver problemas matemáticos y científicos complejos en diversas industrias.
El gráfico muestra el rendimiento del tejido de redes de clústeres de Oracle. Por debajo de 10 000 celdas de simulación por núcleo, OCI puede escalar por encima del 100 % con códigos CFD populares, el mismo rendimiento que verías localmente. Es importante tener en cuenta que, sin la penalización de la virtualización, las máquinas de computación de alto rendimiento con hardware dedicado pueden utilizar todos los núcleos del nodo sin tener que reservar ningún núcleo, lo que generaría una costosa sobrecarga.
Los recursos informáticos de alto rendimiento de OCI compiten en rendimiento con las soluciones locales, ofreciendo además la elasticidad y los costos basados en el consumo de la nube, y brindan capacidad on-demand para escalar decenas de miles de núcleos simultáneamente. Los clientes tienen acceso a procesadores de alta frecuencia; almacenamiento local rápido y denso; redes de clúster RDMA de ultrabaja latencia y herramientas para automatizar y ejecutar trabajos con fluidez.
OCI puede proporcionar latencias de hasta 1,7 microsegundos, inferiores a las de cualquier otro proveedor de nube, según un análisis de Exabyte.io. Al habilitar clústeres conectados por RDMA, OCI ha ampliado la red de clústeres para servidores de hardware dedicado equipados con NVIDIA H100 y GPU A100. La innovadora red de respaldo permite a los clientes crear clusters con la misma red de baja latencia y escalabilidad de aplicaciones que se puede lograr on-premises.
Las instancias de GPU de hardware dedicado de NVIDIA que ofrece OCI brindan a las startups una plataforma de informática de alto rendimiento para aplicaciones que dependen del aprendizaje profundo, sistemas de recomendación y trabajos de cómputo de alto rendimiento masivos y paralelos. Las instancias de GPU son ideales para el entrenamiento de modelos, el cálculo de inferencias, la física y la representación de imágenes, así como para las aplicaciones masivas y paralelas.
OCI ofrece instancias con ocho NVIDIA H100 o GPU NVIDIA A100. Mientras que OCI Supercluster proporciona la capacidad de escalar a cientos o miles de GPU por clúster, OCI también ofrece la capacidad de implementar a una escala mucho menor, comenzando con solo una GPU.
Clientes como Adept, un laboratorio de investigación y productos de machine learning que está desarrollando un compañero de IA universal, están aprovechando el poder de las tecnologías de OCI y NVIDIA para crear la próxima generación de modelos de IA. Al ejecutar miles de GPU de NVIDIA en clústeres de instancias informáticas de hardware dedicado de OCI y aprovechar el ancho de banda de red de OCI, Adept puede entrenar modelos de inteligencia artificial y machine learning a gran escala más rápido y por un precio más económico que antes.
"Con la escalabilidad y el poder informático de la tecnología OCI y NVIDIA, estamos entrenando una red neuronal para utilizar todas las aplicaciones de software, sitios web y API existentes, creando las capacidades que los fabricantes de software ya han creado".
David Luan, director general
Adept
"Vemos esta colaboración con OCI como una relación a largo plazo. Nos complace aprovechar las GPU y utilizarlas para entrenar nuestra próxima generación de IA de voz. "Creemos que OCI nos aportará mucho en términos de crecimiento futuro".
James Hom, cofundador y vicepresidente de Productos
SoundHound
"Con Oracle Cloud, estamos ejecutando entre cuatro y ocho GPU en paralelo para acelerar en gran medida nuestro progreso en la investigación, lo que significa que podemos completar un experimento en solo unas pocas horas".
Hyeokhyen Kwon, profesor asistente de informática biomédica
Emory University
"Al ejecutar experimentos con la misma configuración, A100 tarda aproximadamente un 25 % menos de tiempo en promedio. Lo que lo hace aún mejor es el proceso fluido de configuración de la máquina en Oracle Cloud".
Shuyang Cao, asistente de investigación
Universidad de Michigan
Descubre por qué MosaicML descubrió que OCI es la mejor base para el entrenamiento de IA.
"Softdrive es el futuro de los ordenadores de empresa. En el mercado de PC en la nube, el rendimiento lo es todo. Las GPU de NVIDIA en servidores con hardware dedicado de OCI han mejorado drásticamente la experiencia de nuestros clientes".
Leonard Ivey, cofundador
Softdrive
OCI pone a tu disposición expertos técnicos de primer nivel para ayudarte comenzar a operar cuanto antes. Eliminamos las barreras técnicas de los despliegues complejos, desde la planificación hasta el lanzamiento, para garantizar que alcances el éxito.
OCI se ha diseñado para aquellas empresas que buscan obtener mayor rendimiento, costos siempre menores y una migración a la nube más sencilla para sus actuales aplicaciones en entorno local.
Seshadri Dehalisan, Akshai Parthasarathy y Ruzhu Chen, Oracle
Oracle Cloud Infrastructure (OCI) ha obtenido resultados sólidos en varias pruebas comparativas de lasuite MLCommons Inference Datacenter v3.1, el estándar del sector para medir el rendimiento de la infraestructura de IA. OCI se probó en varias unidades con tecnología de GPU NVIDIA, incluida la GPU NVIDIA H100 Tensor Core, la GPU NVIDIA A100 Tensor Core y la GPU NVIDIA A10 Tensor Core, con los siguientes resultados clave: