Al admitir desde una GPU hasta decenas de miles de ellas, las máquinas virtuales e instancias de hardware dedicado de Oracle Cloud Infrastructure (OCI) Compute facilitan aplicaciones de visión artificial, procesamiento del lenguaje natural y sistemas de recomendación, entre otros. Con el fin de entrenar modelos de lenguaje de gran tamaño (LLM), incluidos modelos de IA conversacional y difusión, OCI Supercluster proporciona redes de clústeres de latencia ultrabaja, almacenamiento para computación de alto rendimiento e instancias de hardware dedicado de OCI Compute con GPU de NVIDIA.
Descubre la arquitectura de superclústeres de OCI y conoce a nuestros clientes Adept y MosaicML.
Cada instancia de hardware dedicado de OCI Compute se conecta mediante la red de clústeres de latencia ultrabaja de OCI, escalable hasta 32 768 GPU NVIDIA A100 en un solo clúster. Estas instancias utilizan la arquitectura de red de alto rendimiento de OCI, que aprovecha el protocolo RDMA sobre Ethernet convergente (RoCE, por sus siglas en inglés) v2 para crear superclústeres de RDMA con microsegundos de latencia entre nodos y ancho de banda casi de velocidad de línea (200 Gb/s) entre GPU.
La implementación de RoCE v2 en OCI proporciona
Los recursos de computación de alto rendimiento de Oracle Cloud Infrastructure aportan potentes y rentables funcionalidades informáticas para solucionar problemas matemáticos y científicos complejos en todos los sectores.
Los servidores de hardware dedicado de OCI, junto con las redes de clústeres de Oracle, proporcionan acceso a RDMA sobre Ethernet convergente (RoCE) v2 de latencia ultrabaja (menos de 2 microsegundos en clústeres de decenas de miles de núcleos).
El gráfico muestra el rendimiento del tejido de redes de clústeres de Oracle. OCI puede escalar más de un 100 % por debajo de 10 000 celdas de simulación por núcleo con códigos de dinámica de fluidos computacional (CFD, por sus siglas en inglés) populares, el mismo rendimiento que se obtendría en entorno local. Es importante tener en cuenta que, sin la penalización de la virtualización, las máquinas de computación de alto rendimiento con hardware dedicado pueden utilizar todos los núcleos del nodo sin tener que reservar ningún núcleo, lo que generaría una costosa sobrecarga.
Los recursos informáticos de alto rendimiento de OCI compiten en rendimiento con las soluciones locales, ofreciendo además la elasticidad y los costos basados en el consumo de la nube, y brindan capacidad on-demand para escalar decenas de miles de núcleos simultáneamente.
Con los recursos de computación de alto rendimiento de OCI, puedes acceder a procesadores de alta frecuencia; almacenamiento local rápido y denso; redes de clústeres RDMA de alto rendimiento y latencia ultrabaja; y herramientas para automatizar y ejecutar tareas sin problemas.
OCI puede proporcionar latencias de hasta 1,7 microsegundos, inferiores a las de cualquier otro proveedor de nube, según un análisis de Exabyte.io. Al ofrecer clústeres conectados con RDMA, OCI ha ampliado las redes de clústeres para servidores de hardware dedicado equipados con GPU NVIDIA A100.
El innovador tejido de redes de backend permite a los clientes utilizar las tarjetas de interfaz de red de 100 Gb/s ConnectX-5 de Mellanox con RDMA sobre Ethernet convergente (RoCE) v2 para crear clústeres con las mismas redes de baja latencia y escalabilidad de las aplicaciones que se pueden lograr de forma local.
Las instancias de GPU de hardware dedicado NVIDIA que ofrece OCI brindan a las startups una plataforma informática de alto rendimiento para aplicaciones basadas en machine learning, procesamiento de imágenes y tarea informáticas de alto rendimiento masivas y paralelas. Las instancias de GPU son ideales para el entrenamiento de modelos, el cálculo de inferencias, la física y la representación de imágenes, así como para las aplicaciones masivas y paralelas.
Las instancias BM.GPU4.8 cuentan con ocho GPU NVIDIA A100 y utilizan la red de clústeres de baja latencia de Oracle, basada en acceso directo a memoria remota (RDMA) sobre Ethernet convergente (RoCE), con una latencia inferior a 2 microsegundos. Ahora, los clientes pueden alojar más de 500 clústeres de GPU y escalarlos fácilmente on demand.
Clientes como Adept, un laboratorio de investigación y productos de machine learning que está desarrollando un compañero de IA universal, están aprovechando el poder de las tecnologías de OCI y NVIDIA para crear la próxima generación de modelos de IA. Al ejecutar miles de GPU de NVIDIA en clústeres de instancias informáticas de hardware dedicado de OCI y aprovechar el ancho de banda de red de OCI, Adept puede entrenar modelos de inteligencia artificial y machine learning a gran escala más rápido y por un precio más económico que antes.
"Con la escalabilidad y el poder informático de la tecnología OCI y NVIDIA, estamos entrenando una red neuronal para utilizar todas las aplicaciones de software, sitios web y API existentes, creando las capacidades que los fabricantes de software ya han creado".
David Luan, director general
Adept
"Vemos esta colaboración con OCI como una relación a largo plazo. Nos complace aprovechar las GPU y utilizarlas para entrenar nuestra próxima generación de IA de voz. "Creemos que OCI nos aportará mucho en términos de crecimiento futuro".
James Hom, cofundador y vicepresidente de Productos
SoundHound
"Elegimos a Oracle por la asequibilidad y el rendimiento de las GPU, junto con su amplia presencia en la nube. Las GPU son muy importantes para entrenar modelos de redes neuronales profundas. Cuanto mayor sea el rendimiento de las GPU, mejores serán nuestros modelos. Y como trabajamos en varios países y regiones diferentes, necesitábamos la infraestructura que lo respaldara".
Nils Helset, cofundador y CEO
DigiFarm
"Al ejecutar experimentos con la misma configuración, A100 tarda aproximadamente un 25 % menos de tiempo en promedio. Lo que lo hace aún mejor es el proceso fluido de configuración de la máquina en Oracle Cloud".
Shuyang Cao, asistente de investigación
Universidad de Michigan
Descubre por qué MosaicML descubrió que OCI es la mejor base para el entrenamiento de IA.
OCI pone a tu disposición expertos técnicos de primer nivel para ayudarte comenzar a operar cuanto antes. Eliminamos las barreras técnicas de los despliegues complejos, desde la planificación hasta el lanzamiento, para garantizar que alcances el éxito.
OCI se ha diseñado para aquellas empresas que buscan obtener mayor rendimiento, costos siempre menores y una migración a la nube más sencilla para sus actuales aplicaciones en entorno local.
Jag Brar, vicepresidente de OCI e ingeniero sénior, y Pradeep Vincent, vicepresidente sénior y arquitecto técnico jefe de OCI
OCI ofrece muchos servicios únicos, incluida su red de clústeres, una red de rendimiento ultraalto que admite el acceso directo a memoria remota (RDMA). En nuestro anterior video y artículo de blog de First Principles, "Creación de una red de alto rendimiento en la nube pública", explicamos cómo la red de clústeres de OCI utiliza RDMA sobre Ethernet convergente (RoCE) para permitir el RDMA.
Lee el post completo