Oracle Cloud Infrastructure (OCI) Supercluster provides ultrafast cluster networking, HPC storage, and OCI Compute bare metal instances. OCI Supercluster is ideal for training generative AI, including conversational applications and diffusion models. With support for up to tens of thousands of NVIDIA GPUs, OCI Compute bare metal instances and VMs can power applications for computer vision, natural language processing, recommendation systems, and more.
Oracle and NVIDIA partner to speed AI adoption for enterprises (2:06)
클러스터당 최대 수만 개에 달하는 GPU를 배포할 수 있는 탁월한 확장성을 갖추었습니다.
대규모로 초고성능을 제공하는 단순한 Ethernet 네트워크 아키텍처를 통해 AI 훈련에 소요되는 시간을 단축해 보세요.
솔루션 아키텍처, 네트워킹, 보안, 감사, 온보딩, 애플리케이션 마이그레이션 등 엔지니어링과 관련된 도움을 받아보세요.
각 OCI Compute 베어메탈 인스턴스는 OCI의 초저 대기 시간 클러스터 네트워킹을 사용해 연결되며, 단일 클러스터 내에서 최대 수만 개의 NVIDIA H100 또는 A100 GPU로 확장될 수 있습니다. 이 인스턴스는 노드 간 마이크로초의 대기 시간 및 라인 속도에 가까운 대역폭을 위해 RoCE(RDMA over Converged Ethernet) v2를 활용하는 OCI의 독보적인 고성능 네트워크 아키텍처를 사용합니다.
OCI의 RoCE v2 구현으로 제공되는 환경
OCI 기반 고성능 컴퓨팅은 다양한 산업 전반의 복잡한 수학적, 과학적 문제 해결에 필요한 강력하고 비용 효율적인 컴퓨팅 기능을 제공합니다.
차트에서 Oracle의 클러스터 네트워킹 패브릭의 성능을 확인할 수 있습니다. OCI는 널리 사용되는 CFD 코드로 코어당 10,000개 미만의 시뮬레이션 셀을 100% 이상 확장할 수 있습니다. 이는 온프레미스가 제공하는 성능과 동일합니다. 베어메탈 HPC 머신이 가상화의 패널티나 코어 유지에 드는 값비싼 오버헤드 비용 없이도 노드에서 모든 코어를 사용할 수 있다는 사실은 기억해 둘 만한 중요한 정보입니다.
OCI 기반 HPC는 온프레미스 솔루션과 견줄 만한 탄력성과 클라우드가 제공하는 소비량 기반 비용 청구 기능을 갖추고 있습니다. 따라서 고객은 필요에 따라 수만 개의 코어를 동시에 확장할 수 있는 유연성을 얻을 수 있습니다. 고객은 고주파수 프로세서, 고밀도 고속 로컬 스토리지, 높은 처리량, 초저 대기 시간 RDMA 클러스터 네트워크 및 작업의 자동화 및 매끄러운 실행을 지원하는 다양한 도구를 사용할 수 있습니다.
OCI는 무려 1.7마이크로초에 달하는 낮은 대기 시간을 제공하는데, Exabyte.io의 분석에 따르면 이는 그 어떤 클라우드 공급업체가 제공하는 것보다도 낮은 수준입니다. OCI는 RDMA 연결 클러스터를 활성화하여 NVIDIA H100 및 A100 GPU 탑재 베어메탈 서버를 위한 클러스터 네트워킹을 확장했습니다. 이 획기적인 백엔드 네트워크 패브릭은 고객이 온프레미스에서와 동일한 수준의 낮은 대기 시간 네트워킹과 애플리케이션 확장성을 통해 클러스터를 생성할 수 있게 해 줍니다.
OCI의 베어메탈 NVIDIA GPU 인스턴스는 딥러닝, 추천 시스템 및 대규모 병렬 고성능 컴퓨팅 작업에 의존하는 애플리케이션을 위한 고성능 컴퓨팅 플랫폼을 스타트업에게 제공합니다. GPU 인스턴스는 모델 훈련, 인퍼런스 컴퓨태이션, 물리 및 이미지 렌더링, 대규모 병렬 애플리케이션에 이상적입니다.
OCI는 8개의 NVIDIA H100 또는 NVIDIA A100 GPU를 갖춘 인스턴스를 제공합니다. OCI Supercluster는 클러스터당 최대 수만 개의 GPU로의 확장 기능을 제공하며, OCI는 단일 GPU에서 시작하는, 훨씬 작은 규모로 배포할 수 있는 기능을 제공합니다.
보편적 AI 팀원 기능을 개발 중인 ML 연구 및 제품 랩, Adept를 포함한 다양한 고객들이 OCI 및 NVIDIA 기술의 파워를 활용해 차세대 AI 모델을 구축하고 있습니다. Adept는 OCI 베어메탈 컴퓨트 인스턴스의 클러스터에서 수천 개의 NVIDIA GPU를 구동하고, OCI의 네트워크 대역폭을 활용하여 대규모 AI 및 ML 모델을 전보다 더 빠르고 비용 효율적으로 훈련할 수 있게 되었습니다.
"OCI와 NVIDIA가 제공하는 확장성 및 컴퓨팅 성능을 활용하여 우리는 현존하는 모든 소프트웨어 애플리케이션, 웹사이트, API를 사용할 수 있도록 신경망을 훈련하고 있습니다. 소프트웨어 제조업체들이 사전에 개발한 기능들을 기반으로 구축한 모델입니다."
David Luan, CEO
Adept
"SoundHound는 OCI와 장기적인 파트너십을 맺고자 합니다. OCI가 제공하는 강력한 GPU 서비스를 우리 회사의 차세대 음성 AI 학습에 활용할 수 있게 되어 기쁩니다. SoundHound의 성장 과정에서 OCI가 큰 역할을 수행해 줄 것을 기대하고 있습니다."
James Hom, Cofounder 및 Vice President of Products
SoundHound
“Oracle Cloud 덕분에 4-8GPU를 병렬로 실행하여 연구 프로세스 속도를 크게 높일 수 있었습니다. 몇 시간 만에 실험을 완료할 수도 있다는 얘기죠.”
Biomedical Informatics, Assistant Professor, Hyeokhyen Kwon
Emory University
“동일한 구성으로 실험을 수행했을 때, A100은 시간을 평균 대비 25% 단축해 줍니다. 여기에 Oracle Cloud가 제공하는 원활한 머신 설정 프로세스가 훌륭한 경험을 완성해 주죠.”
Graduate Student Research Assistant, Shuyang Cao
University of Michigan
MosaicML이 OCI를 AI 훈련을 위한 최고의 기반이라고 생각한 이유를 확인해 보세요.
"Softdrive는 비즈니스 컴퓨팅의 미래입니다. 클라우드 PC 시장에서는 성능이 전부입니다. 그리고 OCI 베어메탈 서버 기반의 NVIDIA GPU는 우리 고객들의 경험을 크게 개선해 주었습니다."
Leonard Ivey, Cofounder
Softdrive
OCI는 세계적 수준의 기술 전문가들을 통해 고객을 지원합니다. 우리는 고객의 성공을 위해 계획에서부터 이행에 이르기까지 복잡한 배포의 기술 장벽을 없앴습니다.
OCI는 고성능, 일관적으로 저렴한 비용, 기존 온프레미스 애플리케이션의 손쉬운 클라우드 마이그레이션을 원하는 기업을 위해 구축되었습니다.
Oracle, Seshadri Dehalisan, Akshai Parthasarathy, Ruzhu Chen
Oracle Cloud Infrastructure(OCI)는 AI 인프라 성능 측정의 업계 표준인 MLCommons Inference Datacenter v3.1 제품군에 대한 여러 벤치마크 테스트 전반에서 강력한 결과를 얻었습니다. OCI는 NVIDIA GPU가 구동하는 여러 구성에 대한 테스트를 거쳤고, 여기에는 NVIDIA H100 Tensor Core GPU, NVIDIA A100 Tensor Core GPU, NVIDIA A10 Tensor Core GPU가 포함되었습니다. 이를 통해 다음과 같은 핵심 결과를 얻었습니다: