1GPU에서부터 수만 GPU까지 지원하는 Oracle Cloud Infrastructure(OCI) Compute 가상 머신 및 베어메탈 인스턴스는 컴퓨터 비전, 자연어 처리, 추천 시스템 등을 위한 애플리케이션을 구동합니다. 대화형 AI, 확산 모델 등 대규모 언어 모델(LLM)의 훈련을 위해 OCI Supercluster는 초저 대기 시간 클러스터 네트워킹, HPC 스토리지 및 NVIDIA GPU를 기반으로 하는 OCI Compute 베어메탈 인스턴스를 제공합니다.
OCI의 수퍼클러스터 아키텍처에 대한 자세한 내용과 Oracle의 고객인 Adept와 MosaicML의 이야기를 확인할 수 있습니다.
각 OCI Compute 베어메탈 인스턴스는 단일 클러스터에서 최대 32,768 NVIDIA A100 GPU까지 확장되는 OCI의 초저 대기 시간 클러스터 네트워킹을 통해 연결됩니다. 이 인스턴스는 RoCE(RDMA over Converged Ethernet)를 활용하는 OCI의 독보적인 고성능 네트워크 아키텍처를 사용하며, 이를 통해 노드 간 마이크로초의 대기 시간과 GPU 간 200Gb/초 니어 라인 레이트 대역폭을 갖춘 RDMA 수퍼클러스터를 생성할 수 있습니다.
OCI의 RoCE v2 구현으로 제공되는 환경
Oracle Cloud Infrastructure 기반 고성능 컴퓨팅은 다양한 산업 전반의 복잡한 수학적, 과학적 문제 해결에 필요한 강력하고 비용 효율적인 컴퓨팅 기능을 제공합니다.
OCI의 베어메탈 서버와 Oracle의 클러스터 네트워킹이 결합되면 초저 대기 시간(여러 개의 수만 코어 클러스터 전반에서 2마이크로초 미만 소요)으로 RoCE(RDMA over converged ethernet) v2에 액세스할 수 있습니다.
차트에서 Oracle의 클러스터 네트워킹 패브릭의 성능을 확인할 수 있습니다. OCI는 널리 사용되는 CFD 코드로 코어당 10,000개 미만의 시뮬레이션 셀을 100% 이상 확장할 수 있습니다. 이는 온프레미스가 제공하는 성능과 동일합니다. 베어메탈 HPC 머신이 가상화의 패널티나 코어 유지에 드는 값비싼 오버헤드 비용 없이도 노드에서 모든 코어를 사용할 수 있다는 사실은 기억해 둘 만한 중요한 정보입니다.
OCI 기반 HPC는 온프레미스 솔루션과 견줄 만한 탄력성과 클라우드가 제공하는 소비량 기반 비용 청구 기능을 갖추고 있습니다. 따라서 고객은 필요에 따라 수만 개의 코어를 동시에 확장할 수 있는 유연성을 얻을 수 있습니다.
OCI 기반 HPC를 사용하면 고주파수 프로세서, 고밀도 고속 로컬 스토리지, 높은 처리량, 초저 대기 시간 RDMA 클러스터 네트워크 및 작업의 자동화 및 매끄러운 실행을 지원하는 다양한 도구를 사용할 수 있습니다.
OCI는 무려 1.7마이크로초에 달하는 낮은 대기 시간을 제공하는데, Exabyte.io의 분석에 따르면 이는 그 어떤 클라우드 공급업체가 제공하는 것보다도 낮은 수준입니다. OCI는 RDMA 연결 클러스터를 활성화하여 NVIDIA A100 GPU 탑재 베어메탈 서버를 위한 클러스터 네트워킹을 확장했습니다.
이 혁신적인 백엔드 네트워크 패브릭 덕분에 고객은 Mellanox의 ConnectX-5 100Gb/초 네트워크 인터페이스 카드와 RoCE(RDMA over converged Ethernet) v2를 함께 사용하여 온프레미스에서와 동일한 수준의 낮은 대기 시간 네트워킹 및 애플리케이션 확장성을 제공하는 클러스터를 생성할 수 있습니다.
OCI의 베어메탈 NVIDIA GPU 인스턴스는 머신러닝, 이미지 처리 및 대규모 병렬 고성능 컴퓨팅 작업에 의존하는 애플리케이션을 위한 고성능 컴퓨팅 플랫폼을 스타트업에게 제공합니다. GPU 인스턴스는 모델 훈련, 인퍼런스 컴퓨태이션, 물리 및 이미지 렌더링, 대규모 병렬 애플리케이션에 이상적입니다.
BM.GPU4.8 인스턴스는 8개의 NVIDIA A100 GPU를 포함하며, 2마이크로초 미만의 RoCE 실행 RDMA를 기반으로 하는 Oracle의 저지연 클러스터 네트워킹을 사용합니다. 고객은 이제 500개 이상의 GPU 클러스터를 호스트할 수 있고, 필요에 따라 규모를 손쉽게 확장할 수 있습니다.
보편적 AI 팀원 기능을 개발 중인 ML 연구 및 제품 랩, Adept를 포함한 다양한 고객들이 OCI 및 NVIDIA 기술의 파워를 활용해 차세대 AI 모델을 구축하고 있습니다. Adept는 OCI 베어메탈 컴퓨트 인스턴스의 클러스터에서 수천 개의 NVIDIA GPU를 구동하고, OCI의 네트워크 대역폭을 활용하여 대규모 AI 및 ML 모델을 전보다 더 빠르고 비용 효율적으로 훈련할 수 있게 되었습니다.
"OCI와 NVIDIA가 제공하는 확장성 및 컴퓨팅 성능을 활용하여 우리는 현존하는 모든 소프트웨어 애플리케이션, 웹사이트, API를 사용할 수 있도록 신경망을 훈련하고 있습니다. 소프트웨어 제조업체들이 사전에 개발한 기능들을 기반으로 구축한 모델입니다."
David Luan, CEO
Adept
"SoundHound는 OCI와 장기적인 파트너십을 맺고자 합니다. OCI가 제공하는 강력한 GPU 서비스를 우리 회사의 차세대 음성 AI 학습에 활용할 수 있게 되어 기쁩니다. SoundHound의 성장 과정에서 OCI가 큰 역할을 수행해 줄 것을 기대하고 있습니다."
James Hom, Cofounder 및 Vice President of Products
SoundHound
“우리는 Oracle이 제공하는 합리적인 가격과 GPU의 성능, 광범위한 클라우드 역량 때문에 Oracle을 선택했습니다. 심층 신경망 네트워크 모델을 훈련하는 데 있어 GPU는 대단히 중요한 요소입니다. GPU 성능이 높아질수록 우리 모델 역시 개선되죠. 게다가 우리의 사업은 다양한 국가 및 지역에 걸쳐 있기 때문에 이를 지원할 인프라도 필요했습니다.”
공동 설립자 겸 CEO, Nils Helset
DigiFarm
“동일한 구성으로 실험을 수행했을 때, A100은 시간을 평균 대비 25% 단축해 줍니다. 여기에 Oracle Cloud가 제공하는 원활한 머신 설정 프로세스가 훌륭한 경험을 완성해 주죠.”
Graduate Student Research Assistant, Shuyang Cao
University of Michigan
MosaicML이 OCI를 AI 훈련을 위한 최고의 기반이라고 생각한 이유를 확인해 보세요.
OCI는 세계적 수준의 기술 전문가들을 통해 고객을 지원합니다. 우리는 고객의 성공을 위해 계획에서부터 이행에 이르기까지 복잡한 배포의 기술 장벽을 없앴습니다.
OCI는 고성능, 일관적으로 저렴한 비용, 기존 온프레미스 애플리케이션의 손쉬운 클라우드 마이그레이션을 원하는 기업을 위해 구축되었습니다.
OCI Vice President 겸 Distinguished Engineer, Jag Brar 및 OCI Senior Vice President 겸 Chief Technical Architect, Pradeep Vincent
OCI는 클러스터 네트워크, RDMA 기반 초고성능 네트워크 등 다양한 고유의 서비스를 제공합니다. First Principles의 이전 편 비디오 및 블로그 '퍼블릭 클라우드에서 고성능 네트워크 구축하기'에서는 OCI의 클러스터 네트워크가 RDMA 지원을 위해 RoCE를 사용하는 방법을 설명했습니다.
게시글 전문 읽어보기