OCI Supercluster and AI Infrastructure

Oracle Cloud Infrastructure (OCI) Supercluster provides ultrafast cluster networking, HPC storage, and OCI Compute bare metal instances. OCI Supercluster is ideal for training generative AI, including conversational applications and diffusion models. With support for up to tens of thousands of NVIDIA GPUs, OCI Compute bare metal instances and VMs can power applications for computer vision, natural language processing, recommendation systems, and more.

Oracle and NVIDIA partner to speed AI adoption for enterprises (2:06)

OCI Supercluster가 경쟁에서 앞서는 법

  • 생성형 AI를 위한 업계 최고의 확장성

    클러스터당 최대 수만 GPU를 배포할 수 있어 타 제공업체의 유사 제품 대비 훨씬 큰 확장성을 누릴 수 있습니다.

  • 초저 대기 시간 및 초고속 대역폭*

    대규모로 초고성능을 제공하는 단순한 Ethernet 네트워크 아키텍처를 통해 AI 훈련에 소요되는 시간을 단축해 보세요.

  • AI 주제 전문가 활용

    솔루션 아키텍처, 네트워킹, 보안, 감사, 온보딩, 애플리케이션 마이그레이션 등 엔지니어링과 관련된 도움을 받아보세요.

* NVIDIA H100 클러스터용 대역폭은 3,200Gb/초, NVIDIA A100 클러스터용 대역폭은 1,600Gb/초입니다.

GPU 워크로드 가속화에 대해 Oracle 전문가와 상담해 보세요.

OCI가 모델 훈련 및 병렬 애플리케이션을 지원하는 방법을 살펴보세요

수만 개의 NVIDIA H100 및 A100 GPU 배포하기

각 OCI Compute 베어메탈 인스턴스는 OCI의 초저 대기 시간 클러스터 네트워킹을 사용해 연결되며, 단일 클러스터 내에서 최대 수만 개의 NVIDIA H100 또는 A100 GPU로 확장될 수 있습니다. 이 인스턴스는 노드 간 마이크로초의 대기 시간 및 라인 속도에 가까운 대역폭을 위해 RoCE(RDMA over Converged Ethernet) v2를 활용하는 OCI의 독보적인 고성능 네트워크 아키텍처를 사용합니다.

OCI의 RoCE v2 구현으로 제공되는 환경

  • 서버당 1,600Gb/초 대역폭 및 A100 GPU당 200Gb/초 대역폭
  • 서버당 3,200Gb/초 대역폭 및 H100GPU당 400Gb/초 대역폭

고속 RDMA 클러스터 네트워크

OCI 기반 고성능 컴퓨팅은 다양한 산업 전반의 복잡한 수학적, 과학적 문제 해결에 필요한 강력하고 비용 효율적인 컴퓨팅 기능을 제공합니다.

차트에서 Oracle의 클러스터 네트워킹 패브릭의 성능을 확인할 수 있습니다. OCI는 널리 사용되는 CFD 코드로 코어당 10,000개 미만의 시뮬레이션 셀을 100% 이상 확장할 수 있습니다. 이는 온프레미스가 제공하는 성능과 동일합니다. 베어메탈 HPC 머신이 가상화의 패널티나 코어 유지에 드는 값비싼 오버헤드 비용 없이도 노드에서 모든 코어를 사용할 수 있다는 사실은 기억해 둘 만한 중요한 정보입니다.

OCI 기반 고성능 컴퓨팅(HPC)

OCI 기반 HPC는 온프레미스 솔루션과 견줄 만한 탄력성과 클라우드가 제공하는 소비량 기반 비용 청구 기능을 갖추고 있습니다. 따라서 고객은 필요에 따라 수만 개의 코어를 동시에 확장할 수 있는 유연성을 얻을 수 있습니다. 고객은 고주파수 프로세서, 고밀도 고속 로컬 스토리지, 높은 처리량, 초저 대기 시간 RDMA 클러스터 네트워크 및 작업의 자동화 및 매끄러운 실행을 지원하는 다양한 도구를 사용할 수 있습니다.

OCI는 무려 1.7마이크로초에 달하는 낮은 대기 시간을 제공하는데, Exabyte.io의 분석에 따르면 이는 그 어떤 클라우드 공급업체가 제공하는 것보다도 낮은 수준입니다. OCI는 RDMA 연결 클러스터를 활성화하여 NVIDIA H100A100 GPU 탑재 베어메탈 서버를 위한 클러스터 네트워킹을 확장했습니다. 이 획기적인 백엔드 네트워크 패브릭은 고객이 온프레미스에서와 동일한 수준의 낮은 대기 시간 네트워킹과 애플리케이션 확장성을 통해 클러스터를 생성할 수 있게 해 줍니다.

독보적인 베어메탈 GPU 클러스터

OCI의 베어메탈 NVIDIA GPU 인스턴스는 딥러닝, 추천 시스템 및 대규모 병렬 고성능 컴퓨팅 작업에 의존하는 애플리케이션을 위한 고성능 컴퓨팅 플랫폼을 스타트업에게 제공합니다. GPU 인스턴스는 모델 훈련, 인퍼런스 컴퓨태이션, 물리 및 이미지 렌더링, 대규모 병렬 애플리케이션에 이상적입니다.

OCI는 8개의 NVIDIA H100 또는 NVIDIA A100 GPU를 갖춘 인스턴스를 제공합니다. OCI Supercluster는 클러스터당 최대 수만 개의 GPU로의 확장 기능을 제공하며, OCI는 단일 GPU에서 시작하는, 훨씬 작은 규모로 배포할 수 있는 기능을 제공합니다.

AI 및 메타버스 컨퍼런스인 NVIDIA GTC의 OCI 관련 세션 다시보기

OCI 및 NVIDIA의 차세대 AI 모델 지원 방법 보기

보편적 AI 팀원 기능을 개발 중인 ML 연구 및 제품 랩, Adept를 포함한 다양한 고객들이 OCI 및 NVIDIA 기술의 파워를 활용해 차세대 AI 모델을 구축하고 있습니다. Adept는 OCI 베어메탈 컴퓨트 인스턴스의 클러스터에서 수천 개의 NVIDIA GPU를 구동하고, OCI의 네트워크 대역폭을 활용하여 대규모 AI 및 ML 모델을 전보다 더 빠르고 비용 효율적으로 훈련할 수 있게 되었습니다.

Microsoft에서 Bing 대화형 검색을 위해 OCI 활용

"Oracle과 협업하고 Oracle Cloud Infrastructure를 Microsoft Azure AI 인프라와 함께 사용하여, 더 폭 넓은 고객에게 액세스하고 수많은 검색 결과를 더 빠르게 제공할 것입니다."

Divya Kumar, Global Head of Marketing for Search and AI
Microsoft

Adept, Oracle 및 NVIDIA 서비스를 활용하여 모두를 위한 탁월한 AI 팀원 개발

"OCI와 NVIDIA가 제공하는 확장성 및 컴퓨팅 성능을 활용하여 우리는 현존하는 모든 소프트웨어 애플리케이션, 웹사이트, API를 사용할 수 있도록 신경망을 훈련하고 있습니다. 소프트웨어 제조업체들이 사전에 개발한 기능들을 기반으로 구축한 모델입니다."

David Luan, CEO
Adept

OCI에서 AI/ML 훈련 규모를 확장하는 MosaicML

MosaicML이 OCI를 AI 훈련을 위한 최고의 기반이라고 생각한 이유를 확인해 보세요.

자사의 급격한 성장을 지원하고자 OCI를 선택한 SoundHound

"SoundHound는 OCI와 장기적인 파트너십을 맺고자 합니다. OCI가 제공하는 강력한 GPU 서비스를 우리 회사의 차세대 음성 AI 학습에 활용할 수 있게 되어 기쁩니다. SoundHound의 성장 과정에서 OCI가 큰 역할을 수행해 줄 것을 기대하고 있습니다."

James Hom, Cofounder 및 Vice President of Products
SoundHound

Oracle Cloud를 사용해 파킨슨 병 치료를 지원하는 Emory University

“Oracle Cloud 덕분에 4-8GPU를 병렬로 실행하여 연구 프로세스 속도를 크게 높일 수 있었습니다. 몇 시간 만에 실험을 완료할 수도 있다는 얘기죠.”

Biomedical Informatics, Assistant Professor, Hyeokhyen Kwon
Emory University

Softdrive, OCI Compute 및 NVIDIA A10를 활용한 차세대 워크스테이션 제공

"Softdrive는 비즈니스 컴퓨팅의 미래입니다. 클라우드 PC 시장에서는 성능이 전부입니다. 그리고 OCI 베어메탈 서버 기반의 NVIDIA GPU는 우리 고객들의 경험을 크게 개선해 주었습니다."

Leonard Ivey, Cofounder
Softdrive

University of Michigan, 학술 저널의 AI 텍스트 요약 기능을 개선

연구자들은 고성능 가상 머신과 원격 NVIDIA A100 Tensor Core GPU를 사용했으며, 그 결과 메모리를 많이 소모하는 요약 알고리즘을 효과적으로 실행할 수 있었습니다.

OCI의 GPU 인스턴스에는 무엇이 포함되어 있나요?

전용 엔지니어링 지원

OCI는 세계적 수준의 기술 전문가들을 통해 고객을 지원합니다. 우리는 고객의 성공을 위해 계획에서부터 이행에 이르기까지 복잡한 배포의 기술 장벽을 없앴습니다.

  • 솔루션 아키텍처 개발
  • 네트워킹, 보안, 감사
  • OCI 온보딩
  • 애플리케이션 마이그레이션
  • 마이그레이션 후 교육

경제성 개선

OCI는 고성능, 일관적으로 저렴한 비용, 기존 온프레미스 애플리케이션의 손쉬운 클라우드 마이그레이션을 원하는 기업을 위해 구축되었습니다.

  • 74% 저렴한 전용 네트워크 연결 비용
  • 컴퓨트를 위한 가격 대비 성능 3배 이상 개선
  • 로컬 SSD, 2배 RAM, RDMA 네트워킹, 성능 SLA를 제공하는 인프라를 최대 44% 저렴한 가격에 제공
  • 절반 미만의 비용으로 초당 20배의 입력/출력 작업 지원
2023년 11월 13일

OCI 기반 NVIDIA Grace Hopper Superchip 공급 계획 발표

Oracle Cloud Infrastructure, Vice President, Sagar Rawal

오늘 SC23에서 우리는 NVIDIA GH200 Grace Hopper Superchip이 구동하는 Oracle Cloud Infrastructure(OCI) Compute 인스턴스 출시 계획을 발표합니다. GH200은 NVIDIA H100 Tensor Core GPU(Hopper)에 연결된 Arm CPU(Grace)와 576GB의 고대역폭 메모리 공간으로 구성됩니다.

게시물 전문 읽어보기

추가 클라우드 아키텍처 및 배포 리소스

OCI Cloud Adoption Framework(CAF)

모든 클라우드가 같을 수 없는 이유에 대한 Omdia의 관점