Oracle Cloud Infrastructure (OCI) Supercluster provides ultrafast cluster networking, HPC storage, and OCI Compute bare metal instances. OCI Supercluster is ideal for training generative AI, including conversational applications and diffusion models. With support for up to tens of thousands of NVIDIA GPUs, OCI Compute bare metal instances and VMs can power applications for computer vision, natural language processing, recommendation systems, and more.
Oracle and NVIDIA partner to speed AI adoption for enterprises (2:06)
クラスタあたり最大数万個のGPUを導入することで、他のプロバイダが提供する同様の製品よりもはるかに優れたスケーラビリティを実現します。
大規模で極めて高パフォーマンスを提供するシンプルなイーサネット・ネットワーク・アーキテクチャにより、AIのトレーニングに必要な時間を短縮します。
ソリューション・アーキテクチャー、ネットワーク、セキュリティ、監査、オンボーディング、アプリケーション・マイグレーションなど、さまざまなエンジニアリングの支援をご利用いただけます。
各OCI Computeベアメタルインスタンスは、OCIの超低レイテンシ・クラスターネットワーキングを使用して接続されており、1つのクラスタで数万個のNVIDIA H100またはA100 GPUまで拡張することができます。これらのインスタンスは、RDMA over Converged Ethernet (RoCE) v2を活用したOCI独自のハイパフォーマンス・ネットワーク・アーキテクチャを使用しており、ノード間のレイテンシはマイクロ秒単位で、帯域幅はほぼラインレートです。
OCIのRoCE v2の実装は以下を実現します。
OCIのハイパフォーマンス・コンピューティングは、業界全体の複雑な数学的・科学的問題を解決するための強力でコスト効率の高いコンピューティング機能を提供します。
このグラフは オラクルのクラスタ・ネットワーク・ファブリックのパフォーマンスを示しています。OCIは、1コアあたり1万セル以下の一般的なCFDソフトウェアを使用した場合、100%を超えるスケーラビリティを実現することができます。これは、オンプレミスのパフォーマンスと同等のものになります。また、仮想化によるペナルティが無いため、ベアメタルHPC マシンは、コストのかかるオーバーヘッド用にコアを確保することなくノード上のすべてのコアを使用できることも注目すべき特長です。
OCI上のHPCは、クラウドの弾力性と消費ベースのコストによって、オンプレミス・ソリューションのパフォーマンスに匹敵します。数万コアを同時に拡張するためのオンデマンドの可能性を提供します。お客様は、高周波プロセッサ、高速かつ高密度のローカル・ストレージ、高スループットかつ超低レイテンシのRDMAクラスタ・ネットワーク、およびジョブをシームレスに自動化・実行するためのツールにアクセスすることができます。
Exabyte.ioの分析によると、OCIは他のクラウドベンダーよりも低い、1.7マイクロ秒のレイテンシを提供することができます。RDMA接続のクラスタを実現することで、OCIはNVIDIA H100とA100 GPUsを搭載したベアメタル・サーバのクラスタ・ネットワークを拡張しました。画期的なバックエンド・ネットワーク・ファブリックにより、オンプレミスと同等の低レイテンシ・ネットワーキングとアプリケーション・スケーラビリティを備えたクラスタを構築できます。
OCIのベアメタルNVIDIA GPUインスタンスは、ディープラーニング、推薦システム、超並列ハイパフォーマンス・コンピューティングを必要とするアプリケーションのためのハイパフォーマンス・コンピューティング・プラットフォームを、スタートアップ企業に提供します。GPUインスタンスは、モデルトレーニング、推論計算、物理および画像レンダリング、超並列アプリケーションに最適です。
OCIは、8つのNVIDIA H100またはNVIDIA A100 GPUを搭載したインスタンスを提供しています。OCI Superclusterがクラスタあたり数百または数千のGPUまでスケールアップできる能力を提供する一方、OCIはたった1つのGPUから始められる、はるかに小規模な導入にも対応しています。
Adeptを始めとする、ユニバーサルAIチームメイトの開発に取り組むML研究・製品ラボのお客様は、OCIとNVIDIAのテクノロジーのパワーを活用して、次世代AIモデルを構築しています。OCIのベアメタル・コンピュート・インスタンスのクラスタ上で数千のNVIDIA GPUを実行し、OCIのネットワーク帯域幅を活用することで、Adeptは大規模なAIおよびMLモデルを従来よりも高速かつ低コストでトレーニングできるようになりました。
「OCIとNVIDIAのテクノロジーが提供するスケーラビリティとコンピューティング・パワーを活用して、現存するあらゆるソフトウェア・アプリケーション、Webサイト、APIを使用するためのニューラル・ネットワークをトレーニングしています。また、このニューラル・ネットワークの基盤として、他のソフトウェア・メーカーが作成した機能を活用しています」
CEO、David Luan氏
Adept
「私たちは、OCIとの関係を長期的なものと捉えています。GPUを活用し、次世代の音声AIをトレーニングすることを楽しみにしています。将来の成長の観点からOCIが私たちにもたらすと考えられることはたくさんあります。」
SoundHound、共同創業者兼製品担当バイス・プレジデント、James Hom氏
「Oracle Cloudを使用すると、4~8個のGPUを並列に実行して研究の進捗を大幅に加速できるため、わずか数時間で実験を完了できます。」
生物医学情報学、助教授、Hyeokhyen Kwon氏
Emory University
「同じ構成で実験した場合、A100の方が平均で約25%時間が短縮されました。さらに嬉しいのは、Oracle Cloudでのマシンのセットアップ・プロセスがスムーズなことです」
大学院生リサーチ・アシスタント、Shuyang Cao氏
ミシガン大学
MosaicMLが、OCIがAIトレーニングの最適な基盤であると述べる理由をご紹介します。
「Softdriveはビジネスコンピュータの未来です。クラウドPC市場では、パフォーマンスがすべてを意味します。OCIベアメタルサーバー上のNVIDIA GPUにより、当社のカスタマー・エクスペリエンスが劇的に向上しました」
共同創業者、Leonard Ivey氏
Softdrive
OCIでは、ワールドクラスのテクニカル・エキスパートが、お客様の立ち上げと運用をサポートします。導入計画から立ち上げまで、複雑な導入の技術的障壁を取り除くことでお客様の成功をサポートします。
OCIは、ハイパフォーマンス、一貫した低コスト、そして現在のオンプレミス・アプリケーションの容易なクラウドへの移行を希望する企業のために構築されています。
オラクル、Seshadri Dehalisan、Akshai Parthasarathy、Ruzhu Chen
Oracle Cloud Infrastructure(OCI)は、AIインフラストラクチャのパフォーマンスを測定する業界標準であるMLCommons Inference Datacenter v3.1 スイートにおいて、複数のベンチマークで優れた結果を達成しました。OCIは、NVIDIA H100 Tensor Core GPU、NVIDIA A100 Tensor Core GPU、NVIDIA A10 Tensor Core GPUなど、NVIDIA GPUを搭載した複数のシェイプでテストされ、次のような主な結果が得られました。