1個のGPUから数万個のGPUまでサポートするOracle Cloud Infrastructure(OCI)のCompute仮想マシンおよびベアメタル・インスタンスは、コンピュータ・ビジョン、自然言語処理、推奨システムなどのアプリケーションを強化できます。OCI Superclusterは、対話型AIや拡散モデルなどの大規模言語モデル(LLM)のトレーニングのために、超レイテンシ・クラスタ・ネットワーキング、HPCストレージ、およびNVIDIA GPUを搭載したOCI Computeベアメタル・インスタンスを提供します。
OCIのスーパー・クラスタ・アーキテクチャについて学んだり、お客様であるAdeptとMosaicMLから話を聞くことができます。
各OCI Computeベアメタル・インスタンスは、OCIの超レイテンシ・クラスタ・ネットワークを使用して接続されており、1つのクラスタで最大32,768個のNVIDIA A100 GPUまで拡張できます。これらのインスタンスは、RDMA over Converged Ethernet (RoCE) v2を活用したOCI独自のハイパフォーマンス・ネットワーク・アーキテクチャにより、ノード間のレイテンシがマイクロ秒、GPU間の帯域幅が200Gb/秒のラインレートに近いRDMAスーパークラスターを実現できます。
OCIのRoCE v2の実装は以下を実現します。
Oracle Cloud Infrastructure上のハイパフォーマンス・コンピューティングは、複数の業界の数学や科学の複雑な問題を解決するために、費用対効果の高い強力なコンピューティング機能を実装しています。
OCIのベアメタル・サーバーとオラクルのクラスタ・ネットワーキングを組み合わせることで、超レイテンシ(数万コアのクラスタで2マイクロ秒以下)のRDMA over converged ethernet (RoCE) v2へのアクセスが可能になります。
このグラフは オラクルのクラスタ・ネットワーク・ファブリックのパフォーマンスを示しています。OCIは、1コアあたり1万セル以下の一般的なCFDソフトウェアを使用した場合、100%を超えるスケーラビリティを実現することができます。これは、オンプレミスのパフォーマンスと同等のものになります。また、仮想化によるペナルティが無いため、ベアメタルHPC マシンは、コストのかかるオーバーヘッド用にコアを確保することなくノード上のすべてのコアを使用できることも注目すべき特長です。
OCI上のHPCは、クラウドの弾力性と消費ベースのコストによって、オンプレミス・ソリューションのパフォーマンスに匹敵します。数万コアを同時に拡張するためのオンデマンドの可能性を提供します。
HPC on OCIでは、高周波プロセッサ、高速かつ高密度のローカル・ストレージ、高スループットかつ超低レイテンシのRDMAクラスタ・ネットワーク、およびジョブをシームレスに自動化・実行するためのツールにアクセスすることができます。
Exabyte.ioの分析によると、OCIは他のクラウドベンダーよりも低い、1.7マイクロ秒のレイテンシを提供することができます。RDMA接続のクラスタを実現することで、OCIはNVIDIA A100 GPUsを搭載したベアメタル・サーバのクラスタ・ネットワークを拡張しました。
この画期的なバックエンド・ネットワーク・ファブリックにより、お客様はMellanoxのConnectX-5 100Gb/秒ネットワーク・インターフェース・カードとRDMA over converged Ethernet (RoCE) v2を使用して、オンプレミスと同じ低レイテンシ・ネットワークとアプリケーション・スケーラビリティを持つクラスタを作成できます。
OCIのベアメタルNVIDIA GPUインスタンスは、機械学習、画像処理、超並列ハイパフォーマンス・コンピューティング・ジョブを活用するアプリケーションのためのハイパフォーマンス・コンピューティング・プラットフォームを、スタートアップ企業に提供します。GPUインスタンスは、モデルトレーニング、推論計算、物理および画像レンダリング、超並列アプリケーションに最適です。
BM.GPU4.8インスタンスは、8つの NVIDIA A100 GPUsを備え、2マイクロ秒以下のレイテンシでコンバージド・イーサネット(RoCE)上で動作するリモート・ダイレクト・メモリ・アクセス(RDMA)に基づきオラクルの低レイテンシ・クラスタ・ネットワークを使用します。お客様は、500以上のGPUクラスタをホストし、オンデマンドで容易に拡張できるようになりました。
Adeptを始めとする、ユニバーサルAIチームメイトの開発に取り組むML研究・製品ラボのお客様は、OCIとNVIDIAのテクノロジーのパワーを活用して、次世代AIモデルを構築しています。OCIのベアメタル・コンピュート・インスタンスのクラスタ上で数千のNVIDIA GPUを実行し、OCIのネットワーク帯域幅を活用することで、Adeptは大規模なAIおよびMLモデルを従来よりも高速かつ低コストでトレーニングできるようになりました。
「OCIとNVIDIAのテクノロジーが提供するスケーラビリティとコンピューティング・パワーを活用して、現存するあらゆるソフトウェア・アプリケーション、Webサイト、APIを使用するためのニューラル・ネットワークをトレーニングしています。また、このニューラル・ネットワークの基盤として、他のソフトウェア・メーカーが作成した機能を活用しています」
CEO、David Luan氏
Adept
「私たちは、OCIとの関係を長期的なものと捉えています。GPUを活用し、次世代の音声AIをトレーニングすることを楽しみにしています。将来の成長の観点からOCIが私たちにもたらすと考えられることはたくさんあります。」
SoundHound、共同創業者兼製品担当バイス・プレジデント、James Hom氏
「当社がオラクルを選んだのは、GPUの手頃な価格とパフォーマンス、そして広範なクラウド・フットプリントが理由でした。GPUは、ディープ・ニューラル・ネットワーク・モデルのトレーニングに非常に重要です。GPUのパフォーマンスが高ければ高いほど、より優れたモデルを作成することができます。また、当社は複数の異なる国や地域で運営しているため、それをサポートできるインフラストラクチャが必要でした」
共同創業者兼CEO、Nils Helset氏
DigiFarm
「同じ構成で実験した場合、A100の方が平均で約25%時間が短縮されました。さらに嬉しいのは、Oracle Cloudでのマシンのセットアップ・プロセスがスムーズなことです」
大学院生リサーチ・アシスタント、Shuyang Cao氏
ミシガン大学
OCIでは、ワールドクラスのテクニカル・エキスパートが、お客様の立ち上げと運用をサポートします。導入計画から立ち上げまで、複雑な導入の技術的障壁を取り除くことでお客様の成功をサポートします。
OCIは、ハイパフォーマンス、一貫した低コスト、そして現在のオンプレミス・アプリケーションの容易なクラウドへの移行を希望する企業のために構築されています。
OCIバイス・プレジデント兼特別エンジニア、Jag Brar、および、OCIシニア・バイス・プレジデント兼チーフ・テクニカル・アーキテクト、Pradeep Vincent
OCIは、RDMA(Remote Direct Memory Access)をサポートした超ハイパフォーマンス・ネットワークであるクラスタ・ネットワークをはじめ、多くのユニークなサービスを提供しています。以前の「第一の原則」の動画とブログ「パブリック・クラウドにおけるハイパフォーマンス・ネットワークの構築」では、OCIのクラスタ・ネットワークがRDMA over Converged Ethernet (RoCE) を使ってRDMAをサポートする仕組みについて説明しています。
全文を読む