Kubernetes Engine (OKE)

OKEは、クラウドネイティブなエンタープライズ向けKubernetes運用をあらゆる規模でシンプルにします。自動アップグレード、インテリジェントなスケーリング、組み込みのセキュリティにより、AIやマイクロサービスを含む最も要求の厳しいワークロードを導入、管理、拡張できます。



大規模なAI活用: OCI Kubernetes Engine (OKE) によりイノベーションを迅速に市場へ展開

12月11日、開発を加速し、本番環境におけるAIワークロードの管理を簡素化する方法について学びましょう。

開発を加速し、本番環境におけるAIワークロードの管理を簡素化する方法について学びましょう。

OKEが選ばれる理由

  • コストパフォーマンス

    8x8がOCIでパフォーマンスとTCOをどのように改善したかをご覧ください。

  • 自動スケーリング

    DMCCが弾力的スケーリングによりピーク需要に対応している方法をご覧ください。

  • 効率性

    CohereがOCI上でサービス効率をどのように改善したかをご覧ください。

  • 移植性

    CNCFがKubernetesワークロードを最小限の変更でOCIに移行した方法をご覧ください。

  • シンプルさ

    EZ Cloudが導入とDay 2運用をどのように効率化したかをご覧ください。

  • 信頼性

    B3がOCI上で厳格な可用性目標をどのように達成しているかをご覧ください。

  • 耐障害性

    Zimperiumがリージョン間フェイルオーバーと迅速なリカバリをどのように設計しているかをご覧ください。

お客様がOKEを選ぶ理由は、ビジネスの運用と成長に必要な成果と信頼性を提供するからです。

OCI Kubernetes Engine(OKE)は、Kubernetes PlatformKubernetes AI Platform準拠の両方について、Cloud Native Computing Foundation(CNCF)の認定を取得しています。

これらの認定は、OKEがオープン標準にコミットしていることを証明するものであり、クラウドネイティブおよびAI/MLワークロードが、業界のベストプラクティスに完全に整合し、グローバルなKubernetesエコシステム全体で相互運用可能なプラットフォーム上で動作することを支えるものです。

OCIの新しいAI Conformance認定について詳細をご覧ください

OKEのユースケース

AIモデル構築の加速

AIモデル構築プロセスは、データ準備と実験から始まります。このプロセスでは、安全で共有可能なGPUアクセスと、集約された管理のメリットを得られます。OKEにより、チームは次のことが可能になります。

– セキュアなマルチテナント・クラスタによりGPU利用率を最大化

– 一元管理された環境で効率的にコラボレーション

Kubeflowと統合し、モデルの開発とデプロイを効率化

OKEを使ってGPUベースのノード上でアプリケーションを実行する方法についてご覧ください。

OKE: AIと機械学習向けの専用設計

OCIの高性能インフラストラクチャを基盤に、OKEは次を提供します。

– 最新のNVIDIA GPU(H100、A100、A10など)へのアクセス

– 最大スループットと低レイテンシを実現する超高速RDMAネットワーキング

– 管理対象または自己管理のKubernetesワーカーノードによる完全な制御

Kubernetesクラスタを作成し、その中にKubeflowをインストールする方法についてご覧ください。

学習ワークロードの効率的なオーケストレーション

データサイエンティストは、学習ジョブのリソース活用を最大化する最適なスケジューリングを重視しています。OKEはVolcanoやKueueなどの高度なスケジューラをサポートし、並列および分散ワークロードを効率的に実行できます。

大規模なAI学習には、高速かつ低レイテンシなクラスタネットワーキングが不可欠です。OCIのRDMA対応インフラにより、OKEはGPUメモリとの間でデータをダイレクトに転送でき、レイテンシを最小化しつつスループットを最大化します。

OKE: 高性能AI学習に対応

信頼性の高いOCIインフラ上に構築されたOKEは、次のメリットを提供します。

– NVIDIA GPU(H100、A100、A10など)へのアクセス

– RDMAに支えられた超高速ネットワーク接続

– 自己管理のKubernetesノードでジョブを実行できる柔軟性

OKEを使用してGPUベースのノード上でアプリケーションを実行する方法についてご覧ください。

NVIDIA A100ベアメタルノードを使用してOKE上でGPUワークロードを実行する方法については、こちらのチュートリアルをご覧ください

効率的でスケーラブルなAI推論

OKEはKubernetesを最大限に活用し、推論Podを効率的に管理するとともに、需要に合わせてリソースを自動的に調整します。Kubernetes Cluster Autoscalerを使用すると、OKEはリアルタイムのワークロード需要に基づいて管理対象ノードプールのサイズを自動的に変更でき、推論サービスのスケール時に高可用性と最適なコスト管理を実現します。

OKEの高度なスケジューリングとリソース管理により、推論PodのCPUとメモリ割り当てを正確に設定でき、ワークロードが変動しても一貫した信頼性の高いパフォーマンスを維持できます。OKEでアプリケーションをデプロイおよび管理する方法をご覧ください

OKEは、スケーラブルでコスト効率の高いAI推論を実現する強力な選択肢を提供します。ポッド単位での迅速なスケーリングを可能にする仮想ノードのほか、GPUおよびArmベースのプロセッサの両方で実行できる柔軟性も備えています。

OCI Kubernetes EngineでNVIDIA NIM推論マイクロサービスを大規模にデプロイする方法をご覧ください

GPUノードでのAI推論の実行については、GPUベースのノード上でアプリケーションを実行する方法に関するドキュメントを参照してください。

OKEでアプリケーション移行を容易に

アプリケーションをOKEへ移行すると、次のことが可能になります。

  • 既存アプリをそのまま移行(再アーキテクチャ不要。リフト&シフトで移行してすぐに利用開始)
  • スケーリング、パッチ適用、アップグレードの組み込み自動化により、日々の運用を簡素化
  • インフラストラクチャ管理を効率化し、保守にかける時間を減らしてイノベーションに集中
  • 高度なオーケストレーションツールにより、リソース効率を高めコストを最適化
  • オラクルの高可用性グローバル・クラウド・リージョンにより、俊敏性、稼働率、レジリエンスを向上
  • オラクルのエンタープライズクラスの制御機能と認証により、セキュリティを強化しコンプライアンス対応を促進

OKEによるモダナイゼーションは、より迅速かつ安全な移行を可能にします。複雑な部分はオラクルが舞台裏で対応するため、簡単に移行でき、お客様は最も重要なこと、すなわち貴社のビジネスに集中できます。

OKE、OCI Bastion、GitHub Actionsを使用して、安全で自動化された移行を実現する方法については、ステップバイステップのガイドをご覧ください。

OKEの機能と管理の詳細は、公式OKEドキュメントをご覧ください。

OKEでマイクロサービス開発を加速

OKEでマイクロサービスを構築すると、チームは次のことが可能になります。

  • サービスを独立して開発・デプロイできるため、良いアイデアをより早くリリース
  • CI/CD向けOCI統合により、ビルドとロールアウトを自動化し、よりスムーズな更新を実現
  • ビジネスニーズに合わせてマイクロサービスごとにオンデマンドでスケールし、全体を一括で割り当てるようなリソース配分を解消
  • 俊敏性とレジリエンスを高めるためにアーキテクチャをモダナイズし、変化に対応できる基盤を整備

OKEでは、オラクルが提供する堅牢なツール群とエンタープライズ・セキュリティに加え、マイクロサービスに求められる柔軟性も得られます。アプリの構築、更新、拡張の方法を、より少ない負担で、より高い制御性のもとに変革できます。

マイクロサービスの開発と管理の詳細については、次をご覧ください。