OKE 可简化任意规模的云原生、企业级 Kubernetes 运营。您可以利用 OKE 的自动升级、智能扩展和内置安全性优势,轻松部署、管理和扩展您的要求严苛的工作负载,包括 AI 和微服务。
12 月 11 日,了解如何加速开发并简化生产环境中的 AI 工作负载管理。
了解如何加速开发并简化生产环境中的 AI 工作负载管理。
OCI Kubernetes Engine (OKE) 获得了云原生计算基金会 (CNCF) 的 Kubernetes 平台和 Kubernetes AI 平台合规性认证。
这彰显了 OKE 对开放标准的一贯支持,可确保您在一个完全遵循行业优秀实践且能够与全球 Kubernetes 生态系统互操作的平台上运行您的云原生和 AI/机器学习工作负载。
详细了解 OCI 新获得的 AI 合规性认证。
AI 模型构建流程的第一步是数据准备和试验,而这离不开安全、共享式访问 GPU 以及集中管理。OKE 使工作团队能够:
– 通过安全的多租户集群来充分提高 GPU 利用率
– 在一个集中管理的环境中高效协作
– 集成 Kubeflow,从而简化模型开发和部署工作
了解关于使用 OKE 在基于 GPU 的节点上运行应用的更多信息。
OKE 基于 OCI 的高性能基础设施构建,可提供以下优势:
– 访问新款 NVIDIA GPU(H100、A100、A10 等)
– 超高速 RDMA 网络,尽可能提高吞吐量并降低延迟
– 完整控制托管式或自管理式 Kubernetes 工作节点
了解如何创建 Kubernetes 集群并在其中安装 Kubeflow。
数据科学家依靠精心调度来充分利用资源,运行训练工作负载。OKE 支持 Volcano 和 Kueue 等高级调度工具,有助于高效运行并行和分布式工作负载。
大规模 AI 训练还离不开快速、低延迟的集群网络。得益于 OCI 基于 RDMA 的基础设施,OKE 支持直接与 GPU 内存交换数据,由此尽可能降低延迟和提高吞吐量。
OKE 基于可靠的 OCI 基础设施构建,可提供以下优势:
– 访问 NVIDIA GPU(H100、A100、A10 等)
– 超快速 RDMA 网络连接
– 灵活地在自管理式 Kubernetes 节点上运行训练作业
了解关于使用 OKE 在基于 GPU 的节点上运行应用的更多信息。
在 OKE 上使用 NVIDIA A100 裸金属节点运行 GPU 工作负载?本教程将为您展示操作方法。
OKE 充分利用 Kubernetes 来高效管理推理 Pod,通过自动化调节资源满足推理需求。利用 Kubernetes Cluster Autoscaler,OKE 能够基于实时工作负载需求自动化调整托管式节点池大小,在扩展推理服务的同时提供高可用性保障并优化成本。
OKE 的高级调度和资源管理功能支持精确地为推理 Pod 分配 CPU 和内存资源,即使工作负载波动时也能为您提供一致、可靠的性能。了解关于在 OKE 上部署和管理应用的更多信息。
OKE 为实现可扩展、成本高效的 AI 推理提供强大解决方案,不仅能通过虚拟节点实现快速的 Pod 级扩展,还具有出色的灵活性,支持使用 GPU 或 Arm 处理器运行工作负载。
了解如何使用 OCI Kubernetes Engine 来规模化部署 NVIDIA NIM 推理微服务。
有关使用 GPU 节点运行 AI 推理的更多信息,请查看使用 GPU 节点运行应用文档。
使用 OKE,您可以:
基于 OKE 实现应用现代化,意味着 Oracle 全面负责幕后的所有复杂工作,您可以更快速、更安全地迁移应用。使用 OKE 轻松迁移应用,您就可以专注于最重要的事情:您的业务。
请参见基于 OKE、OCI Bastion 和 GitHub Actions 的部署指南分步操作,安全、自动化地迁移应用。
有关 OKE 特性和管理的更多信息,请参见官方 OKE 文档。
使用 OKE 构建微服务,您可以:
选择 OKE,您可以畅享 Oracle 久负盛名的强大工具和企业级安全性保障,还可以获得微服务所需的灵活性。OKE 将改变您的应用构建、更新和扩展方式,为您解决几乎所有棘手难题,赋予您更强大的控制力。
更多微服务开发和管理资讯:
注:为免疑义,本网页所用以下术语专指以下含义:
众多客户之所以选择 OKE,是因为 OKE 既能交付出色成果,又具有强大的可靠性,支持企业轻松运行和扩展旗下业务。