“We use OCI Kubernetes Engine (OKE) to orchestrate our GPU workloads, allowing us to sleep well at night.Now we think about business problems, not infrastructure problems.”
业务挑战
Inworld 是一个主流的游戏 AI 平台,开发人员能够嵌入 LLM、叙述和 AI 智能体,并且 AI 智能体还可以根据玩家行为不断进化,有助于打造深度互动体验。该公司已拥有成熟的 AI 模型库、稳健的商业策略和日益增长的行业关注度,但亟需将不同的模型连接到主干网,以训练和服务管道,支持未来的增长。作为一家年轻的公司,Inworld 尚未有计算 GPU 集群,仅依赖于提供商提供的 GPU,需要按小时计算,而且无法扩展。然而,随着业务不断发展,Inworld 越来越需要扩展算力以满足需求。
此外,工程团队需要不断移动数据,才能够在各个提供商之间进行开发、测试和训练工作。这影响了 Inworld 模型的 API 调用的功能稳定性,消耗量大量的资源。不仅如此,Inworld 的机器学习模型较为特殊,导致情况更加复杂了。该公司的机器学习模型包括语音识别、语境感知和语音合成模型,专为在高负载和各种游戏使用场景中的实时性能而设计。
2023 年的一次流量高峰事件,让 Inworld 管理层清楚意识到该公司需要更可靠的基础设施。在 YouTube 直播博主的助力下,Inworld 的需求也随即增长了 100 倍。有鉴于此,该公司优先考虑实施一个云基础设施,将所有模型和数据整合到一个集群中,希望在处理流量的同时也能够保持可靠性和延迟。
Inworld 为何选择 Oracle
Inworld 在评估了多家云技术提供商后,选择了 Oracle Cloud Infrastructure (OCI)。OCI AI Infrastructure 具备由超低延迟 RDMA 集群网络连接的高性能计算裸金属 GPU,可以满足 Inworld 的技术要求。此外,该公司也意识到,使用 OCI Kubernetes Engine (OKE) 可以简化开发工作。另一个关键原因则是 Oracle 的支持团队,该团队能够帮助 Inworld 优化部署。Inworld 的 AI 副总裁 Igor Poletaev 表示,自该公司开始与 Oracle 合作以来,甚至是在签署合同之前,他们就已经得到了非常好的支持。
成果
在将机器学习开发和生产统一迁移到 OCI 之后,Inworld 团队显著缩短了周期,降低了维护成本,并且能够将资源分配给更具创意的研发工作。在训练和服务专有和开源模型方面,该公司则选择从 256 个 GPU 集群开始。结果,OCI 成功帮助 Inworld 利用生成式 AI 构建非玩家角色 (NPC),提供真正身临其境的游戏体验。
客户快照
Inworld 总部位于美国加利福尼亚州山景城,致力于为电子游戏玩家提供了突破性的游戏机制、动态 AI 智能体以及随玩家行为不断拓展的世界。无论是解锁新的玩家体验还是简化游戏设计,Inworld 都可以利用 AI 帮助提升游戏开发水平。