Art Wittmann | 甲骨文公司技术内容总监 | 2025 年 2 月 9 日
每个企业都需要一个数据中心战略。该战略的灵活性、可扩展性和扩展性应该取决于组织,但随着技术对企业的重要性不断增长,需要制定坚实的计划来支持目标。
数据中心是集成和高效的技术运营的基础,但它不再是唯一的重点。相反,数据中心及其内部的系统需要适应更大的情况,通常包括基于云技术的资源,这些资源必须与拥有的数据中心中的资源相匹配。
数据中心战略是一个详细的计划,详细说明组织的技术将在何处运行,以及利益相关者将如何访问它。数据中心策略必须考虑与组织持续改进相关的技术和业务问题,包括以下要素:
关键要点
作为物理结构,数据中心具有局限性。扩大现有数据中心的占地面积、电力和冷却能力,是一项昂贵的提议。同样,制定计划时,迁出组织数据中心意味着可能需要花费数年的时间,将数据中心内运行的工作负载迁移、更新或转换为基于云技术的应用。
战略必须规划扩展和迁出现有设施的路径,包括云技术和托管设施如何发挥作用。
其他战略考虑因素,如连续性计划和一般业务演变,也将为数据中心战略提供信息。例如,在单个数据中心运行所有系统意味着可能会出现单点故障,这通常是一种无法承受的风险。对于许多组织来说,目标并不是拥有更多的数据中心空间。相反,组织可以结合使用现有空间与其他资源(包括云技术)以满足需求。
为您的组织制定合适的数据中心策略取决于如何确定工作负载的良好运行以及如何更好地实现您的技术策略。请考虑以下元素:
制定数据中心战略包括评估您当前的需求和设施,确定业务需求和增长预测,以及确定支持组织的技术和基础设施。请注意,如果您有数据中心,您就有数据中心战略 — 它可能与时俱进,与业务优先级保持一致,也可能已经过时,需要关注,但了解您所处的位置是创建可由 IT 管理层和其他利益相关者审核的文件的关键第一步。
1. 了解您当前的数据中心策略
此步骤主要涉及收集预算、过程和现有计划,并将它们提取到描述更高级别策略以及通常执行该策略所采取的步骤的单个文档中。如果这是第一次进行这样的努力,那么数据中心战略很可能归结为“在当前预算范围内支持现有工作负载”。对该项目来说,重要的是收集向业务合作伙伴提供的当前 SLA 和不久前的停机记录。目标很简单,就是回答这个问题:我们目前正在做什么,效果怎么样?
2. 使 IT 策略与业务目标保持一致
IT 客户对收到的服务有多满意?业务合作伙伴不太可能对您的数据中心本身有特定的观点,但他们会对其所支持的工作负载的价值和性能有强烈的看法。查询合作伙伴,了解应用响应能力、新版本的软件可用性、应用之间的集成质量以及应用生成的数据的实用程序。
如果应用在本地运行,这意味着升级速度会很慢,或者根本不会到来,那么现在是时候考虑切换到即服务模式了。同样,如果在数据中心运行应用程序会使成本高昂或性能不足(例如对于远程用户而言),那么是时候重新评估了。
3. 评估不断变化的 IT 环境
查看您的典型设备升级周期。您能否满足本地应用的存储和计算能力需求?您是否能够应对不断变化的应用重要性、可能增加的使用量、更新的法规、新的或更新的法规、新的工作负载以及路线图中的其他项目?所有这些都可能指示数据中心的新工作负载,或者指示某些工作负载迁移到云端。
4. 记录当前的 IT 资产
很难想象一个在企业层面工作的 IT 组织会没有库存,财务部门需要详细的 IT 资产列表,以便对设备进行适当的折旧。负责资产管理的团队也会跟踪公司拥有的资产以及项目所在的位置。通常,公司会跟踪软件订阅和许可证、位置、合同、支持、网络图等。
但是,库存控制列表通常没有达到 IT 所需的详细程度。相反,这些团队将需要资产列表以及当前固件版本以及可能已安装的附加设备,例如网络卡或其他总线卡。这些信息通常可以在您的编排系统中找到,这可能需要在每台服务器上运行的代理。这些代理将评估运行状况并报告任何配置更改。同样,您的编排系统也会知道网络硬件和存储系统。
如果您不以某种方式使用任何形式的编排软件,则可能有一个配置管理数据库。这些在虚拟化普及之前很受欢迎,它们也会告诉你你需要知道的数据中心运行的系统。
5. 评估当前数据中心选项
您的选项将取决于您的目标和其他因素,包括现有租赁、电力使用、设施状况、可用容量以及相对于业务和用户需求的位置。数据中心是否在做它需要做的事情,但可以利用更多的容量?解决这个问题可能需要增加电力和冷却系统,或者可能只是以不同的方式使用现有的冷却系统。
如果你想关闭你的数据中心,那么这是一个更大的任务。对于大多数企业来说,退出数据中心需要几年时间,这是一个非常高成本的提案。重点不在于数据中心有哪些选择,而在于重新思考如何处理工作负载以更好地适应业务需求。
如果情况特殊(比如您的数据中心未来可能会被瓦解),那么您可以开始确定每个工作负载的迁移目的地。您的选项包括托管设施、将工作负载迁移到公共或私有云技术服务,以及将工作负载转移到公司拥有的其他数据中心。如果情况迫在眉睫,评估每个选项的成本和时间至关重要。但在大多数情况下,更明智的做法是先确定企业对 IT 基础设施的需求,然后再思考您当前的数据中心是否符合长期规划。
6. 为应用程序创建计划
数据中心的分配不应推动应用计划。应用本身以及它们如何服务于企业才是重中之重。数据中心只是一个目前运行其中一些应用程序的空间。例如,如果仅仅因为数据中心出现问题(例如 HVAC 的生命周期即将结束),就考虑将 HR 系统迁移到云技术服务是错误的。另一方面,如果迁移到基于云技术的 HR 应用符合公司的利益要求,则该决策可能会影响您的数据中心策略。
迁移任何企业应用都是一项重要决策,可能会影响业务的长期成功,并且应该独立于数据中心策略的变化。确切地说:您的应用策略应推动您的数据中心策略。而不应该是相反的情况。
7. 构建自定义框架
每个组织的预算、现有资产、IT 资源、数据通信需求、应用和未来可扩展性期望的组合都是独一无二的。特别是当企业拥有一个以上的数据中心、使用托管设施并在云端运行应用时,对正在使用的资源进行定制描述是了解数据中心在未来应发挥的作用的重要一步。首先要了解应用情况,其次才是如何管理和交付工作负载。这将帮助您形成管理数据中心本身可能需要发生的更改所需的框架。
8. 将当前状态与定制方案进行比较
了解工作负载运行的总体情况后,是时候考虑场景了。虽然我们完全有理由问:如果我们没有这个数据中心,或者如果我们在数据中心增加一些关键工作负载,会怎么样?我们不必立即考虑到成本问题,但需要意识到,这种迁移是昂贵、耗时和资源密集型的任务。大型迁移所带来的收益也同样巨大。例如,完全退出数据中心意味着迁移数百甚至数千个工作负载,可能需要数年时间才能完成。
9. 如果需要,请联系专家
坦率地说,数据中心迁移并不容易。随着技术的快速发展以及预算和资源的限制,在做出关键决策时,人们轻则感到困惑,重则不知所措。幸运的是,广泛的顾问可以帮助指导甚至管理旅程。在许多情况下,聘请顾问的成本,即使只是一次性的理智检查,非常值得投资,而且往往比处理意想不到的挫折要低得多。
10. 选择策略并制定路线图
随着所有当前的状态和战略指导信息到位,现在是时候查看细节并制定路线图了。此阶段涉及关键步骤:保护和迁移数据,检查自动化选项,确定数据部门和部分的优先级,评估电力需求,以及构建时间表。每个组织都将努力制定一个独特的路线图,反映其现有配置、预算、应用连接、时间轴、安全需求、外部供应商合同、多云/混合连接以及内部功能需求的复杂性。完善的路线图可尽量减少风险和意外情况,同时让团队可以识别巨大的迁移挑战并主动制定计划。
有效的数据中心战略的关键组成部分包括清楚地了解您当前的基础设施和未来需求,建立强大的安全性和合规性功能,并利用高效且经济高效硬件和设施,确保灾难恢复计划到位,选择有能力的供应商合作伙伴,并雇佣或培训能够有效管理和维护数据中心基础设施的 IT 团队。
下面列出了有效数据策略的特定部分:
基础设施设计和可扩展性
了解您的计算、存储和网络需求为基础设施设计提供了指导,有助于为刷新计划提供信息。您的数据中心很可能被用于改进性能,因为技术会随着每次刷新周期而改进。新的用途和新的应用可能不适合这种进化模式。特别是,修改系统以响应客户查询(例如库存可用性、新订单或交付计划),可能会对应用产生更大的需求。应用和基础设施必须设计为处理新负载。
安全和合规性措施
每个数据中心元素都应符合基于新的技术和风险状态的安全标准。然而,许多组织将需要额外的层。政府合同或拥有医疗卫生、财务或其他类型的敏感数据需要专门的安全配置。此外,数据中心还必须满足区域合规性需求,例如欧盟的 GDPR 和《加州消费者隐私法》 (CCPA)。
能源效率和冷却解决方案
改变数据中心的冷却或备用电源系统是一个非常昂贵的提议,因此采取措施在设施的现有冷却和电源容量内工作可能会成为设备布局的关键因素。将产生大量热能的服务器分散到各个机架上是数据中心热点的第一道防线。如需将系统集中在一起,配备改良型冷却系统和高容量电源的机架可以成为扩展数据中心现有系统效用的一种方式。需要大量不同服务器、存储、网络、电源和冷却的新工作负载或独特工作负载可能适合托管设施或云端部署。
灾难恢复和业务连续性
任何数据中心,即使是在混合配置中,都需要一个强大的灾难恢复计划,其中包括自然灾害、连接问题和重大停电等不理想的紧急情况。业务连续性 (BC) 计划将包括数据中心业务支持的注意事项,并在数据中心无法访问时提供意外情况。
供应商选择和管理
企业对供应商的选择会显著影响数据中心的性能、成本效益和安全性。选择和管理供应商时需要考虑一些关键因素;首先要确保供应商路线图与您的战略目标保持一致,并确保提供商能够长期支持您的增长,同时要考虑行业专业知识、跟踪记录和财务稳定性等因素。评估供应商的技术能力,并跟踪提供高质量解决方案的记录。可用的 SLA 和定价模式是否符合您的特定要求?其安全实践是否符合组织的要求?重要的是,寻找致力于创新的供应商,并投资于人工智能、自动化和高级安全等新兴技术。
员工培训和技能发展
随着服务器承载的算力和散热量的增加,了解高密度数据中心的网络、冷却和配电动态是一项独特的技能,其需求将日益增长。管理访问和处理不可避免的系统中断也需要特殊的专业知识。拥有数据中心的企业必须提高员工技能,以满足人员配备要求。
数据中心和驱动它们的技术并没有那么快改变,尽管在供电、冷却、物理安全、机架紧凑等方面肯定有创新。但这往往是相关的趋势,推动了对数据中心资源的新思考。下面是一些值得关注的内容。
迁移到基于云技术的解决方案
将工作负载迁移到云端可以成为关闭数据中心、执行工作负载返工以更好地满足业务需求或提供更高可靠性和可扩展性的策略的一部分。在某些情况下,是时候放弃旧应用并迁移到基于 SaaS 的产品了,这些应用可以更好地与正在使用的其他应用集成,也可以更有效地内部处理负载变化。无论如何,了解移动工作负载的投资回报率非常重要。对于较旧的应用,更好的选择可能是让它们在原地运行。
绿色和可持续的数据中心
从可再生资源购买电力并实施设备回收计划可以显著提高数据中心的可持续性。选择能够在更高温度下运行的服务器和其他系统也可以是一种节省电力的方法。对于本地系统,通常会产生与环保工作相关的成本。如果环保是一个重要目标,请考虑对可持续发展进行重大投资的托管设施或云技术提供商。
边缘计算和微型数据中心
边缘计算是一种为系统和应用程序提供必要处理的方式,而无需将实时数据流发送回数据中心。仪器设备,如制造或能源生产中使用的设备,可能会产生如此多的数据,以至于将其发送回中央位置进行处理是不切实际的,并且会产生太多的延迟。边缘计算系统提供了强大的本地处理能力,以便在数据生成位置附近快速分析数据,仅将汇总数据发送回中央数据中心。虽然优势是显而易见的,但边缘计算系统对物理和网络安全以及大型数据中心面临的容错能力提出了许多相同的要求。
微型数据中心是自包含的系统,可使处理能力更接近最终用户或设备,尽可能减少延迟。它们通常是一组专为满足特定需求而定制的硬件,它们位于便携式或模块化机箱中,可以轻松部署在主数据中心环境之外。
超融合基础设施 (HCI)
超融合基础设施 (HCI) 可虚拟化计算、存储和网络资源,以便应用可以描述他们在软件中所需的资源,并在应用启动时分配这些资源。目标是创建一个系统,在其中工作负载可以在任何地方运行,并编排运行的地方纯粹是分配虚拟资源的问题。
数据中心中的人工智能和自动化
数据中心长期以来一直受益于自动化。通过为服务器、存储系统和网络创建标准配置,编排系统可以根据需求自动分配资源。如果没有这种自动化水平,数据中心就变得非常难以管理。超越自动化的步骤包括致力于能够自主查找和修复故障、优化操作和检测可能意味着任何事情的异常的系统,从即将中断的服务器到试图渗透系统的攻击者。
人工智能及其在数据中心中的使用方式是一个快速发展的领域,将推动重大创新。
Oracle Cloud Infrastructure (OCI) 是一个强大、灵活且经济高效的云技术平台。OCI 支持包括公有云、私有云、多云和分布式云配置在内的模型,具有本地 Cloud@Customer 选项以及主权和专用私有云,是可扩充和改进几乎任何数据中心策略的可扩展选择。
OCI 支持传统 VMware 资产和复杂、苛刻的 AI 计划等环境,可为客户提供支持技术目标所需的灵活性。开始免费试用。
那些希望将部分工作负载保留在本地并辅以“集众家之长”策略的企业正在采用多云策略。而且,现在的时机比以往任何时候都要好。
构建数据中心需要花费多少钱?
构建数据中心的成本因地点、设施是全新还是改造而异,以及机架数量、电源和冷却要求以及物理安全要求等总体规格而异。如果资本有限,构建您自己的数据中心的另一种方法是租用托管设施中的空间。这通常是一种经济的方式,可以获得高性能的现代数据中心的好处,而无需花费时间和金钱自行构建它。
如何优化数据中心?
优化数据中心涉及几个不同的因素。IT 团队应采用定期的逐步加入/逐步退出节奏,以使用新设备替换过时的硬件。在实际层面上,用于冷却和整合的硬件和技术可以减少设施需求和硬件占用。所有类型的资源使用都可以与自动化相关联,这有助于提高利用率并满足需求。
数据中心基础设施的三个主要组件是什么?
数据中心基础设施的三个主要组件是计算硬件、数据存储和网络本身。计算硬件可处理数据的处理和通信。数据存储管理网络中数据文件和应用程序的存储。该网络提供了在最终用户、服务器和连接到基础结构的所有其他组件之间传输数据的方法。
什么是托管与超大规模?
超大规模数据中心是大型设施,通常位于具有成本效益的地理区域,通常是区域中心的郊区。超大规模供应商通常属于为其提供支持的公司,在许多情况下,可以满足主要云技术提供商的需求。另一方面,托管的工作规模要小得多。托管是指组织从大型设施租赁数据中心空间,通过共享安全和设施等费用来降低成本。
注:为免疑义,本网页所用以下术语专指以下含义: