Alan Zeichick | 开发人员内容战略专家 | 2023 年 3 月 9 日
对于当今企业而言,本地部署数据中心可称得上是一个负担。无论是全球性企业还是只拥有一个数据处理中心的中型企业,搭载高速运转磁盘的机架、嗡嗡作响的风扇和不断闪烁的信号灯不仅会拖累财务,在劳动力市场紧张的大背景下导致人员配置问题,威胁业务灵活性,还会带来令人担忧的安全责任。相比之下,云计算既能提供本地部署数据中心的所有优势,又能缓解所有这些劣势。问题在于,企业该如何从本地迁移到云端,尤其是在尽可能减少业务中断的情况下关停本地数据中心?
数据中心是一座部署了企业计算资源(包括服务器、存储和网络设备等硬件)以及相关基础设施(面向供电、制冷和供热设备以及数据备份和灾难恢复系统)的建筑。其中,网络包括数据中心内部设备之间和数据中心与互联网之间的高容量连接 — 当一个企业拥有多个数据中心时,还包括数据中心之间的高容量连接;服务器一方面负责面向公众的运营工作,例如电子商务和 Web 网站,一方面运行内部应用,例如企业资源计划 (ERP)、客户关系管理 (CRM)、人力资源、电子邮件和生产工作流。
数据中心还能运行高度专业化的行业应用,例如高速金融交易系统;工程工具,例如汽车或航空航天行业中的计算流体动力学系统;制药行业中面向药物研发工作的高级建模和模拟框架。在安全性上,数据中心专为物理安全而构建,既能防止入侵者篡改硬件,又能利用先进的网络安全技术防范黑客攻击。
现实中,一个大型组织可能拥有多个数据中心,通过它们来平衡工作负载、提高性能、尽可能减少灾难引发的停机,以及满足数据驻留和其它合规要求。小型组织则可能只有一个数据中心,一般将数据中心设立在自己的总部大楼上,或者设立在异地主机托管设施中。从构成上看,一个数据中心可能部署有数以千计的服务器,配备有必要的机架、线路、网络设备、存储硬盘、备份存储资源、发电机、冷却塔和管理工作区。
关键要点
任何一个企业都不能指望只建设一次数据中心就在未来几年内坐享收益,不再进行任何投资。与所有物理结构一样,数据中心需要持续关注、维护和改进,而所有这些都可能耗费巨额成本,离不开专业人员的参与。此外,随着设施老化以及基础设施和设备逐渐过时,数据中心维护也可能随着时间推移变得越来越困难。现实中,企业一般需要安排内部人员,或者聘请专业服务提供商来处理这些问题。相比之下,在云计算机场景下,很多挑战和问题都由云技术供应商负责,企业可以直接使用服务并按使用付费。
一个数据中心内部可能部署了数百乃至数万台计算设备,每台计算设备都由硬盘驱动器、电源、风扇和其它不可避免会损坏的部件构成。几乎可以确定的是,这些设备在几年内都会过时。因此,尽管企业可通过可在发生故障时自动投入运行的备用容量和"热备件"确保数据中心持续运转,工作人员仍要投入大量时间来更换磁盘和电源、诊断间歇性故障、执行升级、应用安全和性能补丁、交换组件、重新配置设备以及执行其它维护工作。此外,除了计算硬件以外,数据中心所有者还需要维护物理建筑,包括进行复杂的物理安全控制,满足配电、供暖和冷却、布线、防火、互联网和内部网络连接等需求。
通过为服务器和路由器打补丁来防御最新安全漏洞是一项基本网络安全要求,然而很多企业的数据中心工作人员难以及时安装补丁,导致系统暴露在攻击风险之下。现实中,一些广为人知的客户数据泄露事件都是因为没有及时打补丁造成的。
正常情况下,企业的计算需求几乎肯定会随着时间推移而增长,这就需要购置和安装新的硬件机架,使用更强大的设备替换现有硬件。然而,选择、订购、构建、运输、安装/预配和集成新设备这个过程可能耗费数周或数月,甚至更长的时间。这会极大地拖累企业行动,除非数据中心拥有足够的超额容量来满足未来预期需求。此外,当计算需求的增长超出数据中心的物理规模后,企业还面临重大的地产和资本投资决策。
一旦在数据中心内部安装了硬件和其它基础设施,企业就很难,甚至可能要投入大量成本来移除它们,尤其是在计算需求发生变化时。从短期来看,企业也面临数据中心规模收缩问题,例如当按照季节性交易工作负载要求配置服务器容量后,在其它时期该如何处理多余容量和设备?(一个有趣的事实:早在 20 世纪 80 年代就出现了一些初始形态的在线服务来帮助企业将闲置的多余计算能力货币化。)
数据中心的物理安全需求通常变化缓慢,无论是键盘取代钥匙锁,智能徽章取代键盘,还是视网膜扫描或指纹取代智能徽章,都经历了较长的时间。相比之下,无论是网络犯罪分子通过网络钓鱼潜入员工笔记本电脑,对网站进行暴力攻击,还是利用新发现的漏洞攻击服务器操作系统或设备固件,数字安全挑战的变化速度都更快。因此,企业需要持续进行数据中心安全监视,使用新的工具防范快速变化的安全威胁。
即使采用了最新的自动化技术,数据中心仍然离不开工作人员。从安全运营中心 (SOC) 的全天候人员到负责系统升级工作的专家,数据中心的正常运转需要各种技术人员协同工作。这些人员既包括企业员工,也包括合同工或托管服务提供商人员。而无论是对于企业还是服务提供商来说,招聘、留住和培训这类人才都要投入高昂的成本。在一些市场上,企业甚至找不到足够的合格候选人。
时至今日,数据中心已经为各类企业和组织服务了数十年,它们提供的计算基础设施促进了在线服务的巨幅增长,提高了自动化水平和员工生产力,加速了数字化转型。不过,与云计算相比,数据中心属于旧式系统,对于今天的企业越来越像是一种负担。现实中,企业可能出于多种原因制定数据中心关停策略,这些原因包括:
技术进步和商业机会可能会“说服”企业从物理数据中心迁移到云端,但具体何时迁移可能会受到非技术因素的影响,例如数据中心设施租约。数据中心设施租约是一种长期租约,通常为 5 到 20 年,而租约到期相当于为企业提供了一个节省成本的契机。对于可能耗时一年或更长时间的数据中心关停过程,租约日期可以发挥重要的激励作用,促使企业重新审视硬件采购计划、维护合同、服务提供商协议、折旧时间表和人员配置计划,制定云迁移计划。
通过有机发展和收购,企业会随着时间推移不断壮大。相应地,企业可能会在全国或全球设立多个数据中心,每个数据中心负责不同的业务职能。其中,收购可能导致多个设施托管多个企业资源规划 (ERP) 应用或数据库服务器的情况,或者一个设施托管传统电子商务交易系统,另一个设施托管新库存管理系统的情况。这会导致企业错失规模经济效益。但是,无论是在技术上还是运营上,企业往往难以整合多个数据中心,减少设施数量。对此,逐个将数据中心迁移到云端不仅能实现整合目标,节省大量成本,避免物理迁移混乱,企业也无需投入大量资金,通过更大规模的设施来整合数据中心。
数据中心硬件的使用寿命是有限的,这种有限通常是因为技术过时而不是硬件彻底报废。数据中心设备预期/计划寿命终止可为云迁移提供一个契机。导致硬件过时的原因有很多,例如系统不支持新的使用模式(如路由器无法提供边缘计算服务);旧型号设备的效率低于新型号(如数据库服务器的存储容量较低,或使用速度较慢的旋转硬盘而不是速度更快的固态硬盘);计算架构发生变化(如从 x86 服务器转换到 ARM 设备)。另外,数据中心的安全措施、能源效率、合规性、灾备,甚至建筑本身可能也存在使用寿命问题。
数据中心设备的使用寿命有多长?一般来说,主要基础设施(例如维护良好的供暖、制冷、电力和安全系统)需要每十年或更长时间进行一次重大升级;机架上的设备需要在投入使用的三到五年后升级为新的改良型号。
当使用寿命终止时,更换硬件机架不仅可能耗费高昂成本,需要投入大量人力,而且还会中断业务运营。在设备使用寿命终止,需要进行重大硬件升级时,企业可能就会发现云迁移更具吸引力和成本效益,可以“趁机”制定迁移计划。
对于数据中心环境的运营难题,一种最简单且有效的方法是完全关闭数据中心,将应用、数据和服务迁移到云端。通过云迁移,资本支出 (CapEx) 模式将转变为可管理的运营支出 (OpEx) 模式,同时企业的架构师、工程师、开发人员和管理员可以专注于交付服务、解决业务问题和响应商机。
此外,在数据中心中,有一部分工作无法为企业带来竞争优势,例如供应电力、冷却能力和带宽等基础设施;布线;更换损毁部件;诊断间歇性网络问题;防御针对互联网路由器的拒绝服务攻击;制定防洪防火计划;雇用硬件技术人员和保安等等。而迁移到云端后,企业完全不必担心这些问题。这些工作将完全由云技术供应商负责 — 除了超大规模企业外,这意味着规模经济。
最后,得益于云技术供应商固有的灵活性,企业的系统管理员只需几分钟(而不是数月)即可启动新的服务器或其它功能;当不需要峰值容量服务时,企业可以释放服务,节约成本,然后在下次需要时重新启用;当需要在短时间内使用服务时,例如年终财务关账或季节性活动期间,企业可以按天、按周或按月来添加服务,不需要像在数据中心环境下那样额外购买硬件。
相比办公室搬迁,关停数据中心更为复杂。其中,避免面向客户、合作伙伴和员工的服务发生中断至关重要,而这需要确切了解数据中心在提供哪些服务以及如何提供这些服务。
对于数据中心提供的每一项服务,企业都必须做出关键决策,选择将服务“直接迁移”到云端;将服务迁移到云原生基础设施,例如从本地部署数据库系统迁移到云技术数据库;还是完全重新设计应用,以使用新的,更具可扩展性的面向服务的模式(这需要更多时间来创建应用)。对于 ERP 和人力资本管理 (HCM) 等应用,企业还可以使用软件即服务 (SaaS) 应用替换传统的本地部署应用。由于完整部署在云端,软件即服务 (SaaS) 应用不需要数据中心,支持客户或员工直接通过浏览器访问。
以下 8 个关键步骤可帮助企业更轻松地关停数据中心。
迁移的第一步是了解数据中心,这需要对硬件、软件和服务(包括外部服务提供程序)进行清点,需要了解相关合同,需要了解数据存储位置、数据格式、备份位置、系统间的依赖关系,以及是否存在合规或数据驻留等特定问题。企业可使用自动化资产发现工具完成这项工作,高效洞悉整个数据中心。
第二步是审查租约、折旧计划、服务提供商合同和许可。现实中,一些提供商可能会随企业一同迁移上云,另一些提供商可能无法迁移,或者企业不希望与其一同迁移。
如果之前未执行这一步工作,请确保组织中的每个人都参与迁移过程,为新战略提供相应支持。一般来说,这一步需要董事会级别的人员参与。
审查每一个应用,选择适当的云架构。对于数据,请定义是否需要修改数据格式或结构来适应新的应用或存储模式,定义具体的行动方案。如何移动数据?哪些系统需要访问其它系统,具体要访问哪个系统,如何在云端建立系统间访问关系?最终用户如何访问应用、数据和服务?安全架构是什么样的?
并非所有员工的技能都适用于新模式,也并非所有员工都对新模式感兴趣。通常情况下,很多员工都对云技术服务的优势感兴趣,企业可以重新培训员工,帮助员工掌握所需的专业知识和认证。
从自动化软件系统到高级咨询服务,如今很多云技术供应商和第三方供应商都提供了丰富的工具和专业支持来帮助企业关停数据中心,迁移到云端。尽管企业最了解自己的资产和需求,但云技术供应商和专家拥有丰富的迁移经验,请充分利用它们的专业知识。
企业通常无法一次性完成所有迁移工作,或者至少不应该采用这种方式。请从简单、孤立的应用、数据和服务开始,这可以振奋团队和员工的信心,积累体验,在短期内取得成效。分阶段迁移可能会很棘手,因为它会导致在数周甚至数月的时间里一些系统在云端运行,另一些系统仍在数据中心运行。当迁移不同步时,请务必保证已迁移和未迁移系统之间无缝互操作。通过确保过渡阶段内所有一切都正常运行,企业无论在当下还是未来都能获得弹性。
在完成所有迁移工作后,请关闭数据中心,处置所有剩余资产,走进光明的新未来。
本地部署或托管数据中心是旧式计算的产物,现在是时候迁移到云端了。过去,自有数据中心带领企业进入了初始的计算机驱动自动化和数据驱动决策时代。如今,数据中心运营成本高昂,需要企业持续执行大量的维护和升级工作,不但无法灵活应对挑战,而且不利于企业抓住和利用新的机遇。由于关停数据中心可能耗时数月时间,请立即着手制定计划,避免在维护和升级现有设施上耗费更多资金。
现实中,企业可能出于多重考虑而希望关停数据中心,例如节省成本、提高敏捷性以及增强可扩展性、可靠性和安全性。对此,Oracle Cloud Infrastructure (OCI) 可帮助企业彻底关停数据中心或大幅缩减数据中心空间,轻松实现以上目标。OCI 的新一代云技术专为现代应用而设计,它不仅支持公有云技术和私有云技术部署,包括在企业自有设施内部部署云技术服务,还能提供丰富的功能,包括多云集成和面向高容量 AI 工作负载的高性能计算。
关停数据中心的第一步是什么?
在制定数据中心关停计划时,首先请全面调查企业中的应用、数据、服务、用户和安全需求。后期,企业需要基于调查结果,事无巨细地制定迁移计划 — 无论是将现有应用和数据“直接迁移”到云端,部署新应用,还是从零创建新应用。
数据中心内部设备的使用寿命有多长?
HVAC(供暖、通风和空调)系统、配电和物理安全系统等主要基础设施可使用 10 年以上,前提是必须定期维护。计算设备(如服务器、路由器、交换机和存储)按照一般经验,使用寿命通常为 3 到 5 年。
谁负责云端安全?
云基础设施(服务器、网络基础设施等)的物理安全由云技术供应商负责,软件和服务的安全责任由云技术供应商和企业共同承担。
关停一个数据中心需要多长时间?
完全关停一个数据中心一般需要数月时间。对于较大规模的 IT 基础设施,这可能需要数年时间。具体的时间长短完全取决于数据中心的规模、复杂性和数据量。其中,全面清点、制定计划、创建和测试新软件(如有需要)以及培训工作将占用大部分时间。而一旦完成所有的规划工作,实际迁移和关停工作在短时间内就能完成 — 就像搬迁办公室一样。
注:为免疑义,本网页所用以下术语专指以下含义: