Michael Hickins | 内容策略师 | 2024 年 5 月 16 日
业务连续性将人员和技术汇集在一起,帮助企业为中断做好准备、克服问题并恢复正常运营。业务连续性计划包含了灾难恢复(也就是在意外中断后恢复 IT 服务),但其目标更广泛。业务连续性战略的目标是无论是否受到计划外灾难(如地震)或已计划事件(如应用主要基础设施补丁程序)的影响,都要保持企业正常营运。
企业高管使用业务连续性作为维护运营的范例,即使是能力暂时受限,正常业务流程意外或按计划中断的情况下也是如此。可能导致中断的因素包括自然灾害、网络攻击、武装冲突或其他不可抗力因素、全球疫情、风暴或洪水造成的停电、基础设施故障、已计划的维护活动,甚至是重要员工的意外离职。容器化和虚拟化等云计算技术可以帮助各种规模的企业以更经济的方式实施业务连续性措施。
关键要点
企业通常会采取相应的战略来应对生存威胁,如成熟的竞争对手、市场进入者、客户行为或品味的突然变化以及技术变革。
然而,另一种更难规划的威胁是意外事件,这种事件通常是临时发生的,会导致企业难以或完全无法继续照常运营。飓风和长时间的热浪等自然事件也可能导致设施或关键 IT 服务的电力中断。犯罪团伙、国家或地区也会中断 IT 运营或扣留数据以索要赎金。其他类型的事件也同样难以计划,例如关键人员的意外死亡或离职、战争或罢工导致的供应链中断以及消费者抵制。
因此,成功的企业会选择制定业务连续性计划,为管理层和其他员工提供一个模板,以便在发生此类异常事件时知道自己应该如何应对。
另一方面,没有制定业务连续性计划的企业将会面临重大风险。即使考虑了行业、公司规模和业务类型等变量,仅是企业的线上业务中断,每分钟就会造成 2300 美元至 9000 美元的损失,这还不包括声誉和商业关系受损的成本。
大多数企业都可以承受短时间内的商业活动放缓或停止,但银行、公用事业、医疗卫生提供商等行业的企业却耽搁不起。这些企业必须遵循法定要求,因此需要确保几乎可以在中断发生后立即恢复正常运营。
在大多数情况下,就算不考虑法规要求,任何企业都无法承受长期的业务中断,因为哪怕是再有耐心的客户,最终也会转向替代供应商。事实上,竞争对手的长期业务中断事件将成为业内同行获得市场份额的机会。
在制定业务连续性计划时,企业还应考虑到合作伙伴、供应商和敏感的供应链,因为这些环节发生中断可能会对下游产生不可挽回的连带影响。
简而言之,业务连续性指的是,尽管灾害、事件、犯罪行为或其他灾难暂时中断了正常的业务流程,但企业仍能继续运营。其中包括以下方面:
基本上,业务连续性计划 (BCP) 是领导层简单认同了超出自身控制范围且不可预见的破坏性事件是无法避免的,他们应该采取措施,确保企业能够继续开展业务,即使是在短时间内以有限的能力开展业务。
BCP 必须包涵灾难恢复 (DR) 计划,正如其名,该计划是一个在意外中断后恢复系统和数据的框架。种种事件都可能造成中断,其中包括飓风或龙卷风导致断电或员工无法前往企业办公地点;武装冲突导致供应链中断;网络攻击导致系统无法运行;全球疫情迫使人们居家办公。然而,更为常见的灾难导因却是人为错误,例如员工在不知情的情况下陷入网络钓鱼诈骗,或者数据库管理员在系统受到攻击后才应用软件补丁。
尽管未来事件确实无法预测,但如果不做好准备,不仅不明智,而且还会违反了许多行业的法律法规。这就像美国前总统德怀特·艾森豪威尔所说的:“计划无关紧要,规划才是一切。”
换句话说,意外事件可能会使许多计划的细节变得不再相关或不合时宜,但规划过程本身有助于企业为接下来可能发生的任何事情做好准备。对于规划,艾森豪威尔还提到:“如果没有规划,就无法开始工作,尤其是明智地工作。”
然而,灾难恢复是有效的业务连续性计划的关键组成部分,但不是唯一的关键组成部分。一个全面的业务连续性计划应包括:
当发生自然灾害或其他正常业务中断时,业务连续性规划对于企业的生存至关重要。事实上,根据美国联邦紧急事务管理局的数据显示,约有 25% 的企业在发生灾难后无法重新营业。有鉴于此,企业应采取以下步骤来构建有效的业务连续性计划:
最后,专家建议尽可能实现操作恢复自动化,让利益相关方和员工能够专注于整体业务连续性计划。例如,使用故障转移系统,在主服务器或网络发生故障时,自动切换到备份服务器或网络。自动化有助于提高产生积极且可预测的结果的概率。
业务连续性计划的成败取决于使用者的习惯。虽然我们几乎不可能预测实际灾难,但却可以模拟破坏性事件,让员工进行预演,提前熟悉必须采取的行动。在进行任何测试之前,利益相关方需要阅读并充分了解业务连续性计划。
测试需要评估计划的关键要素,包括对停电和 IT 故障的反应时间、内部和外部通信系统的可行性以及关键人员的报警和激活程序。
测试不仅可以让人们熟悉发生中断时的职责,而且还有助于发现计划中的差距或缺陷,以便在实际紧急情况发生之前予以解决。
此类测试的优秀实践包括:
BCM 应该至少每年进行一次测试,并建立与利益相关方分享和审核结果的框架。
对于某些行业,尤其是金融服务、公用事业和医疗卫生这几个行业,企业的业务连续性计划需要遵守地方、地区、国家和/或国际标准。非盈利性灾难恢复咨询机构 DRI International 发现,事实上,各个行业需要遵循的业务连续性管理法规超过 120 个,其中包括美国的证券交易委员会、金融业监管局和萨班斯—奥克斯利法案,以及巴塞尔协议 III 国际银行监管框架和国际标准化组织的 ISO 22301。
此外,其他业务连续性标准还包括美国国家标准与技术研究所的 SP 800-34 和 24762 以及美国国家消防协会的 NFPA 1600 连续性、紧急情况和危机管理标准。更通用的业务连续性法规则是欧盟的《通用数据保护条例》,该条例主要管理数据的存储和传播,因此也与业务连续性相关。
业务连续性和灾难恢复密切相关。两者都是企业为在潜在的灾难性业务中断中生存和快速恢复而制定的计划,而且鉴于企业对 IT 基础设施和应用的依赖,两者都与 IT 密切相关。
仅举一个例子来说明所有企业对 IT 的依赖程度,美国大多数专业体育场馆不再接受现金支付,这意味着他们需要运行计算机化的销售点系统来销售食品、饮料、体育用品等商品。
ISO 22301 将业务连续性定义为“指导组织在中断后响应、恢复、重启和复原到预定义的操作级别的已记录过程”。灾难恢复属于业务连续性的一部分,涉及在必要时逐步恢复 IT 服务。业务连续性与灾难恢复的一个主要区别在于,业务连续性考虑所有类型的业务中断,包括已计划的业务中断。
业务连续性取决于多种因素,包括企业所在的行业和中断本身的性质。但在这个信息化的时代,几乎所有业务连续性都在某种程度上依赖于 IT 职能。因此,对于企业来说,确保适当拥有冗余基础设施和数据复制至关重要,这不仅是为了支持正常业务流程,而且还要确保企业在发生中断事件时能够足够高效地运行。
RTO 和 RPO 越短,连续性就会越好。然而,随着每个 RTO 和 RPO 的目标变得越来越短,相关成本也会越来越高。这时,架构上的选择可以提供帮助。企业高管应该考虑使用云计算,更理想的是,使用容器进一步将关键数据与已中断的系统隔离开来。他们还应该寻找能够提供分散在不同地理位置的故障转移设施的云技术服务提供商。
从业务连续性角度来看,云计算的优势之一是所谓的“Pilot light 部署”,其中次要站点或企业工作负载的副本可以小到单个虚拟机 (VM) 或容器。在发生故障转移的情况下,如果需要,单个虚拟机或容器可以启动自动化流程,让您的企业启动其余基础设施。通过使用 pilot light 部署,企业只需为那一个资源付费,而不必复制整个系统。
另一个策略是所谓的“蓝绿”架构,其中企业只需要部署两个冗余的分布式环境,而无需部署四到六个用于开发和测试的冗余环境以及一个用于生产部署的单独环境。假设“蓝色”环境是生产,“绿色”是开发和测试。当开发完成后,“绿色”环境会成为主要生产环境,“蓝色”环境则用于开发、测试和灾难恢复。然后这个循环就会重复发生。
Oracle 使制定整体业务连续性计划变得更简单、更经济实惠。由于 Oracle Cloud Infrastructure (OCI) 比其他超大规模云开发得晚,因此具有更好的效率和可靠性、更低的延迟和更高的灵活性。除了容器外,OCI 还拥有灵活的虚拟机,这意味着企业可以根据需要购买计算能力。有的提供商提供的灵活性较低,要求客户预留实例空间,成本更高。OCI 在许多国家/地区拥有分散在多个地理位置的云技术区域,使客户能够遵守数据主权法规,同时仍将业务连续性保留在不同的位置。
Oracle 基于数十年的开发经验和实际的客户反馈,开发了称为 Oracle Maximum Availability Architecture (MAA) 的优秀实践。Oracle MAA 为在 Oracle Database 环境中实施高可用性、可扩展性、灾难恢复和数据保护解决方案提供了蓝图。
由 Oracle 开发人员团队维护的 Oracle MAA 优秀实践使用混沌工程方法和其他测试方法,不断验证诸如 Oracle Real Application Clusters 和 Oracle Data Guard 等 Oracle Database High Availability 特性的集成使用。
Oracle MAA 通过 Oracle Cloud Infrastructure Full Stack Disaster Recovery 服务进一步扩展。OCI Full Stack Disaster Recovery 可助您一键编排您在全球所有 OCI 区域间迁移的计算、数据库和应用。您可以自动执行一个或多个业务系统的恢复步骤,而无需重新设计或重新构建现有基础设施、数据库或应用,也不需要专门的管理和转换服务器。
此外,Oracle Autonomous Database 和 Oracle Exadata Database Service 内置冗余,这意味着客户无需为同一可用性区域中的数据复制额外付费。
随着技术景观不断发展,企业对业务连续性的期望发生了变化。例如,大多数企业过去经常从所谓的一级应用的角度考虑 RTO,但较便宜的云计算选项(如 pilot light)意味着企业可以为其所有应用创建业务连续性计划。
业务连续性的四大支柱分别有哪些?
基本上,业务连续性包括组建一个专注于业务连续性的团队,评估在颠覆性事件期间哪些业务领域风险更大,制定维持可行水平运营的计划,然后定期演练和测试该计划。
业务连续性和灾难恢复有什么区别?
业务连续性是一种组织方法,用于确保企业在任何中断期间(无论是否为计划中断)以某种能力继续运行,而灾难恢复则侧重于恢复 IT 系统。
为什么业务连续性计划很重要?
未制定更新业务连续性计划的企业会比制定了更新业务连续性计划的企业面临更大的风险。在更坏的情况下,由于正常运营发生重大意外中断,导致客户流向竞争对手、丢失数据并产生高昂的修复成本,他们可能会永久倒闭。
注:为免疑义,本网页所用以下术语专指以下含义: