什么是业务连续性?提供您想知道的一切信息

Michael Hickins | 内容策略师 | 2024 年 5 月 16 日

业务连续性将人员和技术汇集在一起,帮助企业为中断做好准备、克服问题并恢复正常运营。业务连续性计划包含了灾难恢复(也就是在意外中断后恢复 IT 服务),但其目标更广泛。业务连续性战略的目标是无论是否受到计划外灾难(如地震)或已计划事件(如应用主要基础设施补丁程序)的影响,都要保持企业正常营运。

什么是业务连续性?

企业高管使用业务连续性作为维护运营的范例,即使是能力暂时受限,正常业务流程意外或按计划中断的情况下也是如此。可能导致中断的因素包括自然灾害、网络攻击、武装冲突或其他不可抗力因素、全球疫情、风暴或洪水造成的停电、基础设施故障、已计划的维护活动,甚至是重要员工的意外离职。容器化和虚拟化等云计算技术可以帮助各种规模的企业以更经济的方式实施业务连续性措施。

关键要点

  • 业务连续性需要提前创建流程,以便在意外或按计划中断影响正常运营时保持可用性。
  • 业务连续性计划是一种方法,旨在确保企业具有维护关键职能的流程。
  • 业务连续性的规划工作包括组建团队、评估风险、确定优先运营以及制定灾难恢复计划,以便能够及时使关键 IT 基础设施和数据重新上线。
  • 业务连续性并不是一劳永逸的命题。企业必须定期对计划进行演练和测试,让员工熟悉自己的职责,发现并弥补计划中的不足。
  • 新一代云计算,特别是容器化,使业务连续性和灾难恢复比十年前更有效率,成本效益也更高。

业务连续性详解

企业通常会采取相应的战略来应对生存威胁,如成熟的竞争对手、市场进入者、客户行为或品味的突然变化以及技术变革。

然而,另一种更难规划的威胁是意外事件,这种事件通常是临时发生的,会导致企业难以或完全无法继续照常运营。飓风和长时间的热浪等自然事件也可能导致设施或关键 IT 服务的电力中断。犯罪团伙、国家或地区也会中断 IT 运营或扣留数据以索要赎金。其他类型的事件也同样难以计划,例如关键人员的意外死亡或离职、战争或罢工导致的供应链中断以及消费者抵制。

因此,成功的企业会选择制定业务连续性计划,为管理层和其他员工提供一个模板,以便在发生此类异常事件时知道自己应该如何应对。

另一方面,没有制定业务连续性计划的企业将会面临重大风险。即使考虑了行业、公司规模和业务类型等变量,仅是企业的线上业务中断,每分钟就会造成 2300 美元至 9000 美元的损失,这还不包括声誉和商业关系受损的成本。

为什么业务连续性对企业很重要?

大多数企业都可以承受短时间内的商业活动放缓或停止,但银行、公用事业、医疗卫生提供商等行业的企业却耽搁不起。这些企业必须遵循法定要求,因此需要确保几乎可以在中断发生后立即恢复正常运营。

在大多数情况下,就算不考虑法规要求,任何企业都无法承受长期的业务中断,因为哪怕是再有耐心的客户,最终也会转向替代供应商。事实上,竞争对手的长期业务中断事件将成为业内同行获得市场份额的机会。

在制定业务连续性计划时,企业还应考虑到合作伙伴、供应商和敏感的供应链,因为这些环节发生中断可能会对下游产生不可挽回的连带影响。

业务连续性的要素

简而言之,业务连续性指的是,尽管灾害、事件、犯罪行为或其他灾难暂时中断了正常的业务流程,但企业仍能继续运营。其中包括以下方面:

  • 评估生产、客户服务、销售和营销等职能,并按优先级排序。在紧急情况下,您的企业可能无法立即重启并运行所有职能,因此了解哪些职能对企业成功更重要,对于在一开始的几分钟、几小时和几天内存活下来至关重要。
  • 评估关键供应商和服务提供商的适应性和灵活性。确保他们有自己的业务连续性计划,比如 IT 提供商需要有冗余、数据复制等灾难恢复流程,以确保您的业务不会受到其运营中断的影响。
  • 确保企业符合相关的本地、地区、国家和国际标准;这一点在金融、医疗卫生和公用事业领域至关重要。

业务连续性计划 (BCP) 包含了哪些内容?

基本上,业务连续性计划 (BCP) 是领导层简单认同了超出自身控制范围且不可预见的破坏性事件是无法避免的,他们应该采取措施,确保企业能够继续开展业务,即使是在短时间内以有限的能力开展业务。

BCP 必须包涵灾难恢复 (DR) 计划,正如其名,该计划是一个在意外中断后恢复系统和数据的框架。种种事件都可能造成中断,其中包括飓风或龙卷风导致断电或员工无法前往企业办公地点;武装冲突导致供应链中断;网络攻击导致系统无法运行;全球疫情迫使人们居家办公。然而,更为常见的灾难导因却是人为错误,例如员工在不知情的情况下陷入网络钓鱼诈骗,或者数据库管理员在系统受到攻击后才应用软件补丁。

尽管未来事件确实无法预测,但如果不做好准备,不仅不明智,而且还会违反了许多行业的法律法规。这就像美国前总统德怀特·艾森豪威尔所说的:“计划无关紧要,规划才是一切。”

换句话说,意外事件可能会使许多计划的细节变得不再相关或不合时宜,但规划过程本身有助于企业为接下来可能发生的任何事情做好准备。对于规划,艾森豪威尔还提到:“如果没有规划,就无法开始工作,尤其是明智地工作。”

然而,灾难恢复是有效的业务连续性计划的关键组成部分,但不是唯一的关键组成部分。一个全面的业务连续性计划应包括:

  • 业务影响分析。确定哪些功能和流程对企业的生存至关重要,并了解中断会对其造成哪些影响。业务影响分析应该是一种持续的过程,在业务扩展到新的产品市场或地理区域,以及添加诸如新的数据中心或云基础设施等核心技术的时候尤为重要。例如,那些在经常遭受热带风暴袭击的地区拥有关键业务的企业,应考虑在典型风暴路径以外的地区建造或租赁设施。
  • 沟通计划。为内部和外部利益相关方建立明确的沟通渠道,以便在危机期间及时提供准确的信息。
  • 员工福祉和安全。为远程办公做好准备,优先考虑员工及其家人的健康和安全而不是其他因素。
  • 风险评估和管理。评估企业所依赖的重要客户、供应商或其他合作伙伴如何应对突发的业务中断,供应链可能受到哪些的影响,可能出现哪些法律问题,以及企业可能面临哪些自然灾害和其他中断的风险。
  • 供应链韧性。制定供应链风险管控战略,包括确保供应商和采购选项多样化。同时,也要考虑到企业必须迁移到一个或多个次要地点的情况。
  • 培训和意识。定期对员工进行培训,让他们了解自己在发生灾难或其他重大业务中断时的职责,熟悉应遵循的程序和准则。

制定业务连续性计划

当发生自然灾害或其他正常业务中断时,业务连续性规划对于企业的生存至关重要。事实上,根据美国联邦紧急事务管理局的数据显示,约有 25% 的企业在发生灾难后无法重新营业。有鉴于此,企业应采取以下步骤来构建有效的业务连续性计划:

  1. 委任业务连续性经理 (BCM),并确保该决定得到了高管的全力支持。在大型企业中,BCM 一般直接向首席财务官汇报工作。
  2. BCM 需要组建一个包含了各个关键业务职能代表的团队,例如制造、销售、客户服务、IT、运营、人力资源和营销等。
  3. 然后,该团队将致力于确定对持续运营至关重要的业务领域,例如 IT、电信基础设施、建筑管理、供应商管理和薪资,以及可带来大量收入的客户。通常,企业会将连续性计划与两个指标挂钩:恢复时间目标 (RTO) 和恢复点目标 (RPO)。RTO 是使关键 IT 系统重新上线所需的最长时间。RPO 是指在损害超出确定的可接受限度之前,企业可以承受的数据丢失量。
  4. 创建关键利益相关方列表,其中包括他们的完整联系信息和责任领域。BCM 应确保列表的实体副本可以在许多指定位置轻松访问。换句话说,在发生中断时,以数字版本保存的该列表乃至其他任何文档都可能无法使用。
  5. 确定在发生中断时,哪些业务领域需要优先重启,以及当前部署是否允许在规定的 RTO 时间范围内恢复。业务部门或业务线团队是否需要简单的备份、将数据复制到辅助站点或实时数据保护和恢复?举个例子,如果确定企业无法接受电商网站发生超过一个小时的故障,但该网站的当前部署需要四小时的恢复时间,那么 IT 部门就需要对该网站进行重构或寻找新的提供商。此外,我们也需要了解企业愿意承担哪些风险,因为对冲这些风险的成本太高,需要通过其他方式来抵消,比如购买保险。
  6. 为整个企业以及各个职能创建沟通计划。确保关键利益相关方了解这些计划,并在发生中断时访问这些计划。
  7. 为了应对长时间无法进入主要办公室的情况,需要确定临时办公地点(包括居家办公)。制定计划,从而能够尽快在这些位置提供关键数据和应用。
  8. 审查关键供应商和服务提供商,确保他们拥有自己的业务连续性计划,以便在他们遇到重大中断事件时能够保护您自己的业务。
  9. 根据计划进行演练,为所有利益相关方演示在发生中断时必须采取的步骤。制定时间表,每年至少对计划进行一次测试,以识别和控制供应商、人员或设施之间的变化。

最后,专家建议尽可能实现操作恢复自动化,让利益相关方和员工能够专注于整体业务连续性计划。例如,使用故障转移系统,在主服务器或网络发生故障时,自动切换到备份服务器或网络。自动化有助于提高产生积极且可预测的结果的概率。

测试业务连续性计划

业务连续性计划的成败取决于使用者的习惯。虽然我们几乎不可能预测实际灾难,但却可以模拟破坏性事件,让员工进行预演,提前熟悉必须采取的行动。在进行任何测试之前,利益相关方需要阅读并充分了解业务连续性计划。

测试需要评估计划的关键要素,包括对停电和 IT 故障的反应时间、内部和外部通信系统的可行性以及关键人员的报警和激活程序。

测试不仅可以让人们熟悉发生中断时的职责,而且还有助于发现计划中的差距或缺陷,以便在实际紧急情况发生之前予以解决。

此类测试的优秀实践包括:

  • 桌面预演。这包括在线下或线上会议中,向关键利益相关方介绍破坏性事件,然后要求每个人根据已经阅读的业务连续性计划说出他们需要采取的行动。
  • 实际演示。这也被称为模拟灾难恢复测试,是一个更全面的桌面预演版本。在此演习中,员工将实际预演发生中断时需要采取的步骤。例如,设施管理人员需要演示如何确保备份生成器正常运行,而 IT 人员则需要使用联系信息文档与您的数据中心或云技术服务提供商取得联系。
  • 第三方测试服务。由外部供应商评估企业的员工和关键利益相关方在破坏性事件(包括勒索软件和其他恶意行为)模拟中的反应。专门从事网络安全的企业可以对员工进行测试,以确保他们不会陷入网络钓鱼或其他心理陷阱,导致 IT 系统遭到破坏。

BCM 应该至少每年进行一次测试,并建立与利益相关方分享和审核结果的框架。

业务连续性标准

对于某些行业,尤其是金融服务、公用事业和医疗卫生这几个行业,企业的业务连续性计划需要遵守地方、地区、国家和/或国际标准。非盈利性灾难恢复咨询机构 DRI International 发现,事实上,各个行业需要遵循的业务连续性管理法规超过 120 个,其中包括美国的证券交易委员会、金融业监管局和萨班斯—奥克斯利法案,以及巴塞尔协议 III 国际银行监管框架和国际标准化组织的 ISO 22301。

此外,其他业务连续性标准还包括美国国家标准与技术研究所的 SP 800-34 和 24762 以及美国国家消防协会的 NFPA 1600 连续性、紧急情况和危机管理标准。更通用的业务连续性法规则是欧盟的《通用数据保护条例》,该条例主要管理数据的存储和传播,因此也与业务连续性相关。

业务连续性和灾难恢复

业务连续性和灾难恢复密切相关。两者都是企业为在潜在的灾难性业务中断中生存和快速恢复而制定的计划,而且鉴于企业对 IT 基础设施和应用的依赖,两者都与 IT 密切相关。

仅举一个例子来说明所有企业对 IT 的依赖程度,美国大多数专业体育场馆不再接受现金支付,这意味着他们需要运行计算机化的销售点系统来销售食品、饮料、体育用品等商品。

业务连续性与灾难恢复之间的区别

ISO 22301 将业务连续性定义为“指导组织在中断后响应、恢复、重启和复原到预定义的操作级别的已记录过程”。灾难恢复属于业务连续性的一部分,涉及在必要时逐步恢复 IT 服务。业务连续性与灾难恢复的一个主要区别在于,业务连续性考虑所有类型的业务中断,包括已计划的业务中断。

技术和业务持续性

业务连续性取决于多种因素,包括企业所在的行业和中断本身的性质。但在这个信息化的时代,几乎所有业务连续性都在某种程度上依赖于 IT 职能。因此,对于企业来说,确保适当拥有冗余基础设施和数据复制至关重要,这不仅是为了支持正常业务流程,而且还要确保企业在发生中断事件时能够足够高效地运行。

RTO 和 RPO 越短,连续性就会越好。然而,随着每个 RTO 和 RPO 的目标变得越来越短,相关成本也会越来越高。这时,架构上的选择可以提供帮助。企业高管应该考虑使用云计算,更理想的是,使用容器进一步将关键数据与已中断的系统隔离开来。他们还应该寻找能够提供分散在不同地理位置的故障转移设施的云技术服务提供商。

从业务连续性角度来看,云计算的优势之一是所谓的“Pilot light 部署”,其中次要站点或企业工作负载的副本可以小到单个虚拟机 (VM) 或容器。在发生故障转移的情况下,如果需要,单个虚拟机或容器可以启动自动化流程,让您的企业启动其余基础设施。通过使用 pilot light 部署,企业只需为那一个资源付费,而不必复制整个系统。

另一个策略是所谓的“蓝绿”架构,其中企业只需要部署两个冗余的分布式环境,而无需部署四到六个用于开发和测试的冗余环境以及一个用于生产部署的单独环境。假设“蓝色”环境是生产,“绿色”是开发和测试。当开发完成后,“绿色”环境会成为主要生产环境,“蓝色”环境则用于开发、测试和灾难恢复。然后这个循环就会重复发生。

利用 Oracle Cloud Infrastructure 简化业务连续性战略

Oracle 使制定整体业务连续性计划变得更简单、更经济实惠。由于 Oracle Cloud Infrastructure (OCI) 比其他超大规模云开发得晚,因此具有更好的效率和可靠性、更低的延迟和更高的灵活性。除了容器外,OCI 还拥有灵活的虚拟机,这意味着企业可以根据需要购买计算能力。有的提供商提供的灵活性较低,要求客户预留实例空间,成本更高。OCI 在许多国家/地区拥有分散在多个地理位置的云技术区域,使客户能够遵守数据主权法规,同时仍将业务连续性保留在不同的位置。

Oracle 基于数十年的开发经验和实际的客户反馈,开发了称为 Oracle Maximum Availability Architecture (MAA) 的优秀实践。Oracle MAA 为在 Oracle Database 环境中实施高可用性、可扩展性、灾难恢复和数据保护解决方案提供了蓝图。

由 Oracle 开发人员团队维护的 Oracle MAA 优秀实践使用混沌工程方法和其他测试方法,不断验证诸如 Oracle Real Application Clusters 和 Oracle Data Guard 等 Oracle Database High Availability 特性的集成使用。

Oracle MAA 通过 Oracle Cloud Infrastructure Full Stack Disaster Recovery 服务进一步扩展。OCI Full Stack Disaster Recovery 可助您一键编排您在全球所有 OCI 区域间迁移的计算、数据库和应用。您可以自动执行一个或多个业务系统的恢复步骤,而无需重新设计或重新构建现有基础设施、数据库或应用,也不需要专门的管理和转换服务器。

此外,Oracle Autonomous Database 和 Oracle Exadata Database Service 内置冗余,这意味着客户无需为同一可用性区域中的数据复制额外付费。

随着技术景观不断发展,企业对业务连续性的期望发生了变化。例如,大多数企业过去经常从所谓的一级应用的角度考虑 RTO,但较便宜的云计算选项(如 pilot light)意味着企业可以为其所有应用创建业务连续性计划。

2024 年 CIO 不可忽视的 10 大云技术趋势

云技术是打造成功且经济高效的业务连续性战略的关键。了解详情。

业务持续性的常见问题解答

业务连续性的四大支柱分别有哪些?

基本上,业务连续性包括组建一个专注于业务连续性的团队,评估在颠覆性事件期间哪些业务领域风险更大,制定维持可行水平运营的计划,然后定期演练和测试该计划。

业务连续性和灾难恢复有什么区别?

业务连续性是一种组织方法,用于确保企业在任何中断期间(无论是否为计划中断)以某种能力继续运行,而灾难恢复则侧重于恢复 IT 系统。

为什么业务连续性计划很重要?

未制定更新业务连续性计划的企业会比制定了更新业务连续性计划的企业面临更大的风险。在更坏的情况下,由于正常运营发生重大意外中断,导致客户流向竞争对手、丢失数据并产生高昂的修复成本,他们可能会永久倒闭。

注:为免疑义,本网页所用以下术语专指以下含义:

  1. 除Oracle隐私政策外,本网站中提及的“Oracle”专指Oracle境外公司而非甲骨文中国 。
  2. 相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。