什么是业务连续性和灾难恢复?

Aaron Ricadela | 内容策略师 | 2024 年 4 月 26 日

企业需要在遭遇危机时继续营运。其中,企业需要克服的核心挑战是如何解决并恢复可能导致销售、运营、生产和运输中断的计算机系统崩溃问题。无论 IT 中断是由人为行为、软件错误、极端天气还是自然灾害引起的,企业都需要利用完备的运营和技术策略,在不影响重要流程的情况下安然度过危机,然后迅速恢复并恢复正常工作。

非计划性、颠覆性事件一旦影响了关键业务运营,不仅可能会损害品牌声誉,还会导致经济损失和监管谴责。这就是为什么企业一直以来都需要全面的连续性计划和备份系统。现在,云计算的普及化和受互联网启发的新应用架构都在改变企业的规划方式,特别是在故障发生时操作、设计用于检索关键数据的灾难恢复系统以及为提高恢复能力分配预算的方式。

虽然使用地理位置相距较远的物理数据中心作为灾难恢复基础的计划很常见,但这里我们将重点介绍使用云技术服务的新策略。

在数据中心和云基础设施服务中运行部分应用程序即简单又经济,还可以通过地理分布应用系统来提高可恢复性。企业可以在云端运行较小的实例或备用实例,然后仅在有需要时扩展,从而进一步降低成本。

下面,我们来看看一个重大挑战 — 如何不断更新关键数据存储的副本,以确保丢失一份副本只会暂时中断操作。例如,一个支持客户管理账户的系统,必须要能够让客户查看购买记录和创建新订单。如果灾难导致客户无法进行这些操作,这个应用就毫无用处了。因此,数据库复制策略通常是可恢复性策略的核心要素。

什么是业务连续性?

业务连续性计划为企业高管提供了路线图,以便在灾难或 IT 故障扰乱正常工作流程并导致相关应用离线时保持操作。这些计划详细介绍了企业在灾难发生期间需要保持有效工作的人员、流程和技术策略。专家表示,中断正常运作的常见原因是人为技术错误和导致系统崩溃的软件错误。此外,除了自然灾害,极端天气也会导致数据中心过热,进而造成系统问题,这些因素都可能会导致业务中断。恐怖主义、网络犯罪和战争也可能成为导因。

业务连续性计划主要针对软件应用和数据的灾难恢复,也可以扩大范围,以涵盖员工沟通、确保员工能够物理访问计算机和移动设备、供应链的必要变更以及其他运营考虑因素。

什么是灾难恢复?

除了计划好中断期间维持运营所需的人员、流程和技术之外,企业还需要制定恢复关键系统、数据和应用访问的具体计划。灾难恢复指的是企业制定详细的技术计划,其中涵盖了按重要性顺序重新启动和运行工作负载,为此分配的预算以及策略测试计划。

灾难恢复的目标是尽可能减少计算停机时间和丢失的数据,同时平衡每个计算工作负载的成本。而这就是云技术可以为您提供助力的地方。

当计算主要在企业所有或租用的数据中心的客户端-服务器系统上进行时,每个应用的 IT 预算可能会增加一两倍。这是因为每个应用都需要自己的许可证、重复的服务器、存储、网络和冷却,所有这些都在离企业的生产数据中心有适当距离的设施中运行。云计算改变了计算模式,让企业能够将关键任务应用部署到多个云计算区域或数据中心。云技术还可以让 IT 部门快速更改服务器资源或实例的大小,并使用远程管理工具根据需要增加容量。

企业需要根据两个关键的灾难恢复指标做出关键选择:我们需要多快从中断中恢复?可以接受丢失多少数据?

恢复时间目标 (RTO) 主要衡量企业在服务恢复前愿意等待多久,而恢复点目标 (RPO) 则衡量企业在一起灾难中可以承受失去多少数据。阈值越小越好,但灾难恢复计划的实施成本也会更高。每个系统都有自己的 RTO 和 RPO。销售交易系统需要较短的恢复时间和较小的恢复点,而员工费用系统则可以在灾难发生几天后合理安排恢复。

什么是 BCDR(业务连续性和灾难恢复)?

业务连续性和灾难恢复是指企业为确保在发生灾难或其他计划外中断时能够继续运营而制定的技术、政策和程序。BCDR 涉及识别影响正常运行时间的潜在风险以及制定策略,以尽快恢复并照常运行。

越来越多的企业与客户、供应商和其他合作伙伴在线进行交易,数据量也随之增加,凸显了业务连续性和灾难恢复策略的重要性。此外,很多系统也变得相互依赖。客户门户支持客户查看过去的订单并创建新订单,因此需要与库存管理、履行和生产管理系统相连。由于这些都是必需的系统,因此每个系统都有很低的 RTO 和 RPO 要求。

尽管业务连续性对于各行各业的企业而言都很重要,但有效的 BCDR 计划却对某些行业的企业尤为重要。例如,在银行、能源和医疗卫生等高度受监管的行业中,企业需要满足严格的业务连续性要求,通常没有时间从备份副本中恢复数据。有些像资本市场交易这样的子行业,就算是几分钟的数据也不能丢失。

在制定 BCDR 计划时,企业应该先从影响分析开始,详细了解可能发生的灾难以及可能造成的损失类型。该计划应涵盖技术配置错误、自然灾害、恐怖主义行为和勒索软件攻击等网络安全事件。由于当今的数据量远高于过去几十年,企业高管需要对流程及其相关的软件应用进行优先级排序,确定哪些是关键任务,然后将剩下的流程和应用按重要性分类为多个梯次,并设置更宽松的 RTO 和 RPO 标准。

识别哪些领域更重要并估算相应可容忍的停机时间,有助于制定一个保持这些功能持续运行的计划,其中包括数据备份、可帮助启动更广泛计算操作的“pilot light”IT 安装以及员工居家办公所需的技术设置。Pilot light 系统可以被视为温备系统,只要能够连接到关键数据存储,这些基于云技术的系统就可以在灾难发生后几分钟内启动并运行。

云计算技术是重要的工具,可以帮助企业在预算范围内实施业务连续性和灾难恢复计划。

混合 IT 设置 指的是一些计算资源在公有云中运行,一些在本地数据中心中运行,以此降低灾难恢复的成本。使用微服务构建的云技术工作负载,指的是那些在分布式虚拟服务器上运行的小型软件组件集合,能够协同工作,向用户提供应用程序。这类工作负载让企业可以创建所谓的“pilot light” IT 部署,其中包含了实时新数据和闲置服务,可用于重新启动云数据中心的系统。混合云环境要求企业识别、编目和管理那些在另一个依赖项处于离线状态时会妨碍软件程序重启的应用依赖项。

有些企业正在努力将其所有应用迁移到云端,并以关闭数据中心为最终目标。这通常会涉及几个驱动因素,包括希望更容易将内部应用与其他基于云技术的系统集成;简化系统和应用管理;改善应用可扩展性、可用性和可升级性;以及实现出色的 BCDR。业务连续性可带来的优势包括能够将 pilot light 系统放在地理位置分散的云技术区域中的云数据中心,在灾难发生时减少员工和客户可访问性的问题。再者,从根本上来说,应用设计也会更加稳固,几乎没有或完全不会发生单点故障。然而,要获得所有这些优势,不仅仅需要将现有应用迁移到云数据中心运行,还需要重新设计应用和重新编程。

这个流程称为重构,而云技术服务是能够有效支持重构的架构。重构可能既耗时又昂贵。然而,由此产生的应用更具弹性、通用性和可扩展性 — 所有成果都有助于您制定 BCDR 战略。应用也会更容易修改,有利于提供新功能。例如,添加分析和 AI 功能将成为一个更易于管理的流程,因为这些只是应用中要使用的新 Web 服务。

在制定一个符合预算的灾难恢复计算时,企业需要根据必要的可用性、RTO 和 RPO,对其工作负载进行优先排序。从备份副本恢复系统是一种低成本的途径,但是大型数据集可能需要很长时间才能恢复,离线备份的 RPO 也会很长。尽管如此,离线备份非常重要,特别是对于关键数据,并且可能是从勒索软件事件中恢复的唯一可行选项。Pilot light 部署可以在几分钟而不是几个小时内将系统恢复到运行状态,但维护成本更高。

温备方法将实时的新数据与基于云技术的应用副本相结合,可以在低容量运行时处理请求,采用以秒为单位的 RPO 和以分钟为单位的 RTO。所谓的主动/主动故障转移方法使用多个满容量运行的实时站点,可以提供几乎为零的恢复时间和恢复点,但成本更高。

灾难恢复的代价

企业在制定灾难恢复策略时,需要考虑到恢复时间、数据丢失和成本

灾难恢复方法 RPO RTO 成本
备份和恢复 小时 小时 $
Pilot light 分钟 分钟 $$
温备份 分钟 $$$
主动/主动 接近于零 可能为零 $$$$

来源:Oracle

业务连续性和灾难恢复有什么区别?

业务连续性计划有助于确保企业能够在危机期间继续营运并交付产品或服务。业务连续性涉及将人员、流程和技术部署到位,以应对灾难场景。

灾难恢复是业务连续性的其中一个方面,旨在使 IT 操作快速恢复运行,尽量减少数据丢失。这包括重新启动计算工作负载的技术计划,以及基于应用重要性和依赖性的分梯次恢复方法。

关键要点

  • 明确界定的角色和高层管理人员的支持将惠及业务连续性计划。
  • 灾难恢复策略应包括在不受中断影响的站点或云数据中心恢复数据的规定。这些策略需要记录哪些关键系统的工作需要分布在多个站点,以确保在服务器发生故障时立即可用,或者能够有效抵御自然灾害和区域性中断。
  • BCDR 往往需要企业做出取舍,包括从计划外 IT 故障中恢复所需的速度、可以接受的数据丢失量以及维护备份系统的成本和复杂性。
  • 使用云计算和虚拟化可以避免在需要非常快速的恢复时间的重复工作负载上花费过多资金。通过容器和虚拟机等云技术,企业可以从通常在第三方云数据中心运行、规模更小、成本更低的 IT 环境中恢复工作负载。
  • 在制定灾难恢复策略时,企业需要密切关注那些在另一个依赖项处于离线状态时会妨碍软件程序重启的应用依赖项。容易受灾难影响的关键应用可以考虑进行重写,以消除单点故障。

BCDR 详解

业务连续性计划应从评估潜在风险开始。然后,企业需要评估这些风险对流程的预期影响,并确定负责降低风险的团队成员及其相关岗位。该计划还应包含企业如何维护员工沟通、应对客户服务和销售意外情况以及调整供应链。企业不应该依赖任何一个人来让系统恢复上线。

企业需要列出硬件和软件资产的清单,记录这些资产之间的依赖关系。仅在灾难期间运行的系统组件需要经过特别仔细的测试,因为这些组件平时不被使用,容易发生故障。

根据普华永道 (PwC) 的研究,成功的 BCDR 项目可以映射依赖关系,确定应用层,评估风险,定期测试,并配备了熟练的团队和可见的执行发起人。

企业在制定云计算计划时,需要区分高可用性和灾难恢复。公有云包含了相隔几公里甚至是位于同一建筑群内的可用区,如果某个数据中心出现故障,客户的工作负载也能够继续在区域内的其他数据中心运行。虽然这种方法提供了更高的可用性,但无法应对范围更广的灾难,例如重大天气事件、区域性停电和热浪。

业务连续性和灾难恢复为什么对企业而言很重要?

破坏性事件、自然灾害或不可预见的 IT 故障可能会阻碍销售和运营,造成办公室营运中断,导致数据中心离线,甚至摧毁工厂和设备。经济损失往往也会随之而来。业务连续性和灾难恢复计划可帮助企业在危机期间快速响应,减少损失、满足合规性要求并持续为客户提供服务。

据估计,严重的计算机故障会对运营造成严重破坏,每小时可造成高达 10 万美元的经济损失。例如,Southwest Airlines 因网络防火墙问题于 2023 年 4 月停飞近 2000 个航班,导致乘客滞留在航站楼或停机坪。IT 咨询机构 Uptime Institute 在 2022 年针对 830 家公司进行了调研 (PDF),结果显示,四分之一的非计划停机给受影响的企业造成了超过 100 万美元的损失。在那些受访企业中,29% 的收入低于 100 万美元,28% 的收入介于 100 万美元至 999 万美元之间,其余的收入为 1000 万美元或以上。

BCDR 计划中应该包含哪些要素?

业务连续性计划包含了针对潜在风险及其可能造成的业务中断的全面评估,内部工作人员和供应商如何受到影响,以及可能造成的经济损失和监管罚款。该计划还应详细列明重新上线和运行以及恢复任何缺失数据所需的人员、流程和技术步骤。培训和测试也是必不可少的。

强大的 BCDR 计划必须包含以下内容:

  • 确定场景,列出哪些情况会导致正常业务流程中断以及可能受影响的重要人员、资源和设施,以便在恢复期间可以特别注意。
  • 业务影响分析以及相关的恢复时间目标和恢复点目标。该分析应包括灾难发生后的销售和利润损失估算,并考虑这些损失对企业生存构成的风险。
  • 选择和预配备份站点以及在公有云中分配工作负载的策略,旨在及时重启操作。
  • 必须优先重新启动的关键和重要商业应用排序,以及可能妨碍这些应用上线的 IT 依赖关系图。
  • 运营变更、所涉及的风险以及针对应急计划的员工教育项目。
  • 持续改进计划的规定以及可能涉及的业务线 (LOB) 高管的批准。各个业务线还应确定可能中断其工作以及所涉及的人员、资源、站点和技术的情况,并制定相应的应对计划。

如何制定 BCDR 计划?

制定 BCDR 计划可分为几个步骤,从组建一个由主要利益相关方组成的团队开始。通过遵循此流程,您将能够制定全面的 BCDR 计划,有助于在发生紧急情况时保护您的企业并尽可能减少中断。

  1. 识别并建立包括执行发起人在内的团队,该团队负责创建和实施计划,确保计划时时更新并定期进行测试。
  2. 将可能受灾难影响的物理资产和 IT 资产一一列出。
  3. 针对可能因灾难或意外而中断的运营和地点进行业务影响分析,包括对供应商、分销商、零售商和其他外部各方的影响。
  4. 建立让员工可以在中断期间工作的备选地点,并创建在此期间与员工沟通的计划。或者,确定员工如何在灾难发生时随时随地工作。
  5. 创建一个灾难恢复计划,确保恢复时间与应用的重要性相符,同时谨记:大型数据集从备份系统恢复可能需要很长的时间。
  6. IT 团队应该确定哪些工作负载可以从备份中恢复,哪些工作负载需要实时数据与以更低的负荷运行的服务相结合,以及哪些工作负载即使在备份服务器上运行也始终需要完整服务和满容量。决定相应的 RPO 和 RTO,并制定恢复流程来满足这些要求。
  7. 测试业务连续性和灾难恢复计划,包括通过桌面预演,也就是口头向主要利益相关方讲述后续需要采取的步骤,或通过实际演示这些措施。临时云技术部署将对测试恢复过程带来很大助益。

在 IT 方面,需要重点测试仅在灾难期间使用的系统组件。

下载免费的业务连续性和灾难恢复计划 (DOC)

BCDR 的未来

业务连续性和灾难恢复领域正在寻求新技术,以实现工作自动化并提高准确性。其中,位于前沿的是生成式 AI,可以梳理有关优秀实践的标准和文件,为 BCDR 计划创建一个起点。该技术可以建立业务流程与其背后的资源之间的联系,有助于创建业务影响分析。

然后,AI 工具可以在影响分析中找到可以为恢复计划提供参考的详细信息,从而为业务连续性管理人员节省大量时间。

IT 开发和运营中,生成式 AI 还可以分析使用高峰和数据访问的异常变化,这些变化是工作人员没发现的,可能预示着即将发生中断。生成式 AI 还有助于识别软件依赖项,可用于重新设计系统,以减少单点故障。

利用 Oracle Cloud Infrastructure 简化业务连续性战略

云计算与 Oracle 技术提供了多种保障措施,防止因灾难导致计算停机。Oracle Cloud Infrastructure (OCI) 采用了特别的可恢复方法,将每个跨地理区域提供服务的全球云技术区域分隔为相互隔离的可用性域。同一区域中的可用性域都具有自己的电源和冷却系统,因此,区域中任何一个域发生故障都不太可能会影响到另一个域的计算工作。

可用性域通过低延迟、高带宽网络相互连接,让客户能够构建可跨可用性域复制的系统,以实现高可用性和灾难恢复。该网络还可以将云技术环境连接到混合云环境中的本地计算。

每个 OCI 可用性域包含了三个容错域,因此计算实例不会位于一个可用性域内的同一硬件上。此架构还有助于防止计划外停机。Oracle 的战略是在运营公有云的国家/地区部署两个或更多的云技术区域,以满足客户的数据驻留要求。

此外,无论工作负载是在 OCI 上运行还是在 Microsoft Azure 上运行,Oracle Database 均包含了用于内置冗余的 Real Application Clusters (RAC) 技术。另一个独立的产品 Oracle Active Data Guard 可提供实时远程备用数据副本,有助于提高 Oracle Database 的可用性和灾难恢复能力。对于具有高要求和复杂灾难恢复需求的客户,Oracle Cloud Infrastructure GoldenGate 可在数据块级别复制数据,从而从恢复点快速恢复数据。

一个全面的业务连续性和灾难恢复计划有助于尽量减少停机时间、经济损失和声誉损失。该计划还为员工、客户和利益相关方提供了一种安全感,因为他们知道企业已经准备好应对任何意外情况,遵守法规要求,并保护关键数据和资产。鉴于 BCDR 计划提供的安心和可恢复性,各种规模的企业都值得为此付出努力。

2023 年 Gartner ® 全球分布式混合基础设施魔力象限™

通过分布式云,您可以灵活选择在何处以及如何交付服务来满足您的需求,包括 BCDR。了解 Oracle 为何能够在 Gartner® 2023 年分布式混合基础设施魔力象限™ 报告中获评为“领导者”。立即免费获取报告。

BCDR 的常见问题解答

BCDR 计划中需要包含哪些内容?

业务连续性和灾难恢复计划应包括对可能中断正常运营的潜在错误和事件进行风险评估,对哪些资产和计算机系统会受到影响进行影响分析,对潜在经济损失进行估算,以及为在危机期间保持人员和流程正常工作做出规定。BCDR 计划还需要包括详细的技术说明,明确企业如何使关键应用重新上线并确保员工可以访问数据,同时尽可能减少损失。为工作人员提供培训也是其中一个要素。

BCP 代表什么?

BCP 指的是业务连续性计划 (business continuity plan),其中包含了一个详细的策略和一个流程和系统目录,让业务在遇到不可预见的中断时也能够继续运营。BCP 计划涵盖了在危机期间管理人员、流程和技术的条款,其目标是尽快恢复正常工作。

注:为免疑义,本网页所用以下术语专指以下含义:

  1. 除Oracle隐私政策外,本网站中提及的“Oracle”专指Oracle境外公司而非甲骨文中国 。
  2. 相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。