高可用性
企业使用信息技术 (IT) 基础架构来提供竞争优势,提高工作效率并帮助用户以更快的速度做出更明智的决策。然而,所有这些优势与基础架构的优劣息息相关。如果一个关键应用程序、服务器或数据不可用,整个企业可能面临严重的危机,包括收入降低、客户流失、和债务增加,同时各种负面报道将会对客户和公司的声誉产生长期的影响。构建一个具有高可用性的 IT 基础架构对于希望在当今瞬息万变的经济环境立于不败之地并取得成功的企业而言至关重要。
计算技术的发展带来一种全新的 IT 体系结构,即网格计算。网络计算是一种全新的计算体系结构,它可将大量服务器和存储设备整合成一个灵活的、按需提供的计算资源,以满足企业的全部计算需求。广泛的技术创新为网格计算奠定了坚实的基础,包括低成本刀片式服务器、小型且廉价的多路服务器、模块化存储技术、和开放源代码操系统(如 Linux)等。利用这些技术以及 Oracle 数据库 10g 中提供的网格技术,企业可以在大幅降低 IT 成本的同时,为其客户带来优异的服务质量。Oracle 数据库 10g 使您能够充分利用网格企业计算的成本优势,同时保持在性能、可伸缩性、安全性、可管理性、功能或系统可用性方面的优势。
停机原因
在设计高度可用的 IT 网格基础架构时,所面临的一大挑战是检查和解决所有可能的停机原因。图 1 显示了一系列停机原因,主要可以归为两类:意外停机和计划停机。在设计容错和灵活 IT 基础架构时,很重要的一点就要考虑意外停机和计划停机时间。
图 1:停机原因
意外停机主要是由计算机故障或数据故障引起的。计划停机主要是由于生产系统的数据改变或系统改变而引起的。在以下部分,我们将分别来介绍这四种停机原因,并探讨应用哪些技术可以避免停机。
返回页首
防止计算机故障
当计算机系统或数据库服务器出现意外故障并导致服务中断时,计算机就会发生故障。在大多数情况下,这是由于硬件故障引起的。这些类型的故障可利用快速数据库故障恢复和集群技术来解决。

图 2:计算机故障
企业网格与真正应用集群
真正应用集群 (RAC) 使企业能够构建支持多个操作系统的数据库服务器,并提供出色的可用性和可伸性。在真正应用集群环境中,Oracle 可在一个集群中运行于两个或更多个系统之上,并可以同时访问一个共享数据库。这使得一个数据库系统可以跨越多个硬件系统,同时对应用程序而言仍是一个统一的数据库系统,从而为您的应用程序带来出色的可用性和可伸缩性优势。
- 容量规划的灵活性和经济高效性,使得系统可以随着业务需求的改变,根据需要对容量进行调节
- 集群故障容错,特别是计算机故障。
真正应用集群支持企业网格。构建于由标准化商用组件构成的大型配置之上,其中包括:处理器、服务器、网络和存储设备。RAC 是唯一一种可将这些组件整合成可供企业使用的技术。真正应用集群和网格能够动态降低运营成本,并可带来出色的灵活性,从而赋予系统更优异的适应性、前瞻性和灵活性。动态提供节点、存储器、CPU 和内存可以在实现所需服务级别的同时,通过提高的利用率不断降低成本。此外,真正应用集群支持任意需要访问 RAC 数据库的应用,使它们无需修改便可部署于 RAC 系统之上。
真正应用集群使得用户可以根据容量需求的增长为集群添加节点,从而能够通过逐步扩充来节约成本,同时消除了使用大型集群来更换小型单一节点系统的需要。标准低成本计算机和模块化磁盘阵列组成的网格池与 Oracle 数据库 10g 相结合,使得这一解决方案更为强大。与使用新的更大型节点来更换现有系统与升级系统不同,该解决方案支持为集群添加一个或多个节点,从而使得容量升级流程更为方便快捷。真正应用集群中实施的高速缓存融合技术与 Oracle 数据库 10g 中提供的 InfiniBand 支持,使您能够以接近线性的方式调节容量,而无需对应用进行任何修改。
了解有关
网格
真正应用集群的更多信息
绑定数据库崩溃恢复
意外停机最常见的原因之一就是系统故障或崩溃。系统故障是由于硬件故障、电源故障和操作系统或服务器崩溃造成的。这些故障导致的中断次数取决于受影响的用户数量,以及服务恢复的速度。高可用性系统设计用于在故障发生后,自动快速进行故障恢复。关键系统的用户希望 IT 部门能够承诺快速实现故障恢复,并可以预测故障时间。停机时间如果比承诺时间长,就会对运营造成直接的影响,导致收入损失,生产效率降低。Oracle 数据库提供了非常快速的系统故障和崩溃恢复。然而,与快速恢复一样重要的是可以预测故障。Oracle 数据库中包含快速启动故障恢复故障技术,能够自动绑定数据库崩溃恢复时间,而且该技术是 Oracle 数据库所独有的。该数据库可以自调节校验点处理,以确保达到所要求的恢复时间目标。这使得恢复时间加快并且可预测,并提高了满足服务等级目标的能力。Oracle 的快速启动故障恢复可以将高负载数据库的恢复时间从几十分钟缩短至 10 秒钟以下。
了解有关快速启动故障恢复的更多信息
返回页首
防止数据故障
数据故障是指丢失、损坏或破坏关键企业数据。数据故障的原因比计算机故障更加错综复杂,可能由于存储硬件、人为错误、损坏或站点故障而引起。

图 3:数据故障
非常重要的一点是,要设计一款解决方案来防止数据故障并提供故障恢复。系统或网络故障可能会防碍用户访问数据,但发生数据故障后,如果没有正确的备份或恢复技术,则会导致需要数小时的恢复时间,甚至丢失数据。
在 Oracle 数据库 10g 中,我们极大增强了数据保护功能。促使我们做出这些改进的原因便是数据保护和恢复的迅速兴起。在过去的二十年里,磁盘容量有三个数量级。在二十世纪八十年代初期,主流磁盘容量仅 200MB,而今天主流磁盘容量已达到 200GB — 而且磁盘容量还在不断增长。不久,磁盘容量就可以达到 500GB 或 1TB。另一方面,磁盘存储的成本也日趋降低。随着磁盘容量的增长,每兆字节(MB)的成本已降至今天的几美分。与磁带相比,价格便宜的磁盘存储已成为很有竞争力的备份介质。加上磁盘还具有额外的在线优势 — 即,可随时无延迟地提供 — 并且支持随机数据访问。这些趋势使 Oracle 不得不重新思考和设计恢复策略,以充分把握经济动态。让 Oracle 来管理您的部分磁盘存储,可将备份和恢复时间从几小时缩至几分钟。实际上,您完全可以利用经济的磁盘存储来避免昂贵的停机时间。
防止存储故障
为单一数据库实例供应存储非常复杂,更不用说为整个企业供应存储了。通常这一过程包括:估计您所需的空间量;设计最佳布局(在哪里存放数据文件和归档文件等,以避免热点);创建逻辑卷;创建文件系统;定义和设置如何保护和镜像您的数据;定义和执行数据备份和恢复计划;安装 Oracle;最后,创建您的数据库。之后便进入了真正艰难的工作:寻会影响性能的热点;移动热点周围的数据文件以减少争用问题;预测何时磁盘可能崩溃或空间耗尽,以及何时添加需要的磁盘和再次转移所有文件以使您的更新存储配置恢复平衡。
幸好,利用 Oracle 数据库的自动存储管理(ASM)特性,这种情况有了很大改观。ASM 在 Oracle 内核中提供了一个垂直集成的文件系统和数据卷管理器,大大减少了提供数据库存储的工作,提高了可用性,而无需购买、安装和维护专用存储产品,并且为数据库应用提供了独有的能力。ASM 将其文件分布在所有可用存储器上,以实现最佳性能,而且它还可以镜像,防止数据丢失。
ASM 扩展了 SAME(全部条带化和镜像)概念,并提高了灵活性,从而可以在数据库文件级进行镜像,而无需在整修磁盘级进行镜像。但更重要的是,ASM 消除了与管理数据和磁盘相关的复杂性;它大大简化了设置镜像、添加磁盘和拆卸磁盘的过程。现在再不必管理成百甚至上千的文件(如在大型数据仓库中),使用 ASM 的 DBA 可以创建和管理更大粒度的对象,即磁盘组,它可以识别作为一个逻辑单元来管理的磁盘所在的组。文件命名和基本数据库文件布局的自动化大大节省了 DBA 时间,确保了符合最佳实践标准。ASM 的本地镜像机制是一个用于防止存储故障的选件。
防止人为错误
几乎所有关于停机原因的研究都发现,人为错误是导致停机的最大原因。人为错误包括:误删除重要数据;或 UPDATE 语句中不正确的 WHERE 子句更新了比预定更多的行;要尽可能防止人为错误,当预防措施失败后,要撤消以前操作。Oracle 数据库提供了易用且强大的工具,有助于管理员快速诊断发生的错误,并从错误中得以恢复。它还包括诸多特性,使最终用户能够没有管理员干预的情况下实现故障恢复,从而减轻了 DBA 的支持负担,并加快丢失和损坏数据的恢复速度。
预防人为错误
避免错误的最佳方式是限制用户的访问,只允许他们对执行业务实际所需的数据和服务进行访问。Oracle 数据库提供了广泛的安全工具来控制用户对应用数据的访问,通过对用户进行鉴权,管理员可向用户授予他们执行任务所需的访问权限。此外,Oracle 数据库的安全模式还提供了限制行级数据访问的能力,它采用虚拟专用数据库,可进一步防止用户访问他们不需要的数据。
ORACLE 闪回技术
当授权用户犯错时,您需要使用工具来更正这些错误。Oracle 数据库 10g 提供了一系列人为错误更正技术,称为闪回。闪回从根本上改变了数据恢复。过去,数据库在几分钟内就可能损坏,但需要几小时才能恢复。利用闪回技术,更正错误的时间与错误发生时间几乎相同。而且它非常易用,使用一条短命令便可恢复整个数据库,而不必执行复杂的程序。闪回技术提供了一个 SQL 界面,能够快速分析和修复人为错误。闪回技术为本地数据损坏提供了细粒度外部分析和修复,如当错误删除客户订单时。闪回技术还支持修复更多广泛的损坏,同时快速避免长时间停机,如当本月的所有客户订单都被删除时。闪回技术是 Oracle 数据库独有的特性,支持各级恢复,包括行、事务、表、表空间和数据库范围。
- 闪回查询。Oracle 闪回查询是 Oracle9i 数据库中引进的一个功能,它使管理员或用户能够查询过去某些时间点的任何数据。这一强大的特性可用于查看和重建因意外被删除或更改而丢失的数据。开发人员可以使用该特性在其应用程序中构建自动错误更正功能使最终用户能够及时撤消和更正其错误,而无需将此任务留给管理员来执行。闪回查询非常易于管理,数据库可自动保存必要的信息,以在可配置时间内重新将数据恢复到过去。
- 闪回版本查询。闪回版本查询提供了一种查看行级数据库变化的方法。它是 SQL 的扩展,支持以特定时间间隔检索所有不同版本的行。使用 DBA,可指出数据何时、如何被更改的,并追溯到用户、应用程序或事务。这使得 DBA 可以跟踪数据库中的逻辑破坏并加以更正。它还使应用开发人员能够对其代码进行调试。
- 闪回事务查询。闪回事务查询提供了一种查看事务级数据库变化的方法。它是 SQL 的扩展,使您可以看到事务引起的所有变化。此外,返回补充 SQL 语句,并用于撤消由事务引起的各行变化。使用精密工具(如 DBA),应用开发人员可以精确地诊断和更正数据库或应用中的逻辑问题。
- 闪回数据库。要将 Oracle 数据库恢复到以前的时间点,传统方法是进行时间点恢复。然而,时间点恢复需要用数小时甚至几天的时间,因为它需要从备份中恢复整个数据库,并恰好恢复到数据库发生错误前的时间点。由于数据库的大小不断增长,因此需要用数小时甚至几天的时间才能恢复整个数据库。闪回数据库是进行时间点恢复的新战略。它能够快速将 Oracle 数据库恢复到以前的时间,以正确更正由于逻辑数据损坏或用户错误而引起的任何问题。
- 闪回表。闪回表提供了一种将表恢复到以前的时间点的方法。闪回表在原地在线执行这一操作,它可维护各表之间的任何参考完整性限制。闪回表就像为一个或一组相关表安装了一个倒回或撤消按钮。
- 闪回删除。意外丢弃或删除数据库对象是人们经常会犯错误。在 Oracle 数据库 10g 中删除对象时,闪回删除提供了一个安全网。当用户删除一个表,Oracle 会将它放到垃圾箱中。垃圾箱中的对象一直会保留,直到用户决定永久删除它们或包含该本的表空间不足。闪回删除就像是为一个表及其相关对象安装了一个撤消按钮。
了解有关闪回技术的更多信息
LOGMINER 基于 SQL 的日志分析工具
Oracle 日志文件包含大量有关 Oracle 数据库活动和历史的有用信息。日志文件包含执行数据库恢复所需的全部数据。它们还记录了数据库中的数据和元数据的所有变化。LogMiner 完全是一个关系工具,支持使用 SQL 来阅读、分析和翻译重做的日志文件。利用 LogMiner 分析日志文件,可以跟踪或审核数据变化,提供调整和容量规划的补充信息,检索复杂应用调试的关键信息,或恢复被删除的数据。
了解有关 LogMiner 的更多信息
防止数据损坏
数据损坏通常由 IO 堆栈中的故障组件导致。例如,数据库将 IO 作为更新交易的结果。该数据库 IO 将在各个组件中进行传输,包括:操作系统的 IO 代码,文件系统、卷管理器、设备驱动程序、主机总线适配器、存储控制器和磁盘驱动器,直至最后被写入。IO 堆栈中任何组件发生错误或硬件故障,都可能“变换”数据中的一些位,进而导致损坏的数据被写入数据库中。这一损坏可能是数据库控制信息或用户数据,它们对于数据库的正常工作至关重要。同样,磁盘故障也可能损坏数据库,而需要使用备份文件来恢复数据库。
ORACLE 硬件辅助恢复数据 (HARD)
Oracle 的硬件辅助恢复数据 (HARD) 是一个非常完善的程序,专为预防数据损坏而设计。尽管数据损坏很少发生,但它将会对数据库产生灾难性影响,进而波及到商务。通过在存储设备内实施 Oracle 的数据验证算法,Oracle 将能够防止将已损坏数据写入永久存储设备上的数据库文件中。这一端到端高级软件到低级硬件验证类型是 Oracle 为自己的存储合作伙伴提供的一种独特功能。Oracle 验证并为数据库块添加保护信息,存储设备将对这一信息进行验证。
HARD 可以防止数据库到存储设备之间的 IO 路径发生损坏,从而消除了大量之前数据库行业无能为力的故障。RAID 凭借其数据物理保护功能受到了存储行业的广泛青睐,而 HARD 则将这一保护提高到了更到等级,由保护物理数据位转移至保护业务数据。HARD 首先在 Oracle9i 数据库中提供,之后进一步扩展到了 Oracle 数据库 10g 中。HARD 的验证流程非常完善,并为所有文件类型和数据库块提供了强大的保护,包括数据库文件、在线日志、档案日志和备份文件等。此外,ASM 还使 HARD 无需再使用原始磁盘设备。HARD 支持受到了主要存储厂商的采用。
了解有关 HARD 的更多信息
快速备份和恢复
企业数据的备份工作不可或缺。虽然故障很少发生,但多次故障可能导致甚至是存储子系统上映射的数据无法使用。幸运的是,Oracle 提供了在线工具来对您的所有数据进行备份,从之前的数据备份中进行恢复,以及恢复数据变化到故障发生前一刻的状态。备份一个大型数据库系统并不是一项简单的任务。一个大型数据库可能由分布于众多不同磁盘上的数百个文件组成。如果遗漏对一个重要文件进行备份,将可能导致整个数据库备份无法使用。通常这些损坏的文件在使用之前通常不会被发现。
恢复管理器(RMAN)是一款用于管理 Oracle 数据库的备份、修复和恢复流程的工具。Oracle 数据库 10g 中的 RMAN 显著增强了数据库备份与恢复。RMAN 可以自动管理备份并将所有数据恢复至快速恢复区。快速恢复区是一个统一的磁盘存储位置,面向 Oracle 数据库内的所有恢复文件和工作。考虑本文之前所述的存储设备的全新经济特性,将备份文件存储到磁盘上将比磁带能够更快恢复。而更为重要的是,如果需要数据库介质恢复,即时可用的数据文件备份将可以显著缩短数据库恢复时间。
了解有关 RMAN 的更多信息
防止站点故障
数据保护特性提供了预防灾难性事件的能力,这些事件可能在某一段时间内严重减缓站点的处理能力。这些时间包括文件损坏、自然灾害、电力或通信中断、甚至恐怖活动。Oracle 数据库提供了广泛的数据保护解决方案,能够在本地或远程创建并维护一个生产数据库副本。在遭遇灾难或发生损坏事件时,数据用户将可以通过访问远程数据库继续保持工作。数据保护的最简单形式为离线存储数据库备份文件。当数据库无法在合理的事件内继续提供服务时,备份文件可恢复到其它站点的系统中,从而使用户可以连接至备份系统。然而遗憾的是,在其它系统上恢复备份文件非常耗时,且备份文件可能不是最新文件。为了即使在发生灾难时仍能够快速恢复并保持连续的数据库服务,Oracle 提供了 Data Guard。
DATA GUARD
Data Guard 堪称所有 Oracle 数据库灾难恢复计划的基础。Data Guard 能够为您的生产数据库建立并维护一个备用拷贝。这一备用数据库可与当前生产数据库置于不同位置,也可放置在同一数据中心内。Data Guard 增强了复杂任务自动完成能力,并提供了出色的监视、告警和控制机制。它将使您的数据库即使在发生灾难时也能够继续工作。Data Guard 还支持网格集群,允许在需要进行故障切换时动态为备用数据库添加服务器。
- DATA GUARD REDO APPLY。采用 Redo Apply 模式的 Data Guard 将保存一个生产数据库副本,称作备用数据库,并保持其与生产数据库同步。物理备用数据库可帮助企业有效降低灾难和数据错误的风险。在发生错误或灾难时,物理备用数据库将被打开,并用来为应用和最终用户提供服务。由于它采用了高效的介质恢复机制来将变化应用于备用数据库,因此几乎所有应用均支持这一功能,同时它还能够便捷高效地与最大型交易工作负载保持同步。
- DATA GUARD SQL APPLY。采用 SQL Apply 模式的 Data Guard 首先将 Oracle 存档日志转变为 SQL 事务,之后再将其应用到一个开放的备用数据库中。尽管备用数据库,也称作逻辑备用数据库,可能与主数据库位于不同的位置,但它实质上与主数据库毫无区别,可在主数据库发生故障时用来接管任务。由于逻辑备用数据库正在恢复期间需要进行读写操作,用户可能重做日志中的变化应用于数据库的期间对数据库进行查询。
- 零数据丢失日志传输。物理和逻辑备用数据库组件采用了相同的日志传输服务。一般而言,档案日志将在创建之后即时从主数据库发送至备用数据库。Data Guard 可以通过将主数据库的重做日志直接写入备用数据库。这一功能提供了一个完善的“零数据丢失”灾难恢复解决方。
- 实时应用与闪回数据库。Oracle 数据库 10g Data Guard 的一个全新亮点便是实时应用特性和与闪回数据库的集成。利用实时应用特性,日志应用服务可以在备用数据库接收到主数据库的重做数据后即时应用。DBA 还可以选择在主数据库和备用数据库上同时使用 Oracle 数据库 10g 的闪回数据库特性,以快速将数据库恢复至用户错误发生之前的某一时间点。这两种特性的使用可以有效避免客户出于多种考虑做出的牺牲,例如为了确保备用数据库的可用性,而推迟应用重做数据,以避免将生产数据库发生的人工错误复制到备用数据库。
- DATA GUARD BROKER。 Data Guard 包含一个称为 Data Guard Broker 的命令行界面,以监视和控制 Data Guard 配置。还提供了一个易于使用的图形用户界面,它是 Oracle 企业管理器网格控制的一部分。只需简单点击鼠标,网格控制即可将处理任务由主数据库切换到任意类型的备用数据库。网格控制使得 DBA 管理和使用 Data Guard 环境更为容易。
了解有关 Data Guard 的更多信息
返回页首
避免计划停机
计划停机同样会对业务运营造成破坏,特别是对于需要支持多个时区的用户的全球企业而言,情况尤为严重。在这种情况下,设计一种可最大限度地减少中断的系统至关重要。计划内停机包括例行操作、定期维护和部署新设备等。例行操作指频繁进行的维护任务,包括备份、性能管理、用户管理和批处理。定期维护,如安装补丁和重新配置系统,只是偶尔进行,以更新数据库、应用程序、操作系统、中间件或网络。部署新设备包括硬件、操作系统、据库、应用程序、中间件或网络的重大升级。此处我们不仅需要考虑升级所需的时间,同时还需要考虑变化可能对整体应用产生的影响。
互联网使得在全球范围内共享数据变得轻而易举,但同时也为数据可用性带来了新的挑战和要求。由于全球用户需要 24x7 全天候访问数据,因此维护工作将无法开展。此时计划内停机将会造成与意外停机一样的破坏。目前已不存在可以不对用户产生影响的时间段。随着数据库中数据量的日益增加,维护工作将需要耗费大量时间。但至关重要的一点是,这些操作只能在不影响数据用户工作的前提下进行。
返回页首
防止由于数据更改而导致的停机

图 4:数据更改
联机方案和数据重组
Oracle 数据库能够在不影响数据库操作、用户更新或数据访问的前提下进行许多维护工作。当数据库在线、且用户读取或更新数据时,系统可添加、重建或对索引进行划分。同样,数据表也可在联机时进行重新分配或划分。数据表可在不影响需要浏览或更新基础数据的用户的前提下,进行重定义、变更类型、添加、删除或重命名栏、以及变更存储参数。在 Oracle 数据库 10g 中,这一功能得到了进一步增强,包括:
- 轻松复制数据表的索引、授权、约束和其它特征;
- 从长类型转换到 LOB 数据类型;和
- 支持唯一索引,而非主密钥。
Java 和 PL/SQL 存储过程可动态进行更新,Oracle 管理着所有依赖关系,以在不影响最终用户操作的情况下将新的过程集成到数据库中。在 Oracle 数据库 10g 中,这一功能得到了增强,可进行多种类型的表修改,而无需重新编译与表相关的存储过程。
分区表和索引
随着数据库的增大,它们可能变得极其难于管理。分割数据库表和索引的能力使得管理员可以将数据表分割成几个更易于管理的小型数据库。虽然大多数操作和方案变化均可在线完成,但分割操作要求一次仅能对一个分区进行维护。这使得大量数据可以不受维护操作的影响。此外,分割支持并行执行能力,以更快完成大多数操作。
分区的另一个优势是故障容错。诸如介质故障或损坏等故障,将被限制在驻留于发生故障的磁盘上的分区中。只有该分区收到影响,并需要进行恢复。这不仅缩短了恢复时间,同时也使得其它未受影响的分区可以在恢复期间继续在线提供服务。通常,并非一个大型数据表中的所有数据都具备相同的访问特征。未决订单的访问频率可能远远高于已结束的订单,而上一季度销售情况的分析频率也远远高于三年前某一季度销售情况的分析。分区使得系统可以进行智能数据存储管理。频繁访问的数据可以存储在最快的磁盘上,而访问量最高的数据则可以分布于多个磁盘上。
了解有关分区的更多信息
动态资源供应
Oracle 数据库继续加大对动态重配置的支持,以使它能够在不中断服务的前提下支持需求和硬件方面的变化。Oracle 数据库能够动态支持硬件配置方面的变化,诸如:
- 为 SMP 服务器添加或移除处理器;
- 添加或删除 RAC 集群中的结点;
- 动态增加或减少其共享内存分配,自动线调整内存;
- 在线添加或移除磁盘。同时不影响数据库活动;
- 自动在数据库存储设备件调整 IO 负载;
- 在线移动数据文件。
这些功能可在无需任何成本的情况下进行系统变更和按需增加容量。而这正是企业级网格计算的基本要求。
关于
网格
真正应用集群的更多信息
返回页首
防止由于系统更改而导致的停机

图 5:系统更改
滚动补丁更新
Oracle 数据库支持以滚动的方式为真正应用集群 (RAC) 系统的节点应用补丁。这一流程采取的方法如下图所示。

图 6:滚动补丁更新
在 RAC 系统运行中,所有结点均根据数据库客户端(图 7 中右侧的 RAC 系统)的要求积极处理交易。补丁应用程序的第一步停止需要应用补丁的第一个例程(本例中使用例程 1)。在第二步,一个 Oracle 补丁工具 (opatch)被用来将补丁应用于已停止的例程中(例程 1 的 Oracle Home 被更新)。在第三步,已采用补丁的例程被激活,重新加入集群。
现在 RAC 系统含有一个维护等级高于集群中其它结点的例程。RAC 系统可在任意时间内以这一混合模式运行,以确保补丁能够解决原来的问题,同时不会产生一些其它的问题。这一流程之后被重复应用于集群中的剩余结点。当集群内的所有结点都采用了补丁了,滚动补丁更新流程正式结束,所有结点都将运行着同一版本的 Oracle 数据库软件。此外,opatch 还能删除补丁。如果在已更新的例程上观察到一些异常情况,该补丁将被卸载,或删除,从而不会导致整个集群发生故障。删除程序与补丁应用程序相同,但在这一情况下 opatch 删除了一个之前部署的补丁。
滚动版本升级
Oracle 数据库 10g 支持通过采用 Data Guard SQL Apply — 在几乎不影响数据库运行的情况下 — 以滚动的方式升级数据库软件并安装补丁集。这一流程采取的方法如下图所示。

图 7:建立备用数据库
在建立备用数据库,并配置 Data Guard 以将生产数据库的变化复制到备用数据库后,备用数据库将需要进行升级。

图 8:升级备用数据库
这一配置可在任意时间内以该混合模式运行,以对生产环境中的升级版本进行验证。如果已升级的软件运行正常,将需要进行数据库角色颠倒和转换工作。

图 9:角色颠倒
角色颠倒由几个步骤组成,包括:Data Guard 转换,将原来的备用数据库变成生产数据库;将数据库客户端重新定位至新的生产数据库;升级备用数据库;提高两个数据库的兼容等级。在这一流程中,配置将需要在几段时间内以混合模式运行,以对升级进行验证在这些阶段内,升级版本可被提取出来,软件可以恢复至升级前的状态,而丝毫不影响数据。在滚动升级期间,备用数据库将可以用于灾难恢复。对于在这些步骤中的其它数据保护,则可能在 Data Guard 配置中使用第二个数据库。通过支持滚动版本升级和滚动补丁更新,Oracle 消除了DBA 为完成管理任务而保留的大量维护窗口,实现了企业的 24x7 全天候运营目标。
返回页首
最高可用性体系结构 (MAA) 最佳实践
运营最佳实践对于成功实施 IT 基础架构至关重要。只依靠技术还远远不够。Oracle 的最高可用性体系结构 (MAA)_ 是一份业经验证的综合性蓝图,专为构建高可用性系统而构建。在 MAA 上构建系统体系结构的企业发现可快速高效的设计并部署能够满足其系统可用性的业务需求的应用。MAA 包含了详细的设计和配置建议。这些建议均经过了严格的审核和广泛的测试,可带来出色的系统可用性和灵活性。MAA 蓝图剖析并详细节介绍了主要 Oracle 数据库特性的组合,以实现高可用性,包括真正应用集群、恢复管理和企业管理。它还介绍了高可用性系统的其它关键逐渐的配置和集成,包括服务器、存储设备、联网和应用服务器等。
所有这些特性共同赋予了 Oracle 的客户一个高可用性解决方案。这些特性的正确组合,同时通过严格遵循最高可用性体系结构最佳实践,将可以带来一款具有最高可用性的系统,一款固若磐石的解决方案。MAA 最佳实践指南仍在不断扩展,并将成为 Oracle 数据库 10g 文档集的一个标准部分。
了解有关 MAA 的更多信息
返回页首
结论
作为 IT 基础架构的主要组件,Oracle 数据库提供了丰富的特性和工具,以确保关键任务应用的数据访问支持和可用性。Oracle 数据库 10g 包括重要和创新的可用性特性,以确保您的数据和数据库随时随地可用。同时它提供的网格能力也可帮助您确定部署数据库环境所需的成本,同时能够根据业务需求进行扩展。
返回页首