第 1 页 第 2 页 第 3 页

在 Linux 和 FireWire 上构建您自己的 Oracle RAC 10g 第 2 版集群(续)
仅用于开发和测试;不支持生产部署!


19. 安装 Oracle 10g 集群件软件

仅在集群的一个节点上执行下列安装过程!Oracle Universal Installer 将把 Oracle 集群件软件安装到集群中的所有其他节点。

您现在就可以安装该环境的“集群”部分:Oracle 集群件了。在上一节中,您将 Oracle 集群件的安装文件下载并解压缩到 linux1 的目录 /u01/app/oracle/orainstall/clusterware 中。这是唯一需要执行安装的节点。

在 Oracle 集群件的安装过程中,系统将提示您提供相关的并要在 RAC 集群中配置的节点。当实际的安装开始时,它将使用我们在第 13 节(“为远程访问配置 RAC 节点”)中配置的远程访问把所需的软件复制到所有节点。

那 Oracle 集群件究竟是用来干什么的呢?

它包含所有集群和数据库配置元数据以及多个适用于 RAC 的系统管理特性。通过它,DBA 可以将一个 Oracle 实例(或多个实例)注册和调用到集群。在通常的操作中,Oracle 集群件将通过一种特殊的 ping 操作向集群中配置的所有节点发送消息(通常称作“心跳”)。如果对任何节点的心跳检测失败,则它将检查 Oracle 集群件配置文件(位于共享磁盘上)以辨别是节点故障还是网络故障。

安装 Oracle 集群件后,用于安装 Oracle 10g 数据库软件(下一节)的 Oracle Universal Installer (OUI) 将自动识别这些节点。与您将在本节中执行的 Oracle 集群件安装一样,Oracle 数据库 10g 软件只需要从一个节点中运行。OUI 将把此软件程序包复制到 RAC 集群中配置的所有节点。

Oracle 集群件共享文件

将把由 Oracle 集群件使用的两个共享文件存储到我们在前面创建的 OCFS2 文件系统中。这两个共享 Oracle 集群件文件是:

  • Oracle 集群注册表 (OCR)
    • 位置:/u02/oradata/orcl/OCRFile
    • 大小:~ 100MB
  • CRS 表决磁盘
    • 位置:/u02/oradata/orcl/CSSFile
    • 大小:~ 20MB

注意:对于此处的安装而言,无法将 ASM 用于两个 Oracle 集群件文件(OCR 或 CRS 表决磁盘)。问题是只有这两个文件就绪并可以访问后才可以启动 Oracle 实例。要使 ASM 可用,应首先运行 ASM 实例。可以将这两个共享文件存储到 OCFS2、共享的原始设备或其他供应商的集群化文件系统中。

验证环境变量

启动 OUI 之前,应先从控制台以 root 运行 xhost 命令以允许建立 X Server 服务器连接。然后,取消 ORACLE_HOME 变量的设置并确认 RAC 集群的每个节点定义了唯一的 ORACLE_SID。还应确认我们是以 oracle 用户帐户登录的:

以 oracle 登录

# xhost +
access control disabled, clients can connect from any host

# su - oracle
取消 ORACLE_HOME 的设置
$ unset ORA_CRS_HOME
$ unset ORACLE_HOME
$ unset ORA_NLS10
$ unset TNS_ADMIN

验证 linux1 上的环境变量

$ env | grep ORA
ORACLE_SID=orcl1
ORACLE_BASE=/u01/app/oracle
ORACLE_TERM=xterm

验证 linux2 上的环境变量

$ env | grep ORA
ORACLE_SID=orcl2
ORACLE_BASE=/u01/app/oracle
ORACLE_TERM=xterm

安装集群就绪服务

注意:Oracle RAC 10g 10.1.0.3 中的 CSS 超时计算 请注意,安装 Oracle 集群件软件后,您需要修改集群件的 CSS 超时值。这对 10.1.0.3 和更高版本来说更是如此,这是因为其 CSS 超时计算方法不同于 10.1.0.2。从 Linux 平台(包括 IA32、IA64 和 x86-64)上的 Oracle 10.1.0.3 开始,已发现因 CSS 后台程序超时引起的多个问题。这在过去一直是困扰我的一大难题,尤其是在创建数据库 (DBCA) 时。例如,数据库创建过程经常因以下错误而失败:ORA-03113:end-of-file on communication channel。关键错误在日志文件 $ORA_CRS_HOME/css/log/ocssd1.log 中记录为:
clssnmDiskPingMonitorThread:voting device access hanging (45010 miliseconds)
实际上,问题源于慢速磁盘以及 CSS misscount 的默认值。CSS misscount 值表示在 CSS 删除节点前未收到的心跳数。CSS 使用该数值计算表决磁盘的 I/O 应被视为超时 的时间,从而将其终止以防止裂脑情况的出现。在 Linux 上,Oracle 10.1.0.2 和更高版本的 CSS misscount 的默认值为 60。但 10.1.0.2 版与 10.1.0.3 版的超时值(秒)计算公式并不相同。

10.1.0.2 的超时值计算公式如下:

time_in_secs > CSS misscount, then EXIT
例如,在使用默认值 60 时,超时将为 60 秒。

从 10.1.0.3 开始,该公式更改为:

disktimeout_in_secs = MAX((3 * CSS misscount)/4, CSS misscount - 15)
如果再次使用 CSS misscount 的默认值 60,则超时将为 45 秒。

之所以进行此更改,主要是为了当节点出现故障时能够更快地重新配置集群。当在 10.1.0.2 中使用 CSS misscount 的默认值 60 时,我们将必须至少等待 60 秒才能超时,但从 10.1.0.3 开始,同一默认值 60 可以减少 15 秒,即 45 秒。

说来说去为什么总是围绕 CSS misscount 呢?正如我在前面指出的,我所执行的数据库创建过程(或对系统执行的其他高 I/O 负载操作)通常会因为 Oracle 集群件崩溃而出现故障。高 I/O 将导致 CSS 在尝试查询表决磁盘时的超时很长。超过计算的超时时,Oracle 集群件将崩溃。这在本文中是一种常见情况,因为我们使用的 FireWire 驱动器不是最快的。驱动器越慢,这种情况就越经常出现。

但一个好消息是,您可以修改 CSS misscount 值的默认值 60(对于 Linux) 实现更长的超时。对于在本文中使用的驱动器,可以将 CSS misscount 值设置为 360。尽管我无法对此进行验证,但我相信可以将 CSS Misscount 设置为 600。

那么,如何修改 CSS misscount 的默认值?方法有很多。最简单的方法是先修改 Oracle 集群件的 root.sh,然后在集群中的每个节点上运行它。(可以在此处找到有关修改 Oracle 集群件的 root.sh 脚本的说明。)

如果已经安装了 Oracle 集群件,则仍可以使用 $ORA_CRS_HOME/bin/crsctl 命令修改 CSS misscount 值。(可以在“验证 Oracle 集群件/CSS misscount 值”一节中找到有关使用 crsctl 验证和修改 CSS misscount 的说明。)

执行以下任务安装 Oracle 集群件:

$ cd ~oracle
$ /u01/app/oracle/orainstall/clusterware/runInstaller -ignoreSysPrereqs

屏幕名称 回应
Welcome Screen 单击 Next
Specify Inventory directory and credentials 接受默认值:
   Inventory directory: /u01/app/oracle/oraInventory
   Operating System group name:dba
Specify Home Details 保留 Source 目录的默认值。设置 ORACLE_HOME 名称(实际上,我将在本文中使用 $ORA_CRS_HOME)和位置的目标,如下所示:
   Name: OraCrs10g_home
   Location:/u01/app/oracle/product/crs
Product-Specific Prerequisite Checks 安装程序将执行一系列的检查以确定节点是否满足安装和配置 Oracle 集群件软件的最低要求。如果任何检查失败,您将需要通过单击该复选框手动验证失败的检查。我所执行的安装通过了所有检查,未出现任何问题。

单击 Next 继续。

Specify Cluster Configuration Cluster Name: crs
Public Node Name Private Node Name Virtual Node Name
linux1 int-linux1 vip-linux1
linux2 int-linux2 vip-linux2
Specify Network Interface Usage
Interface Name Subnet Interface Type
eth0 192.168.1.0 公共
eth1 192.168.2.0 专用
Specify OCR Location 从带有 RAC 的 Oracle 数据库 10g 第 2 版 (10.2) 开始,Oracle 集群件支持创建镜像的 OCR 文件,从而增强了集群可靠性。就本示例而言,我通过保留默认选项“Normal Redundancy”镜像 OCR 文件:

Specify OCR Location: /u02/oradata/orcl/OCRFile
Specify OCR Mirror Location:/u02/oradata/orcl/OCRFile_mirror

Specify Voting Disk Location 从带有 RAC 的 Oracle 数据库 10g 第 2 版 (10.2) 开始,已经修改了 CSS,使您可以为 CSS 配置多个表决磁盘。在第 1 版 (10.1) 中,您只能配置一个表决磁盘。通过启用多个表决磁盘配置,您可以使用冗余的表决磁盘在独立的共享物理磁盘上为 RAC 数据库配置多个表决磁盘。该选项简化了 iSCSI 网络协议以及其他存储区域网络 (NAS) 存储解决方案的使用。注意,要利用多个表决磁盘的好处,必须至少配置三个表决磁盘。就本示例而言,我通过保留默认选项“Normal Redundancy”镜像表决磁盘:

Voting Disk Location: /u02/oradata/orcl/CSSFile
Additional Voting Disk 1 Location:/u02/oradata/orcl/CSSFile_mirror1
Additional Voting Disk 2 Location:/u02/oradata/orcl/CSSFile_mirror2

Summary 由于某种原因,OUI 未能在开始安装前创建目录“$ORA_CRS_HOME/log”。您应在单击“Install”按钮前手动创建此目录。

对于此安装,在集群的所有节点上手动创建文件 /u01/app/oracle/product/crs/log。OUI 将把所有错误记录到此目录中的一个日志文件上(只有它存在时)。

单击 Install 开始安装!

Execute Configuration Scripts 安装完成后,将提示您运行 orainstRoot.sh 和 root.sh 脚本。 以“root”用户帐户在 RAC 集群的每个节点(从执行安装的节点开始)上打开一个新控制台窗口。

导航到 /u01/app/oracle/oraInventory 目录,并在 RAC 集群的所有节点上运行 orainstRoot.sh。

在 RAC 集群中每个节点(从执行安装的节点开始)上的同一个新控制台窗口中,以“root”用户帐户登录。

正如在前面的“10g RAC 10.1.0.3 中的 CSS 超时计算”一节指出的,您应在文件 $ORA_CRS_HOME/install/rootconfig 中将 CSS misscount 条目从 60 修改为 360(在集群中的每个节点上执行该操作),如下所示。将位于第 356 行上的以下条目:

CLSCFG_MISCNT="-misscount 60"

更改为

CLSCFG_MISCNT="-misscount 360"

现在,导航到 /u01/app/oracle/product/crs 目录并在集群中的每个节点(从执行安装的节点开始)上找到 root.sh 文件。在 RAC 集群的所有节点上运行 root.sh 文件,一次一个

您在所有节点上运行 root.sh 时将收到多个警告。可以忽略这些警告,没什么问题。

可能需要等一会儿才会运行 root.sh。在最后一个节点上运行 root.sh 时,您将收到一个严重错误,其输出如下所示:

...
Expecting the CRS daemons to be up within 600 seconds.
CSS is active on these nodes.
linux1
linux2
CSS is active on all nodes.
Waiting for the Oracle CRSD and EVMD to start
Oracle CRS stack installed and running under init(1M)
Running vipca(silent) for configuring nodeapps
The given interface(s), "eth0" is not public.Public interfaces should be used to configure virtual IPs.

此问题为 Oracle 10.2.0.1(错误 4437727 中有说明)所特有,需要在继续操作前将其解决。最简单的变通方法是从出现错误的上一个节点中以 root 用户的身份手动重新运行 vipca (GUI)。请注意,vipca 是一个 GUI,需要根据您的 X 服务器设置 DISPLAY 变量:

# $ORA_CRS_HOME/bin/vipca

出现“VIP Configuration Assistant”时,我按如下所示回应屏幕提示:

   Welcome: 单击 Next
   Network interfaces:同时选择两个接口 - eth0 和 eth1
Virtual IPs for cluster notes:
       Node Name:linux1
       IP Alias Name:vip-linux1
       IP Address:192.168.1.200
       Subnet Mask: 255.255.255.0

       Node Name: linux2
       IP Alias Name:vip-linux2
       IP Address:192.168.1.201
       Subnet Mask: 255.255.255.0

   Summary: 单击 Finish
   Configuration Assistant Progress Dialog:配置完成后单击 OK。
   Configuration Results: 单击 Exit

返回到 OUI 并确认“Execute Configuration scripts”对话框。

End of installation 安装结束时,退出 OUI。

验证 Oracle 集群件/CSS misscount 值

在“10g RAC 10.1.0.3 中的 CSS 超时计算”一节中,我曾指出需要将 CSS Misscount 值从其默认值 60 修改为 360(或更高)。在该节中,我介绍了完成此修改的方法,即先修改 root.sh 脚本,然后在集群中的每个节点上运行它。如果无法在 root.sh 脚本中修改 CSS misscount 值,您仍然可以通过使用 $ORA_CRS_HOME/bin/crsctl 程序执行此操作。例如,要获取 CSS misscount 的当前值,使用以下命令:

$ORA_CRS_HOME/bin/crsctl get css misscount
360
如果收到值 60,则将需要将它修改为 360,如下所示:
  • 只启动集群中的一个节点。就我的示例而言,我将关闭 linux2 并只启动 linux1
  • 从一个节点 (linux1) 中,以 root 用户帐户的身份登录并键入:
    $ORA_CRS_HOME/bin/crsctl set css misscount 360
  • 重新引导此单个节点 (linux1)。
  • 启动集群中的所有其他节点。

验证 Oracle 集群件安装

安装 Oracle 集群件后,可以运行几个测试来验证安装是否成功。在 RAC 集群的所有节点上运行下列命令。

检查集群节点

$ /u01/app/oracle/product/crs/bin/olsnodes -n
linux1 1
linux2 2
检查 Oracle 集群件自动启动脚本
$ ls -l /etc/init.d/init.*
-r-xr-xr-x  1 root root  1951 Oct  4 14:21 /etc/init.d/init.crs*
-r-xr-xr-x  1 root root  4714 Oct  4 14:21 /etc/init.d/init.crsd*
-r-xr-xr-x  1 root root 35394 Oct  4 14:21 /etc/init.d/init.cssd*
-r-xr-xr-x  1 root root  3190 Oct  4 14:21 /etc/init.d/init.evmd*

 


20. 安装 Oracle 数据库 10g 软件

仅在集群的一个节点上执行下列安装过程!Oracle 数据库软件将由 Oracle Universal Installer 安装到集群的所有其他节点。

成功安装 Oracle 集群件软件后,下一步是安装具有 RAC 的 Oracle 数据库 10g 第 2 版(10.2.0.1.0)。

就本示例而言,您在安装该软件时将不使用“Create Database”选项。而是将在安装后使用数据库创建助手 (DBCA) 创建数据库。

验证环境变量

启动 OUI 之前,应先从控制台以 root 运行 xhost 命令以允许建立 X Server 连接。然后,取消 ORACLE_HOME 变量的设置并确认 RAC 集群的每个节点定义了唯一的 ORACLE_SID。还应确认我们是以 oracle 用户帐户登录的:

以 oracle 登录

# xhost +
access control disabled, clients can connect from any host

# su - oracle

取消 ORACLE_HOME 的设置

$ unset ORA_CRS_HOME
$ unset ORACLE_HOME
$ unset ORA_NLS10
$ unset TNS_ADMIN

验证 linux1 上的环境变量

$ env | grep ORA
ORACLE_SID=orcl1
ORACLE_BASE=/u01/app/oracle
ORACLE_TERM=xterm

验证 linux2 上的环境变量

$ env | grep ORA
ORACLE_SID=orcl2
ORACLE_BASE=/u01/app/oracle
ORACLE_TERM=xterm

安装 Oracle 数据库 10g 第 2 版软件

使用以下命令安装 Oracle 数据库 10g 第 2 版软件:

$ cd ~oracle
$ /u01/app/oracle/orainstall/database/runInstaller -ignoreSysPrereqs

屏幕名称 回应
Welcome Screen 单击 Next
Select Installation Type 我选择了 Enterprise Edition 选项。
Specify Home Details 按如下所示设置 ORACLE_HOME 名称和位置的目标:
   Name: OraDb10g_home1
   Location:/u01/app/oracle/product/10.2.0/db_1
Specify Hardware Cluster Installation Mode 选择 Cluster Installation 选项,然后选择所有可用节点。单击 Select All 选择所有服务器:linux1 和 linux2。

如果安装此时停止,且有 RAC 节点的状态显示为“Node not reachable”(无法访问节点),则执行以下检查:

  • 确保 Oracle 集群件正在所讨论的节点上运行。
  • 确保您能够从执行安装的节点访问所讨论的节点。
Product-Specific Prerequisite Checks 安装程序将执行一系列的检查以确定节点是否满足安装和配置 Oracle 数据库软件的最低要求。如果任何检查失败,您将需要通过单击该复选框手动验证失败的检查。

在我执行的安装过程中,只有一个检查失败:

Checking for ip_local_port_range=1024 - 65000; found ip_local_port_range=32768 - 61000. Failed

只需单击“Checking kernel parameters”的复选框,然后单击 Next 继续。

Select Database Configuration 选择选项“Install database software only”。

记住,我们将在单独的步骤中使用 DBCA 创建集群化数据库。

Summary 由于某种原因,OUI 未能在开始安装前为安装目录创建 $ORACLE_HOME/log。您应先手动创建此目录。

对于此安装,在执行安装的节点上手动创建文件 /u01/app/oracle/product/10.2.0/db_1/log。OUI 将把所有错误记录到此目录中的一个日志文件上(只有它存在时)。

单击 Install 开始安装!

Root Script Window - Run root.sh 安装完成后,将提示您运行 root.sh 脚本。需要记住的是,需要在 RAC 集群的所有节点一次一个地(从运行数据库安装的节点开始)运行 root.sh 脚本。

首先,以 root 用户帐户在安装 Oracle 10g 数据库软件的节点上打开一个新控制台窗口。我打开的是“linux1”。

导航到 /u01/app/oracle/product/10.2.0/db_1 目录,运行 root.sh。

在集群的所有节点上运行 root.sh 脚本后,返回 OUI 并确认“Execute Configuration scripts”对话框。

End of installation 安装结束时,退出 OUI。



21. 创建 TNS 监听器进程

仅在集群的一个节点上执行下列配置过程!网络配置助手 (NETCA) 将在集群所有节点上的集群化配置中设置 TNS 监听器。

DBCA 需要在 RAC 集群的所有节点上配置并运行 Oracle TNS 监听器进程,然后它才能创建集群化数据库。

只需在集群的一个节点上执行 TNS 监听器创建过程。执行所有更改并将这些更改复制到集群的所有节点上。在一个节点(我将使用 linux1)上,启动 NETCA 并执行创建新 TNS 监听器进程的过程,同时配置节点的本地访问权限。

运行 NETCA 前,确保以 oracle 用户重新登录并确认将 $ORACLE_HOME 环境变量设置为正确的位置。如果要使用前一节中使用的控制台窗口,则请注意,我们取消了 $ORACLE_HOME 环境变量的设置。这将导致在尝试运行 netca 时出现错误。

要启动 NETCA,以 oracle 用户帐户运行以下 GUI 实用程序:

# su - oracle
$ netca &
以下屏幕截图将引导您为我们 RAC 环境创建一个新的 Oracle 监听器。
屏幕名称 回应
Select the Type of Oracle
Net Services Configuration
选择 Cluster Configuration
Select the nodes to configure 选择所有节点:linux1 和 linux2。
Type of Configuration 选择 Listener configuration。
Listener Configuration - Next 6 Screens 后续屏幕现在与其他常规监听器配置的相似。您只需接受后续 6 个屏幕的默认参数即可:
   What do you want to do: Add
   Listener name:LISTENER
   Selected protocols:TCP
   Port number:1521
   Configure another listener:No
   Listener configuration complete![ Next ]
您将返回到此 Welcome (Type of Configuration) 屏幕。
Type of Configuration 选择 Naming Methods configuration。
Naming Methods Configuration 后续屏幕是:
   Selected Naming Methods: Local Naming
   Naming Methods configuration complete![ Next ]
您将返回到此 Welcome (Type of Configuration) 屏幕。
Type of Configuration 单击 Finish 退出 NETCA。

Oracle TNS 监听器进程现在应在 RAC 集群的所有节点上运行:

$ hostname
linux1

$ ps -ef | grep lsnr | grep -v 'grep' | grep -v 'ocfs' | awk '{print $9}'
LISTENER_LINUX1

=====================

$ hostname
linux2

$ ps -ef | grep lsnr | grep -v 'grep' | grep -v 'ocfs' | awk '{print $9}'
LISTENER_LINUX2



22. 安装 Oracle 数据库 10g 随附 CD 软件

仅在集群的一个节点上执行下列安装过程!Oracle 数据库 10g 随附 CD 软件将由 Oracle Universal Installer 安装到集群的所有其他节点。

成功安装 Oracle 数据库软件后,下一步是安装 Oracle 数据库 10g 第 2 版随附 CD 软件(10.2.0.1.0)。

请注意,这是一个可选步骤。就本指南而言,我的测试数据库将通常使用 Java 虚拟机 (Java VM) 和 Oracle interMedia,因此将需要安装 Oracle 数据库 10g 随附 CD。要执行的安装类型将为 Oracle 数据库 10g 产品 安装类型。

此安装类型包括用于提高 Java 性能的原生编译的 Java 库 (NCOMP) 文件。如果不安装 NCOMP 文件,则在使用 Java VM 的数据库升级为修补版时,将发生 ORA-29558:JAccelerator (NCOMP) not installed 错误。

安装随附 CD 软件

使用以下命令安装随附 CD 软件:

$ cd ~oracle
$ /u01/app/oracle/orainstall/companion/runInstaller -ignoreSysPrereqs

屏幕名称 回应
Welcome Screen 单击 Next
Select a Product to Install 选择“Oracle Database 10g Products 10.2.0.1.0”选项。
Specify Home Details 将 ORACLE_HOME 名称和位置的目标设置为前面安装的 Oracle10g 数据库软件的目标,如下所示:
   Name: OraDb10g_home1
   Location:/u01/app/oracle/product/10.2.0/db_1
Specify Hardware Cluster Installation Mode 默认情况下,将选择 Cluster Installation 选项以及集群中的所有可用节点。保留这些默认选项,然后单击 Next 继续。

如果安装此时停止,且有 RAC 节点的状态显示为“Node not reachable”,则执行以下检查:

  • 确保 Oracle 集群件正在所讨论的节点上运行。
  • 确保您能够从执行安装的节点访问所讨论的节点。
Product-Specific Prerequisite Checks 安装程序将执行一系列的检查以确定节点是否满足安装和配置随附 CD 软件的最低要求。如果任何检查失败,您将需要通过单击该复选框手动验证失败的检查。我所执行的安装通过了所有检查,未出现任何问题。

单击 Next 继续。

Summary 在 Summary 屏幕上,单击 Install 开始安装!
End of installation 安装结束时,退出 OUI。



23. 创建 Oracle 集群数据库

数据库创建过程应只在集群的一个节点上执行!

我们将使用 DBCA 创建集群化数据库。

在执行 DBCA 前,确保为 $ORACLE_BASE/product/10.2.0/db_1 环境正确设置了 $ORACLE_HOME$PATH

在试图开始创建集群化数据库之前,还应确保已安装的所有服务(Oracle TNS 监听器、Oracle 集群件进程等)正在运行。

创建集群化数据库

要开始数据库创建过程,运行以下命令:

# xhost +
access control disabled, clients can connect from any host

# su - oracle
$ dbca &
屏幕名称 回应
Welcome Screen 选择“Oracle Real Application Clusters database”。
Operations 选择 Create a Database
Node Selection 单击 Select All 按钮选择所有服务器:linux1 和 linux2。
Database Templates 选择 Custom Database
Database Identification 选择:
   Global Database Name: orcl.idevelopment.info
   SID Prefix:orcl

我将 idevelopment.info 用于数据库域。您可以使用任何域。请记住,此域不必为有效的 DNS 域。

Management Option 保留此处的默认选项,即“Configure the Database with Enterprise Manager / Use Database Control for Database Management”。
Database Credentials 我选择 Use the Same Password for All Accounts。输入口令(两次)并确保此口令不是以数字开头。
Storage Options 对于本指南,我们将选择 use ASM
Create ASM Instance 提供要用于新 ASM 实例的 SYS 口令。

此外,从第 2 版开始,ASM 实例服务器参数文件 (SPFILE) 需要位于共享磁盘上。您将需要修改“Create server parameter file (SPFILE)”的默认条目以驻留在 OCFS2 分区上,如下所示:/u02/oradata/orcl/dbs/spfile+ASM.ora。所有其他选项可以保留其默认值。

然后将有一个对话框询问您是否要创建并启动 ASM 实例。选择 OK 按钮确认此对话框。

OUI 将立即在 RAC 集群的所有节点上创建并启动 ASM 实例。

ASM Disk Groups 首先,单击 Create New 按钮。这将弹出“Create Disk Group”窗口,其中显示了我们在前面使用 ASMLib 创建的三个卷。

如果在本文前面部分创建的卷没有显示在“Select Member Disks”窗口中:(ORCL:VOL1、ORCL:VOL2 和 ORCL:VOL3),则单击“Change Disk Discovery Path”按钮并输入“ORCL:VOL*”。

对于第一个“Disk Group Name”,我使用了字符串“ORCL_DATA1”。在“Select Member Disks”窗口中选择前两个 ASM 卷(ORCL:VOL1 和 ORCL:VOL2)。将“Redundancy”设置为“Normal”。这两列现在的状态应为“PROVISIONED”。

确认此窗口中的所有值均正确后,单击 [OK] 按钮。这将显示“ASM Disk Group Creation”对话框。完成 ASM 磁盘组创建过程时,您将返回到“ASM Disk Groups”窗口。

再次单击 Create New 按钮。对于第二个“Disk Group Name”,我使用了字符串 FLASH_RECOVERY_AREA。在“Select Member Disks”窗口中选择最后一个 ASM 卷 (ORCL:VOL3)。将“Redundancy”选项设置为“External”。最后一个卷的状态也将更改为“PROVISIONED”。

确认此窗口中的所有值均正确后,单击 [OK] 按钮。这将显示“ASM Disk Group Creation”对话框。

完成 ASM 磁盘组创建过程后,您将返回到“ASM Disk Groups”窗口,其中创建并选择了两个磁盘组。使用新创建的 Disk Group Name ORCL_DATA1 旁边的复选框选择一个磁盘组(确保未选择 FLASH_RECOVERY_AREA 的磁盘组),然后单击 [Next] 继续。

Database File Locations

我选择使用默认值,即使用 Oracle Managed Files:

Database Area: +ORCL_DATA1

Recovery Configuration 选中“Specify Flash Recovery Area”选项。

对于 Flash Recovery Area,使用磁盘组名称 +FLASH_RECOVERY_AREA。

我使用的磁盘组的大小约为 100GB。我使用了 90GB 的 Flash Recovery Area Size (91136 MB)。

Database Content 我将所有数据库组件(和目标表空间)设置为它们的默认值,但选择 Example Schemas 也完全可以。由于我们安装了 Oracle 随附 CD 软件,因此该选项可用。
Database Services 对于此测试配置,单击 Add,然后输入 orcltest 作为“Service Name”。将这两个实例设置为 Preferred,并为“TAF Policy”选择 Basic。
Initialization Parameters 根据您的环境更改任意参数。我保留了所有这些参数的默认设置。
Database Storage 根据您的环境更改任意参数。我保留了所有这些参数的默认设置。
Creation Options 选择默认选项 Create Database,并单击 Finish 启动数据库创建过程。

在“Summary”屏幕上单击 OK

End of Database Creation 在数据库创建结束时,退出 DBCA。

退出 DBCA 时,将弹出另一对话框,指示它正在启动所有 Oracle 实例以及 HA 服务“orcltest”。这可能需要几分钟的时间才能完成。完成时,所有窗口和对话框将关闭。

完成 DBCA 后,您就启动了一个功能完善的 Oracle RAC 集群!

创建 orcltest 服务

在创建 Oracle 集群化数据库的过程中,您添加了一个名为 orcltest 的服务,我们将用它来连接启用了 TAF 的数据库。在我的多个安装中,均将此服务添加到了 tnsnames.ora 中,但从未将其作为每个 Oracle 实例的服务更新过。

使用以下命令来验证已成功添加 orcltest 服务:

SQL> show parameter service

NAME                 TYPE        VALUE
-------------------- ----------- --------------------------------
service_names        string      orcl.idevelopment.info, orcltest
如果定义的唯一服务是用于 orcl.idevelopment.info 的,则您将需要手动将此服务添加到两个实例中:
SQL> show parameter service

NAME                 TYPE        VALUE
-------------------- ----------- --------------------------
service_names        string      orcl.idevelopment.info

SQL> alter system set service_names = 
2  'orcl.idevelopment.info, orcltest.idevelopment.info' scope=both;
  

24. 验证 TNS 联网文件

确保在集群的所有节点上配置 TNS 联网文件!

listener.ora

我们已经在第 21 节中介绍了如何为集群化环境创建 TNS 监听器配置文件 (listener.ora)。应正确配置 listener.ora 文件且无需对它修改。

为清楚起见,我将节点 linux1 的 listener.ora 文件副本包含在了本指南的支持文件中。我还包含了 tnsnames.ora 文件的副本,该文件由 Oracle 配置并可以用于测试透明应用程序故障切换 (TAF)。此文件应已在 RAC 集群的每个节点上进行了配置。

您可以将这些条目中的任何条目包含在需要访问集群化数据库的其他客户端计算机上。

从外部客户端连接集群化数据库

这是一个可选步骤,但我要执行它以便确认正确配置了 TNS 文件。使用其他安装了 Oracle(9i 或 10g)的计算机(例如,连接网络的 Windows 计算机)并从集群的任一节点添加为集群化数据库创建的 TNS 条目(位于 tnsnames.ora 中)。

然后使用在 tnsnames.ora 文件中定义的所有可用服务名称连接集群化数据库:

C:\> sqlplus system/manager@orcl2
C:\> sqlplus system/manager@orcl1
C:\> sqlplus system/manager@orcltest
C:\> sqlplus system/manager@orcl

 


25. 创建/更改表空间

创建集群化数据库时,我们将所有表空间设置为它们的默认大小。如果您将一个大型驱动器用作共享存储,则可能想创建一个大小可以调整的测试数据库。

以下是几个可为测试数据库修改和创建所有表空间的 SQL 命令。请记住,此示例中使用的数据库文件名称(OMF 文件)可能与 Oracle 为您的环境创建的数据库文件名称不同。可以使用以下查询确定环境的文件名:

SQL> select tablespace_name, file_name
2  from dba_data_files
3  union
4  select tablespace_name, file_name
5  from dba_temp_files;

TABLESPACE_NAME     FILE_NAME
--------------- --------------------------------------------------
EXAMPLE         +ORCL_DATA1/orcl/datafile/example.257.570913311
INDX            +ORCL_DATA1/orcl/datafile/indx.270.570920045
SYSAUX          +ORCL_DATA1/orcl/datafile/sysaux.260.570913287
SYSTEM          +ORCL_DATA1/orcl/datafile/system.262.570913215
TEMP            +ORCL_DATA1/orcl/tempfile/temp.258.570913303
UNDOTBS1        +ORCL_DATA1/orcl/datafile/undotbs1.261.570913263
UNDOTBS2        +ORCL_DATA1/orcl/datafile/undotbs2.265.570913331
USERS           +ORCL_DATA1/orcl/datafile/users.264.570913355

$ sqlplus "/ as sysdba"

SQL> create user scott identified by tiger default tablespace users;
SQL> grant dba, resource, connect to scott;

SQL> alter database datafile '+ORCL_DATA1/orcl/datafile/users.264.570913355' resize 1024m;
SQL> alter tablespace users add datafile '+ORCL_DATA1' size 1024m autoextend off;

SQL> create tablespace indx datafile '+ORCL_DATA1' size 1024m
2  autoextend on next 50m maxsize unlimited
3  extent management local autoallocate
4  segment space management auto;

SQL> alter database datafile '+ORCL_DATA1/orcl/datafile/system.262.570913215' resize 800m;

SQL> alter database datafile '+ORCL_DATA1/orcl/datafile/sysaux.260.570913287' resize 500m;

SQL> alter tablespace undotbs1 add datafile '+ORCL_DATA1' size 1024m
2  autoextend on next 50m maxsize 2048m;

SQL> alter tablespace undotbs2 add datafile '+ORCL_DATA1' size 1024m
2  autoextend on next 50m maxsize 2048m;

SQL> alter database tempfile '+ORCL_DATA1/orcl/tempfile/temp.258.570913303' resize 1024m;
以下是我为我的测试数据库环境定义的表空间快照:
Status    Tablespace Name TS Type      Ext. Mgt.Seg.Mgt.Tablespace Size  Used (in bytes) Pct.Used
--------- --------------- ------------ ---------- --------- ------------------ ------------------ ---------
ONLINE    UNDOTBS1        UNDO         LOCAL      MANUAL       1,283,457,024      85,065,728        7
ONLINE    SYSAUX          PERMANENT    LOCAL      AUTO           524,288,000      275,906,560        53
ONLINE    USERS           PERMANENT    LOCAL      AUTO         2,147,483,648          131,072         0
ONLINE    SYSTEM          PERMANENT    LOCAL      MANUAL         838,860,800      500,301,824        60
ONLINE    EXAMPLE         PERMANENT    LOCAL      AUTO             157,286,400         83,820,544        53
ONLINE    INDX            PERMANENT    LOCAL      AUTO         1,073,741,824           65,536         0
ONLINE    UNDOTBS2        UNDO         LOCAL      MANUAL       1,283,457,024        3,801,088         0
ONLINE    TEMP            TEMPORARY    LOCAL      MANUAL       1,073,741,824       27,262,976         3
                                                            ------------------ ------------------ ---------
avg                                                                                                  22
sum                                                            8,382,316,544      976,355,328

8 rows selected.



26. 验证 RAC 集群和数据库配置

应在集群的所有节点上执行以下 RAC 验证检查!对于本指南,我将只从 linux1 中执行这些检查。

本节提供了几个可用于验证 Oracle RAC 10g 配置的 srvctl 命令和 SQL 查询。

有五个为 SRVCTL 定义的节点级任务:

  • 添加和删除节点级应用程序
  • 设置和取消设置节点级应用程序的环境
  • 管理节点应用程序
  • 管理 ASM 实例
  • 启动和停止一组包含虚拟 IP 地址、监听器、Oracle 通知服务和 Oracle 企业管理器代理的程序(出于维护目的)。

所有实例和服务的状态

$ srvctl status database -d orcl
Instance orcl1 is running on node linux1
Instance orcl2 is running on node linux2

单个实例的状态

$ srvctl status instance -d orcl -i orcl2
Instance orcl2 is running on node linux2

在数据库全局命名服务的状态

$ srvctl status service -d orcl -s orcltest
Service orcltest is running on instance(s) orcl2, orcl1

特定节点上节点应用程序的状态

$ srvctl status nodeapps -n linux1
VIP is running on node:linux1
GSD is running on node:linux1
Listener is running on node:linux1
ONS daemon is running on node:linux1

ASM 实例的状态

$ srvctl status asm -n linux1
ASM instance +ASM1 is running on node linux1.

列出配置的所有数据库

$ srvctl config database
orcl

显示 RAC 数据库的配置

$ srvctl config database -d orcl
linux1 orcl1 /u01/app/oracle/product/10.2.0/db_1
linux2 orcl2 /u01/app/oracle/product/10.2.0/db_1

显示指定集群数据库的所有服务

$ srvctl config service -d orcl
orcltest PREF:orcl2 orcl1 AVAIL:

显示节点应用程序的配置 -(VIP、GSD、ONS、监听器)

$ srvctl config nodeapps -n linux1 -a -g -s -l
VIP exists.:/vip-linux1/192.168.1.200/255.255.255.0/eth0:eth1
GSD exists.
ONS daemon exists.
Listener exists.

显示 ASM 实例的配置

$ srvctl config asm -n linux1
+ASM1 /u01/app/oracle/product/10.2.0/db_1

集群中所有正在运行的实例

SELECT
inst_id
, instance_number inst_no
, instance_name inst_name
, parallel
, status
, database_status db_status
, active_state state
, host_name host
FROM gv$instance
ORDER BY inst_id;

INST_ID  INST_NO INST_NAME  PAR STATUS  DB_STATUS    STATE     HOST
-------- -------- ---------- --- ------- ------------ --------- -------
1        1 orcl1      YES OPEN    ACTIVE       NORMAL    linux1
2        2 orcl2      YES OPEN    ACTIVE       NORMAL    linux2

位于磁盘组中的所有数据文件

select name from v$datafile
union
select member from v$logfile
union
select name from v$controlfile
union
select name from v$tempfile;

NAME
-------------------------------------------
+FLASH_RECOVERY_AREA/orcl/controlfile/current.258.570913191
+FLASH_RECOVERY_AREA/orcl/onlinelog/group_1.257.570913201
+FLASH_RECOVERY_AREA/orcl/onlinelog/group_2.256.570913211
+FLASH_RECOVERY_AREA/orcl/onlinelog/group_3.259.570918285
+FLASH_RECOVERY_AREA/orcl/onlinelog/group_4.260.570918295
+ORCL_DATA1/orcl/controlfile/current.259.570913189
+ORCL_DATA1/orcl/datafile/example.257.570913311
+ORCL_DATA1/orcl/datafile/indx.270.570920045
+ORCL_DATA1/orcl/datafile/sysaux.260.570913287
+ORCL_DATA1/orcl/datafile/system.262.570913215
+ORCL_DATA1/orcl/datafile/undotbs1.261.570913263
+ORCL_DATA1/orcl/datafile/undotbs1.271.570920865
+ORCL_DATA1/orcl/datafile/undotbs2.265.570913331
+ORCL_DATA1/orcl/datafile/undotbs2.272.570921065
+ORCL_DATA1/orcl/datafile/users.264.570913355
+ORCL_DATA1/orcl/datafile/users.269.570919829
+ORCL_DATA1/orcl/onlinelog/group_1.256.570913195
+ORCL_DATA1/orcl/onlinelog/group_2.263.570913205
+ORCL_DATA1/orcl/onlinelog/group_3.266.570918279
+ORCL_DATA1/orcl/onlinelog/group_4.267.570918289
+ORCL_DATA1/orcl/tempfile/temp.258.570913303

21 rows selected.

属于“ORCL_DATA1”磁盘组的所有 ASM 磁盘

SELECT path
FROM   v$asm_disk
WHERE  group_number IN (select group_number
from v$asm_diskgroup
where name = 'ORCL_DATA1');

PATH
----------------------------------
ORCL:VOL1
ORCL:VOL2



27. 启动/停止集群

此时,我们已经完全安装并配置了 Oracle RAC 10g 并拥有了一个功能完善的集群化数据库。

至此完成所有工作后,您可能会问“那我又怎样启动和停止服务呢?”如果您遵循了本指南中的说明,则所有服务(包括 Oracle 集群件、所有 Oracle 实例、企业管理器数据库控制台等)应在 Linux 节点每次重新引导时自动启动。

但有时您可能想要关闭某个节点,然后手动重新启动它。或者,您可能发现企业管理器没有启动它而需要启动它。本节提供了启动和停止集群环境的命令(使用 SRVCTL)。

确保您是以 oracle UNIX 用户登录的。我们将从 linux1 运行本节中的所有命令:

# su - oracle

$ hostname
linux1

停止 Oracle RAC 10g 环境

第一步是停止 Oracle 实例。当此实例(和相关服务)关闭后,关闭 ASM 实例。最后,关闭节点应用程序(虚拟 IP、GSD、TNS 监听器和 ONS)。

$ export ORACLE_SID=orcl1
$ emctl stop dbconsole
$ srvctl stop instance -d orcl -i orcl1
$ srvctl stop asm -n linux1
$ srvctl stop nodeapps -n linux1

启动 Oracle RAC 10g 环境

第一步是启动节点应用程序(虚拟 IP、GSD、TNS 监听器和 ONS)。当成功启动节点应用程序后,启动 ASM 实例。最后,启动 Oracle 实例(和相关服务)以及企业管理器数据库控制台。

$ export ORACLE_SID=orcl1
$ srvctl start nodeapps -n linux1
$ srvctl start asm -n linux1
$ srvctl start instance -d orcl -i orcl1
$ emctl start dbconsole

使用 SRVCTL 启动/停止所有实例

启动/停止所有实例及其启用的服务。我只是觉得有意思就把此步骤作为关闭所有实例的一种方法加进来了!

$ srvctl start database -d orcl

$ srvctl stop database -d orcl



28. 透明的应用程序故障切换 (TAF)

企业通常需要他们的企业应用程序提供 99.99%(甚至 99.999%)的可用性。想一想,要确保全年停机时间不超过 0.5 小时或者甚至没有停机时间得花费多大代价!为了满足众多这种高可用性要求,企业正投资于可以在一个参与系统出现故障时提供自动故障切换的机制。就 Oracle 数据库的可用性而言,Oracle RAC 10g 通过它的高级故障切换机制提供了一个卓越的解决方案。Oracle RAC 10g 包含了提供持续可用性所需的必要组件,这些组件均在一个集群配置中工作;当集群中的某个参与系统出现故障时,将把用户自动移植到其他可用系统。

透明的应用程序故障切换 (TAF) 选件是 Oracle RAC 10g 一个负责处理故障切换的主要组件。它将把所有断开的数据库连接(和进程)重新连接到集群的其他节点上。故障切换对用户是完全透明的。

这最后一节简短介绍了 TAF 在 Oracle RAC 10g 中的工作方式。请注意,对 Oracle RAC 10g 中的故障切换进行全面介绍可能需要单独的一篇文章,我在此处只想提供一个简短概述。

一个重要的说明是,TAF 自动在 OCI 库中发生。也就是说,您的应用程序(客户端)代码不需要更改便可以利用 TAF。但您需要在 Oracle TNS 文件 tnsnames.ora 中执行某些配置步骤。(请记住,直到编写本文时,由于 Java 瘦客户端从不读取 tnsnames.ora,因此它将无法参与 TAF。)

设置 tnsnames.ora 文件

在演示 TAF 之前,我们需要验证在一个非 RAC 客户端计算机(如果您有一台安装了 Windows 计算机)上的 tnsnames.ora 文件中存在一个有效的条目。确保您安装了 Oracle RDBMS 软件。(实际上,您只需要在客户端上安装 Oracle 软件。)

在本指南的创建集群化数据库过程中,我们创建了一个将用于测试 TAF 的名为 ORCLTEST 的新服务。它为负载均衡和故障切换提供了所有必需的配置参数。可以将此条目的内容复制到客户端计算机(本示例中使用了我的 Windows 便携式计算机)上的 %ORACLE_HOME%\network\admin\tnsnames.ora 文件中:

...
ORCLTEST =
(DESCRIPTION=
(ADDRESS = (PROTOCOL = TCP)(HOST = vip-linux1)(PORT = 1521))
(ADDRESS = (PROTOCOL = TCP)(HOST = vip-linux2)(PORT = 1521))
(LOAD_BALANCE = yes)
(CONNECT_DATA=
(SERVER = DEDICATED)
(SERVICE_NAME = orcltest.idevelopment.info)
(FAILOVER_MODE =
(TYPE = SELECT)
(METHOD = BASIC)
(RETRIES = 180)
(DELAY = 5)
      )
    )
  )
...
查看会话的故障切换信息的 SQL 查询

以下 SQL 查询可以用来查看一个会话的故障切换类型、故障切换方法和是否发生了故障切换。我们将在这个例子中自始至终使用这个查询。

COLUMN instance_name    FORMAT a13
COLUMN host_name        FORMAT a9
COLUMN failover_method  FORMAT a15
COLUMN failed_over      FORMAT a11

SELECT
instance_name
, host_name
, NULL AS failover_type
, NULL AS failover_method
, NULL AS failed_over
FROM v$instance
UNION
SELECT
NULL
, NULL
, failover_type
, failover_method
, failed_over
FROM v$session
WHERE username = 'SYSTEM';

TAF 演示

从 Windows 计算机(或其他非 RAC 客户端计算机)中,以 SYSTEM 用户登录使用 orcltest 服务的集群化数据库:

C:\> sqlplus system/manager@orcltest

COLUMN instance_name    FORMAT a13
COLUMN host_name        FORMAT a9
COLUMN failover_method  FORMAT a15
COLUMN failed_over      FORMAT a11

SELECT
instance_name
, host_name
, NULL AS failover_type
, NULL AS failover_method
, NULL AS failed_over
FROM v$instance
UNION
SELECT
NULL
, NULL
, failover_type
, failover_method
, failed_over
FROM v$session
WHERE username = 'SYSTEM';


INSTANCE_NAME HOST_NAME FAILOVER_TYPE FAILOVER_METHOD FAILED_OVER
------------- --------- ------------- --------------- -----------
orcl1         linux1
SELECT        BASIC           NO

不要注销上面的 SQL*Plus 会话!

我们已经运行了上面的查询,现在我们应该使用 abort 选项来关闭 linux1 上的 orcl1 实例。要执行这一操作,我们可以使用 srvctl 命令行实用程序,如下所示:

# su - oracle
$ srvctl status database -d orcl
Instance orcl1 is running on node linux1
Instance orcl2 is running on node linux2

$ srvctl stop instance -d orcl -i orcl1 -o abort

$ srvctl status database -d orcl
Instance orcl1 is not running on node linux1
Instance orcl2 is running on node linux2
现在我们返回到我们的 SQL 会话,然后重新运行缓冲中的 SQL 语句:
COLUMN instance_name    FORMAT a13
COLUMN host_name        FORMAT a9
COLUMN failover_method  FORMAT a15
COLUMN failed_over      FORMAT a11

SELECT
instance_name
, host_name
, NULL AS failover_type
, NULL AS failover_method
, NULL AS failed_over
FROM v$instance
UNION
SELECT
NULL
, NULL
, failover_type
, failover_method
, failed_over
FROM v$session
WHERE username = 'SYSTEM';

INSTANCE_NAME HOST_NAME FAILOVER_TYPE FAILOVER_METHOD FAILED_OVER
------------- --------- ------------- --------------- -----------
orcl2         linux2
SELECT        BASIC           YES

SQL> exit

从上面的演示中,我们可以看到现在已将上述会话故障切换到了 linux2 的实例 orcl2 上。



29. 结论

理想情况下,本指南使用 CentOS 4.2 Enterprise Linux(或 RHEL4)和 FireWire 技术提供了一个设置和配置低成本的 Oracle RAC 10g 第 2 版集群的经济实惠的解决方案。本文介绍的 RAC 解决方案总共需要大约 1,700 美元,但可以为 DBA 提供一个功能完善的 Oracle RAC 集群。

请记住,尽管此解决方案的稳定性足以进行测试和开发,但绝不应考虑将其用于生产环境。


30. 鸣谢

像这样篇幅和复杂程度的文章通常并非出自一人之手。尽管本人能够编写并成功演示构成此配置的组件的有效性,但我还是要感谢其他几个帮助我成功编写本文的人。

首先,我要感谢 Werner Puschitz 在“在 Red Hat Enterprise Linux Advanced Server 3 上安装具有真正应用服务器集群 (RAC) 的 Oracle 数据库 10g”一文中所做的杰出贡献。本文以及他撰写的其他几篇文章提供的有关 Oracle RAC10g 的信息在任何其他 Oracle 文档中都是无法找到的。没有他的辛苦工作以及对配置和安装 hangcheck-timer 内核模块、正确配置 Unix 共享内存以及配置 ASMLib 等问题的研究,本指南也许根本无法完成。如果您有兴趣拜读 Werner Puschitz 撰写的有关 Linux 内部结构以及 Oracle 深入配置方面的技术文章,请访问他出色的网站 www.puschitz.com

接下来,我要感谢 Wim Coekaerts、Joel Becker、Manish Singh 以及 Oracle Linux 项目开发组的整个团队。该组中的专家把升级 Linux 内核以支持 IEEE1394 设备的多重登录(和其他几个重要修改)做得天衣无缝。该组在 oss.oracle.com 上为 Red Hat Enterprise Linux 4.2 提供了一个预编译内核(还可用于 CentOS Linux)以及许多其他有用的工具和文档。


Jeffrey Hunter (www.idevelopment.info) 是一位拥有 11 年以上工作经验的高级数据库管理员和软件工程师。他是一位 Oracle 认证专家、Java 开发认证专家和作家,当前就职于 The DBA Zone, Inc.。Jeff 的工作包括高级性能调节、Java 编程、容量规划、数据库安全性以及 Unix、Linux 和 Windows NT 环境中的物理/逻辑数据库设计。Jeff 的其他兴趣还涉及数学加密理论、Java 和 C 的编程语言处理器(编译器和解释器)、LDAP、编写基于 Web 的数据库管理工具,当然还有 Linux。

将您的意见发送给我们

第 1 页 第 2 页 第 3 页

寄送此页面
Printer View 打印机视图