使用多个数据中心或区域,客户可以利用单独的物理数据中心提供的故障隔离来提高存储的可用性,因为每个区域都有整个存储的副本,包括所有分片的副本。通过该设置,如果某个区域发生故障,当可以正常选举主服务器或进行仲裁时,会自动建立写入能力。不过,如果由于总区域故障或计划内停机而导致仲裁丢失,则可以使用引入的故障切换 (Failover) 和切换 (Switchover) 特性。

通常,当主要区域发生故障或无法访问时执行故障切换,将某个次要区域转换为主要区域。

执行故障切换(以恢复原始配置)之后或者要进行计划内维护可以使用切换。可以将其看作存储的主要区域与某个次要区域之间的角色转换。切换需要仲裁并保证无数据丢失。通常在对主系统做计划内维护时使用它。

举例来说,假设某个存储包含两个主要区域“Manhattan”和“JerseyCity”,每个区域都部署在自己的物理数据中心内。此外,假设“Manhattan”区域发生故障。导致所有相关存储节点发生故障并丢失仲裁。在这种情况下,如果“Manhattan”的主机硬件发生了无法弥补的损坏,或者需要花很长时间才能修复问题,可以选择启动故障切换功能。请参阅我们的管理员指南,了解如何执行 JerseyCity 数据中心故障切换,以及在故障恢复后如何切换到 Manhattan 数据中心。

故障切换接口: 
  • 诊断故障:ping 或验证配置
  • 禁用故障区域:disable-services
  • 修复管理:repair-admin-quorum
  • 故障切换到其余区域:plan failover

切换接口:
  • 修复拓扑(故障切换后):plan repair-topology
  • 等待一致性(可选):await-consistency
  • 更新拓扑:topology change-zone-type
  • 切换到新拓扑:plan deploy-topology