什麼是災難復原?初學者指南

Aaron Ricadela | 資深撰稿人 | 2024 年 7 月 25 日

各種災難可能導致關鍵系統無法運作、損壞辦公室和資料中心,或導致運行正常業務所需的資料庫和應用程式暫時無法使用。災難復原計畫是企業用來迅速恢復重要系統和應用程式的流程與技術藍圖,以便在恢復其他系統的同時繼續運作。

災難復原簡介

災難復原 (DR) 涵蓋企業在遭遇突發事件後,如何將運算工作負載重新啟動的技術計畫,以及在災難發生前測試應變計畫的方法。災難復原計畫按照重要性為工作負載排序。企業的目標是將運算停機時間和資料損失降到最低,同時平衡每個工作負載所需的成本。

災難復原長期以來一直是 IT 營運的重要組成部分,而雲端運算和為網際網路設計的軟體架構正降低實施全面災難復原計畫的成本與工作量。

定義與概述

災難復原是指企業在因操作員錯誤、失職、軟體錯誤、自然災害或其他災難導致意外停機後,為使重要 IT 系統恢復而採取的政策、技術和預算。在災難發生之前,企業需要識別出哪些關鍵應用程式必須在災難發生後立即恢復,並將其他應用程式按照重要性分為不同層級。然後,企業需要決定每個應用程式可承受多少停機時間和資料損失,並根據這些需求規劃 IT 策略。

災害復原的重要性

災難復原之所以重要,是因為突發事件引起的非計畫停機可能會帶來可觀的財務損失。根據業界估算,這樣的損失可能高達每小時 100,000 美元。長時間的停機也可能損害品牌形象,並導致監管機構的譴責或罰款。在一些高監管產業,包括金融服務、能源和醫療,企業需要比傳統的備份資料恢復更快速地恢復資料和運算作業。

在緊急服務和醫療等領域,非計畫停機可能會危及生命。如果發生颶風、龍捲風或地震等災難性事件,那麼所有服務都將面臨風險。資訊能否流通到需要的地方,藉此挽救生命?

災難復原的基本概念

災難復原有兩個關鍵指標:恢復時間目標 (Recovery Time Objective, RTO) 及恢復點目標 (Recovery Point Objective, RPO)。前者衡量系統可以離線的最大時間;後者衡量企業可以承受多少資料損失,並與備份或複製的頻率有關。對於這兩者來說,較短的閾值較佳,但成本也較高。IT 組織通常會為運行的每個系統設定 RTO 和 RPO,從而平衡成本與關鍵需求。

災難復原 (DR) 是一個成熟的實踐領域,但隨著雲端服務的日益普及,結合所謂的「試點」(pilot light) 部署,使用即時資料和待命服務來重啟雲端資料中心中的系統,協助規劃人員以較低的成本達成出色的 RTO 和 RPO 指標。這是因為雲端提供商在每個基礎架構層級上都投資了備援系統,從而實現自動化和半自動化的容錯移轉與恢復流程。這些是客戶無需再進行的投資。此外,試點部署可以將服務恢復時間縮短至幾分鐘。

接下來會詳細介紹雲端災難復原部署。

災難類型

許多種類的災難可能會影響 IT 系統,包括網路攻擊、硬體故障、自然災害以及由人為錯誤引起的停機。有些災難是可以預測的。例如,所有組織都可能成為網路攻擊的目標;有些公司位於更容易發生自然災害的地區,如颶風、地震和洪水;人為錯誤則是常見的因素。

關鍵是當問題發生時,企業能夠做好應對準備。

非計畫性停機是系統或服務出現的意外中斷,會導致停機並干擾正常運作。這些停機可能由上述因素引起,並可能對企業造成嚴重後果,包括收入損失、聲譽損害、客戶滿意度下降,甚至是生命損失。為了將非計畫性停機的影響降到最低,並確保服務能夠迅速恢復,擁有完善的復原計畫是至關重要的。

災難復原與高可用性

高可用性技術可以在叢集或叢集伺服器中的節點之間複製資料,使其能夠相互進行容錯移轉並保持工作負載的運行,從而確保 IT 服務的高可用性。這些技術旨在消除單點故障,並通常有服務水平協議來保證正常運行時間百分比。在雲端運算中,高可用性保護實體基礎架構,包括電源、冷卻、儲存、網路和伺服器。應用程式層級的負載平衡軟體也有助於確保高可用性。

另一方面,災難復原則是保護多個故障點,並旨在在極端中斷 (例如地震或颶風摧毀設施) 後,將關鍵工作負載恢復到可運行狀態。災難復原站點通常在地理位置上彼此相距較遠。

高可用性和災難復原技術都應該是全面業務連續性計畫的一部分。

災難復原目標

災難復原計畫的主要目標是確保在危機中,業務單位能夠持續運作。災難復原計畫包括迅速重啟計算服務的流程,並降低資料及財務損失。這些計畫還旨在滿足有關業務連續性和資料保留的監管要求。

恢復時間目標 (RTO) 與恢復點目標 (RPO)

災難復原計畫的兩個主要指標包括恢復時間目標 (RTO) 和恢復點目標 (RPO)。根據 IT 與相關業務單位之間的服務水平協議,每個業務運行的系統可能會有不同的 RTO 和 RPO 要求。

對於每個應用程式或服務,RTO 是在非計畫性停機後允許的最大停機時間,而 RPO 則衡量企業願意容忍的最大資料損失量。較短的 RTO 和較小的 RPO 更為理想,但通常也更為昂貴。IT 組織可以為每個系統設置 RTO 和 RPO,以平衡成本與業務的關鍵需求。

制定災難復原計畫

災難復原計畫包括對災難事件潛在風險的全面評估,評估這些事件可能對營運造成的損害、員工和外部利害關係人的影響,以及可能帶來的財務損失或監管罰款。

在制定災難復原計畫的過程中,企業需要確定執行主管和受影響的團隊;盤點可能在災難中遭受損害的物理和 IT 資產;並考慮災難對客戶、供應商、合作夥伴和其他利害關係人的潛在影響。

IT 部門需要決定哪些工作負載可以從備份中恢復,哪些需要結合低容量運行的即時資料和服務,哪些工作負載需要全容量運行。在某些情況下,停機中的系統會自動切換到待命系統,從而實現最小停機時間和零資料損失。在其他情況下,企業需要手動進行切換。IT 團隊將選擇備份網站並制定計畫,以便能夠迅速重啟應用程式。雲端服務在這方面能提供極大幫助。企業還需要尋找可能妨礙業務重啟的 IT 依賴關係。例如,某個離線應用程式可能會妨礙另一個應用程式恢復。

除了這些技術層面的工作外,高層領導和業務部門應該有緊急溝通和應對計畫,並提供員工災難復原計畫培訓,透過桌面測試或演練進行測試和排演,並持續改進計畫。

風險評估與復原目標

每個災難復原計畫應包括對可能中斷業務運營事件的風險評估、可能受到影響應用程式的影響分析,以及由此產生的財務損失預估。業務影響分析應包括每個應用程式的 RTO 和 RPO。企業可以根據這些分析決定復原計畫,並選擇在何處以較高成本換取較短的恢復時間和恢復點目標。

備份與復原策略

備份與復原的方式依效能與成本不同,涵蓋以下幾種方法:

  • 雖然離線備份具有較高的 RPO,但在勒索軟體攻擊期間可能是唯一的選擇
  • 試點部署可以在幾分鐘內 (而不是幾小時) 將系統恢復到正常運行狀態,但比簡單的備份成本較高,維護起來也更困難
  • 溫備援方法將即時資料與運行於較低容量的雲端應用程式副本結合
  • 主動/主動容錯移轉方法,其中多個即時站點以全容量運行,實現接近零的恢復時間與恢復點,是最昂貴的災難復原策略,但現代軟體架構與資料管理策略有助於控制成本,並可能帶來其他好處,如提升可擴展性

計畫測試與合規性

單單建立 IT 資產清單、確定應用程式層級和映射依賴關係是不夠的。為了讓災難復原達到業務預期的效果,從作業系統到應用程式等所有技術都需要備援。災難復原的成功也依賴於定期測試,無論是桌面演練 (讓利害關係人口頭演練步驟),或是實際演練 IT 部門將採取的措施,並測試災難期間使用的系統組件。

財務報告與資料保護法規也會影響災難復原計畫。例如,美國的《薩班斯-奧克斯利法案》(Sarbanes-Oxley Act) 規定了資料保留要求。美國的《健康保險流通與責任法案》(HIPAA)要求在災難期間制定電子健康資訊應急計畫,而歐盟的《一般資料保護規範》 (GDPR) 則要求在災難期間保持公民個人資料的可用性。

DRaaS 的優勢與使用案例

災難復原即服務 (Disaster recovery as a service, DRaaS) 是一項雲端服務,讓企業能夠在公有雲或混合雲上執行應用程式,並在雲端提供商的設施中啟動災難復原計畫,而不是在本地資料中心執行。藉助雲端 DRaaS 產品,企業能夠遠端在不同雲端區域之間移動運算、資料庫和應用程式負載,並自動執行復原業務系統所需的步驟,而無需重新架構或使用專門的管理軟體。雲端供應商的 DRaaS 解決方案必須設計為具備高可用性,以確保在災難發生時,待命區域的服務能夠持續可用且運作正常。

企業可以利用雲端中的災難復原來計劃,在自然災害摧毀基礎架構後或在遭遇網路事件 (例如勒索軟體攻擊) 後恢復資料,因為在這種情況下,對本地網路資源的存取會被切斷。因為資料可以儲存在區域雲端中,這種策略也能遵守資料保護法規,如 GDPR。當預算有限時,DRaaS 也可以是一個很好的解決方案,因為其成本通常低於設備援復原網站的成本。

實施災難復原解決方案

開發災難復原計畫應從對潛在災難事件及其對 IT 系統與業務流程影響的風險評估開始。接著,IT 團隊與業務單位團隊應在管理層的支援下,根據資產和系統的重要性進行排序,並為每個資產指派適當的災難復原策略,考量所需的 RTO 和 RPO 以及可用預算。災難復原計畫是更廣泛業務連續性計畫的一部分,旨在從災難、網路攻擊或技術錯誤引起的停機期間過渡到復原階段。這些計畫需要不斷地進行測試和更新。

傳統災難復原與基於雲端的災難復原

傳統的災難復原依賴於位於企業擁有的資料中心中的備援伺服器和儲存裝置,或將商業資料和應用程式實例備份到遠端資料中心,這樣即使某個地理區域發生問題,也不會對遠端的備份造成損害。相較之下,基於雲端的災難復原策略可協助企業節省前期成本,將應用程式實例的小型或待命副本儲存在公有雲,並在緊急情況下透過增加運算資源來擴展規模。企業還可以將關鍵應用程式分散到多個雲端區域。

災難復原工作流程、操作手冊與計畫

災難復原工作流程包含重新啟動系統、恢復資料,以及危機期間溝通所需的步驟和順序概覽。災難復原操作手冊則更詳細地描述了恢復過程及相關文件,提供易於遵循的檢查清單,用於在緊急情況下將數位操作遷移到安全地點,並在緊急情況下簡化測試或容錯移轉過程。工作流程和操作手冊展示了企業如何分階段進行恢復,並識別關鍵系統及服務水平協議。

災難復原工作流程包括風險評估、參與計畫的委員會及管理支援、恢復策略以及測試程序。操作手冊可能包含不同資料庫、伺服器和網路設備的詳細檢查清單,讓員工能在時間壓力下執行恢復步驟。

瞭解災難復原運作:容錯移轉與切換

災難復原作業是執行災難復原計畫中每個預定步驟或任務的過程,這些步驟或任務是為了將組織的基礎架構、資料庫和應用程式恢復到完全運作的狀態。容錯移轉 (failover) 和切換 (switchover) 這兩個術語用來描述應用程式堆疊過渡到不同位置的過程。

容錯移轉是指在發生意外危機 (如停電或設備故障) 時,迅速切換至備份系統。當應用程式、資料庫或虛擬機崩潰,且存儲、資料和作業系統等資源處於不穩定狀態時,會使用容錯移轉。

切換則是在計劃的停機期間,為了維護而有序地轉換至次要系統。此過程允許關閉應用程式、資料庫、虛擬機或伺服器。在這種情況下,主要和待命區域均正常運行,IT 操作人員會將系統從一個區域移動到另一個區域進行維護或完成滾動升級。

雲端災難復原類型

雲端運算的彈性讓企業能夠根據需求實施適合的災難復原策略,且不會超出預算。混合雲架構,即部分運算資源在內部部署環境運行,部分則在公有雲運行,有助降低災難復原的成本。雲端架構 (包括微服務) 允許軟體組件在分散式虛擬伺服器上運行,使其不易受到多種類型的災難的影響。

跨區域災難復原解決方案

跨區域災難復原解決方案可保護組織免受颶風等造成的中斷的影響,這些中斷可能會導致僅託管在一個資料中心的系統的無法被存取。服務可以在故障容錯、地理上分離且隔離的可用區域中運行,這些區域位於影響範圍外。整個應用程式堆疊 (包括虛擬機、資料庫和應用程式),可以轉移到其他位置的不同雲端區域。

混合雲災難復原解決方案

混合雲是一種熱門的架構,讓企業可以將部分工作負載從自有資料中心轉移到雲端基礎架構。混合雲對災難復原也非常有幫助。採用混合架構通常需要在虛擬伺服器上運行工作負載,這樣雲端資料中心內的底層硬體可以輕鬆變更,而不會影響運行。

當工作負載虛擬化後,如果主要資料中心無法使用時,就可以在雲端環境中重新啟動工作負載。雲端資料中心可以作為分佈於不同地理位置的資料中心的經濟替代方案。

多雲災難復原解決方案

多雲災難復原解決方案藉由將應用程式的組件分散到兩個或更多雲端基礎架構中來保護應用程式和資料。此策略適用於使用多個雲端服務供應商的企業,協助企業為不同的應用程式設定復原時間和資料點目標,同時管理成本,並做出有關地理分佈的決策。多雲災難復原過程也可能源於服務和應用程式的開發方式。

使用 DRaaS 自動執行災難復原工作

災難復原協調與管理服務可以為應用程式堆疊的所有層級提供全面的災難復原,包括基礎架構、資料庫和中介軟體。災難復原即服務 (DRaaS) 透過迅速執行災難復原工作流程來恢復不同區域的應用程式堆疊,從而減少人為錯誤並縮短復原時間。

Oracle Cloud Infrastructure (OCI) Full Stack Disaster Recovery 協助客戶管理全球 OCI 區域之間的基礎架構、資料庫和應用程式的轉換。客戶可以在不重新設計或重新部署現有基礎架構、資料庫或應用程式的情況下使用 Full Stack DR,並消除對專用儲存或管理伺服器的需求。

Oracle Cloud Free Tier

免費在 Oracle Cloud 上建構、測試及部署應用程式。

災難復原常見問題

為什麼災難復原對企業很重要?

非計畫的企業停機將帶來高昂的成本。根據 IT 諮詢機構 Uptime Institute 的資料,超過三分之二的停機事件成本超過 10 萬美元,而四分之一的非計畫 IT 停機事件成本超過 100萬 美元。

災難復原計畫的關鍵組成部分是什麼?

災難復原計畫包含企業選擇備份站點或在公有雲中部署運算工作負載的策略,以便能夠迅速重啟營運。企業還需要對關鍵業務應用程式進行排名,並繪製其中的相依關係,避免這些相依關係影響軟體重新上線。

災難復原與資料備份有何不同?

將資料備份至遠端伺服器或網站是災難復原的一部分,但現代的災難復原計畫涵蓋的範圍遠不止於此。企業需要考慮平衡資料複製與服務可用性的技術策略,以控制成本,並能夠從小型待命實例中重啟應用程式。

雲端運算如何影響災難復原?

雲端技術可以透過將雲端區域劃分為彼此隔離且具有容錯能力的可用性域,在災難期間提供保障。企業可以使用雲端服務供應商通常提供的設施與公用程式來複製系統系統,以實現高可用性與災難復原。