Che cos'è il disaster recovery? Una guida per principianti

Aaron Ricadela | Senior Writer | 25 luglio 2024

Disastri di molti tipi possono compromettere i sistemi fondamentali offline, danneggiare uffici e data center o rendere temporaneamente inutilizzabili i database e le applicazioni necessari per eseguire le normali operazioni aziendali. Un piano di disaster recovery è la roadmap tecnologica e di processo di un'azienda per eseguire rapidamente il backup dei sistemi e delle applicazioni più importanti in modo da poter riprendere il lavoro mentre si esegue il ripristino del resto.

Introduzione al disaster recovery

Il disaster recovery (DR) comprende i piani tecnici di un'azienda per riportare online i carichi di lavoro di computing dopo un evento di interruzione, nonché i metodi per eseguire test sul playbook prima che si verifichi una calamità. In un piano di disaster recovery i carichi di lavoro vengono classificati in ordine di importanza. Le aziende mirano a ridurre al minimo i tempi di inattività del computing e la perdita di dati, bilanciando al contempo i costi per ogni carico di lavoro.

Sebbene il disaster recovery sia stato a lungo un componente importante delle operazioni IT, le architetture di cloud computing e software progettate per Internet stanno riducendo i costi e il lavoro di implementazione di piani di disaster recovery completi.

Definizione e panoramica

Il disaster recovery descrive i criteri, le tecnologie e il budget che le aziende dedicano per riportare online importanti sistemi IT dopo tempi di inattività imprevisti causati da errori degli operatori, malfunzionamenti, bug del software, disastri naturali o altre calamità. Prima che si verifichi un'interruzione, le aziende devono identificare quali applicazioni mission-critical devono essere ripristinate subito dopo un disastro e classificare gli altri eventi in gruppi di importanza, chiamati livelli. Devono quindi decidere quanti tempi di inattività e perdite di dati può sopportare l'azienda per ogni applicazione e pianificare di conseguenza le strategie IT.

L'importanza del disaster recovery

Il disaster recovery è importante perché i tempi di inattività non pianificati causati da interruzioni possono portare a perdite finanziarie sostanziali, nell'ordine di 100.000 dollari americani l'ora, secondo le stime del settore. I tempi di inattività prolungati possono anche possono danneggiare la reputazione del brand e portare a richiami normativi o penali. In alcuni settori altamente regolamentati, tra cui i servizi finanziari, il settore energetico e qeullo dell'assistenza sanitaria, le aziende devono ripristinare i dati e le operazioni di computing più velocemente di quanto consentano le copie di backup dei dati convenzionali.

Tempi di inattività non pianificati possono anche costare la vita in campi come i servizi di emergenza e dell'assistenza sanitaria. In caso di un evento catastrofico, come un uragano, un tornado o un terremoto, allora tutti i servizi sono a rischio. L'informazione può fluire dove è necessario per salvare vite?

Concetti di base nel disaster recovery

Esistono due metriche fondamentali del disaster recovery: RTO (Recovery Time Objective), che misura la quantità massima di tempo in cui un sistema può rimanere offline, e RPO (Recovery Point Objective), che misura la quantità di dati che un'azienda può permettersi di perdere ed è associata alla frequenza di backup o replica. Per entrambi, le soglie più brevi sono migliori ma più costose. Le organizzazioni IT spesso impostano un RTO e un RPO per ogni sistema che eseguono, che consentono loro di bilanciare i costi con la criticità.

Il DR è una pratica ben consolidata, ma un maggiore uso dei servizi cloud combinato con le cosiddette distribuzioni "pilot light", che utilizzano dati in tempo reale e aggiornati con servizi in standby per riavviare un sistema in un data center cloud, stanno aiutando i responsabili della pianificazione a fornire metriche RTO e RPO eccellenti per ridurre i costi. Questo perché i fornitori di servizi cloud investono nella ridondanza a ogni livello dell'infrastruttura, consentendo processi di failover e ripristino automatici e semiautomatici. Sono investimenti che i loro clienti non devono più fare. Inoltre, le distribuzioni pilot light possono ridurre il tempo necessario per ripristinare l'operatività dei servizi fino a pochi minuti.

Di seguito sono presenti ulteriori informazioni sulle distribuzioni di DR basato su cloud.

Tipi di disastri

Molti tipi di disastri possono influire sui sistemi IT, inclusi attacchi informatici, guasti a livello di hardware, disastri naturali e interruzioni causate da errori umani. Alcuni possono essere anticipati. Ad esempio, tutte le organizzazioni possono essere prese di mira dagli attacchi informatici. Alcune aziende hanno la loro sede in località in cui disastri naturali, come uragani, terremoti e inondazioni, hanno maggiori probabilità di verificarsi. L'errore umano è una costante.

Il compito è quello di essere pronti a reagire quando qualcosa va storto.

Le interruzioni non pianificate sono interruzioni impreviste in un sistema o in un servizio che comportano tempi di inattività e blocco delle normali operazioni. Queste interruzioni possono verificarsi a causa dei fattori appena discussi e possono avere gravi conseguenze per le aziende, tra cui perdita di ricavi, danni alla reputazione, diminuzione della soddisfazione del cliente e persino perdita di vite umane. È essenziale disporre di piani di recupero per ridurre al minimo l'impatto delle interruzioni non pianificate e garantire il rapido ripristino dei servizi.

Differenze tra disaster recovery e alta disponibilità

Le tecnologie ad alta disponibilità che replicano i dati tra i nodi di un cluster o di cluster server, in modo che possano eseguire il failover tra loro e mantenere in esecuzione i carichi di lavoro, possono garantire livelli di servizio IT molto elevati. Queste tecnologie cercano di eliminare singoli punti del guasto e in generale sono supportate da accordi sul livello di servizio che garantiscono percentuali di tempi di attività. Nel cloud computing, l'alta disponibilità protegge l'infrastruttura fisica, tra cui alimentazione, raffreddamento, memorizzazione, reti e server. Il software di bilanciamento del carico a livello di applicazione aiuta anche a garantire alti livelli di tempi di attività.

Il disaster recovery, d'altra parte, protegge da più punti di guasto e mira a ripristinare i carichi di lavoro fondamentali a uno stato operativo dopo un'interruzione estrema, come quando un terremoto o un uragano abbatte una struttura. I siti di DR sono in genere geograficamente distanti l'uno dall'altro.

Sia le tecnologie ad alta disponibilità che quelle DR dovrebbero far parte di un piano completo di business continuity.

Obiettivi del disaster recovery

L'obiettivo principale di un piano di disaster recovery è garantire che le business unit possano continuare a lavorare durante una crisi. I piani di DR includono processi per riavviare rapidamente i servizi di computing e limitare le perdite di dati e dollari. Inoltre, mirano a soddisfare i requisiti normativi che disciplinano la continuità aziendale e la conservazione dei dati.

Recovery time objective (RTO) e recovery point objective (RPO)

I due parametri principali per i piani di disaster recovery sono recovery time objective (RTO) e recovery point objective (RPO) Ogni sistema eseguito da un'azienda può avere requisiti RTO e RPO diversi a seconda degli accordi sul livello di servizio tra IT e le business unit pertinenti.

Per ogni applicazione o servizio, l'RTO è il tempo di inattività massimo consentito dopo un'interruzione non pianificata, mentre l'RPO misura la quantità massima di perdita di dati che un'azienda è disposta a tollerare. Le soglie più piccole sono migliori ma generalmente più costose. Le organizzazioni IT possono impostare un RTO e un RPO per ogni sistema che eseguono per bilanciare i costi con la criticità.

Sviluppo di un piano di disaster recovery

I piani di DR includono valutazioni approfondite dei potenziali rischi di eventi catastrofici, dei danni alle operazioni che potrebbero potenzialmente causare, del modo in questo può influire su dipendenti e stakeholder esterni e delle perdite finanziarie o delle sanzioni normative in cui si può incorrere di conseguenza.

Nell'ambito dello sviluppo di un piano di DR, le aziende devono identificare gli sponsor esecutivi e i team interessati, catalogare gli asset fisici e IT che potrebbero essere danneggiati durante un disastro e considerare i potenziali impatti su clienti, fornitori di servizi, partner e altre parti interessate.

I reparti IT devono decidere quali carichi di lavoro possono essere ripristinati dai backup, quali richiedono dati in tempo reale combinati con servizi in esecuzione a capacità inferiore e quali carichi di lavoro hanno bisogno di piena capacità. In alcuni casi, i sistemi attivi che sono inattivi passeranno automaticamente ai sistemi in standby, con un tempo di inattività minimo e nessuna perdita di dati. In altri casi, lo switchover sarà manuale. I team IT vorranno selezionare i siti di backup e creare un piano che consenta loro di riavviare rapidamente le applicazioni. Il cloud fornisce un grande supporto. Le aziende devono anche cercare dipendenze IT che potrebbero ostacolare il riavvio delle operazioni, casi in cui un'applicazione offline impedisce di riconnetterne un'altra online.

Oltre a questi aspetti tecnici, la leadership esecutiva e le linee di business dovrebbero disporre di piani di comunicazione e risposta di emergenza, nonché di disposizioni per l'addestramento dei dipendenti relative al piano di DR, eseguendo test e ripetendo tramite prove su tavolo da lavoro o esercitazioni pratiche, e migliorandolo costantemente.

Valutazione del rischio e obiettivi del riprisitino

Ogni piano di DR dovrebbe includere una valutazione del rischio di eventi che potrebbero interrompere le operazioni aziendali, un'analisi dell'impatto delle applicazioni che potrebbero essere interessate e una stima delle perdite finanziarie risultanti. L'analisi dell'impatto aziendale deve includere RTO e RPO per ogni applicazione. Le aziende possono quindi decidere sui loro piani di ripristino e scegliere dove ha senso negoziare costi più elevati per tempi di ripristino più brevi e recovery point objective,

Strategie di backup e ripristino

Gli approcci al backup e al ripristino rientrano in uno spettro di costi delle prestazioni e includono quanto elencato di seguito:

  • Backup offline, che hanno un RPO più alto ma possono essere l'unica opzione durante un attacco ransomware
  • Distribuzioni di pilot light, che possono ripristinare lo stato operativo dei sistemi in pochi minuti, non in ore, ma sono più costose e possono essere più difficili da mantenere rispetto alle semplici copie di backup
  • Approcci in arm standby, che combinano dati in tempo reale con copie di applicazioni nel cloud eseguite a capacità inferiore
  • Un approccio di failover attivo/attivo, in cui più siti di produzione lavorano a piena capacità per tempi di ripristino e punti che si avvicinano a zero, è la strategia di DR più costosa, anche se le architetture software moderne e le strategie di gestione dei dati possono aiutare a controllare i costi e possono comportare altri vantaggi, tra cui una migliore scalabilità

Test e compliance dei piani

Non è sufficiente creare un magazzino informatico, determinare i livelli applicazione e mappare le dipendenze. Affinché il DR funzioni al livello previsto dall'azienda, ogni tecnologia, dai sistemi operativi alle applicazioni, deve essere ridondante. Il successo del DR dipende anche da test regolari, che si tratti di esercizi pratici, in cui gli stakeholder eseguono i passi a voce, o da una prova fisica delle misure che i reparti IT adotteranno e i test dei i componenti del sistema utilizzati solo durante i disastri.

Anche il financial reporting e i regolamenti sulla protezione dei dati hanno un impatto sui piani di DR. Ad esempio, il Sarbanes-Oxley Act, un regolamento statunitense sul financial reporting aziendale, stabilisce i requisiti di mantenimento dei dati. L'HIPAA (Health Insurance Portability and Accountability Act) degli Stati Uniti richiede piani di emergenza per le informazioni sanitarie elettroniche durante un disastro e il Regolamento generale sulla protezione dei dati (GDPR) dell'Unione europea impone la disponibilità dei dati personali dei cittadini durante un disastro.

Vantaggi e casi d'uso di DRaaS

Il disaster recovery as a service (DRaaS) è un servizio cloud che consente alle aziende di eseguire applicazioni in un cloud pubblico o ibrido, con un piano di DR implementato nelle strutture dei fornitori di servizi cloud anziché in un data center on-premise. Le offerte DRaaS basate su cloud consentono alle aziende di eseguire la transizione di computazione, database e applicazioni tra le cloud region da remoto e automatizzare i passi necessari per ripristinare i sistemi aziendali senza progettarli di nuovo o utilizzando software di gestione specializzati. È fondamentale che la soluzione DRaaS di un fornitore di servizi cloud sia progettata per l'alta disponibilità nella standby region per garantire che sia accessibile e funzionale durante un evento catastrofico.

Le aziende possono utilizzare il DR nel cloud per pianificare il ripristino dei dati dopo un disastro naturale che distrugge l'infrastruttura o dopo un incidente informatico, come un attacco ransomware, in cui viene interrotto l'accesso alle risorse di rete locali. Poiché i dati possono essere memorizzati in un cloud regionale, la strategia può essere resa conforme a regolamenti sulla protezione dei dati come il GDPR. DRaaS può anche essere una buona soluzione quando i budget sono limitati, poiché i costi possono essere inferiori a quelli della creazione di siti di recupero ridondanti.

Implementazione di soluzioni di disaster recovery

Lo sviluppo di un piano di disaster recovery dovrebbe iniziare con una valutazione del rischio di potenziali eventi catastrofici e del loro impatto sui sistemi IT e sui processi aziendali. Quindi i team IT e dei settori di attività, supportati dal team di gestione, dovrebbero classificare asset e sistemi in base alla loro importanza e assegnare strategie di DR per proteggerli, considerando gli RTO e gli RPO desiderati e il budget disponibile. I piani di DR fanno parte di piani di business continuity più ampi usati per colmare il tempo da un disastro, un attacco informatico o un'interruzione derivante da un errore tecnico al ripristino. Devono essere continuamente verificati e aggiornati.

Differenze tra DR tradizionale e quello basato sul cloud

Il DR tradizionale si basa su server e dispositivi di memorizzazione ridondanti situati in un data center di proprietà dell'azienda o sul backup di istanze di dati e applicazioni aziendali in data center remoti, quindi è improbabile che un problema in un'area geografica possa causare danni alle copie remote. Le strategie di DR basate su cloud, al contrario, consentono alle aziende di risparmiare sui costi iniziali memorizzando copie più piccole o in standby delle istanze dell'applicazione in un cloud pubblico, ridimensionandole tramite l'aggiunta di risorse di computing se devono essere attivate in caso di emergenza. Le aziende possono anche distribuire applicazioni mission-critical in più cloud region.

Flussi di lavoro, runbook e piani di DR

Un flusso di lavoro di disaster recovery include una panoramica dei passi e delle sequenze necessari per riavviare i sistemi, ripristinare i dati e comunicare durante una crisi. I runbook di DR approfondiscono i processi di ripristino e la documentazione associata. Forniscono liste di controllo facili da seguire per spostare le operazioni digitali in sicurezza durante le emergenze e possono facilitare i test o il failover durante un'emergenza. I flussi di lavoro e i runbook mostrano alle aziende come organizzare in varie fasi un ripristino e identificano sistemi fondamentali e accordi sul livello di servizio.

I flussi di lavoro di DR includono le valutazioni dei rischi, i comitati coinvolti in un piano e il supporto per la gestione, le strategie di ripristino e le procedure di esecuzione dei test. I runbook possono contenere elenchi di controllo dettagliati per diversi database, server e dispositivi di rete in modo che il personale possa eseguire i passi di ripristino sotto pressione temporale.

Informazioni sulle operazioni di DR: failover e switchover

Per operazione di disaster recovery si intende il processo di esecuzione di ogni passo o attività predeterminata in un piano di DR necessario per ripristinare l'infrastruttura, i database e le applicazioni a uno stato completamente operativo. Per descrivere la transizione di uno stack di applicazioni a una posizione diversa vengono utilizzati due termini: failover e switchover.

Il failover offre uno spostamento rapido a un sistema di backup durante crisi impreviste, tra cui interruzioni di corrente e guasti alle apparecchiature. Viene utilizzato quando applicazioni, database e virtual machine si sono arrestati in modo anomalo e risorse come memorizzazione, dati e sistemi operativi sono in uno stato instabile.

Lo switchover è la transizione ordinata a un sistema secondario durante i tempi di inattività pianificati per la manutenzione. Consente la chiusura di applicazioni, database e virtual machine o server. In questo caso, sia le region primarie che quelle standby funzionano normalmente e il personale IT sposta i sistemi da una region all'altra per la manutenzione o il completamento degli aggiornamenti in sequenza.

Tipi di disaster recovery basato su cloud

La flessibilità del cloud computing consente alle aziende di implementare strategie di DR che si adattano alle loro esigenze senza estendere eccessivamente i budget. Gli accordi di cloud ibrido, in cui alcune risorse di computing vengono eseguite on-premise e alcune in un cloud pubblico, possono ridurre i costi del disaster recovery. Le architetture cloud, inclusi i microservizi, consentono l'esecuzione dei componenti software su server virtuali distribuiti, rendendoli meno vulnerabili a molti tipi di disastri.

Soluzioni DR cross-regional

Le soluzioni di disaster recovery cross-regional proteggono le organizzazioni da interruzioni, come quelle causate da uragani, chhe potrebbero influire sull'accesso ai sistemi aziendali ospitati in un unico data center. I servizi possono essere eseguiti in domini di disponibilità tolleranti agli errori, geograficamente separati e isolati al di fuori della zona di impatto. Un intero stack di applicazioni per un determinato sistema, tra cui virtual machine, database e applicazioni, può essere trasferito in un'altra cloud region in un'altra posizione.

Soluzioni DR di cloud ibrido

Il cloud ibrido è un'architettura popolare che consente alle aziende di trasferire alcuni carichi di lavoro dai propri data center all'infrastruttura cloud. Può essere utile anche per il disaster recovery. L'adozione di un'architettura ibrida in genere richiede l'esecuzione di carichi di lavoro su server virtuali in modo che l'hardware sottostante all'interno del data center cloud possa facilmente cambiare senza influire sulle operazioni.

Una volta virtualizzati, i carichi di lavoro possono essere riavviati in un ambiente cloud quando i data center principali non sono più disponibili. I data center cloud possono essere alternative economiche agli array di data center dislocati in aree geografiche diverse.

Soluzioni DR multicloud

Le soluzioni DR multicloud proteggono applicazioni e dati distribuendo i componenti di un'applicazione nelle infrastrutture cloud di due o più provider cloud. Questa strategia può essere adatta alle aziende che utilizzano più di un fornitore di servizi cloud, consentendo loro di impostare tempi di ripristino e obiettivi specifici per diverse applicazioni, gestendo al contempo i costi e prendendo decisioni sulla dispersione geografica. Un processo di DR multicloud potrebbe anche derivare dal modo in cui sono stati sviluppati servizi e applicazioni.

Automazione delle attività di disaster recovery con DRaaS

I servizi di orchestrazione e gestione del disaster recovery possono fornire un DR completo per tutti i livelli di uno stack di applicazioni, tra cui infrastruttura, database e middleware. DRaaS riduce l'errore umano e minimizza i tempi di ripristino eseguendo rapidamente i flussi di lavoro di disaster recovery per ripristinare gli stack di applicazioni in diverse region.

Oracle Cloud Infrastructure (OCI) Full Stack Disaster Recovery consente ai clienti di gestire la transizione di infrastruttura, database e applicazioni tra le region OCI in tutto il mondo. I clienti possono usare Full Stack DR senza riprogettare o redistribuire l'infrastruttura, i database o le applicazioni esistenti e senza avere bisogno di server di memorizzazione o gestione specializzati.

Oracle Cloud Free Tier

Sviluppa, testa e implementa applicazioni su Oracle Cloud, gratuitamente.

Domande frequenti su disaster recovery

Perché disaster recovery è importante per le aziende?

Le interruzioni aziendali non pianificate sono costose. Più di due terzi costa più di 100.000 dollari americani, secondo il gruppo di consulenza IT Uptime Institute, mentre un quarto delle interruzioni IT non pianificate costano più di 1 milione di dollari americani.

Quali sono i componenti chiave di un piano di disaster recovery?

Un piano di disaster recovery comprende la strategia di un'azienda di selezionare i siti di backup o distribuire carichi di lavoro di computing in un cloud pubblico in modo da riavviare rapidamente le operazioni. Le organizzazioni devono anche classificare le loro applicazioni aziendali mission-critical e importanti e mappare le dipendenze tra di esse che potrebbero ostacolare il ripristino del software online.

In che modo il disaster recovery differisce dal backup dei dati?

Il backup dei dati su un server o un sito remoto è un aspetto del disaster recovery, ma i piani di DR moderni riguardano molti più argomenti. Le aziende devono prendere in considerazione strategie relative alla tecnologia che bilanciano la replica dei dati con la disponibilità del servizio per tenere sotto controllo i costi e, al contempo, consentano loro di riavviare le applicazioni da un'istanza di piccole dimensioni in standby.

In che modo il cloud computing influisce sul disaster recovery?

Le tecnologie cloud possono fornire protezione durante un disastro separando le cloud region in domini di disponibilità isolati gli uni dagli altri e tolleranti agli errori. Le aziende possono replicare i sistemi per l'alta disponibilità e il disaster recovery utilizzando le strutture e le utility spesso fornite dal fornitore di servizi cloud.