Il Disaster Recovery (DR) è uno degli aspetti dei piani generali di continuità aziendale ideati e gestiti dalle diverse linee di business all'interno di un'organizzazione. Un piano efficace di disaster recovery mitiga l'impatto che le interruzioni non pianificate, o addirittura pianificate, dei sistemi mission-critical e business-critical hanno sulla capacità di un'azienda di operare e continuare a generare ricavi.
A tale scopo, un piano di DR offre alle organizzazioni una struttura flessibile che consente loro di operare in modo unificato e collaborativo per ripristinare, riqualificare e revitalizzare i propri sistemi e creare un'infrastruttura più resiliente.
Per quanto tempo un'azienda potrebbe continuare a operare se dovesse perdere il suo sistema di retribuzione subito prima che il pagamento venga calcolato e gli account vengano finanziati? Quali sanzioni riceverebbe un'azienda a causa del ritardo nel pagamento delle imposte federali, statali e locali? Quali conseguenze dovrebbe affrontare l'azienda per non aver pagato in tempo i dipendenti e quanto a lungo questi continuerebbero a lavorare?
Effettuare o non effettuare il disaster recovery? Questo non è più il dilemma. La vera domanda è quanto costerebbe davvero perdere minuti, giorni o settimane di dati importanti e la fiducia costruita negli anni in un solo istante?
Il disaster recovery non può più continuare a essere solo un ripensamento o qualcosa considerato solo quando c'è un budget sufficiente, perché le organizzazioni di oggi sono tenute a reagire prontamente a eventi dannosi e a rimanere operative. Piuttosto che essere scoraggiate dal costo di implementazione di un piano di resilienza, le organizzazioni devono andare più a fondo e valutare il costo reale comportato dal non avere alcun piano. Ad esempio, esaminare i service level agreements (SLA) che non potrebbero essere soddisfatti o le sanzioni e la perdita di ricavi che deriverebbero da un'interruzione. Confronta il costo dell'implementazione del DR con le penali, la perdita di ricavi e la perdita di fiducia dei clienti e la scelta da fare ti sembrerà chiara.
Indipendentemente dal fatto che l'indisponibilità sia causata da un disastro naturale, da errori dell'operatore IT/fornitore di servizi, da corruzioni dei dati o da attacchi ransomware, un'organizzazione deve essere in grado di proteggersi dalle interruzioni delle operazioni aziendali che causano perdite catastrofiche, l'essere sostituiti da competitor opportunisti e la perdita di reputazione e clientela.
Sebbene questi risultati sembrino drammatici, riflettono le esperienze recenti di molte note organizzazioni che non sono riuscite a recuperare in modo tempestivo e hanno perso grandi quantità di dati transazionali critici, informazioni sui clienti e fiducia.
Una vasta gamma di scenari e cause profonde possono danneggiare le operazioni aziendali.
Il disaster recovery as a service (DRaaS) nel cloud offre alle aziende opzioni senza precedenti per la flessibilità operativa. Le organizzazioni utilizzano più frequentemente le soluzioni di disaster recovery per le interruzioni pianificate che per il ripristino da eventi catastrofici.
I due obiettivi principali del disaster recovery sono quello di riportare i sistemi interessati allo stato operativo il più velocemente possibile e di farlo con la minima perdita di dati possibile dopo un evento catastrofico o un'interruzione pianificata. I parametri per questi due obiettivi principali sono universalmente noti come recovery time objective (RTO) e recovery point objective (RPO).
Ogni sistema aziendale avrà requisiti diversi per questi due parametri a seconda del service level agreement tra le operations IT e i proprietari dell'azienda.
Il recovery time objective è il tempo necessario per ripristinare un sistema aziendale riportandolo a uno stato completamente operativo dopo le interruzioni pianificate o non pianificate.
Un recovery point objective è la quantità massima di dati che possono essere persi prima di causare danni a un determinato sistema aziendale. L'RPO viene generalmente misurato in tempo dal delta dell'ultimo backup, dall'ultima replica o dall'ultimo snapshot di dati.
Normalmente, l'high availability (HA) protegge dai single point of failure, mentre il disaster recovery protegge dai multiple point of failure. Nel cloud computing, la protezione da singoli punti di errore a livello di infrastruttura fisica, tra cui alimentazione, raffreddamento, storage, reti e server fisici, viene astratta completamente nell'architettura generale tramite domini di disponibilità e di errore.
L'high availability in questo caso è scalabile e altamente resiliente alla perdita dei dati o alla perdita delle prestazioni di elaborazione. Quasi tutti i provider cloud di livello aziendale creano high availability nella loro offerta.
Le soluzioni di disaster recovery con high availability che forniscono una protezione dei database con perdita di dati e tempi di inattività pari a zero per i database diventano costose quando è coinvolta una tecnologia di replica e mapping dei dati complessa. Queste soluzioni non forniscono protezione dai ransomware, che viene raggiunta attraverso un backup completo con un recovery point objective point-in-tempo e uno storage immutabile.
Le soluzioni HA tradizionali funzionano bene insieme a una soluzione cloud DR (CDR) a basso costo. La tecnologia CDR aggiuntiva fornisce un ulteriore livello di protezione per i database che hanno bisogno di una perdita di dati pari a zero, di tempi di inattività HA pari a zero e di protezione dai ransomware con rollback incrementale a lungo termine.
Il DR on-premise è una soluzione non flessibile e costosa, a causa degli elevati costi legati alla duplicazione dell'infrastruttura IT in una posizione di origine e in una posizione di data center di destinazione fissa. Non può funzionare sulla WAN o migrare server tra ambienti diversi, quindi richiede un circuito dedicato tra i data center di origine e di destinazione per funzionare come un unico ambiente LAN interconnesso. Inoltre, il DR tradizionale non può eseguire la migrazione dei server tra ambienti eterogenei , come tra un ambiente on-premise e una piattaforma cloud o tra due piattaforme cloud diverse.
Il DRaaS utilizza una patchwork di soluzioni di backup fornite dal fornitore e strumenti di migrazione open source per creare un ambiente strettamente controllato e altamente specifico. L'utente finale può recuperare solo i carichi di lavoro nell'ambiente tradizionale di hosting del provider DRaaS dal proprio ambiente VMware on-premise. Queste soluzioni fornite dai fornitori possono essere costose e limitate nella gamma di carichi di lavoro che possono proteggere e negli ambienti di calcolo che possono supportare.
Oracle generalmente si riferisce a un flusso di lavoro di DR come piano DR. Un piano o un runbook di DR è un elenco di passi o attività predeterminati che devono essere completati per effettuare la transizione dell'istanza di calcolo, della piattaforma, del database e delle applicazioni a una region di ripristino predeterminata nel cloud. Sono inclusi tutti i task o i singoli passi eseguiti da individui o da qualche tipo di automazione durante un'operazione di disaster recovery, come uno switchover o un failover. I termini piano DR, runbook DR e flusso di lavoro DR sono intercambiabili.
Per operazione di disaster recovery si intende il processo di esecuzione di ogni passo o task predeterminato in un piano DR necessario per ripristinare l'infrastruttura, il database e le applicazioni a uno stato completamente operativo. Per descrivere la transizione di uno stack di applicazioni a una posizione diversa vengono utilizzati due termini diversi: failover e switchover.
Un failover implica un'interruzione non pianificata in cui si è verificato un arresto anomalo di applicazioni, database e virtual machine e tutte le risorse, storage, dati e sistemi operativi guest compresi, sono in uno stato incoerente. In questo caso si presume che la region cloud primaria sia completamente inaccessibile e non disponibile, cosa che indica che è necessario attivare una vera operazione di disaster recovery.
Di conseguenza, tutti i task di disaster recovery in un piano DR possono essere eseguiti solo nella standby region. È fondamentale che la soluzione DRaaS di un provider cloud sia progettata per l'high availability nella standby region per garantire che sia accessibile e funzionale quando succede un disastro catastrofico.
Lo switchover implica tempi di inattività pianificati che includono un arresto ordinato di applicazioni, database e virtual machine o server. In questo caso, sia le standby region primarie che quelle standby funzionano normalmente ed è probabile che il personale IT si concentri sullo "spostamento" di uno o più sistemi da una region all'altra per la manutenzione o il completamento degli aggiornamenti in sequenza.
Le aziende moderne possono trarre vantaggio da uno o più dei seguenti modelli di implementazione cloud per vari motivi, compresi costi, prestazioni e requisiti di continuità aziendale. Una strategia solida di implementazione cloud sta diventando sempre più diffusa man mano che le aziende continuano a spostare le operations nel cloud.
Le soluzioni di disaster recovery cross-regional proteggono le organizzazioni da interruzioni complete che potrebbero influire sull'accesso ai sistemi aziendali ospitati nell'infrastruttura cloud di un unico provider cloud. Come suggerisce il nome, un intero stack di applicazioni per qualsiasi sistema aziendale specifico, virtual machine, database e applicazioni comprese, può essere trasferito su richiesta a una region cloud completamente diversa in un altro luogo.
Le soluzioni DRaaS devono essere in grado di eseguire la transizione di un intero sistema aziendale, come un portale per le risorse umane, un portale per i servizi finanziari o un'applicazione di gestione delle risorse aziendali, a una region cloud completamente diversa. Il DRaaS dovrebbe essere in grado di soddisfare i recovery time objective e i recovery point objective richiesti dai service level agreement per ogni singola applicazione.
Le soluzioni DR cross-regional, come Oracle Cloud Infrastructure (OCI) Full Stack Disaster Recovery, proteggono tutte le applicazioni aziendali dalla perdita catastrofica di accesso a un'intera region cloud, compresa la perdita di tutti i domini di disponibilità presenti in tale region.
Il DR di cloud ibrido è una soluzione molto diffusa che consente alle aziende di eseguire la transizione dei carichi di lavoro e delle virtual machine dai propri data center all'infrastruttura cloud. Il cloud ibrido viene spesso utilizzato come soluzione di disaster recovery per proteggere i dati e la realizzabilità dei sistemi aziendali più importanti di un'azienda.
Per i clienti Oracle, il cloud ibrido è una confederazione libera tra server OCI e fisici, appliance Oracle Cloud o altri sistemi nel data center fisico di un'azienda. Le appliance cloud di Oracle come Oracle Private Cloud Appliance X9-2 e Oracle Exadata Cloud@Customer sono ottimi esempi di sistemi on-premise che si integrano perfettamente con OCI.
Alcuni prodotti dei partner Oracle, ad esempio Rackware, possono essere utilizzati per ottenere il DR tra l'infrastruttura on-premise e OCI. Rackware è disponibile tramite Oracle Cloud Marketplace.
Le soluzioni DR multicloud proteggono applicazioni e dati distribuendo i vari componenti di uno stack di applicazioni nelle infrastrutture cloud di due o più provider cloud. La partnership stipulata da Oracle con Microsoft Azure è un buon esempio di relazione multicloud.
Il disaster recovery as a service dovrebbe essere in grado di gestire il DR cross-regional, il DR di cloud ibrido e il DR multicloud. OCI attualmente può fornire DRaaS per il DR cross-regional e il DR di cloud ibrido.
Le soluzioni praticabili di disaster recovery che coinvolgono le banche dati dovrebbero sempre includere i mezzi per garantire la coerenza dei dati. Il recovery point objective è il punto entro cui un database può essere ripristinato per garantire la piena coerenza dei dati, transazioni in esecuzione comprese.
La coerenza dei dati è meno problematica per i database di file serverless o flat, ma il ripristinare sofisticati database relazionali, come Oracle Database o MySQL, a uno stato con coerenza di dati per un determinato point in time è sia molto complesso che fondamentale.
Quando si utilizza MySQL Database Service in OCI, un sistema di database MySQL è un container logico per una o più istanze MySQL. Fornisce un'interfaccia che consente la gestione di task quali il provisioning, i backup automatici e il ripristino point-in-time.
Le tecnologie di log binario e di replica nativa MySQL consentono il recupero point-in-time, l'high availability e il disaster recovery. MySQL Group Replication normalmente viene utilizzato per creare cluster con tolleranza agli errori locali per l'high availability, mentre la replica asincrona MySQL viene generalmente utilizzata per il disaster recovery distribuito su base geografica.
Un sistema di database con high availability abilitato dispone di tre istanze MySQL posizionate in domini di disponibilità o domini di errore diversi. Il sistema di database garantisce che se un'istanza fallisce, un'altra prende il controllo, evitando così la perdita di dati e minimizzando i tempi di inattività. Per il disaster recovery in region diverse, possono essere creati anche canali di replica in entrata tra due sistemi di database.
Clicca sui link a seguire per scoprire di più sul disaster recovery per MySQL nel cloud.
Oracle Maximum Availability Architecture (MAA) offre l'architettura, la configurazione e le best practice per il ciclo di vita per i database Oracle, permettendo livelli di servizio ad alta disponibilità per database residenti in configurazioni on-premise, cloud o ibride.
Fai clic sui link a seguire per scoprire di più su Oracle Maximum Availability Architecture per il disaster recovery nel cloud.
L'architettura di implementazione descrive in che modo vari componenti, ad esempio calcolo, piattaforma/database e applicazioni, vengono implementati tra le region cloud per creare strumenti resilienti per eseguire il ripristino dall'avaria totale di un data center. L'architettura di implementazione descrive la posizione di ogni elemento durante il normale funzionamento di una suite di applicazioni e gli elementi da ripristinare nella standby region per permettere una nuova esecuzione.
Oracle ritiene che le soluzioni DRaaS dovrebbero avere la flessibilità necessaria per incorporare qualsiasi combinazione di architetture di implementazione DR per soddisfare i requisiti dei singoli livelli di servizio per ogni sistema aziendale. I provider di servizi cloud dovrebbero offrire ai propri clienti la libertà di scegliere tutte le soluzioni "riportate sopra" per soddisfare i service level agreement (SLA) relativi alla vasta gamma di sistemi aziendali che le organizzazioni generalmente supportano.
Molti termini vengono utilizzati per descrivere le strategie di DR e le architetture di implementazione. Tuttavia, i vari approcci e modelli usati per descrivere come implementare l'infrastruttura, la piattaforma e le applicazioni per il disaster recovery rientrano in due ampie categorie strategiche: DR attivo/attivo e attivo/standby.
La tabella riportata di seguito analizza i termini utilizzati per descrivere le varie architetture di implementazione che rientrano nelle due ampie strategie di DR.
Strategia | Architettura di implementazione | RPO | RTO |
---|---|---|---|
Attivo/standby | Cold standby | Ore | Ore |
Attivo/standby | Pilot light | Minuti | Ore |
Attivo/standby | Warm standby | Secondi | Ore |
Attivo/standby | Hot standby | Secondi | Minuti |
Attivo/attivo | Attivo/attivo | Vicino a zero | Vicino a zero |
Questa sezione tenta di demistificare alcune variazioni degli approcci attivi/attivi e attivi/standby al disaster recovery. Entrambe le strategie di disaster recovery fanno parte dell'arsenale di armi disponibili per raggiungere la continuità aziendale.
Esistono molte varianti delle architetture di implementazione attive/standby. Le implementazioni attive/standby, a volte chiamate implementazioni attive/passive, sono spesso caratterizzate da implementazioni pilot light, cold, warm e hot.
Gli scenari pilot light, cold standby, warm standby e hot standby rappresentano una qualche versione dello stesso tema in cui il 100% di uno stack di applicazioni è in esecuzione nella region primaria, mentre meno del 100% dello stesso sistema aziendale è attivo nella standby region.
La serie di diagrammi concettuali di alto livello a seguire ha lo scopo di illustrare alcune differenze fondamentali tra architetture di implementazione comuni e non sono intese come architetture di riferimento; non descrivono come implementare il DR per uno stack di applicazioni.
In questo scenario le virtual machine (VM), i database e le applicazioni esistono solo nella region primaria corrente. I gruppi di volumi di storage di file e a blocchi contenenti il disco di avvio e qualsiasi altro disco virtuale per ogni VM vengono replicati nella standby region.
Durante un'operazione di DR come uno switchover o un failover, lo storage replicato contenente le stesse VM viene attivato nella standby region e le stesse VM vengono riavviate partendo dal momento in cui sono state arrestate o sono crashate. Le VM sono le stesse identiche virtual machine in esecuzione precedentemente nella region attiva.
Questa architettura di implementazione offre diversi vantaggi, tra cui costi di implementazione, manutenzione e operativi inferiori. Tuttavia, questa soluzione potrebbe non essere la migliore per le applicazioni che si basano su database relazionali per il back-end, poiché l'unico modo per garantire la coerenza dei dati è eseguire periodicamente backup a freddo. Questo approccio va bene per le applicazioni che possono tollerare brevi interruzioni complete e occasionali.
La maggior parte delle operations IT risolve questo problema chiudendo periodicamente il database, eseguendo uno snapshot dello storage a blocchi e ricominciando le normali operazioni. Questo definisce il recovery point objective in quanto puoi eseguire il ripristino solo nel momento in cui è stato completato il backup.
Questa architettura avrà un tempo di ripristino leggermente più lungo e c'è un rischio molto maggiore di perdita di dati, ma è una soluzione valida per il carico di lavoro giusto. Ad esempio, questa soluzione potrebbe essere eccellente per le applicazioni che si affidano a un database di file flat, a un database serverless o a nessun database o per i clienti che desiderano semplicemente rendere mobile un set di virtual machine tra le region per una maggiore flessibilità.
I due scenari riportati di seguito descrivono il progresso del flusso di processo per le operations di DR per le implementazioni cold standby.
Nel caso di uno switchover, le attività indicate di seguito vengono eseguite sia nella region primaria che in quella standby.
Nel caso di failover, i task riportati di seguito vengono eseguiti solo nella standby region.
In questo scenario le virtual machine esistono sia nella region primaria che in quella standby, ma sono completamente indipendenti l'una dall'altra e hanno nomi host univoci e indirizzi IP preassegnati. Le VM nella standby region esistono e possono essere arrestate o in esecuzione a seconda delle preferenze del cliente.
I database devono essere in esecuzione sia nella region primaria che in quella standby.
Per i database Oracle, consigliamo di utilizzare Oracle Data Guard per replicare i database primari e standby. Per maggiori dettagli, consulta la nostra architettura di riferimento Gold MAA.
Per i database non Oracle, verranno utilizzate le rispettive tecnologie di replica native per mantenere sincronizzati i database tra le region primarie e standby.
Le applicazioni esistono anche nella region cloud standby, ma non sono né in esecuzione né accessibili.
I due scenari riportati di seguito descrivono l'avanzamento del flusso di processo per le operazioni DR per le implementazioni di warm standby.
Nel caso di uno switchover, le attività indicate di seguito vengono eseguite sia nella region primaria che in quella standby.
Nel caso di failover, i task riportati di seguito vengono eseguiti solo nella standby region.
In questo scenario le virtual machine esistono e sono in esecuzione sia nella region primaria che in quella standby e hanno nomi host univoci e indirizzi IP preassegnati.
I database devono essere in esecuzione sia nella region primaria che in quella standby.
Per i database Oracle, consigliamo di utilizzare Oracle Data Guard per replicare i database primari e standby. Per maggiori dettagli, consulta la nostra architettura di riferimento Gold MAA.
Per i database non Oracle, verranno utilizzate le rispettive tecnologie di replica native per mantenere sincronizzati i database tra le region primarie e standby.
Le applicazioni sono in esecuzione nella region cloud standby, ma non sono accessibili tramite la rete che interagisce con il pubblico.
I due scenari riportati di seguito descrivono il progresso del flusso di processo per le operations di DR per le implementazioni hot standby.
Nel caso di uno switchover, le attività indicate di seguito vengono eseguite sia nella region primaria che in quella standby.
Nel caso di failover, i task riportati di seguito vengono eseguiti solo nella standby region.
In questo scenario, l'intero stack di applicazioni è completamente funzionale e gestisce un carico di lavoro sia nella region primaria che in quella standby.
I database devono essere in esecuzione sia nella region primaria che in quella standby.
Per i database Oracle, è consigliabile utilizzare Oracle GoldenGate per avere una configurazione dell'applicazione attiva/attiva. Inoltre, consigliamo di avere database standby locali in ogni region utilizzando Oracle Data Guard per ottenere dei RTO e RPO quasi pari a zero. Per maggiori dettagli, consulta la nostra architettura di riferimento MAA platinum.
Per i database non Oracle, verranno utilizzate le rispettive tecnologie di replica native e attive/attive per mantenere sincronizzati i database tra le region primarie e standby.
Le applicazioni sono in esecuzione e accessibili tramite la rete che interagisce con il pubblico nella region cloud standby e hanno un carico di lavoro in esecuzione.
I team Oracle hanno fatto di tutto per dare high availability ai loro prodotti, compresa la stragrande maggioranza dei database e delle applicazioni di livello aziendale di Oracle, e spesso elaborano best practice e architetture di implementazione per avere un disaster recovery tanto nelle impostazioni tradizionali on premise che nel cloud. Ogni linea di prodotti prevede un approccio DR per le singole applicazioni che passi accoppiati in modo approssimativo per recuperare tutti i componenti necessari per supportare la loro applicazione.
Il disaster recovery as a service basato su cloud può collegare tutti i passaggi accoppiati in modo approssimativo ideati da sviluppatori, architetti cloud e architetti di soluzioni di prodotto, in un unico flusso di lavoro impeccabile che può essere avviato con un solo clic. OCI offre una soluzione DRaaS chiamata Full Stack Disaster Recovery che è flessibile, altamente scalabile e altamente estensibile.
OCI Full Stack Disaster Recovery gestisce la transizione dell'infrastruttura, dei database e delle applicazioni tra le region OCI in tutto il mondo con un solo clic. I clienti possono implementare ambienti di disaster recovery senza riprogettare o reimplementare l'infrastruttura, i database o le applicazioni esistenti, eliminando allo stesso tempo il bisogno di server di gestione o conversione specializzati.