Aaron Ricadela | Kıdemli Yazar | 25 Temmuz 2024
Birçok türdeki felaketler kritik sistemleri çevrimdışı yapabilir, ofislere ve veri merkezlerine zarar verebilir veya normal iş operasyonlarını geçici olarak kullanılamaz hale getirmek için gereken veritabanlarını ve uygulamaları oluşturabilir. Bir felaket kurtarma planı, bir işletmenin en önemli sistemlerini ve uygulamalarını hızlı bir şekilde yedekleyerek diğerlerini geri yüklerken çalışmaya devam edebilmesi için süreç ve teknoloji yol haritasıdır.
Felaket kurtarma (DR), bir işletmenin yıkıcı bir olaydan sonra bilgi işlem iş yüklerini tekrar çevrimiçi hale getirmeye yönelik teknik planlarının yanı sıra felaket gerçekleşmeden önce oyun kitabını test etme yöntemlerini de kapsar. Bir felaket kurtarma planında, iş yükleri önem sırasına göre sıralanır. İşletmeler, her bir iş yükü için bilişimin kapalı kalma süresini ve kayıp verileri en aza indirmeyi ve bunları yapmanın maliyetini dengelemeyi amaçlamaktadır.
Felaketten kurtarma uzun zamandır BT operasyonlarının önemli bir bileşeni olsa da, bulut bilişim ve internet için tasarlanmış yazılım mimarileri, kapsamlı felaket kurtarma planlarının uygulanmasının maliyetini ve işini azaltmaktadır.
Felaketten kurtarma; operatör hataları, suistimaller, yazılım hataları, doğal afetler veya diğer felaketlerin neden olduğu beklenmedik kesinti sürelerinin ardından işletmelerin önemli BT sistemlerini tekrar çevrimiçi hale getirmek için ayırdıkları politikaları, teknolojileri ve bütçeyi tanımlar. Bir kesinti meydana gelmeden önce, işletmelerin bir felaketten hemen sonra hangi görev açısından kritik uygulamaların geri yüklenmesi gerektiğini belirlemesi ve diğerlerini katman adı verilen önem gruplarına göre sıralaması gerekir. Ardından, işletmenin her bir uygulama için ne kadar kesinti süresine ve veri kaybına dayanabileceğine karar vermeleri ve BT stratejilerini buna göre planlamaları gerekir.
Felaket kurtarma önemlidir çünkü yıkıcı olayların neden olduğu planlanmamış kesinti süreleri, sektör tahminlerine göre saat başına 100.000 ABD doları gibi önemli mali kayıplara yol açabilir. Uzun süreli kapalı kalma süreleri de bir markanın itibarına zarar verebilir ve yasal düzenlemelere veya cezalara neden olabilir. Finansal hizmetler, enerji ve sağlık hizmetleri dahil olmak üzere bazı yüksek düzeyde düzenlemeye tabi sektörlerde şirketler, verileri ve bilgi işlem operasyonlarını geleneksel yedekleme veri kopyalarının izin verdiğinden daha hızlı geri yüklemelidir.
Plansız kesinti süreleri, acil servisler ve sağlık hizmetleri gibi alanlarda da hayatlara mal olabilir. Kasırga, kasırga veya deprem gibi yıkıcı bir olay varsa, tüm hizmetler risk altındadır. Bilgi hayat kurtarmak için ihtiyaç duyduğu yere akabilir mi?
İki kritik felaket kurtarma ölçütü vardır: bir sistemin çevrimdışı kalabileceği maksimum süreyi ölçen kurtarma süresi hedefi (RTO) ve bir işletmenin ne kadar veri kaybetmeyi göze alabileceğini ölçen ve yedekleme veya replikasyon sıklığıyla ilişkili olan kurtarma noktası hedefi (RPO). Her ikisi için de daha kısa eşikler daha iyidir, ancak daha maliyetlidir. BT kuruluşları genellikle çalıştırdıkları her sistem için bir RTO ve RPO belirleyerek maliyetleri kritiklikle dengelemelerini sağlar.
DR köklü bir uygulama alanı olmasına karşın bulut hizmetlerinin daha fazla kullanılması ve bir bulut veri merkezinde bir sistemi yeniden başlatmak için bekleme hizmetleriyle birlikte canlı, güncel verileri kullanan "pilot ışık" dağıtımları, planlamacıların daha az parayla mükemmel RTO ve RPO ölçümleri sunmasına yardımcı olmaktadır. Bunun nedeni, bulut sağlayıcılarının her altyapı katmanında yedeklilik yatırımı yaparak otomatik ve yarı mamul yük devri ve kurtarma süreçlerine olanak tanımasıdır. Bunlar, müşterilerinin artık yapması gerekmeyen yatırımlardır. Ayrıca, pilot ışık dağıtımları hizmetlerin yedeklenmesini ve çalışır durumda kalmasını sağlamak için gereken süreyi dakikalar içinde kısaltabilir.
Takip edilecek bulut tabanlı yıkım onarımı dağıtımları hakkında daha fazla bilgi.
Siber saldırılar, donanım arızaları, doğal afetler ve insan hatasından kaynaklanan kesintiler dahil olmak üzere birçok türde felaket BT sistemlerini etkileyebilir. Bazılarını tahmin edebilirsiniz. Örneğin, tüm kuruluşlar siber saldırılarla hedeflenebilir. Bazı şirketler kasırgalar, depremler ve seller gibi doğal afetlerin meydana gelme ihtimalinin daha yüksek olduğu yerlere dayanmaktadır. İnsan hatası sürekli bir hatadır.
İş, bir şeyler ters gittiğinde tepki vermeye hazır olmaktır.
Plansız kesintiler, normal operasyonlarda kesinti ve kesintiyle sonuçlanan bir sistem veya hizmette beklenmeyen kesintilerdir. Bu kesintiler, az önce tartışılan faktörler nedeniyle ortaya çıkabilir ve kayıp gelir, itibar hasarı, müşteri memnuniyetinin azalması ve hatta yaşam kaybı dahil olmak üzere işletmeler için ciddi sonuçlar doğurabilir. Plansız kesintilerin etkisini en aza indirmek ve hizmetlerin hızlı bir şekilde geri yüklenmesini sağlamak için kurtarma planlarının yerinde olması önemlidir.
Verileri bir kümedeki düğümler arasında çoğaltan veya sunucuları bir araya getirerek birbirlerine aktaran ve iş yüklerinin çalışmaya devam etmesini sağlayan yüksek kullanılabilirlik teknolojileri, çok yüksek BT hizmet seviyeleri sağlayabilir. Bu teknolojiler, tek hata noktalarını ortadan kaldırmaya çalışır ve genellikle çalışma süresi yüzdelerini garanti eden hizmet düzeyi anlaşmaları tarafından desteklenir. Bulut bilişimde yüksek erişilebilirlik; güç, soğutma, depolama, ağlar ve sunucular dahil olmak üzere fiziksel altyapıyı korur. Uygulama yazılımı düzeyinde yük dengeleme yazılımı, yüksek çalışma süresi seviyelerinin sağlanmasına da yardımcı olur.
Öte yandan, felaket kurtarma, birden fazla arıza noktasına karşı koruma sağlar ve bir deprem veya kasırganın bir tesisi düşürdüğü gibi aşırı bir bozulmadan sonra kritik iş yüklerini operasyonel bir duruma geri yüklemeyi amaçlamaktadır. DR siteleri genellikle coğrafi olarak birbirinden uzaktır.
Hem yüksek erişilebilirlik hem de yıkım onarımı teknolojileri kapsamlı bir iş sürekliliği planının parçası olmalıdır.
Bir felaket kurtarma planının birincil amacı, iş birimlerinin bir kriz sırasında çalışmaya devam edebilmesini sağlamaktır. DR plans include processes for quickly restarting computing services and limiting data—and dollar—losses. Ayrıca, iş sürekliliği ve veri saklama ile ilgili düzenleyici gereksinimleri karşılamayı amaçlamaktadırlar.
Felaket kurtarma planları için iki temel ölçüt kurtarma zamanı hedefi (RTO) ve kurtarma noktası hedefidir (RPO). Bir işletmenin yürüttüğü her sistem, BT ve ilgili iş birimleri arasındaki hizmet düzeyi anlaşmalarına bağlı olarak farklı RTO ve RPO gereksinimlerine sahip olabilir.
Her uygulama veya hizmet için RTO, planlanmamış bir kesintiden sonra izin verilen maksimum kapalı kalma süresidir, RPO ise bir işletmenin tolere etmek istediği maksimum veri kaybı miktarını ölçer. Daha kısa / daha küçük eşikler daha iyidir, ancak genellikle daha pahalıdır. BT organizasyonları, maliyetleri kritiklikle dengelemek için çalıştırdıkları her sistem için bir RTO ve RPO ayarlayabilir.
DR planları, felaketle sonuçlanabilecek olayların potansiyel risklerinin, operasyonlarda yol açabilecekleri hasarın, çalışanların ve dış paydaşların nasıl etkilenebileceğinin ve bunun sonucunda ortaya çıkabilecek mali kayıpların veya düzenleyici cezaların kapsamlı bir şekilde değerlendirilmesini içerir.
Bir DR planı geliştirmenin bir parçası olarak, şirketlerin yönetici sponsorları ve etkilenen ekipleri belirlemeleri; bir felaket sırasında zarar görebilecek fiziksel ve BT varlıklarını kataloglamaları ve müşteriler, tedarikçiler, ortaklar ve diğer paydaşlar üzerindeki potansiyel etkileri göz önünde bulundurmaları gerekir.
BT departmanları, daha düşük kapasitede çalışan hizmetlerle birlikte canlı veri gerektiren ve hangi iş yüklerinin tam kapasiteye ihtiyacı olan yedeklerden hangi iş yüklerinin geri yüklenebileceğine karar vermelidir. Bazı durumlarda kapalı olan etkin sistemler otomatik olarak bekleme sistemlerine geçiş yaparak minimum kesinti süresi ve sıfır veri kaybı sağlar. Diğer durumlarda, geçiş manuel olacaktır. BT ekipleri, yedekleme sitelerini seçmek ve uygulamaları hızla yeniden başlatmalarına olanak tanıyan bir plan hazırlamak isteyecektir. Bulut burada büyük bir yardımdır. İşletmeler ayrıca, çevrimdışı bir uygulamanın başka bir uygulamanın yeniden çevrimiçi hale getirilmesini engellediği durumlarda, yeniden başlatma işlemlerini engelleyebilecek BT bağımlılıklarını da aramalıdır.
Bu teknik yönlere ek olarak, yönetici liderliği ve iş kolları acil durum iletişim ve müdahale planlarının yanı sıra çalışanları DR planında eğitme, masa üstü testi veya yürüyüşlerle test etme ve prova etme ve sürekli iyileştirme hükümlerine sahip olmalıdır.
Her yıkım onarımı planı, iş operasyonlarını kesintiye uğratabilecek olayların risk değerlendirmesini, etkilenebilecek uygulamaların etki analizini ve ortaya çıkan finansal kayıpların tahminini içermelidir. İş etkisi analizi, her uygulama için RTO'ları ve RPO'ları içermelidir. İşletmeler daha sonra kurtarma planlarına karar verebilir ve daha kısa kurtarma süresi ve kurtarma noktası hedefleri için daha yüksek maliyetlerin ticaretinin mantıklı olduğu yeri seçebilirler.
Yedekleme ve kurtarmaya yönelik yaklaşımlar performans-maliyet spektrumunda yer alır ve aşağıdakileri içerir:
Bir BT envanteri oluşturmak, uygulama kademelerini belirlemek ve bağımlılıkları eşlemek yeterli değildir. DR'nin işletmenin beklediği düzeyde çalışması için işletim sistemlerinden uygulama yazılımlarına kadar her teknolojinin yedekli olması gerekir. DR'nin başarısı, paydaşların adımları sözlü olarak uyguladığı masa başı tatbikatları veya BT departmanlarının alacağı önlemlerin fiziksel olarak gözden geçirilmesi ve yalnızca felaketler sırasında kullanılan sistem bileşenlerinin test edilmesi gibi düzenli testlere de bağlıdır.
Finansal raporlama ve veri koruma düzenlemeleri yıkım onarımı planlarını da etkiler. Örneğin, bir ABD kurumsal finansal raporlama yönetmeliği olan Sarbanes-Oxley Yasası, veri saklama gereksinimlerini belirler. ABD Sağlık Sigortası Taşınabilirlik ve Sorumluluk Yasası (HIPAA), bir felaket sırasında elektronik sağlık bilgileri için acil durum planları gerektirir ve Avrupa Birliği Genel Veri Koruma Yönetmeliği (GDPR), bir felaket sırasında vatandaşların kişisel verilerinin kullanılabilirliğini zorunlu kılar.
Hizmet olarak felaketten kurtarma (DRaaS), işletmelerin uygulamaları genel bir bulutta veya hibrit bulutta çalıştırmasına olanak tanıyan ve şirket içi veri merkezi yerine bulut sağlayıcılarının tesislerinde bir DR planı yürürlüğe koyan bir bulut hizmetidir. Bulut tabanlı DRaaS teklifleri, şirketlerin bilgi işlem, veritabanı ve uygulama yüklerini bulut bölgeleri arasında uzaktan geçirmesine ve iş sistemlerini yeniden tasarlamadan veya özel yönetim yazılımı kullanmadan kurtarmak için gereken adımları otomatikleştirmesine olanak tanır. Bir bulut sağlayıcısının DRaaS çözümünün, felaket anında hizmetin erişilebilir ve işlevsel olmasını sağlamak için bekleme bölgesinde yüksek kullanılabilirlik için tasarlanmış olması çok önemlidir.
İşletmeler, altyapıyı tahrip eden bir doğal afetten sonra veya yerel ağ kaynaklarına erişimin kesildiği fidye yazılımı saldırısı gibi bir siber olaydan sonra verileri kurtarmayı planlamak için bulutta DR'yi kullanabilir. Veriler bölgesel bir bulutta depolanabildiğinden, strateji GDPR gibi veri koruma düzenlemeleriyle uyumlu hale getirilebilir. DRaaS bütçeler sıkı olduğunda da iyi bir çözüm olabilir, çünkü maliyetler yedekli kurtarma siteleri kurmaktan daha düşük olabilir.
Bir felaketten kurtarma planı geliştirmek, potansiyel felaket olaylarının ve bunların BT sistemleri ve iş süreçleri üzerindeki etkilerinin bir risk değerlendirmesiyle başlamalıdır. Yönetim tarafından desteklenen BT ve iş kolu ekipleri, varlıkları ve sistemleri önemlerine göre sıralamalı ve istenen RTO'ları ve RPO'ları ve mevcut bütçeyi göz önünde bulundurarak her birini korumak için DR stratejileri atamalıdır. DR planları; bir felaket, siber saldırı veya teknik bir hatadan kaynaklanan kesinti ile kurtarma arasında köprü kurmaya yönelik daha geniş kapsamlı iş sürekliliği planlarının bir parçasıdır. Sürekli test edilmeli ve güncellenmelidir.
Geleneksel DR, şirkete ait bir veri merkezinde bulunan yedekli sunuculara ve depolama cihazlarına veya iş verilerinin ve uygulama örneklerinin uzak veri merkezlerine yedeklenmesine dayanır, böylece bir coğrafi alandaki bir sorunun uzaktaki kopyalara zarar verme olasılığı düşüktür. Buna karşın bulut tabanlı DR stratejileri, işletmelerin uygulama örneklerinin daha küçük veya yedek kopyalarını genel bir bulutta depolayarak ve acil bir durumda etkinleştirilmeleri gerektiğinde bilgi işlem kaynakları ekleyerek bunları ölçeklendirerek ön maliyetlerden tasarruf etmelerini sağlar. İşletmeler ayrıca yaşamsal uygulamaları birden fazla bulut bölgesine dağıtabilir.
Felaketten kurtarma iş akışı, bir kriz sırasında sistemleri yeniden başlatmak, verileri kurtarmak ve iletişim kurmak için gereken adımlara ve sıralamalara genel bir bakış içerir. DR çalışma kitapları, kurtarma süreçleri ve ilgili belgeler hakkında daha fazla ayrıntıya girer. Acil durumlarda dijital operasyonları güvenli hale getirmek için takip edilmesi kolay kontrol listeleri sağlarlar ve acil bir durum sırasında test etmeyi veya yük devretmeyi kolaylaştırabilir. İş akışları ve çalışma kitapları, işletmelere bir kurtarmanın aşamalı olarak nasıl gerçekleştirileceğini gösterir ve kritik sistemleri ve hizmet düzeyi anlaşmalarını tanımlar.
DR iş akışları risk değerlendirmelerini, bir plana dahil olan komitelerin yanı sıra yönetim desteğini, kurtarma stratejilerini ve test prosedürlerini içerir. Çalışma kitapları farklı veritabanları, sunucular ve ağ donanımları için ayrıntılı kontrol listeleri içerebildiğinden personel zaman baskısı altında kurtarma adımlarını gerçekleştirebilir.
Felaket kurtarma operasyonu, bir kuruluşun altyapısını, veritabanlarını ve uygulamalarını tamamen çalışır duruma getirmek için gereken bir DR planındaki önceden belirlenmiş her bir adımı veya görevi yürütme sürecidir. Hata durumunda yük devri ve rol devri olmak üzere iki terim, bir uygulama yığınının farklı bir konuma geçişini açıklamak için kullanılır.
Hata durumunda yük devri, elektrik kesintileri ve ekipman arızaları dahil olmak üzere beklenmedik krizler sırasında yedekleme sistemine hızlı bir geçiş sağlar. Uygulamalar, veritabanları ve sanal makineler çöktüğünde ve depolama, veri ve işletim sistemleri gibi kaynaklar kararsız bir durumda olduğunda kullanılır.
Rol devri, bakım için planlı kapalı kalma süresinde ikincil bir sisteme düzenli geçiştir. Uygulamaların, veritabanlarının ve sanal makinelerin veya sunucuların kapatılmasına olanak tanır. Bu durumda, hem birincil hem de yedek bölgeler normal şekilde çalışır ve BT operasyon personeli bakım için veya sürekli yükseltmeleri tamamlamak için sistemleri bir bölgeden diğerine taşır.
Bulut bilişimin esnekliği, işletmelerin bütçelerini fazla zorlamadan gereksinimlerine uygun DR stratejileri uygulamalarına olanak tanır. Bazı bilgi işlem kaynaklarının şirket içinde, bazılarının ise genel bulutta çalıştığı hibrit bulut düzenlemeleri, felaket kurtarma maliyetini düşürebilir. Mikro hizmetler de dahil olmak üzere bulut mimarileri, yazılım bileşenlerinin dağıtılmış sanal sunucularda çalışmasına izin vererek onları birçok felaket türüne karşı daha az savunmasız hale getirir.
Bölgeler arası felaket kurtarma çözümleri, kuruluşları kasırgaların neden olduğu kesintiler gibi tek bir veri merkezinde barındırılan sistemlere erişimi ortadan kaldıracak kesintilerden korur. Hizmetler etki bölgesinin dışındaki hatalara dayanıklı, coğrafi olarak ayrı ve yalıtılmış erişilebilirlik etki alanlarında çalışabilir. Sanal makineler, veritabanları ve uygulama yazılımları dahil olmak üzere belirli bir sisteme yönelik tüm uygulama yazılımı yığını, başka bir konumdaki farklı bir bulut bölgesine geçirilebilir.
Hibrit bulut, kuruluşların bazı iş yüklerini kendi veri merkezlerinden bulut altyapısına geçirmelerine olanak tanıyan popüler bir mimaridir. Felaket kurtarma için de faydalı olabilir. Hibrit bir mimarinin benimsenmesi genellikle iş yüklerinin sanal sunucularda çalıştırılmasını gerektirir, böylece bulut veri merkezindeki temel donanım operasyonları etkilemeden kolayca değişebilir.
İş yükleri sanallaştırıldıktan sonra, birincil veri merkezleri kullanılamaz hale geldiğinde bir bulut ortamında yeniden başlatılabilirler. Bulut veri merkezleri, coğrafi olarak dağınık veri merkezlerinin dizilerine göre ekonomik alternatifler olabilir.
Çoklu bulut DR çözümleri, uygulamaların bileşenlerini iki veya daha fazla sağlayıcının bulut altyapılarına yayarak uygulamaları ve verileri korur. Bu strateji, birden fazla bulut sağlayıcısı kullanan işletmelere uygun olabilir ve maliyetleri yönetirken ve coğrafi dağılımla ilgili kararlar verirken farklı uygulamalar için kurtarma süresi ve nokta hedefleri belirlemelerine olanak tanır. Çok bulutlu bir DR süreci, hizmetlerin ve uygulamaların nasıl geliştirildiğinden de kaynaklanabilir.
Felaket kurtarma düzenleme ve yönetim hizmetleri, altyapı, veritabanları ve ara katman yazılımları dahil olmak üzere bir uygulama yığınının tüm katmanları için kapsamlı FK sağlayabilir. DRaaS, farklı bölgelerdeki uygulama yığınlarını geri yüklemek için yıkım onarımı iş akışlarını hızla yürüterek insan hatasını azaltır ve kurtarma süresini en aza indirir.
Oracle Cloud Infrastructure (OCI) Full Stack Disaster Recovery, müşterilerin dünya çapındaki OCI bölgeleri arasında altyapı, veritabanı ve uygulamaların geçişini yönetmelerine olanak tanır. Müşteriler Full Stack DR'yi mevcut altyapıyı, veri tabanlarını veya uygulamaları yeniden tasarlamadan veya yeniden dağıtmadan kullanabilir ve özel depolama veya yönetim sunucularına olan ihtiyacı ortadan kaldırabilir.
Uygulama yazılımlarını Oracle Cloud'da ücretsiz olarak oluşturun, test edin ve dağıtın.
Felaket kurtarma işletmeler için neden önemlidir?
Plansız kurumsal kesintiler pahalıdır. BT danışma grubu Uptime Institute'a göre bunların üçte ikisinden fazlası 100.000 ABD dolarından daha pahalıya mal olurken, planlanmamış BT kesintilerinin dörtte biri 1 milyon ABD dolarından daha pahalıya mal oluyor.
Bir felaketten kurtarma planının temel bileşenleri nelerdir?
Bir felaket kurtarma planı, bir şirketin yedekleme sitelerini seçme veya bilgi işlem iş yüklerini, operasyonları hızlı bir şekilde yeniden başlatmasını sağlayacak şekilde genel bir bulutta dağıtma stratejisini içerir. Kuruluşların ayrıca misyon açısından kritik ve önemli iş uygulamalarını sıralamaları ve yazılımları yeniden çevrimiçi hale getirme yolunda engel olabilecek bağımlılıkları haritalandırmaları gerekir.
Felaket kurtarma veri yedeklemesinden nasıl farklıdır?
Verileri uzak bir sunucuya veya siteye yedeklemek, yıkım onarımının bir yönüdür, ancak modern yıkım onarımı planları çok daha fazlasını kapsar. Şirketlerin, uygulama yazılımlarını küçük ve hazır bekleyen bir andan yeniden başlatırken maliyetleri kontrol altında tutmak için veri çoğaltmayı hizmet kullanılabilirliği ile dengeleyen teknoloji stratejilerini göz önünde bulundurmaları gerekir.
Bulut bilişim, yıkım onarımını nasıl etkiler?
Bulut teknolojileri, bulut bölgelerini birbirinden yalıtılmış ve hataya dayanıklı erişilebilirlik etki alanlarına ayırarak felaket sırasında koruma sağlayabilir. Şirketler genellikle bulut satıcısı tarafından sağlanan tesisleri ve hizmet programlarını kullanarak yüksek erişilebilirlik ve yıkım onarımı için sistemleri çoğaltabilir.