Aaron Ricadela |コンテンツ・ストラテジスト| 2024年4月26日
ビジネスは、危機的な状況においても継続する必要があります。この課題の中心的な部分には、販売、業務、生産、輸送を停止させるコンピューター・システム・クラッシュを乗り切り、そこから回復することがあります。IT障害の原因が人為的なもの、ソフトウェアのバグ、異常気象、自然災害のいずれであっても、組織には、重要なプロセスに影響を与えずに危機を乗り切り、迅速に復旧して通常業務を再開するための、綿密に計画された運用・技術戦略が必要です。
重要なビジネス運用に支障をきたすような計画外の混乱を招く出来事は、ブランドの評判を傷つけ、財務上の損失や規制当局からの叱責につながる可能性があります。組織が包括的な事業継続計画やバックアップ・システムを長年にわたって維持してきたのはそのためです。現在、クラウド・コンピューティングの普及や、インターネットから着想を得た新しいアプリケーション・アーキテクチャの登場により、組織は、停電時の運用計画、重要データを取り戻すためのディザスタ・リカバリ・システムの設計、および耐障害性向上のための予算編成の方法を変えつつあります。
ディザスタ・リカバリの基本として地理的に離れた物理データ・センターを使用する計画は一般的ですが、ここではクラウド・サービスを使用する新しい戦略に焦点を当てます。
一部のアプリケーションをデータセンターとクラウド・インフラストラクチャ・サービスの両方で実行することは、アプリケーション・システムを地理的に分散させることによって耐障害性を向上させるシンプルで低コストな方法となることがあります。クラウドで小規模またはスタンバイ・インスタンスを実行し、必要なときだけスケールアップすることで、コストをさらに抑えることができます。
後述するように、最も難しい意思決定の1つは、重要なデータストアのコピーを常時更新しておき、1つのコピーが失われても運用が一時的に中断されるだけで済むようにする方法の決定です。たとえば、顧客が自分のアカウントを管理するシステムは、顧客が購入した商品を確認し、新しいアカウントを作成できる場合にのみ役立ちます。災害によってそのアクセスが中断されると、アプリケーションは役に立ちません。データベースのレプリケーション戦略は、多くの場合、耐障害性の高い戦略を構築するための主要な要因です。
ビジネス継続性計画は、災害やIT障害によって通常の業務フローが中断され、利用している業務アプリケーションがオフラインになった場合に、業務を継続するためのロードマップを組織のリーダーに提供します。この計画には、組織が大災害時にも効果的な業務を継続するために必要な人、プロセス、テクノロジー戦略が詳細に説明されています。専門家によると、通常運用が中断される最も一般的な理由は、クラッシュを引き起こす技術的なヒューマン・エラーとソフトウェアのバグです。自然災害に加えて、ますます増加している異常気象によるデータセンターの過熱によるシステム・トラブルでビジネスが中断することもあります。また、テロ、サイバー犯罪、戦争も原因となり得ます。
ビジネス継続性計画には、ソフトウェア・アプリケーションとデータのディザスタ・リカバリも含まれますが、スタッフのコミュニケーション、従業員がコンピュータやモバイル・デバイスに物理的にアクセスできるようにすること、サプライチェーンおよびその他の業務に必要な変更など、より幅広い内容が含まれます。
業務中断時に業務を維持するために必要な人材、プロセス、テクノロジーの計画に加え、ビジネスには、重要なシステム、データ、アプリケーションへのアクセスを回復するための具体的な計画が必要です。デ業務中断時に業務を維持するために必要な人材、プロセス、テクノロジーの計画に加え、ビジネスには、重要なシステム、データ、アプリケーションへのアクセスを回復するための具体的な計画が必要です。
目標は、それぞれのコンピューティング・ワークロードを保護するコストのバランスを取りながら、ダウンタイムとデータ損失を最小限に抑えることです。クラウド・テクノロジーは次のような場面で役立てることができます。
コンピューティングが主に自社所有または賃貸のデータセンター内のクライアント・サーバー・システムで行われる場合、IT予算は、独自のライセンス・セット、重複するサーバー、ストレージ、ネットワーキング、冷却を必要とするアプリケーションごとに2倍または3倍になり、そのすべてが企業の本番データセンターから適切な距離にある施設で実行されることになります。クラウド・コンピューティングによって計算が変わり、ミッションクリティカルなアプリケーションを複数のクラウド・リージョンまたはデータセンターに導入できるようになりました。また、クラウド・テクノロジーにより、IT部門はリモート管理ツールを使用して、サーバー・リソース(インスタンス)のサイズを迅速に変更できるほか、必要に応じて容量の追加も可能です。
ビジネスは、ディザスタ・リカバリ指標について、障害からどの程度迅速に復旧する必要があるのか、また、どの程度のデータ損失が許容可能なのかという、2つの重要な選択を迫られています。
目標復旧時間(RTO)は、ビジネスがサービスのリストアまで待機してもよい時間を測定し、目標復旧ポイント(RPO)は、ビジネスが災害で損失しても構わないデータの最大量を決定します。しきい値は低いほど望ましいのですが、ディザスタ・リカバリ計画の導入コストは増加します。IT部門が運用するそれぞれのシステムには、独自のRTOとRPOがあります。販売取引システムであれば、ディザスタ・リカバリにかかる時間も時点も短いでしょうし、従業員経費システムであれば、災害発生後数日で復旧することも十分に可能です。
ビジネス継続性とディザスタ・リカバリとは、災害や計画外の中断が発生した場合に、組織が確実に運用を継続できるように導入するテクノロジー、ポリシー、手順を指します。BCDRには、稼働時間に対する潜在的なリスクを特定し、可能な限り迅速に復旧して通常運用を再開するための戦略策定が含まれます。
ビジネス継続性およびディザスタ・リカバリ戦略は、顧客、サプライヤー、その他のパートナーとの取引がオンライン化され、データ量が増大するにつれて、より幅広い企業にとって重要性を増しています。さらに、より多くのシステムが相互に依存するようになりました。顧客が過去の注文を見たり、新しい注文を行うことができるカスタマー・ポータルでは、在庫管理、配送、生産管理システムのつ連携が必要になる場合があります。これらはすべて必要となるため、それぞれがグループの中で最も短いRTOとRPOの要件を継承することになります。
ビジネス継続性はあらゆる分野の企業にとって重要ですが、特定の業界の組織にとっては効果的なBCDR計画が特に重要になります。たとえば、銀行、エネルギー、医療業界など規制の厳しい分野の企業は、ビジネス継続性の要件が厳しく、バックアップ・コピーからのデータ復旧にかかる時間を許容できないことがよくあります。また、資本市場取引のような特定のサブセクターでは、数分相当のデータ損失さえ許されません。
ビジネスは、どのような災害が発生し、どのような損失が発生する可能性があるかを詳細に調べる影響分析からBCDR計画に着手する必要があります。この計画には、技術的な構成エラー、自然災害、テロ行為、ランサムウェア攻撃などのサイバーセキュリティ・インシデントを考慮する必要があります。今日のデータ量は過去数十年よりもはるかに多くなっているため、ビジネス・リーダーはプロセスおよび関連するソフトウェア・アプリケーションに優先度を設定し、どれがミッションクリティカルであるかを判断し、その他のアプリケーションをより緩やかなRTOおよびRPO基準が適用される階層と呼ばれる重要度のランク付けされたグループに配置する必要があります。
ビジネスで最も重要な領域を特定し、それぞれが許容できるダウンタイムの量を推定することは、データ・バックアップ、より広範なコンピューティング運用の開始を支援することができる「パイロット・ライト」IT設置、従業員が自宅で仕事をするために必要なテクノロジー設定など、これらの機能を実行し続けるための計画作成に役立ちます。パイロット・ライト・システムは、重要なデータストアにアクセスできる限り、ウォーム・スタンバイ・システムと考えることができ、また、こうしたクラウドベースのシステムは、災害後数分で稼働させることができます。
クラウド・コンピューティング・テクノロジーは、企業が予算を割かずにビジネス継続性とディザスタ・リカバリ計画を導入するための支援ができる重要なツールです。
一部のコンピューティング・ リソースをパブリック・クラウドで実行し、一部のリソースをオンプレミスのデータセンターで実行するハイブリッドITセットアップにより、ディザスタ・リカバリのコストが削減されました。マイクロサービス(ユーザーにアプリケーションを提供するために連携して動作する、分散された仮想サーバー上で実行する小規模なソフトウェア・コンポーネントの集合体)で構築されたクラウド・ワークロードでは、企業はいわゆる「パイロット・ライト」IT導入、つまり、クラウド・データセンターでシステムを再起動するために使用できる、アイドル状態のサービスによるライブの最新データを作成できます。ハイブリッド・クラウド環境では、アプリケーションの依存関係を特定し、カタログ化し、管理することが必要となりますが、これにより、利用している他のソフトウェア・プログラムがオフラインになった場合でも、再起動を防ぐことができます。
業務アプリケーションをすべてクラウドに移行し、最終的にはデータセンターを廃止することを目標とするビジネスもあります。クラウド・ベースのシステムと社内アプリケーションをより簡単に統合したい、システムやアプリケーションの管理をよりシンプルにしたい、アプリケーションのスケーラビリティ、可用性、アップグレードのしやすさを向上させたい、優れたBCDRを実現したいなど、通常複数の要因にがあります。ビジネス継続性のメリットには、地理的に異なるクラウド地域にあるクラウド・データセンターでパイロット・ライト・システムを維持する機能、災害時の従業員と顧客のアクセシビティに対する懸念が少ないこと、単一障害点がほとんどない、またはまったくない、根本的に強靭なアプリケーション設計などがあります。しかし、これらの利点をすべて得るには、既存のアプリケーションをクラウド・データセンターで実行するように移動させるだけでは不十分です。アプリケーションの再設計と再コーディングが必要です。
このプロセスはリファクタリングと呼ばれ、その取り組みに最適なアーキテクチャはクラウド・サービスです。リファクタリングには時間とコストがかかることがあります。しかし、出来上がったアプリケーションは、強靭性、汎用性、スケーラビリティに優れており、これらすべてがBCDR戦略に有益な結果をもたらします。アプリケーションは、新しい機能を提供するための変更もより簡単になります。たとえば、アプリケーション内で使用する新しいWebサービスを追加するだけなので、分析とAI機能を追加することは、より管理しやすいプロセスになります。
ビジネスでは、予算に見合ったディザスタ・リカバリのアプローチを計画する際に、必要な可用性、RTO、RPOによってワークロードに優先度を設定する必要があります。バックアップ・コピーからのシステムのリストアは、最もコストのかからない方法である可能性がありますが、大規模なデータセットのリカバリには非常に長い時間がかかることがあり、オフライン・バックアップには長いRPOがあります。それでも、オフライン・バックアップは、極めて重要性の高いなデータにとって特に重要であり、ランサムウェアのインシデントからリカバリするための唯一の実行可能な選択肢となる可能性があります。パイロット・ライトの導入は、数時間ではなく数分でシステムを実行する状態にリストアできますが、メンテナンス・コストが増加します。
ウォーム・スタンバイ方式は、ライブの最新データと、低容量で実行しながらリクエストに対応できるクラウドベースのアプリケーション・レプリカを組み合わせたもので、RPOは秒単位、RTOは分単位で測定されます。フル容量で稼働される複数のライブサイトを使用している、いわゆるアクティブ/アクティブ・フェイルオーバー・アプローチは、ほぼゼロのリカバリ時間とポイントを実現できますが、最もコストがかかります。
ディザスタ・リカバリのトレードオフ
ビジネスは、DR戦略を策定する際に、リカバリ時間、データ損失、コストに関する判断が必要になります。
DR方法 | RPO | RTO | コスト |
---|---|---|---|
バックアップとリカバリ | 数時間 | 数時間 | $ |
パイロット・ライト | 数分 | 数分 | $$ |
ウォーム・スタンバイ | 数秒 | 数分 | $$$ |
アクティブ/アクティブ | ほぼゼロ | ゼロの可能性あり | $$$$ |
出典: オラクル
ビジネス継続性計画は、企業が危機の間でも事業を継続し、製品や サービスを提供できるように支援します。事業継続(BC)には、災害シナリオを乗り切るための人、プロセス、テクノロジーの整備が必要です。
ディザスタ・リカバリとは、ビジネス継続性の一側面であり、IT運用を迅速かつ最小限のデータ損失で復旧させることに関係します。これは、コンピューティング・ワークロードを再開するための技術計画や、アプリケーションの重要性と依存性に基づく段階的な復旧アプローチを網羅しています。
主なポイント
ビジネス継続性計画は、潜在的なリスクの評価から始める必要があります。次に組織は、それらのリスクがプロセスに与える影響を予測し、そのリスクを軽減するための役割を担うチームメンバーを特定します。また、企業が従業員とのコミュニケーションを維持し、カスタマーサービスと営業の不測の事態を考慮し、サプライチェーンを調整する方法も計画に入れておく必要があります。また、システムをオンラインに復旧させることを一人の担当者だけに任せるべきではありません。
企業は、ハードウェアとソフトウェア資産の一覧表を作成し、各資産間の依存関係をドキュメントにまとめる必要があります。災害時にのみ稼働するシステムのコンポーネントは、普段は使用されておらず、故障しやすいため、特に慎重なテストが必要です。
PwCの調査によると、最も成功しているBCDRプログラムは、依存関係のマッピング、アプリケーション層の決定、リスク評価、定期的なテスト、スキルの高いチームおよび表立ったスポンサーによるエグゼクティブが特徴とされます。
ビジネスでは、クラウド・コンピューティングのアプローチを計画する際に、高可用性とディザスタ・リカバリを区別することが重要です。パブリック・クラウドでは、互いに数キロメートル以内、あるいは同じ複合ビル内に可用性ゾーンと呼ばれるゾーンを設けることで、1つのデータセンターで障害が発生した場合でも、顧客のワークロードがゾーン内の他のデータセンターで実行され続けるように支援することができます。このアプローチは高い可用性を提供しますが、大規模な気象現象、地域的な停電、熱波など、対象範囲が広い災害をカバーすることはできません。
破壊的な出来事、自然災害、または予期せぬIT障害によって、営業および業務が妨げられたり、オフィスが使用不能になったり、データセンターがオフラインになったり、工場や機器が破壊されたりすることがあります。その結果、経済的損失が発生することもよくあります。ビジネス継続性とディザスタ・リカバリ計画により、組織は危機時に迅速に対応し、損失を抑え、コンプライアンス要件を満たし、顧客へのサービスを継続することができます。
運用に大打撃を与える深刻なコンピュータ障害は、1時間あたり10万米ドルの経済的損害をもたらす可能性があると推定されています。たとえば、Southwest Airlinesは、ネットワーク・ファイアウォールの問題により、2023年4月に2,000便近くを欠航させ、乗客はターミナルや駐機場で足止めを食らいました。また、計画外の障害によるコストはますます高くなっています。ITアドバイザリ・グループのUptime Instituteが2022年に830社の企業を対象に行った調査(PDF) 計画外の障害の4分の1では、影響を受けたビジネスで100万米ドル以上のコストが生じていることがわかりました。調査対象企業の売上高は、100万米ドル未満が29%、100万米ドル以上999万米ドル未満が28%、1000万米ドル以上が28%でした。
ビジネス継続性計画には、潜在的なリスクとそれがもたらす業務の中断、社内スタッフやサプライヤーへの影響、その結果発生する可能性のある財務上の損失や規制上の罰金に関する包括的な評価が含まれます。また、オンラインと運用を再開し、失われたデータを回復するために必要な人員、プロセス、技術的な手順についても詳しく説明します。トレーニングとテストも必須です。
強力なBCDR計画には、以下が含まれます。
BCDR計画の構築には、主要なステークホルダーから構成されるチームを編成することから始まる、複数のステップが必要です。このプロセスに従うことで、緊急時にビジネスの保護と混乱の最小化を支援する包括的なBCDR計画を構築することができます。
ITの面では、災害時にのみ使用するシステムのコンポーネントのテストに特に注意を払う必要があります。
ビジネス継続性とディザスタ・リカバリの分野は、作業を自動化し、精度を向上させる新しいテクノロジーに注目しています。その最前線に位置するものが生成AIで、ベストプラクティスに関する標準やドキュメントをくまなく調べ、BCDR計画の出発点を作成することができます。このテクノロジーは、ビジネス・プロセスとその背後にあるリソースの連携を導き出し、ビジネス・インパクト分析の作成を支援します。
AIツールは、影響分析から復旧計画に基づく詳細な情報を見つけ出すことで、ビジネス継続性マネージャーが費やしていた時間を何時間も削減することができます。
IT開発および運用における生成AIは、スタッフが見逃す可能性のある、使用量の急増やデータへのアクセスの異常な変化を分析することもできます。また、ソフトウェアの依存関係を特定できるように支援し、単一障害点がより少なくなるようにシステムを再設計するために使用することもできます。
オラクル・テクノロジーを使用したクラウド・コンピューティングは、災害によるコンピューティングのダウンタイムに対して複数の保護策を提供します。Oracle Cloud Infrastructure (OCI)は、地域にわたりサービスを提供するグローバルクラウドの各リージョンを、互いに隔離された可用性ドメインに分離するという、特に回復力の高い独自のアプローチを採用しています。同じリージョン内の可用性ドメインは、それぞれ独自の電力および冷却システムを備えているため、リージョン内の1つのドメインで障害が発生しても、別のドメインのコンピューティング作業がダウンすることはほとんどありません。
可用性ドメイン同士は低レイテンシ、高帯域幅のネットワークで連携しており、お客様は高可用性とディザスタ・リカバリを実現するために、可用性ドメイン全体にわたりレプリケーション可能なシステムを構築することができます。また、ネットワークはクラウド環境とオンプレミス・コンピューティングを連携させ、ハイブリッド・クラウド環境を実現します。
各OCI可用性ドメインには順に3つのフォルト・ドメインが含まれるため、コンピューティング・インスタンスは可用性ドメイン内で同じハードウェア上に存在することはありません。このアーキテクチャは、計画外の停止の防止も支援します。オラクルの戦略では、パブリック・クラウドを運用している国に2つ以上のクラウド・リージョンを導入し、お客様のデータ・レジデンシーに関する要件に対応します。
さらに、Oracle Databaseには、ワークロードがOCIとOracle Databaseのどちらで実行されているかに関係なく、組み込みの冗長性を実現するReal Application Clusters(RAC)テクノロジーが搭載されています。別の製品である Oracle Active Data Guardは、データのリアルタイム・リモート・スタンバイ・コピーで、Oracle Databaseの高可用性とディザスタ・リカバリを実現します。最も需要の厳しい高度なDRニーズを抱えるお客様に対しては、Oracle Cloud Infrastructure GoldenGate がブロック・レベルでデータをレプリケーションし、リカバリ・ポイントからの迅速なリカバリを実現します。
包括的なビジネス継続性とディザスタ・リカバリ計画は、ダウンタイム、財務上の損失、評判の低下を最小限に抑えるよう支援しますまた、組織が不測の事態に対処し、規制要件を遵守し、重要なデータや資産を保護するための備えが整っていることを知ることで、従業員、顧客、利害関係者に安心感を提供します。BCDR計画が提供する安心感と耐障害性は、あらゆる規模のビジネスにとって取り組む価値のあるものです。
分散クラウドでは、BCDRを含め、ニーズに応じてサービスを提供する場所や方法を柔軟に選択できます。 オラクルが、2023 Gartner® Magic Quadrant™ for Distributed Hybrid Infrastructureでリーダーに選出された理由をご覧ください。無料のレポートを今すぐ読む
BCDR計画に含まれる内容を教えてください。
ビジネス継続性計画とディザスタ・リカバリ計画には、通常業務を中断させる可能性のあるエラーやイベントのリスク評価、影響を受ける可能性のある資産やコンピューター・システムの影響分析、潜在的な財務損失の推定、危機発生時の人とプロセスの稼働を維持するための規定を含める必要があります。BCDR計画には、ビジネスが主要業務アプリケーションをオンラインに戻し、従業員がデータにアクセスできるようにしながら、その損失を最小限に抑える方法についての詳細な技術的説明も含まれます。スタッフのトレーニングも重要な要素です。
BCPとは何の略ですか。
BCPはビジネス継続性計画の略で、詳細な戦略、不測の事態が発生した場合に企業の運用を維持するためのプロセスとシステムのカタログが含まれます。また、BCPには、危機発生時に人、プロセス、テクノロジーを管理し、できるだけ迅速に通常業務に復帰するための規定も含まれます。