より自動化されたネットワーク・オペレーション・センター(NOC)を実現するための5つの鍵

プロダクト・マネジメント・ディレクター、Drew Golden

なぜ自動化が効率的なNOC運用に不可欠なのか?

IT業界では、自動化と機械学習(ML)の活用がIT運用を次のレベルへと引き上げる鍵であることが広く認識されています。多くのプロバイダーが、「サービス」から「価値」への飛躍を目指しており、それはGartnerのチャートにも示されています。その実現に向けた唯一の道が、自動化なのです。

課題

健全で効率的なNOCを実現する鍵は、情報の流れをシームレスにし、障害の影響が顧客に及ぶ前に自動的に対応できるようにすることです。

しかし現実には、多くのNOCが内部の摩擦を抱え、それが顧客に影響し、チケットやクレームという形で戻ってくるという悪循環が発生しています。その理由は、その原因は以下のような点に集約されます。

  • 画面やツールの多さ
  • サイロ化されたデータ(レガシー・システムなど)
  • ほとんど自動化されていない業務プロセス
  • 非効率的な根本原因分析

Federosは、こうした課題や悩みを身をもって理解しています(私たち自身もかつてNOCで働いていた経験があるためです)。だからこそ、包括的で統合型のサービス保証ソリューション「Assure1®」を開発しました。

これらの課題に対するソリューションを掘り下げる前に、自動化について業界全体、そして私たち自身がどう考えているかを見ていきましょう。

用語の定義:自動化とは

業界には、自動化に関して「無人のNOC(lights-out NOC)」、つまり完全自動化されたNOCという理想があります。人の介入がほとんど、あるいはまったく必要ない完全仮想化された環境を想像してみてください。

これは実現可能なのでしょうか?将来的にはその方向へ進んでいるように見えますが、現時点および近未来においては、そこまで到達していないのが実情です。

現実には、全業務のうち完全に自動化できるのは10~15%程度にすぎません。残りの85~90%は、いまだに人のアクショナビリティ(得られた情報を具体的な行動に変換する能力)に依存しています。

その理由は、ほとんどのNOCは、レガシー機器、最新機器、仮想化システム(すべてがクラウド上にあるもの)などが混在した環境です。これらのツールは分断されており、相互連携が取れていないため、NOC作業者に「スイベルチェア効果(複数システム間を行き来する非効率)」を強いています。将来的に、ほぼすべてが仮想化・自動化される世界が来るかもしれませんが、今はまだ理想にすぎません。

より自動化されたNOCを実現するための5つの鍵

1

受動対応から能動対応へシフトする

NOCには、ネットワークがサービスに影響を及ぼすインシデントをリアルタイムで特定・解決するプロセスを自動化する仕組みが必要です。さらに理想的には、インシデントが発生する前に未然に防ぐ仕組みが求められます。事後対応やチケット処理は非効率でコストもかかります。自動化と機械学習を活用すれば、インシデントが発生する前にそれを予測し、未然に防ぐ能力を高めることができます。

2

データを統合プラットフォームに集約する

情報の迅速な統合と処理は、すべてのネットワーク運用チームの成功にとって極めて重要です。これまで、通信サービスプロバイダー(CSP)やマネージド・サービスプロバイダー(MSP)をはじめとする多くの企業は、拡大するネットワークを迅速かつ正確に単一ビューで可視化するのに苦労しており、レガシーツールや手作業に依存してネットワーク機能やサービスを監視してきました。インベントリシステムの乱立、アプリケーションのサイロ化、買収による分断されたネットワーク・インフラの統合などが、NOCの可視性に大きなギャップを生み、生産性の低下とコストの増大を招いています。

3

業界をリードする根本原因分析

データを1つのプラットフォームに統合したら、次に必要なのは、サービスに影響を与えるインシデントの根本原因を迅速に特定・分析・解決することです。Assure1®のようなシステムは、膨大なノイズを除去・抑制し、サービスに影響を及ぼすインシデントに対して運用チームが常に正確に対応できるよう支援します。

MLとイベント分析を組み合わせることで、業界標準のMLアルゴリズムと専用のデータ・フィルターを活用し、データを正規化して正確なパターンをMLエンジンに確実に入力できます。

これらのデータ・ストリームを用いて、時間的偏差、統計的希少性、異常動作といった異常を検知し、単一の「根本原因イベント」を生成します。根本原因イベントにはノイズを除去するための抑制パターンが含まれており、これによりNOC担当者は、アラームの嵐に受動的に対応するのではなく、問題を事前に予測し、能動的に対処できる精度を高めることができます。

4

実行可能な行動を特定する

Federosでは、アクショナビリティ(得られた情報を具体的な行動に変換する能力)について頻繁に議論します。それは効果的な自動化の鍵だからです。運用チームは、自動化を推進するために「アクショナビリティ重視の思考」へと意識を切り替える必要があります。

MLとイベント分析は、Assure1®の3本柱戦略の重要な要素であり、業界最高水準の根本原因分析(RCA)を実現します。Federosは3種類のRCAを提供しており、その最後の1つは人の行動を必要とするアクショナビリティに直結しています。

  • 物理および仮想トポロジの自動検出に基づくトポロジ型RCA
  • トポロジを必要とせず、パターンから学習する教師なしMLによるRCA
  • 運用者がノイズフィールドを指定し、既知の根本原因に結び付ける教師ありRCA
3

今すぐ自動化すべき領域:</

  • インベントリの逸脱検出:インベントリの逸脱を検知し、トラブルチケットを自動生成(1日に20回、30回、100回発生の可能性あり)。Assure1®のユニバーサル・トポロジは、トポロジの変化をニアリアルタイムで迅速かつ正確に可視化します。論理・物理を問わずあらゆる技術を横断的に扱う、統合型クロスドメイン・トポロジおよび関係管理機能を備えています。
  • イベントの急増・急減:単一の根本原因によって生じるイベントの爆発的発生または急減。例:光ファイバー切断による要素管理システムの切断。
  • 異常動作:各デバイスのノイズフィールド(スイッチのポートレベルまで)を学習して検知。異常動作ルールは、そのポートまたはデバイスに通常見られない異常に基づいてイベントを生成し、エスカレーションします。たとえば、安定していたコアルーターのポートに突然異常が発生した場合、自動的にフラグが立てられ、分析対象としてエスカレーションされます。
  • NOC運用パフォーマンス:各種イベントの対応方法を学習し、それぞれがNOCでどう扱われているかを把握。この情報を基に、イベント処理が通常と異なる場合にアラートを送信します。たとえば、ダウンしたポートに対してNOC担当者がジャーナルを追加しアラームをクリアする操作が標準である場合、Assure1®はそれを「正常」として学習します。この場合、今後誰かが対応せずに誤ってイベントをクリアすると、その操作は「異常」としてアラームが発生します。

NOCの簡素化と自動化

そこで質問です。今、どれだけの時間を受動的な対応や手作業の非効率なプロセスに費やしているでしょうか?限られた情報の中で、より多くの業務をこなすことを求められていませんか?

残念ながら、これらはNOCでは「よくあること」ですが、本来そうであってはなりません。

Assure1®は、障害、パフォーマンス、トポロジ、サービス、その他の外部データを統合し、単一の統一プラットフォームに正規化して取り込みます。AI/機械学習を含む高度な相関分析により、自動化を推進し、運用効率を高め、コストを大幅に削減する「実行可能なインサイト」を提供します。