プロダクト・マネジメント・ディレクター、Drew Golden
IT業界では、自動化と機械学習(ML)の活用がIT運用を次のレベルへと引き上げる鍵であることが広く認識されています。多くのプロバイダーが、「サービス」から「価値」への飛躍を目指しており、それはGartnerのチャートにも示されています。その実現に向けた唯一の道が、自動化なのです。
健全で効率的なNOCを実現する鍵は、情報の流れをシームレスにし、障害の影響が顧客に及ぶ前に自動的に対応できるようにすることです。
しかし現実には、多くのNOCが内部の摩擦を抱え、それが顧客に影響し、チケットやクレームという形で戻ってくるという悪循環が発生しています。その理由は、その原因は以下のような点に集約されます。
Federosは、こうした課題や悩みを身をもって理解しています(私たち自身もかつてNOCで働いていた経験があるためです)。だからこそ、包括的で統合型のサービス保証ソリューション「Assure1®」を開発しました。
これらの課題に対するソリューションを掘り下げる前に、自動化について業界全体、そして私たち自身がどう考えているかを見ていきましょう。
業界には、自動化に関して「無人のNOC(lights-out NOC)」、つまり完全自動化されたNOCという理想があります。人の介入がほとんど、あるいはまったく必要ない完全仮想化された環境を想像してみてください。
これは実現可能なのでしょうか?将来的にはその方向へ進んでいるように見えますが、現時点および近未来においては、そこまで到達していないのが実情です。
現実には、全業務のうち完全に自動化できるのは10~15%程度にすぎません。残りの85~90%は、いまだに人のアクショナビリティ(得られた情報を具体的な行動に変換する能力)に依存しています。
その理由は、ほとんどのNOCは、レガシー機器、最新機器、仮想化システム(すべてがクラウド上にあるもの)などが混在した環境です。これらのツールは分断されており、相互連携が取れていないため、NOC作業者に「スイベルチェア効果(複数システム間を行き来する非効率)」を強いています。将来的に、ほぼすべてが仮想化・自動化される世界が来るかもしれませんが、今はまだ理想にすぎません。
NOCには、ネットワークがサービスに影響を及ぼすインシデントをリアルタイムで特定・解決するプロセスを自動化する仕組みが必要です。さらに理想的には、インシデントが発生する前に未然に防ぐ仕組みが求められます。事後対応やチケット処理は非効率でコストもかかります。自動化と機械学習を活用すれば、インシデントが発生する前にそれを予測し、未然に防ぐ能力を高めることができます。
情報の迅速な統合と処理は、すべてのネットワーク運用チームの成功にとって極めて重要です。これまで、通信サービスプロバイダー(CSP)やマネージド・サービスプロバイダー(MSP)をはじめとする多くの企業は、拡大するネットワークを迅速かつ正確に単一ビューで可視化するのに苦労しており、レガシーツールや手作業に依存してネットワーク機能やサービスを監視してきました。インベントリシステムの乱立、アプリケーションのサイロ化、買収による分断されたネットワーク・インフラの統合などが、NOCの可視性に大きなギャップを生み、生産性の低下とコストの増大を招いています。
データを1つのプラットフォームに統合したら、次に必要なのは、サービスに影響を与えるインシデントの根本原因を迅速に特定・分析・解決することです。Assure1®のようなシステムは、膨大なノイズを除去・抑制し、サービスに影響を及ぼすインシデントに対して運用チームが常に正確に対応できるよう支援します。
MLとイベント分析を組み合わせることで、業界標準のMLアルゴリズムと専用のデータ・フィルターを活用し、データを正規化して正確なパターンをMLエンジンに確実に入力できます。
これらのデータ・ストリームを用いて、時間的偏差、統計的希少性、異常動作といった異常を検知し、単一の「根本原因イベント」を生成します。根本原因イベントにはノイズを除去するための抑制パターンが含まれており、これによりNOC担当者は、アラームの嵐に受動的に対応するのではなく、問題を事前に予測し、能動的に対処できる精度を高めることができます。
Federosでは、アクショナビリティ(得られた情報を具体的な行動に変換する能力)について頻繁に議論します。それは効果的な自動化の鍵だからです。運用チームは、自動化を推進するために「アクショナビリティ重視の思考」へと意識を切り替える必要があります。
MLとイベント分析は、Assure1®の3本柱戦略の重要な要素であり、業界最高水準の根本原因分析(RCA)を実現します。Federosは3種類のRCAを提供しており、その最後の1つは人の行動を必要とするアクショナビリティに直結しています。
そこで質問です。今、どれだけの時間を受動的な対応や手作業の非効率なプロセスに費やしているでしょうか?限られた情報の中で、より多くの業務をこなすことを求められていませんか?
残念ながら、これらはNOCでは「よくあること」ですが、本来そうであってはなりません。
Assure1®は、障害、パフォーマンス、トポロジ、サービス、その他の外部データを統合し、単一の統一プラットフォームに正規化して取り込みます。AI/機械学習を含む高度な相関分析により、自動化を推進し、運用効率を高め、コストを大幅に削減する「実行可能なインサイト」を提供します。