5 clés pour un centre d'opérations réseau (NOC) plus automatisé

Drew Golden, Directeur de la gestion des produits

Pourquoi l'automatisation est-elle essentielle pour un centre d'opérations réseau efficace ?

Dans le secteur informatique, nous comprenons qu'une augmentation de l'automatisation et du machine learning (ML) permettra aux opérations informatiques de passer au niveau supérieur. De nombreux fournisseurs sont impatients de sauter le pas entre le service et la valeur, comme illustré dans le graphique Gartner ci-dessous. L'automatisation est véritablement le seul moyen d'y parvenir.

Le problème

La clé d'un centre d'opérations réseau sain et efficace est la fluidité du flux d'informations qui mène à une solution automatisée, avant qu'un client ne ressente même l'impact d'une panne.

Cependant, de nombreux centres NOC font l'objet de frictions internes qui se propagent vers le client et reviennent via des tickets et des appels mécontents. Pourquoi ? Il y a quelques raisons communes :

Trop d'écrans et d'outils
Données cloisonnées (c.-à-d. systèmes hérités)
Automatisation quasi inexistante des processus métier
Analyse inefficace des causes premières

Chez Federos, nous ne comprenons que trop bien ces problèmes (ayant nous-mêmes l'expérience d'un centre d'opérations réseau), c'est pourquoi nous avons créé une solution d'assurance de services holistique et unifiée, Assure1®.

Avant de nous pencher sur la solution à ces problèmes, nous devons examiner de plus près comment nous, et le secteur d'activité dans son ensemble, envisageons l'automatisation.

Définition de termes : automatisation

Lorsqu'il s'agit d'automatisation, l'objectif ambitieux est de parvenir à un centre d'opérations réseau entièrement automatisé. On peut imaginer un environnement entièrement virtualisé qui fonctionne seul, avec peu ou pas d'intervention humaine.

Est-ce possible ? L'avenir semble aller dans ce sens, mais nous savons que l'état actuel et du futur proche n'en est pas encore tout à fait là.

En réalité, seulement 10 à 15 % du travail peuvent être entièrement automatisés. Les 85 à 90 % restants comptent toujours sur les humains pour l'exploitabilité.

Pourquoi ? La plupart des centres d'opérations réseau disposent d'équipements hérités, d'équipements et de technologies modernes et de systèmes virtualisés (où tout se trouve dans le cloud). Ces outils ne sont pas seulement séparés, mais ils ne communiquent pas, ce qui oblige le personnel des centres à jongler entre différents environnements. Il existera peut-être un monde où presque tout est virtualisé et entièrement automatisé, mais ce n'est qu'un objectif ambitieux pour le moment.

5 clés pour un centre d'opérations réseau plus automatisé

Passer du mode réactif au mode proactif

Le NOC a besoin de processus qui automatisent la façon dont le réseau identifie et résout les incidents ayant un impact sur le service en temps réel. Mieux encore, qui permettent de prévenir les incidents avant qu'ils ne se produisent. Réagir à des événements négatifs ou à des tickets de support client est inefficace et coûteux. L'automatisation et le machine learning peuvent faire évoluer votre capacité à prévoir et à prévenir les problèmes avant qu'ils ne surviennent.

Intégrer les données en une plateforme unifiée

La nécessité de consolider et de traiter rapidement les informations est primordiale pour la réussite de toute équipe d'opérations réseau. Pour le moment, les fournisseurs de services de communication (CSP), les fournisseurs de services gérés (MSP) et d'autres entreprises ont encore du mal à visualiser rapidement et précisément leurs réseaux toujours plus étendus dans une vue unique, et s'appuient sur des outils et des pratiques manuelles existants pour surveiller les fonctions et les services réseau critiques. La prolifération des systèmes d'inventaire, des applications cloisonnées et des infrastructures de réseau fracturées réunies dans le cadre d'acquisitions a entraîné des lacunes importantes en matière de visibilité pour le centre d'opérations réseau, avec un impact négatif sur la productivité et une augmentation des coûts.

Analyse des causes premières d'excellence

Une fois les données consolidées sur une seule plateforme, vous devez identifier, analyser et résoudre rapidement les causes premières des événements ayant un impact sur le service. Un système comme Assure1® vous aide à éliminer et à supprimer des quantités considérables de bruit pour vous assurer que votre équipe opérationnelle traite toujours correctement les incidents qui impactent généralement les services.

Grâce au machine learning et à l'analyse d'événements, vous pouvez tirer parti d'algorithmes de machine learning standard avec des filtres de données spéciaux pour normaliser les données, en vous assurant que les modèles corrects sont introduits dans le moteur de machine learning.

Grâce à ces flux de données, la solution vous aide à détecter les anomalies, telles que les écarts temporels, les raretés statistiques et les comportements inhabituels, afin de générer un événement causal unique. Les événements causaux racine contiennent des modèles de suppression qui filtrent le bruit afin d'améliorer le taux de prévisibilité pour permettre aux opérateurs de centres d'opérations réseau de résoudre les problèmes, par opposition à répondre à une avalanche d'alarmes d'événement (ici encore afin de privilégier la proactivité par rapport à la réactivité).

Identifier ce qui peut être exploitable

Chez Federos, nous parlons beaucoup d'exploitabilité car c'est la clé d'une automatisation efficace. Les équipes opérationnelles doivent passer à un état d'esprit d'exploitabilité en vue de stimuler l'automatisation.

Le machine learning et l'analyse d'événements complètent la stratégie Assure1® à trois volets pour fournir aux clients une analyse des causes premières (RCA) de qualité. Federos fournit trois types de RCA, et le dernier est lié à une exploitabilité qui nécessite une intervention humaine :

RCA topologique par l'exploitation de la découverte de topologies physiques et virtuelles
RCA d'apprentissage automatique non supervisée qui apprend à partir de modèles et ne nécessite pas de topologie
RCA supervisée, où les opérateurs peuvent signaler les conditions de bruit et les lier à des causes profondes connues

Ce que vous devriez automatiser dès maintenant :</

Dérive d'inventaire : découvrez quand l'inventaire dérive et automatisez un ticket d'incident (cela peut se produire 20, 30, 100 fois par jour). Assure1® Universal Topology peut représenter rapidement et précisément les changements topologiques en temps quasi réel. Cela comprend une topologie interdomaine entièrement intégrée et une fonction de gestion des relations pour gérer n'importe quelle technologie, logique et physique.
Avalanches et chutes d'événements : occasionnées par des avalanches d'événements (ou des chutes soudaines d'événements) provoquées par une unique cause première. Par exemple : une fibre optique coupée entraîne la déconnexion de systèmes de gestion d'éléments.
Comportement anormal : identifié par l'apprentissage des profils de bruit de chaque appareil, jusqu'aux ports des commutateurs. La règle de comportement anormal génère et fait remonter les événements en cas d'anomalies qui ne sont pas habituelles sur ce port ou cet appareil. Par exemple, un port de routeur principal qui était auparavant stable mais qui commence soudain à avoir des problèmes, ferait l'objet d'un signalement et d'une remontée pour analyse.
Performances opérationnelles du centre d'opérations réseau : examine la manière dont les différents types d'événements sont gérés et apprend comment chaque type d'événement est géré dans le centre d'opérations. Sur la base de ces informations, la solution envoie une alerte lorsqu'un événement est géré de manière anormale. Par exemple, si un opérateur du centre reconnaît qu'un port est en panne, ajoute une entrée dans le journal puis efface l'alarme, cet incident est « appris » par Assure1® comme étant normal pour ce type d'événement. Dans ce cas, si par la suite un utilisateur efface accidentellement un événement sans y travailler, cette action déclenche une alarme.

Simplification et automatisation du centre d'opérations réseau

Nous vous posons la question : combien de temps passez-vous en mode réactif ou sur des processus manuels et chronophages ? Vous demande-t-on d'en faire plus avec moins ?

Ce sont malheureusement ce sont des conditions typiques d'un centre d'opérations réseau, et elles n'ont pas lieu d'être.

Assure1® collecte et normalise les pannes, les performances, la topologie, le service et d'autres données externes dans une seule plateforme unifiée. La corrélation et l'analyse avancées, y compris par l'IA/le machine learning, produisent des informations exploitables qui favorisent l'automatisation et améliorent l'efficacité opérationnelle tout en réduisant considérablement les coûts.