Machine learning dans le management IT

Oracle Management Cloud

Rapid Troubleshooting : accélerer le diagnostic des incidents

Identifiez en un clic les erreurs, les liens et les tendances parmi des milliers de logs grâce au Machine Learning.


Rapid Troubleshooting : accélerer le diagnostic des incidents

Oracle Management Cloud (OMC) dispose de fonctionnalités puissantes basées sur des analyses Big Data et du Machine Learning qui vous permettent de détecter, d’analyser et de résoudre rapidement des problèmes dans vos environnements IT – qu’ils soient hébergés On Premise ou dans le Cloud.

Les alertes vous montrent que les composants soient déployés les évènements les plus importants liés aux pannes, erreurs, problèmes de performance et autres évènements que vous avez personnalisés et que vous souhaitez suivre de manière particulière.

Panne d’un disque

Un disque vient de tomber en panne sur une application critique. Comme les composants sont redondants, l’application continue de fonctionner, mais une alerte est immédiatement envoyée pour remplacer le disque. Grâce à la topologie des applications, vous visualisez d’un coup d’œil l’état de votre IT. Elle vous montre les composants utilisés par chaque application en les classant selon leur nature et fait apparaître les relations entre eux. Quand un composant est hors service, il est signalé en rouge dans la topologie. Vous pouvez alors zoomer dessus pour obtenir plus d’informations sur le problème.

Avec l’application mobile Oracle Management Cloud (OMC) vous pouvez décider de recevoir des notifications pour certains évènements nécessitant un suivi immédiat.

Véritable console de supervision de votre IT Hybride, OMC recense les évènements et peut s’interfacer avec des systèmes de gestion de tickets (ITSM) comme ServiceNow.

La topologie de l’application des commandes permet d’appréhender le nombre de composants par couche technologique et les relations entre les différents composants. Dans la couche stockage, un composant en rouge est relié à un serveur et à une base de données.

Essayez gratuitement Oracle Management Cloud !
Topologie


Vous pouvez zoomer sur le composant rouge pour obtenir plus d’informations.

Composant rouge


Vous pouvez ensuite explorer les logs de ce composant pour comprendre les règles.

Log analytics


Découvrez-en plus en discutant avec un spécialiste

L’erreur concernant le disque a été remontée dans les logs. L’analyse est rapide quand on prend en compte le grand nombre de composants qui servent à une application.

Cet exemple de Root Cause Analysis a pris moins d’une minute en partant de la topologie pour parvenir à la cause profonde de la panne.

Details log


Fonctionnement anormal de la base de données (basé sur un témoignage client)

Un problème de performance est détecté sur la couche applicative. Sans autre indication, il vous serait difficile et long de comprendre la cause. Avec les fonctionnalités d’exploration du service, vous pouvez analyser le contexte lié à ces ralentissements et notamment basculer directement dans les logs au moment où le problème survient.

Par exemple, il apparaît qu’un redémarrage un peu trop intempestif de la base de données provoque des ralentissements dans l’application. Avec des outils classiques, différencier un redémarrage « normal » d’un redémarrage à problème n’est pas facile. Grâce aux outils OMC, les signaux faibles sont détectés et les problèmes peuvent être résolus avant qu’ils n’affectent l’utilisateur. Vous pouvez le traiter simplement et rapidement en utilisant les fonctions de recherche et de création d’alertes personnalisées.

Lorsque vous regardez dans les métriques APM, vous constatez un pic de performance. En zoomant, vous visualisez l’ensemble des actions qui y sont liées et repérez qu’une ouverture de connexion à la base de données était en échec. Le problème de performance s’explique par le serveur applicatif qui attend que la base de données se rétablisse et retente une connexion. Quand bous basculez dans Log Analytics, vous comprenez pourquoi la connexion de la base de données à échoué pour réussir une minute plus tard. Les logs de la base de données montrent que lors du problème de connexion, la base de données redémarrait, et ce de manière périodique. Il avait été mis en place par le service d’hébergement qui n’en n’avait pas informé l’équipe projet. Jusqu’alors, ces problèmes de performance n’avaient pas été signalés.

Isolation rapide d’une anomalie parmi un grand nombre d’entrée de logs

Quand on dispose de plusieurs dizaines de composants, il est très difficile d’exploiter de manière utile les fichiers de logs si l’on n’a pas un outil d’analyse puissant. En utilisant Log Analytics, vous pouvez rapidement isoler une anomalie parmi des centaines de milliers de lignes de fichiers log et des milliers de composants déployés. En quelques clics on peut très facilement cerner des erreurs systèmes ou applicatives car le Machine Learning va vous assister pour diminuer considérablement le nombre d’entrées de log à interpréter.

Par exemple, imaginons que pendant 1 semaine, le Système d’Information a généré plus de 11 millions de lignes de log à travers les différents composants qui constituent les différentes couches technologiques et applicatives.

Planifiez une démonstration ?
Log explorer


Comme vous souhaitez détecter un problème ou une panne survenue pendant cette période, vous allez utiliser la fonction de Clustering de Log Analytics pour classifier toutes ces lignes en modèles (patterns) et réduire ainsi les occurrences.

clustering

En quelques secondes, vous passez de plus de 11 millions de lignes insignifiantes à 607 lignes pertinentes. En observant uniquement les lignes qui correspondent à des erreurs ou pannes, vous ne gardez plus que 307 lignes. Vous pouvez encore diminuer ce nombre en vous intéressant à un type de composant, un type d’erreur ou une application donnée à l’aide de filtres, que vous pouvez utiliser dans l’interface à la manière d’un outil de Business Intelligence.

Filtres log


Avec un filtre sur les hosts Linux, vous n’avez plus que 9 lignes.

Vous souhaitez en savoir plus sur la tarification ?
filtres host linux

Une plateforme nouvelle génération d’IT Operations Management & Analytics

Oracle Management Cloud est une plateforme complète, unifiée, hétérogène, hybride et intelligente grâce aux algorithmes de Machine Learning.

Bénéficiez du meilleur de l’IT Operations Management au sein d’une seule et même plateforme : APM, Analyse de logs, Infrastructure Monitoring, Capacity Planning, Configuration, Conformité, Sécurité, Analytics…

Oracle Management Cloud est comptatible quelques soient vos technologies (Oracle DB, Docker, Kubernetes, .net, Java, MongoDB, Tomcat, Jboss…) ou vos types d’hébergement : On Premise, Cloud (Oracle, Amazon AWS, Microsoft Azure, Google Cloud, OVH…).

Oracle Management Cloud intègre de nombreux algotihmes de Machine Learning : Détection des anomalies, Analyse synthétique, Classification, Prédiction, Corrélation…



Devenez un Super Héros de l’IT
E-Book