Machine learning dans le management IT

Oracle Management Cloud

Vous ne verrez plus jamais les logs de la même façon !

Vous venez à peine d’être promu DSI mais votre application connaît une interruption de service : catastrophe ! Heureusement, un outil d’analyse de fichiers de logs vient à votre secours... Pour comparer les solutions d’analyse de logs d’ELK, Splunk et Oracle, téléchargez l’étude comparative :


Vous ne verrez plus jamais les logs de la même façon

Temps de lecture estimé : 3 min

Après 3 ans de travail acharné en tant que responsable de production informatique de putashoe.fr, un site ecommerce en pleine expansion, vous venez enfin d'être promu et d'obtenir le titre tant attendu de DSI. Aujourd'hui, vendredi 13 décembre, l'évocation du week-end s’immisce sur toutes les lèvres de l'open space et s'infiltre progressivement jusqu'à vous. Il est 17h30 mais vous avez déjà les pieds dans le sable fin de Majorque où vous devez retrouver un vieil ami. Le farniente en bord de mer vous attend, un repos bien mérité. Mais vous voilà tiré de votre rêverie : “le site vient de tomber", "interruption totale de service", "catastrophe". Le retour à la réalité est brutal, mais il n'y a plus une minute à perdre. Aucun utilisateur ne parvient à se connecter. Chaque minute passée en site down fait perdre à la société et aux actionnaires des milliers d'euros.

 

“Dans un tel cas, il aurait fallu un outil pour mesurer les temps de réponse, de chargement et permettant même de rejouer et visualiser la session d'un utilisateur en souffrance.”

Découvrez l'étude comparative de Log Analytics entre ELK, Splunk et Oracle !

Vous essayez de vous remémorer la journée. Il est vrai que plusieurs incidents étaient survenus sur les environnements de production. Plusieurs semaines auparavant, vous rencontriez des problèmes de stabilité sur votre infrastructure sans vraiment en avoir identifié la cause. Des plaintes d'utilisateurs remontaient, concernant des erreurs et lenteurs récurrentes sur vos pages, mais celles-ci n'avaient pas encore été réellement objectivées ni diagnostiquées. Vous n'aviez pas le temps et, avec les restrictions budgétaires imposées par le CEO, les équipes en sous-effectif étaient débordées. Dans un tel cas, il aurait fallu un outil pour mesurer les temps de réponse, de chargement et permettant même de rejouer et visualiser la session d'un utilisateur en souffrance. Dépossédé de ce moyen, vous montez une cellule de crise réunissant l’ensemble de vos équipes. Vous exigez qu’elles cherchent immédiatement dans les logs pour comprendre ce qu’il vient de se produire. Chacun doit analyser les logs des 24 dernières heures afin d'identifier au plus vite la Root Cause et mettre fin à cette interruption de service. Vos équipes regardent défiler les millions de lignes de logs à analyser. Certains procèdent par recherche de mots-clefs dans un fichier texte tandis que d'autres les impriment et surlignent les logs qui semblent pertinents...un exercice compliqué et fastidieux. Vous avez l'impression de chercher une aiguille perdue dans une botte de foin.

La Root Cause

Alors que vous constatez l'ampleur de la tâche exigée à des équipes au bord du burn-out, une idée surgit. La semaine dernière, votre commercial Oracle vous a vanté les mérites de Log Analytics. Cet outil d'analyse de logs est à la fois la fois simple d'utilisation et se met en place rapidement, une solution proposée en mode SaaS et Pay as You Go. Martin s'était renseigné sur cet outil lors d'un workshop le mois dernier. Il vous avait expliqué que pour aller au plus vite, il n'était pas indispensable de déployer un agent sur les environnements mais qu'il suffisait d'uploader les fichiers de logs dans l'outil d'Oracle. Une fois remontés dans l'outil - et ce, en quelques minutes ! - il était possible de troubleshooter automatiquement les incidents et anomalies grâce un algorithme de Machine Learning. Vous vous connectez immédiatement au site d'Oracle : pour seulement 2€ l'heure, vous pouvez indexer et analyser jusqu'à 300 gigas de logs. La décision est vite prise : vous allez uploader l'ensemble des logs de la semaine pour réaliser votre Root Cause Analysis.

Quinze minutes plus tard, vous regardez défiler les 50 gigas de logs téléchargés via des commandes Curl qui représentent plus d'un million d'entrées de logs. Martin vous explique qu'en appuyant sur tel bouton, vous activez le clustering. Soudainement, plusieurs millions de lignes de logs insignifiantes se sont regroupées en une dizaine de lignes pertinentes. Stupéfait, vous lisez l'analyse du clustering : 12 "erreurs potentielles", 3 "valeurs aberrantes", 5 "tendances".

Vous regardez la topologie applicative de votre SI et repérez tout de suite où se trouve le problème : il vient d’un serveur en particulier.

 

“Cette surcharge aurait pu ne pas avoir d’impact si elle avait été rapidement identifiée et facilement corrigée.”

Découvrez-en plus en discutant avec un spécialiste

En un clic, vous visualisez le détail de l’erreur. Le constat est immédiat : le serveur est surchargé, il tourne à plein régime et fait ralentir les autres composants de l’application. L’effet boule de neige... Cette surcharge aurait pu ne pas avoir d’impact si elle avait été rapidement identifiée et facilement corrigée. La raison de l’incident est pourtant simple : vous venez d’ajouter ce serveur il n’y a pas longtemps à la ferme afin d’absorber la croissance. Mais il y a eu un problème de configuration de répartition de charge entre les serveurs. Si vos équipes avaient identifié et compris l’importance de cette anomalie, ils auraient pu y remédier et cette interruption de service n’aurait jamais existé. Au moins, aujourd’hui, vous pouvez agir immédiatement. Vos équipes sont déjà en train de reconfigurer la règle de répartition de charge.

La Root Cause a été diagnostiquée, le service est rétablie, putashoe.fr est relancé. Votre week-end, que vous aviez complètement oublié, est bel et bien prêt à commencer.

La Root Cause

Mais à peine installé dans l’avion, une question vous tourmente : combien de temps cela vous aurait pris d'analyser ces logs à la main ? Au final, l'interruption de service n’aura duré environ qu’une heure. Une heure de trop, certes, mais vous avez su limiter la casse. Vous continuez de spéculer ainsi quand la fatigue vient vous emporter progressivement vers un paisible sommeil.

Vous arpentez la plage et profitez du lever de soleil hivernal de Majorque avant de vous installer confortablement dans un transat en humant l'air de la mer. D'un air satisfait, vous sortez de votre sac une tablette. Vos yeux pétillent et vos doigts s'activent sur l’écran. Quel est donc ce produit magique qui vous a sauvé votre place de DSI ?

 

“Oracle Log Analytics analyse et utilise la topologie de l’application pour fournir une image précise des composants de la plate-forme et de l'infrastructure qui supportent votre application.”

Découvrez la use case sur le rapid troubleshooting à partir de vos logs !

“Oracle Log Analytics Cloud Service est une solution software-as-a-service qui supervise, agrège, indexe, et analyse tous les fichiers logs de vos applications ou de votre infrastructure, s’exécutant on-premise ou dans le cloud.” Voici qui est intéressant : les environnements peuvent être hébergés dans un cloud ou dans le datacenter de l’entreprise.
“Oracle Log Analytics analyse et utilise la topologie de l’application pour fournir une image précise des composants de la plate-forme et de l'infrastructure qui supportent votre application, puis vous permettre d'explorer les fichiers logs pertinents pour l’application au moment où le problème est survenu. L'exploration des journaux pertinents à l'application rend le processus de dépannage plus précis et rapide car il permet aux utilisateurs de se concentrer sur les données intéressantes dans le contexte du problème.” Vos équipes de devOps et de production ne crouleront plus sous une masse de logs et pourront travailler efficacement !
« Les tableaux de bord fournissent une vision opérationnelle pour l’IT et les métiers. Les intervenants ont la visibilité de la santé et la disponibilité des applications et surveillent les évènements critiques depuis une console qui utilise des tableaux de bord standards et spécifiques. La panoplie de « widgets », graphes et commandes prédéfinis permet l’extraction d’informations opérationnelles des logs et servent à bâtir des tableaux de bord avec des métriques IT ou métiers essentiels. »
Non seulement, la vision synthétique et exhaustive permet de résoudre les erreurs, voire de les prévenir avant qu’elles ne surviennent mais en plus, vous pourrez consulter l'état des ventes, leur rythme, le produit le plus acheté ... votre site ecommerce va vite croître à nouveau, malgré la catastrophe de vendredi.
« Les utilisateurs peuvent analyser et corréler cette grande variété de données en naviguant de manière transparente depuis le service Application Performance Monitoring (APM) vers le service Oracle Log Analytics pour explorer les fichiers logs relatifs aux serveurs d’application, bases de données et serveurs dans le même contexte applicatif.
L’extension des vues APM vers les logs de l'infrastructure dans le contexte de l'application permet d'accélérer le processus de dépannage. ». Cette solution d’IT Operations Management complémentaire semble très avantageuse… ce serait regrettable de ne pas l’avoir en même temps que Log Analytics.

Vous levez la tête, regardez droit devant vous : la mer, éclatante, laisse aller et venir ses rouleaux qui s’échouent puis se retirent, dans un mouvement perpétuel... mais votre esprit est déjà au bureau, le lundi; vous vous voyez expliquer à vos équipes le merveilleux outil qui non seulement a remis sur pieds putashoe.fr mais vous prédit un bel avenir.

Devenez un Super Héros de l’IT
E-Book