Drew Golden, Director, Product Management
Nel settore IT, comprendiamo che una maggiore automazione e Machine Learning (ML) porteranno le operazioni IT a un livello superiore. Molti fornitori sono ansiosi di fare il salto dal servizio al valore, come illustrato nel grafico Gartner qui sotto. L'automazione è davvero l'unico modo per arrivarci.
La chiave per un NOC sano ed efficiente è il flusso continuo di informazioni che porta a una soluzione automatizzata, prima che un cliente senta mai l'impatto di un'interruzione.
Tuttavia, molti NOC sperimentano attriti interni che scendono al cliente e eseguono il backup attraverso i biglietti e le chiamate arrabbiate. Perché? Ci sono alcune ragioni comuni:
In Federos, comprendiamo fin troppo bene questi problemi (essendoci seduti nel NOC), motivo per cui abbiamo creato una soluzione di service assurance olistica e unificata, Assure1®.
Prima di addentrarci nella soluzione di questi problemi, dobbiamo dare un'occhiata più da vicino a come noi e l'industria nel suo complesso pensiamo all'automazione.
C'è un obiettivo di aspirazione nel settore quando si tratta di automazione: un "NOC light-out" o un NOC completamente automatizzato. Si può immaginare un ambiente completamente virtualizzato che funziona da solo, con poco o nessun coinvolgimento umano necessario.
È possibile? Il futuro sembra essere diretto in quella direzione, ma sappiamo che il nostro stato attuale e prossimo futuro non è ancora lì.
La realtà è che solo il 10-15% del lavoro può essere completamente automatizzato. L'altro 85-90% si affida ancora agli esseri umani per realizzare l'azione.
Perché? La maggior parte dei NOC ha un mix di apparecchiature legacy, attrezzature e tecnologie moderne e sistemi virtualizzati (dove tutto è nel cloud). Non solo questi strumenti sono separati, ma non comunicano, e di conseguenza creano un effetto "sedia girevole" per i lavoratori NOC. Ci può essere un mondo in cui quasi tutto è virtualizzato e completamente automatizzato, ma ancora, questa è aspirazionale.
Il NOC ha bisogno di processi che automatizzano il modo in cui la rete identifica e risolve gli incidenti che hanno impatto sul servizio in tempo reale. O, ancora meglio, che può prevenire gli incidenti prima che accadano. Reagire a eventi negativi o ai ticket dei clienti è inefficiente e costoso. L'automazione e il machine learning possono ridimensionare la tua capacità di prevedere e prevenire i problemi prima che si verifichino.
La necessità di consolidare ed elaborare rapidamente le informazioni è fondamentale per il successo di qualsiasi team operativo di rete. Finora, i Communication Service Provider (CSP), i Managed Service Provider (MSP) e altre aziende hanno faticato a visualizzare le loro reti in espansione in modo rapido e accurato in una vista unica, basandosi su strumenti legacy e pratiche manuali per monitorare le funzioni e i servizi di rete critici. La proliferazione di sistemi di inventario, applicazioni a compartimenti stagni e infrastrutture di rete fratturate riunite attraverso acquisizioni, ha creato significative lacune di visibilità per il NOC, con un impatto negativo sulla produttività e l'aumento dei costi.
Una volta che hai dati consolidati in un'unica piattaforma, devi individuare, analizzare e risolvere rapidamente la causa principale degli eventi che influiscono sul servizio. Un sistema come Assure1® ti aiuta a eliminare e sopprimere enormi quantità di rumore per garantire che il tuo team operativo agisca sempre correttamente contro gli incidenti che in genere provocano servizi interessati.
Con l'analisi del machine learning e degli eventi, puoi sfruttare algoritmi ML standard del settore con filtri di dati speciali per normalizzare i dati, garantendo che i pattern corretti vengano inseriti nel motore ML.
Utilizzando questi flussi di dati, la soluzione consente di rilevare anomalie, come deviazioni temporali, rarità statistiche e comportamenti insoliti, per generare un singolo evento causale radice. Gli eventi causali radice contengono modelli di soppressione che filtrano il rumore per migliorare la velocità di prevedibilità degli operatori NOC per risolvere i problemi invece di rispondere a una tempesta di allarmi di evento (di nuovo, consentendoti di essere proattivo invece che reattivo).
In Federos parliamo molto di fattibilità perché è la chiave per un'automazione efficace. I team operativi devono passare a una mentalità di fattibilità per guidare l'automazione.
ML e event analytics completano la triplice strategia Assure1® per fornire ai clienti root cause analysis (RCA) leader del settore. Federos offre tre tipi di RCA, e l'ultimo è legato all'azione che richiede un essere umano:
Quindi, ora ti chiediamo: quanto tempo trascorri in modalità reattiva o su processi manuali e dispendiosi in termini di tempo? Ti viene chiesto di fare di più con meno informazioni?
Sfortunatamente, queste sono condizioni NOC tipiche, e non dovrebbero esserlo.
Assure1® raccoglie e normalizza guasti, prestazioni, topologia, servizi e altri dati esterni in un'unica piattaforma unificata. La correlazione e l'analisi avanzate, tra cui AI/Machine Learning, producono insight utili che guidano l'automazione e migliorano l'efficienza operativa, riducendo significativamente i costi.