5 chiavi per un Network Operations Center (NOC) più automatizzato

Drew Golden, Director, Product Management

Perché l'automazione è fondamentale per un NOC efficiente?

Nel settore IT, comprendiamo che una maggiore automazione e Machine Learning (ML) porteranno le operazioni IT a un livello superiore. Molti fornitori sono ansiosi di fare il salto dal servizio al valore, come illustrato nel grafico Gartner qui sotto. L'automazione è davvero l'unico modo per arrivarci.

Il problema

La chiave per un NOC sano ed efficiente è il flusso continuo di informazioni che porta a una soluzione automatizzata, prima che un cliente senta mai l'impatto di un'interruzione.

Tuttavia, molti NOC sperimentano attriti interni che scendono al cliente e eseguono il backup attraverso i biglietti e le chiamate arrabbiate. Perché? Ci sono alcune ragioni comuni:

Troppi schermi e strumenti
Dati in silos (ossia sistemi legacy)
Automazione dei processi aziendali minima o nulla
Analisi della causa principale inefficiente

In Federos, comprendiamo fin troppo bene questi problemi (essendoci seduti nel NOC), motivo per cui abbiamo creato una soluzione di service assurance olistica e unificata, Assure1®.

Prima di addentrarci nella soluzione di questi problemi, dobbiamo dare un'occhiata più da vicino a come noi e l'industria nel suo complesso pensiamo all'automazione.

Definizione dei termini: automazione

C'è un obiettivo di aspirazione nel settore quando si tratta di automazione: un "NOC light-out" o un NOC completamente automatizzato. Si può immaginare un ambiente completamente virtualizzato che funziona da solo, con poco o nessun coinvolgimento umano necessario.

È possibile? Il futuro sembra essere diretto in quella direzione, ma sappiamo che il nostro stato attuale e prossimo futuro non è ancora lì.

La realtà è che solo il 10-15% del lavoro può essere completamente automatizzato. L'altro 85-90% si affida ancora agli esseri umani per realizzare l'azione.

Perché? La maggior parte dei NOC ha un mix di apparecchiature legacy, attrezzature e tecnologie moderne e sistemi virtualizzati (dove tutto è nel cloud). Non solo questi strumenti sono separati, ma non comunicano, e di conseguenza creano un effetto "sedia girevole" per i lavoratori NOC. Ci può essere un mondo in cui quasi tutto è virtualizzato e completamente automatizzato, ma ancora, questa è aspirazionale.

5 chiavi per un NOC più automatizzato

Passa da reattivo a proattivo

Il NOC ha bisogno di processi che automatizzano il modo in cui la rete identifica e risolve gli incidenti che hanno impatto sul servizio in tempo reale. O, ancora meglio, che può prevenire gli incidenti prima che accadano. Reagire a eventi negativi o ai ticket dei clienti è inefficiente e costoso. L'automazione e il machine learning possono ridimensionare la tua capacità di prevedere e prevenire i problemi prima che si verifichino.

Porta i dati in una piattaforma unificata

La necessità di consolidare ed elaborare rapidamente le informazioni è fondamentale per il successo di qualsiasi team operativo di rete. Finora, i Communication Service Provider (CSP), i Managed Service Provider (MSP) e altre aziende hanno faticato a visualizzare le loro reti in espansione in modo rapido e accurato in una vista unica, basandosi su strumenti legacy e pratiche manuali per monitorare le funzioni e i servizi di rete critici. La proliferazione di sistemi di inventario, applicazioni a compartimenti stagni e infrastrutture di rete fratturate riunite attraverso acquisizioni, ha creato significative lacune di visibilità per il NOC, con un impatto negativo sulla produttività e l'aumento dei costi.

Analisi delle cause principali del settore

Una volta che hai dati consolidati in un'unica piattaforma, devi individuare, analizzare e risolvere rapidamente la causa principale degli eventi che influiscono sul servizio. Un sistema come Assure1® ti aiuta a eliminare e sopprimere enormi quantità di rumore per garantire che il tuo team operativo agisca sempre correttamente contro gli incidenti che in genere provocano servizi interessati.

Con l'analisi del machine learning e degli eventi, puoi sfruttare algoritmi ML standard del settore con filtri di dati speciali per normalizzare i dati, garantendo che i pattern corretti vengano inseriti nel motore ML.

Utilizzando questi flussi di dati, la soluzione consente di rilevare anomalie, come deviazioni temporali, rarità statistiche e comportamenti insoliti, per generare un singolo evento causale radice. Gli eventi causali radice contengono modelli di soppressione che filtrano il rumore per migliorare la velocità di prevedibilità degli operatori NOC per risolvere i problemi invece di rispondere a una tempesta di allarmi di evento (di nuovo, consentendoti di essere proattivo invece che reattivo).

Identifica ciò che è utile

In Federos parliamo molto di fattibilità perché è la chiave per un'automazione efficace. I team operativi devono passare a una mentalità di fattibilità per guidare l'automazione.

ML e event analytics completano la triplice strategia Assure1® per fornire ai clienti root cause analysis (RCA) leader del settore. Federos offre tre tipi di RCA, e l'ultimo è legato all'azione che richiede un essere umano:

RCA topologico sfruttando la scoperta della topologia fisica e virtuale
RCA Machine Learning non supervisionato che impara dai pattern e non richiede topologia
RCA supervisionato, in cui gli operatori possono contrassegnare i campi di disturbo e legarli alle cause principali note

Cosa dovresti automatizzare in questo momento:</

Deriva dell'inventario: scopri quando l'inventario sta andando alla deriva e automatizza un trouble ticket (questo può accadere 20, 30, 100 volte al giorno). Assure1® Universal Topology può rappresentare in modo rapido e accurato i cambiamenti topologici quasi in tempo reale. Include una topologia cross-domain completamente integrata e una funzione di gestione delle relazioni per gestire qualsiasi tecnologia, logica e fisica.
Tempeste di eventi e picchi: guidati da tempeste di eventi (o improvvisi cali negli eventi) che sono causati da una causa radice singolare. Ad esempio: i sistemi di gestione delle fibre di taglio e degli elementi si disconnettono.
Comportamento anormale: guidato dall'apprendimento dei campi di rumore di ogni dispositivo, fino alle porte sugli switch. La regola di comportamento anomalo genera ed esegue l'escalation degli eventi in base ad anomalie non comuni a tale porta o dispositivo. Ad esempio, una porta del router core che è stata precedentemente stabile ma improvvisamente inizia ad avere problemi, verrebbe contrassegnata ed escalata per l'analisi.
NOC Operational Performance: esamina come vengono gestiti i diversi tipi di eventi e come viene gestito ciascun tipo di evento nel NOC. In base a queste informazioni, la soluzione invia un avviso quando un evento viene gestito in modo anomalo. Ad esempio, se un operatore NOC riconosce una porta disattivata aggiungendo una scrittura contabile e quindi cancellando l'allarme, l'incidente verrà "appreso" da Assure1® come normale per quel tipo di evento. In questo caso, in futuro, se qualcuno avesse accidentalmente cancellato un evento senza lavorarci sopra, quell'azione avrebbe suscitato un allarme.

Semplificare e automatizzare il NOC

Quindi, ora ti chiediamo: quanto tempo trascorri in modalità reattiva o su processi manuali e dispendiosi in termini di tempo? Ti viene chiesto di fare di più con meno informazioni?

Sfortunatamente, queste sono condizioni NOC tipiche, e non dovrebbero esserlo.

Assure1® raccoglie e normalizza guasti, prestazioni, topologia, servizi e altri dati esterni in un'unica piattaforma unificata. La correlazione e l'analisi avanzate, tra cui AI/Machine Learning, producono insight utili che guidano l'automazione e migliorano l'efficienza operativa, riducendo significativamente i costi.