5 segredos para um Centro de Operações de Rede (NOC) mais automatizado

Drew Golden, Diretor de Gerenciamento de Produtos

Por que a automação é fundamental para um NOC eficiente?

No setor de TI, entendemos que mais automação e machine learning (ML) levarão as operações de TI a um novo patamar. Muitos provedores estão ansiosos para transformar o serviço em valor, conforme apresentado no gráfico do Gartner abaixo. A automação é a única forma de concretizar isso.

O problema

O segredo para um NOC saudável e eficiente é o fluxo contínuo de informações que leva a uma solução automatizada, antes que um cliente sinta o impacto de uma interrupção.

No entanto, muitos NOCs passam por atritos internos que repercutem no cliente, geram tickets e reclamações por telefone. Por que? Existem alguns motivos comuns:

  • Muitas telas e ferramentas
  • Dados isolados (ou seja, sistemas legados)
  • Pouca ou nenhuma automação de processos de negócios
  • Análise ineficiente de causa raiz

Na Federos, entendemos muito bem essas dificuldades (já que atuamos no NOC), e é por isso que criamos uma solução de garantia de serviço abrangente e unificada, o Assure1®.

Antes de procurar uma solução para esses problemas, precisamos analisar melhor o que entendemos sobre automação.

Definindo termos: automação

Há uma meta aspiracional na indústria quando se trata de automação: um “NOC sem intervenção humana” ou um NOC totalmente automatizado. Imagine um ambiente completamente virtualizado que funciona sozinho, com pouca ou nenhuma necessidade de intervenção humana.

É possível? O futuro parece estar caminhando nessa direção, mas sabemos que isso não acontecerá em breve.

A realidade é que apenas 10-15% do trabalho pode ser totalmente automatizado. Os outros 85-90% ainda dependem de humanos para concluir tarefas.

Por que? A maioria dos NOCs tem uma mistura de equipamentos legados, equipamentos e tecnologia modernos e sistemas virtualizados (onde tudo está na nuvem). Essas ferramentas não apenas são separadas, mas também não se comunicam, gerando ineficiências para operadores do NOC. Pode haver um mundo onde quase tudo seja virtualizado e totalmente automatizado, mas, por enquanto, isso é apenas um sonho.

5 segredos para um NOC mais automatizado

1

De reativo a proativo

O NOC precisa de processos que automatizem a maneira como a rede identifica e resolve incidentes que impactam o serviço em tempo real. Ou, melhor ainda, que pode prevenir incidentes antes que eles aconteçam. Reagir a eventos negativos ou tickets de clientes é ineficiente e caro. A automação e o machine learning podem ampliar sua capacidade de prever e prevenir problemas antes que eles ocorram.

2

Traga dados para uma plataforma unificada

A necessidade de consolidar e processar informações rapidamente é fundamental para o sucesso de qualquer equipe de operações de rede. Até agora, os Provedores de Serviços de Comunicação (CSPs), os Provedores de Serviços Gerenciados (MSPs) e outras empresas têm lutado para visualizar suas redes em expansão de forma rápida e precisa em uma visão singular, contando com ferramentas legadas e práticas manuais para monitorar funções e serviços de rede essenciais. A proliferação de sistemas de inventário, aplicações isoladas e infraestruturas de rede fragmentadas reunidas por meio de aquisições criou lacunas significativas de visibilidade para o NOC, impactando negativamente a produtividade e aumentando os custos.

3

Análise de causa raiz líder do setor

Depois de consolidar os dados em uma plataforma, é preciso identificar, analisar e resolver rapidamente a causa raiz dos eventos que afetam o serviço. Um sistema como o Assure1® ajuda a eliminar e suprimir grandes quantidades de ruído, garantindo que a equipe de operações sempre atue corretamente contra incidentes que normalmente afetam os serviços.

Com ML e análise de eventos, você pode aproveitar algoritmos de ML padrão do setor com filtros de dados especiais para normalizar dados, garantindo que padrões corretos sejam inseridos no mecanismo de ML.

Usando esses fluxos de dados, a solução ajuda a detectar anomalias, como desvios temporais, raridades estatísticas e comportamentos incomuns, para gerar um evento causal raiz único. Os eventos causais raiz contêm padrões de supressão que filtram o ruído para melhorar a taxa de previsibilidade dos operadores do NOC para resolver problemas, em vez de responder a uma enxurrada de alarmes de eventos (novamente, permitindo ser proativo em vez de reativo).

4

Identificar o que é prático

Na Federos, falamos muito sobre acionabilidade porque é a chave para uma automação eficaz. As equipes de operações devem adotar uma mentalidade de ação para impulsionar a automação.

A análise de eventos e o ML completam a estratégia do Assure1® de três partes para fornecer aos clientes a análise de causa raiz (RCA) líder do setor. A Federos oferece três tipos de RCA, e o último está vinculado à capacidade de ação que exige intervenção humana:

  • RCA topológico aproveitando a descoberta de topologia física e virtual
  • Análise de causa raiz do machine learning não supervisionada que aprende com padrões e não requer topologia
  • Análise de causa raiz supervisionada, onde os operadores podem sinalizar campos de ruído e vinculá-los a causas raiz conhecidas
3

O que você deve automatizar agora mesmo:</

  • Desvio de estoque: descubra quando o estoque está oscilando e automatize um chamado (isso pode acontecer 20, 30, 100 vezes por dia). O Assure1® Universal Topology pode descrever de forma rápida e precisa mudanças topológicas quase em tempo real. Inclui uma topologia de domínio cruzado totalmente integrada e uma função de gerenciamento de relacionamento para lidar com qualquer tecnologia, lógica ou física.
  • Picos e quedas de eventos: causadas por picos de eventos (ou quedas repentinas de eventos) que são causadas por uma única causa raiz. Por exemplo: elimine sistemas de gerenciamento de fibras e elementos desconectados.
  • Comportamento anormal: impulsionado pelo aprendizado dos campos de ruído de cada dispositivo, até as portas dos switches. A regra de comportamento anormal gera e escala eventos com base em anomalias não comuns àquela porta ou dispositivo. Por exemplo, uma porta de roteador central que antes estava estável, mas de repente começa a apresentar problemas, seria sinalizada e encaminhada para análise.
  • Desempenho operacional do NOC: analisa como diferentes tipos de eventos são tratados e aprende como cada tipo de evento é gerenciado. Com base nessas informações, a solução envia um alerta quando um evento é tratado de forma anormal. Por exemplo, se um operador NOC reconhece uma porta inativa adicionando um lançamento e, em seguida, limpando o alarme, esse incidente seria “aprendido” pelo Assure1® como normal para esse tipo de evento. Nesse caso, se no futuro alguém acidentalmente limpasse um evento sem intervir, essa ação dispararia um alarme.

Simplifique e automatize o NOC

Agora, a pergunta é: quanto tempo você está gastando no modo reativo ou em processos manuais e demorados? Você precisa fazer mais com menos informações?

Infelizmente, essas são condições típicas do NOC, e não deveria ser assim.

O Assure1® coleta e normaliza falhas, desempenho, topologia, serviço e outros dados externos em uma plataforma única e unificada. A correlação e a análise avançadas, incluindo IA/Machine Learning, geram insights práticos que impulsionam a automação e melhoram a eficiência operacional, reduzindo significativamente os custos.