Drew Golden, Diretor de Gerenciamento de Produtos
No setor de TI, entendemos que mais automação e machine learning (ML) levarão as operações de TI a um novo patamar. Muitos provedores estão ansiosos para transformar o serviço em valor, conforme apresentado no gráfico do Gartner abaixo. A automação é a única forma de concretizar isso.
O segredo para um NOC saudável e eficiente é o fluxo contínuo de informações que leva a uma solução automatizada, antes que um cliente sinta o impacto de uma interrupção.
No entanto, muitos NOCs passam por atritos internos que repercutem no cliente, geram tickets e reclamações por telefone. Por que? Existem alguns motivos comuns:
Na Federos, entendemos muito bem essas dificuldades (já que atuamos no NOC), e é por isso que criamos uma solução de garantia de serviço abrangente e unificada, o Assure1®.
Antes de procurar uma solução para esses problemas, precisamos analisar melhor o que entendemos sobre automação.
Há uma meta aspiracional na indústria quando se trata de automação: um “NOC sem intervenção humana” ou um NOC totalmente automatizado. Imagine um ambiente completamente virtualizado que funciona sozinho, com pouca ou nenhuma necessidade de intervenção humana.
É possível? O futuro parece estar caminhando nessa direção, mas sabemos que isso não acontecerá em breve.
A realidade é que apenas 10-15% do trabalho pode ser totalmente automatizado. Os outros 85-90% ainda dependem de humanos para concluir tarefas.
Por que? A maioria dos NOCs tem uma mistura de equipamentos legados, equipamentos e tecnologia modernos e sistemas virtualizados (onde tudo está na nuvem). Essas ferramentas não apenas são separadas, mas também não se comunicam, gerando ineficiências para operadores do NOC. Pode haver um mundo onde quase tudo seja virtualizado e totalmente automatizado, mas, por enquanto, isso é apenas um sonho.
O NOC precisa de processos que automatizem a maneira como a rede identifica e resolve incidentes que impactam o serviço em tempo real. Ou, melhor ainda, que pode prevenir incidentes antes que eles aconteçam. Reagir a eventos negativos ou tickets de clientes é ineficiente e caro. A automação e o machine learning podem ampliar sua capacidade de prever e prevenir problemas antes que eles ocorram.
A necessidade de consolidar e processar informações rapidamente é fundamental para o sucesso de qualquer equipe de operações de rede. Até agora, os Provedores de Serviços de Comunicação (CSPs), os Provedores de Serviços Gerenciados (MSPs) e outras empresas têm lutado para visualizar suas redes em expansão de forma rápida e precisa em uma visão singular, contando com ferramentas legadas e práticas manuais para monitorar funções e serviços de rede essenciais. A proliferação de sistemas de inventário, aplicações isoladas e infraestruturas de rede fragmentadas reunidas por meio de aquisições criou lacunas significativas de visibilidade para o NOC, impactando negativamente a produtividade e aumentando os custos.
Depois de consolidar os dados em uma plataforma, é preciso identificar, analisar e resolver rapidamente a causa raiz dos eventos que afetam o serviço. Um sistema como o Assure1® ajuda a eliminar e suprimir grandes quantidades de ruído, garantindo que a equipe de operações sempre atue corretamente contra incidentes que normalmente afetam os serviços.
Com ML e análise de eventos, você pode aproveitar algoritmos de ML padrão do setor com filtros de dados especiais para normalizar dados, garantindo que padrões corretos sejam inseridos no mecanismo de ML.
Usando esses fluxos de dados, a solução ajuda a detectar anomalias, como desvios temporais, raridades estatísticas e comportamentos incomuns, para gerar um evento causal raiz único. Os eventos causais raiz contêm padrões de supressão que filtram o ruído para melhorar a taxa de previsibilidade dos operadores do NOC para resolver problemas, em vez de responder a uma enxurrada de alarmes de eventos (novamente, permitindo ser proativo em vez de reativo).
Na Federos, falamos muito sobre acionabilidade porque é a chave para uma automação eficaz. As equipes de operações devem adotar uma mentalidade de ação para impulsionar a automação.
A análise de eventos e o ML completam a estratégia do Assure1® de três partes para fornecer aos clientes a análise de causa raiz (RCA) líder do setor. A Federos oferece três tipos de RCA, e o último está vinculado à capacidade de ação que exige intervenção humana:
Agora, a pergunta é: quanto tempo você está gastando no modo reativo ou em processos manuais e demorados? Você precisa fazer mais com menos informações?
Infelizmente, essas são condições típicas do NOC, e não deveria ser assim.
O Assure1® coleta e normaliza falhas, desempenho, topologia, serviço e outros dados externos em uma plataforma única e unificada. A correlação e a análise avançadas, incluindo IA/Machine Learning, geram insights práticos que impulsionam a automação e melhoram a eficiência operacional, reduzindo significativamente os custos.