Pięć kluczy do bardziej zautomatyzowanego centrum zarządzania siecią (NOC)

Drew Golden, dyrektor ds. zarządzania produktami

Dlaczego automatyzacja ma kluczowe znaczenie dla efektywności centrum zarządzania siecią (NOC)?

W branży IT większa automatyzacja i szersze stosowanie uczenia maszynowego przeniesie operacje IT na wyższy poziom. Wielu dostawców chce przejść z poziomu „świadczenia usług” do „dostarczania wartości”, co dobrze obrazuje wykres z firmy Gartner poniżej. Automatyzacja jest naprawdę jedynym sposobem, aby to osiągnąć.

Problem

Kluczem do dobrze funkcjonującego, efektywnego centrum zarządzania siecią jest płynny przepływ informacji, który umożliwia automatyzację działań, zanim jeszcze klient odczuje skutki awarii.

W wielu centrach zarządzania siecią dochodzi jednak do wewnętrznych tarć, które przenoszą się na klientów, a następnie na zgłoszenia i gniewne telefony. Dlaczego? Istnieje kilka typowych przyczyn tego stanu rzeczy:

zbyt wiele ekranów i narzędzi;
silosy danych (tj. starsze systemy);
niewielka lub nieistniejąca automatyzacja procesów biznesowych;
nieefektywna analiza przyczyn źródłowych.

W Federos dobrze rozumiemy te problemy (jako byli pracownicy centrów zarządzania siecią), dlatego opracowaliśmy kompleksowe, zintegrowane rozwiązanie do zapewnienia jakości usług: Assure1®.

Zanim przejdziemy do rozwiązania tych problemów, przyjrzyjmy się bliżej temu, jak w naszej branży postrzegamy automatyzację.

Definicja automatyzacji

W branży IT coraz częściej mówi się o tzw. „lights-out NOC”, czyli w pełni zautomatyzowanym centrum operacyjnym, które działa niemal całkowicie bez udziału człowieka. Można je sobie wyobrazić jako w pełni zwirtualizowane środowisko, które funkcjonuje samodzielnie, reagując automatycznie na pojawiające się problemy i zdarzenia.

Czy powstanie takiego centrum jest możliwe? Przyszłość zmierza w tym kierunku, ale obecny stan technologii jeszcze tego nie umożliwi w ciągu najbliższych lat.

W rzeczywistości tylko 10–15% pracy może być w pełni zautomatyzowane. Pozostałe 85–90% czynności nadal wymaga zaangażowania człowieka.

Dlaczego? Większość centrów zarządzania siecią korzysta z mieszanki starszego sprzętu, nowoczesnych narzędzi oraz systemów wirtualnych działających w chmurze. Narzędzia te są nie tylko odseparowane, ale nie komunikują się ze sobą, a w rezultacie tworzą efekt „obrotowego krzesła”, czyli konieczność ciągłego przełączania się między ekranami i systemami przez pracowników centrów zarządzania siecią. Być może kiedyś powstanie świat, w którym prawie wszystko będzie zwirtualizowane i w pełni zautomatyzowane, ale na ten moment jest to wizja przyszłości, a nie standard.

Pięć sposobów na zwiększenie automatyzacji centrum zarządzania siecią

Przejście od reaktywności do proaktywności

Centrum zarządzania siecią potrzebuje procesów, które w czasie rzeczywistym automatycznie identyfikują i rozwiązują incydenty wpływające na usługi, a wręcz zapobiegają tym incydentom. Reagowanie dopiero po wystąpieniu incydentu lub otrzymaniu zgłoszenia od klienta jest bowiem nieskuteczne i kosztowne. Automatyzacja i uczenie maszynowe zwiększają możliwości prognozowania awarii i zapobiegania awariom.

Obsługa danych na ujednoliconej platformie

Szybka konsolidacja i przetwarzanie informacji to klucz do sukcesu każdego centrum zarządzania siecią. Do tej pory dostawcy usług komunikacyjnych (CSP), dostawcy usług zarządzanych (MSP) i inne podmioty biznesowe miały problemy z szybkim i dokładnym wizualizowaniem swoich rozwijających się sieci w pojedynczym widoku opartym na starszych narzędziach i ręcznych praktykach monitorowania krytycznych funkcji sieciowych i usług. Rozproszenie systemów inwentaryzacji, aplikacje działające w silosach oraz fragmentaryczne infrastruktury sieciowe łączone w wyniku przejęć doprowadziły do poważnych luk w widoczności dla centrów zarządzania siecią, co przekłada się na spadek produktywności i wzrost kosztów operacyjnych.

Efektywna analiza przyczyn źródłowych

Po skonsolidowaniu danych na jednej platformie należy szybko wskazać, przeanalizować i wyeliminować przyczynę źródłową problemów wpływających na działanie usługi. System taki jak Assure1® pozwala wyeliminować i wytłumić ogromną ilość szumu informacyjnego, dzięki czemu zespół operacyjny zawsze reaguje właściwie, skupiając się na incydentach rzeczywiście wpływających na działanie usług.

Na bazie mechanizmów uczenia maszynowego (ML) i analityki zdarzeń można używać standardowych algorytmów uczenia maszynowego wraz z dedykowanymi filtrami danych, które normalizują dane wejściowe i zapewniają, że do aparatu ML trafiają właściwe wzorce.

Na podstawie tych strumieni danych rozwiązanie wykrywa anomalie, takie jak odchylenia czasowe, statystyczne wyjątki czy nietypowe zachowania, a potem generuje na tej podstawie pojedyncze zdarzenie przyczynowe. Takie zdarzenia zawierają wzorce tłumienia, które odfiltrowują szum, poprawiając skuteczność operatorów centrum zarządzania siecią w przewidywaniu i rozwiązywaniu problemów, zamiast reagowania na zalew alarmów. Innymi słowy, umożliwia to działania proaktywne zamiast reaktywnych.

Identyfikacja możliwości podjęcia działań

W Federos często mówimy o możliwości podjęcia działań (actionability), ponieważ to klucz do efektywnej automatyzacji. Zespoły operacyjne muszą przestawić się na myślenie ukierunkowane na możliwość podjęcia działań w celu rozwijania automatyzacji.

Mechanizmy uczenia maszynowego i analizy zdarzeń dopełniają trójelementową strategię Assure1®, która zapewnia klientom jedne z najlepszych w branży narzędzi do analizy przyczyn źródłowych. Federos oferuje trzy typy analizy przyczyn źródłowych, z których ostatni jest powiązany z możliwością podjęcia działań i wymaga udziału człowieka:

Topologiczna analiza przyczyn źródłowych oparta na analizie topologii fizycznej i wirtualnej;
Nienadzorowana analiza przyczyn źródłowych z uczeniem maszynowym, która identyfikuje wzorce bez potrzeby znajomości topologii;
Nadzorowana analiza przyczyn źródłowych, w ramach której operatorzy mogą oznaczać pola szumu i wiązać je ze znanymi przyczynami źródłowymi.

Co automatyzować

Odchylenia w danych inwentaryzacyjnych: wykrywaj sytuacje, gdy dane inwentaryzacyjne są niezgodne z rzeczywistym stanem sieci, i automatyzuj tworzenie zgłoszeń serwisowych (takie przypadki mogą występować 20, 30, a nawet 100 razy dziennie). Rozwiązanie Assure1® Universal Topology może precyzyjnie odwzorować zmiany w topologii sieci niemal w czasie rzeczywistym. Rozwiązanie to zawiera w pełni zintegrowaną funkcję zarządzania topologią i zależnościami między domenami, obsługującą dowolną technologię, zarówno logicznie, jak i fizycznie.
Nagłe wzrosty lub spadki liczby zdarzeń spowodowane jedną przyczyną źródłową. Na przykład przecięcie światłowodu powoduje utratę łączności z systemami zarządzania elementami sieci.
Nietypowe zachowanie: najpierw system uczy się charakterystyki szumu, czyli typowych zdarzeń dla każdego urządzenia, nawet na poziomie pojedynczych portów przełączników. Następnie reguła nietypowego zachowania generuje i eskaluje zdarzenia na podstawie anomalii nietypowych dla danego portu lub urządzenia. Jeśli na przykład port w routerze rdzeniowym wcześniej działał stabilnie, a nagle zaczyna generować błędy, zostanie wówczas oznaczony jako nietypowe zachowanie i a jego dane — przekazane do analizy.
Wydajność operacyjna centrum zarządzania siecią: analizowany jest tu sposób obsługi różnych typów zdarzeń, aby określić, w jaki sposób każdy rodzaj zdarzenia jest zarządzany przez centrum zarządzania siecią. Na podstawie tych informacji rozwiązanie wysyła alarm, gdy zdarzenie jest obsługiwane nieprawidłowo. Jeśli na przykład operator NOC potwierdza awarię portu poprzez dodanie odpowiedniego wpisu do dziennika, a potem wyłącza alarm, system Assure1® nauczy się, że takie działanie jest normalne dla tego typu zdarzeń. Jeśli następnie ktoś przypadkowo usunąłby alarm bez zajęcia się nim, wywołałoby to alarm.

Uproszczenie i automatyzacja działania centrum zarządzania siecią

Zadaj sobie pytanie: ile czasu działam w trybie reaktywnym lub przeznaczam na ręczne, czasochłonne procesy? Czy mam robić więcej na bazie mniejszej ilości informacji?

Niestety, są to typowe warunki działania centrum zarządzania siecią. Tak nie powinno być.

Assure1® zbiera i normalizuje informacje o błędach, działaniach, topologii i usługach oraz inne dane zewnętrzne w ramach jednej, ujednoliconej platformy. Zaawansowana korelacja i analiza, także z użyciem mechanizmów sztucznej inteligencji i uczenia maszynowego, generuje przydatne, możliwe do wdrożenia informacje, które przyczyniają się do rozwoju automatyzacji i zwiększają efektywność operacyjną, jednocześnie znacząco obniżając koszty.