Drew Golden, dyrektor ds. zarządzania produktami
W branży IT większa automatyzacja i szersze stosowanie uczenia maszynowego przeniesie operacje IT na wyższy poziom. Wielu dostawców chce przejść z poziomu „świadczenia usług” do „dostarczania wartości”, co dobrze obrazuje wykres z firmy Gartner poniżej. Automatyzacja jest naprawdę jedynym sposobem, aby to osiągnąć.
Kluczem do dobrze funkcjonującego, efektywnego centrum zarządzania siecią jest płynny przepływ informacji, który umożliwia automatyzację działań, zanim jeszcze klient odczuje skutki awarii.
W wielu centrach zarządzania siecią dochodzi jednak do wewnętrznych tarć, które przenoszą się na klientów, a następnie na zgłoszenia i gniewne telefony. Dlaczego? Istnieje kilka typowych przyczyn tego stanu rzeczy:
W Federos dobrze rozumiemy te problemy (jako byli pracownicy centrów zarządzania siecią), dlatego opracowaliśmy kompleksowe, zintegrowane rozwiązanie do zapewnienia jakości usług: Assure1®.
Zanim przejdziemy do rozwiązania tych problemów, przyjrzyjmy się bliżej temu, jak w naszej branży postrzegamy automatyzację.
W branży IT coraz częściej mówi się o tzw. „lights-out NOC”, czyli w pełni zautomatyzowanym centrum operacyjnym, które działa niemal całkowicie bez udziału człowieka. Można je sobie wyobrazić jako w pełni zwirtualizowane środowisko, które funkcjonuje samodzielnie, reagując automatycznie na pojawiające się problemy i zdarzenia.
Czy powstanie takiego centrum jest możliwe? Przyszłość zmierza w tym kierunku, ale obecny stan technologii jeszcze tego nie umożliwi w ciągu najbliższych lat.
W rzeczywistości tylko 10–15% pracy może być w pełni zautomatyzowane. Pozostałe 85–90% czynności nadal wymaga zaangażowania człowieka.
Dlaczego? Większość centrów zarządzania siecią korzysta z mieszanki starszego sprzętu, nowoczesnych narzędzi oraz systemów wirtualnych działających w chmurze. Narzędzia te są nie tylko odseparowane, ale nie komunikują się ze sobą, a w rezultacie tworzą efekt „obrotowego krzesła”, czyli konieczność ciągłego przełączania się między ekranami i systemami przez pracowników centrów zarządzania siecią. Być może kiedyś powstanie świat, w którym prawie wszystko będzie zwirtualizowane i w pełni zautomatyzowane, ale na ten moment jest to wizja przyszłości, a nie standard.
Centrum zarządzania siecią potrzebuje procesów, które w czasie rzeczywistym automatycznie identyfikują i rozwiązują incydenty wpływające na usługi, a wręcz zapobiegają tym incydentom. Reagowanie dopiero po wystąpieniu incydentu lub otrzymaniu zgłoszenia od klienta jest bowiem nieskuteczne i kosztowne. Automatyzacja i uczenie maszynowe zwiększają możliwości prognozowania awarii i zapobiegania awariom.
Szybka konsolidacja i przetwarzanie informacji to klucz do sukcesu każdego centrum zarządzania siecią. Do tej pory dostawcy usług komunikacyjnych (CSP), dostawcy usług zarządzanych (MSP) i inne podmioty biznesowe miały problemy z szybkim i dokładnym wizualizowaniem swoich rozwijających się sieci w pojedynczym widoku opartym na starszych narzędziach i ręcznych praktykach monitorowania krytycznych funkcji sieciowych i usług. Rozproszenie systemów inwentaryzacji, aplikacje działające w silosach oraz fragmentaryczne infrastruktury sieciowe łączone w wyniku przejęć doprowadziły do poważnych luk w widoczności dla centrów zarządzania siecią, co przekłada się na spadek produktywności i wzrost kosztów operacyjnych.
Po skonsolidowaniu danych na jednej platformie należy szybko wskazać, przeanalizować i wyeliminować przyczynę źródłową problemów wpływających na działanie usługi. System taki jak Assure1® pozwala wyeliminować i wytłumić ogromną ilość szumu informacyjnego, dzięki czemu zespół operacyjny zawsze reaguje właściwie, skupiając się na incydentach rzeczywiście wpływających na działanie usług.
Na bazie mechanizmów uczenia maszynowego (ML) i analityki zdarzeń można używać standardowych algorytmów uczenia maszynowego wraz z dedykowanymi filtrami danych, które normalizują dane wejściowe i zapewniają, że do aparatu ML trafiają właściwe wzorce.
Na podstawie tych strumieni danych rozwiązanie wykrywa anomalie, takie jak odchylenia czasowe, statystyczne wyjątki czy nietypowe zachowania, a potem generuje na tej podstawie pojedyncze zdarzenie przyczynowe. Takie zdarzenia zawierają wzorce tłumienia, które odfiltrowują szum, poprawiając skuteczność operatorów centrum zarządzania siecią w przewidywaniu i rozwiązywaniu problemów, zamiast reagowania na zalew alarmów. Innymi słowy, umożliwia to działania proaktywne zamiast reaktywnych.
W Federos często mówimy o możliwości podjęcia działań (actionability), ponieważ to klucz do efektywnej automatyzacji. Zespoły operacyjne muszą przestawić się na myślenie ukierunkowane na możliwość podjęcia działań w celu rozwijania automatyzacji.
Mechanizmy uczenia maszynowego i analizy zdarzeń dopełniają trójelementową strategię Assure1®, która zapewnia klientom jedne z najlepszych w branży narzędzi do analizy przyczyn źródłowych. Federos oferuje trzy typy analizy przyczyn źródłowych, z których ostatni jest powiązany z możliwością podjęcia działań i wymaga udziału człowieka:
Zadaj sobie pytanie: ile czasu działam w trybie reaktywnym lub przeznaczam na ręczne, czasochłonne procesy? Czy mam robić więcej na bazie mniejszej ilości informacji?
Niestety, są to typowe warunki działania centrum zarządzania siecią. Tak nie powinno być.
Assure1® zbiera i normalizuje informacje o błędach, działaniach, topologii i usługach oraz inne dane zewnętrzne w ramach jednej, ujednoliconej platformy. Zaawansowana korelacja i analiza, także z użyciem mechanizmów sztucznej inteligencji i uczenia maszynowego, generuje przydatne, możliwe do wdrożenia informacje, które przyczyniają się do rozwoju automatyzacji i zwiększają efektywność operacyjną, jednocześnie znacząco obniżając koszty.