Pożary bez dymu – o awariach w Centrach Danych

Customer Service
Data Center
Karol Olszewski
08.03.2018 Karol Olszewski

Patrząc na kondycję powietrza w Polsce, można byłoby pokusić się o stwierdzenie, że w dzisiejszych czasach “pożary” w Centrach Danych są wręcz przyjazne środowisku. Chociaż jest w tym trochę prawdy, jeden pożar nie ma dużego wpływu na zanieczyszczenie w naszym naturalnym środowisku, tak jego odpowiednik w środowisku IT może czasem “skazić atmosferę”. Nawet jeżeli nie zdajemy sobie z tego sprawy, jest to nieodzowny element codzienności każdego usługodawcy w tej branży, różnica tkwi tylko w skali. Może to być niedziałająca drukarka na drugim piętrze, witryna źle działająca na urządzeniach mobilnych, lub… kilka tysięcy niedziałających serwisów internetowych. Omówmy to na przykładzie infrastruktury sieciowej typowego Centrum Danych.

Zaczyna się niewinnie…


Dzień jak co dzień w Data Center. Ktoś skręca serwer, ktoś inny robi porządek w kablach, dyżurny odpisuje na zgłoszenia klientom, zerkając raz na jakiś czas na ekrany z
systemu monitoringu. Wtedy pada pytanie, które zazwyczaj zwiastuje kłopoty – „Czy ktoś coś robi z siecią?”. Po powieleniu się odpowiedzi „Nie, a co?” wszyscy zaczynają marszczyć brwi i uważniej przyglądać się wykresom na telewizorach. Część z wykresów „leży”, część nie, połowa plansz pali się na czerwono, połowa na zielono. Wiadomo już, że coś jest nie tak. Dzwonią pierwsi klienci – zaczęło się.

Obieg informacji to podstawa


Tak jak w straży pożarnej ważne jest podawanie węża z wodą, tak w firmie świadczącej usługi IT kluczowy jest obieg informacji. W pierwszej kolejności do każdego pracownika wychodzi zbiorowa informacja o awarii. Jest to istotne dla opiekunów handlowych, którzy odpowiadają za kontakty z kluczowymi kontrahentami – oni muszą wiedzieć pierwsi, nie mogą być zaskoczeni przez klientów. Następni w kolejce do poinformowania są pracownicy BOK, którzy odpowiedzialni są za bezpośredni kontakt z klientem. Otrzymują oni informację od działu IT o możliwej przyczynie i przewidywanym czasie naprawy awarii (a o taki zazwyczaj trudno, bo nie ma dwóch takich samych przypadków) i na tej podstawie układają w głowie rozmowy z klientami.

serwerownia centrum danych

Stres, a szybkie zdiagnozowanie problemu


Działalność Data Center ma to do siebie, że nasi klienci mają swoich klientów, którzy mają swoich klientów (…), którzy mają swoich klientów. Tworzy się łańcuch usług, co skutkuje tym, że do Data Center dzwoni klient, który takich telefonów odebrał już kilkadziesiąt. Cały ten system usług sprawia, że administratorzy w Data Center działają pod sporą presją, a problem zdiagnozować trzeba przecież jak najszybciej. Jednak tym razem diagnoza pada dość szybko – sieć, a dokładniej przełącznik dostępowy, gdzieś pośrodku topologii sieci, co i tak pozwoliło mu wyłączyć część klientów. Diagnoza jest, więc prace rozdzielane są błyskawicznie – sieciowcy ruszają z laptopami na serwerownię, reszta wspiera BOK w odbieraniu telefonów, a dyżurny pilnuje monitoringu.

Z małej chmury duży deszcz


W przypadku awarii urządzenia sieciowego trzeba szybko podjąć kluczową decyzję – czy urządzenie ratować, czy je wymienić. Z racji tego, że problem z urządzeniem jest niejednoznaczny, a decyzję należy podjąć szybko, wybór jest tylko jeden – podmiana przełącznika na nowy i wgranie konfiguracji będzie o wiele szybsze niż pewna diagnoza problemu. To są te chwile, gdy ktoś, kto dobrze oznaczył przewody, może odetchnąć, bo jego skrupulatność dzisiaj się przydała – trzeba bowiem wypiąć i wpiąć 27 przewodów w dokładnie to samo miejsce. Awaria wyeliminowana. Spora dawka wrażeń, jak na 7 minut.

Kiedy usługi podnoszą się z kolan, pracownicy już wiedzą, co ich czeka dzisiejszego popołudnia. Po pierwsze – diagnoza, jak i dlaczego to się stało i jak można temu zapobiec, zakończona raportem. Po drugie, sporządzić komunikat dla klientów, czyli przełożyć analizę działu IT na przystępny język, który – w mniej lub bardziej dostosowanej do adresata wersji – zapewne zostanie przesłany dalej do tysięcy klientów. Po trzecie, dla Data Center najważniejsze – kolejny krok w doskonaleniu swoich usług, czyli prace nad automatyką i bezpieczeństwem systemów IT, szukanie jeszcze bezpieczniejszych i bardziej stabilnych rozwiązań, w skrócie: podnoszenie jakości świadczonych usług.

No, i oznaczenie 27 przewodów na nowo.

Karol Olszewski
Karol Olszewski karol.olszewski@dataspace.pl Jako administrator specjalizował się w systemach monitoringu Data Center. Obecnie jest kierownikiem wdrożeń związanych z Serwerami Dedykowanymi.
Infrastruktura IT
Zabezpieczenia przeciwpożarowe w serwerowniach
Case study
Chmura prywatna dla agencji Plej - case study