Przerwa serwisowa w Data Center – nieunikniony obowiązek dostawców usług

Customer Service
Data Center
Karol Olszewski
30.01.2018 Karol Olszewski

Każdy, kto kiedykolwiek korzystał z usług jakiegokolwiek dostawcy usług informatycznych, w pewnym momencie otrzymał wiadomość o treści: „Witamy, w dniu x między godziną y – z przeprowadzane będą prace serwisowe (…) Mają one na celu poprawę świadczonych przez nas usług, pozdrawiamy, Zespół Firmy XYZ”. Co tak naprawdę kryje się za tą wiadomością? Dlaczego, w dobie redundancji, takie rzeczy mają miejsce? Jak wygląda przerwa serwisowa od kuchni? Jakie niesie ryzyko i jak wygląda jej planowanie? Poniższy wpis przybliża odpowiedzi na te i inne pytania.



Skąd bierze się przerwa serwisowa w Data Center


Powody mogą być różne, jednak zawsze jest jeden wspólny mianownik – poprawa jakości świadczonych usług. Wymiana przewodów na danym odcinku operatora, podniesienie firmware’u sklepu internetowego, aktualizacja software’u na urządzeniach brzegowych, wymiana sprzętu na nowszy – powodów może być dużo. W większości przypadków zdarza się tak, że wiele takich usprawnień się nawarstwia, więc są odkładane do oczekiwanego okna serwisowego. Przerwa techniczna może być również wymuszona – na przykład awarią jednego z dwóch urządzeń, która powoduje, że dostawca „stoi na jednej nodze” i prace trzeba zaplanować na następny tydzień.

Dlaczego na następny tydzień, a nie następny wieczór? Na przykładzie naszego Data Center, gdzie nasi klienci w większości mają jeszcze łańcuszek swoich klientów, niemożliwym jest postawienie pod ścianą i informowanie o wyłączeniu usług na parę godzin przed. Z reguły tydzień jest optymalny, gdyż daje czas na przygotowanie. Dlatego też okna serwisowe otwiera się w godzinach nocnych, gdzie ruch w internecie jest najmniejszy.


Przygotowania do przerwy serwisowej


Dwa okna serwisowe rocznie – na tyle może sobie pozwolić poważny dostawca usług. Łatwo więc wywnioskować, że przygotowania do takiej operacji mogą trwać miesiącami. W naszym przypadku każde, nawet najmniejsze prace na urządzeniu, które jest elementem infrastruktury rdzeniowej (czyli takim, który odpowiada za ciągłość dostarczania usług), dostają etykietkę „na oknie serwisowym” i jest dopisywana do listy. Oprócz takich pomniejszych aktualizacji, czy przepięcia kabli, dochodzą bardziej zaawansowane prace, np. wymiana urządzenia sieciowego, testy obciążenia agregatów, podnoszenie oprogramowania na nowsze i obserwacja jego zachowania.

Jak można wyczytać wyżej, w Data Center prace odkładają się na wielu płaszczyznach. Oprócz tematów stricte informatycznych dochodzą również prace związane z utrzymaniem serwerowni pod kątem zasilania, chłodzenia i automatyki. Dla przykładu, dwa razy w roku testujemy pracę agregatów pod kątem utrzymania „przy życiu” całego obiektu. Dodajmy do tego symulacje zachowania systemu gaszenia (oczywiście bez wzniecania pożaru) oraz testy urządzeń chłodzących.

przerwa serwisowa

Ostatni element, który trzeba ustalić, to tak zwana „droga powrotna”, czyli zaplanowanie działań, które w przypadku niepowodzenia którejś z prac pozwoli wrócić do punktu wyjścia. Może to być proste przywrócenie z kopii zapasowej, przygotowanie bliźniaczo skonfigurowanego urządzenia, które można podmienić w razie „nieprzyjęcia się” nowego elementu, lub ustalenie ścieżki downgrade’u software’u do starszej, stabilnej wersji.

Po ustaleniu ostatecznej listy prac, które trzeba wykonać podczas tych kilku godzin okna serwisowego, są one sortowane od najważniejszych do kosmetycznych oraz układane w harmonogram, gdyż niektóre mogą być od siebie zależne. Ostatnim elementem jest umówienie serwisantów danych sprzętów, żeby podczas prac planowych byli dostępni pod telefonem. Po nadaniu priorytetów zadania są rozdzielane pomiędzy pracowników i kształtuje się ostateczny plan przebiegu prac serwisowych. Wtedy można już wysyłać wiadomość do klientów.


Przebieg przerwy w Data Center – przykład


Start okna serwisowego zaplanowany jest na sobotę godzinę 2:00, więc już od godziny 22:00 cały zespół zaczyna zbierać się na miejscu. Przez te kilka godzin przed rozpoczęciem prac czynione są ostatnie przygotowania, czyli przygotowanie kabli już przy szafie rackowej, przestawienie monitorów, które wyświetlają dane o Data Center na rzeczy, które będą dzisiejszej nocy serwisowane, a na białej tablicy wypisujemy zadania, które dzisiaj nas czekają. Trwają już ostatnie dyskusje i pite są ostatnie kawy, zadania są rozdzielone – rozpoczęło się czekanie na godzinę rozpoczęcia.

przerwa serwisowa

Zaczyna się. Jeden z administratorów zostaje w pokoju utrzymania z monitorami ustawionymi na serwisowane elementy, reszta bierze się za swoje zaplanowane prace. Zgodnie z zasadą płynięcia czasu, w takich sytuacjach wydaje się on mijać kilkukrotnie szybciej, a dzisiaj działa on przeciwko nam. Pomimo tego, prace idą sprawnie, nowe urządzenie brzegowe działa tak samo na produkcji, jak w środowisku testowym, wszystkie agregaty wystartowały bez zająknięcia, a nowa wersja oprogramowania naszego urządzenia brzegowego przyjęła się bez większych problemów.


Sprzątanie i podsumowanie


Prace zostały zakończone godzinę przed czasem, więc pozostaje jeden z najbardziej stresujących momentów całej operacji – obserwowanie zachowania owoców naszych działań, czyli jak działa nowy sprzęt i nowy soft na produkcji. Jest godzina 5:00, więc do normalnego obciążenia serwerów zostały około trzech godzin, a do pełnego osiem. Po zakończeniu prac związanych i potwierdzeniu, że wszystkie nasze usługi działają sprawnie, zostaje sprzątanie. Oprócz opakowań po kablach i kubków po kawie została jeszcze kosmetyka – w tym zmiana adresów IP w systemie monitoringu na nowe, zmiany w dokumentacjach, sporządzenie raportu i przekazanie dyżurnemu, na które rzeczy i zachowania ma dzisiaj zwracać szczególną uwagę.

Można już wysłać wiadomość do klientów o zakończeniu i pomyślnym przebiegu prac serwisowych. Okno zamknięte, można iść odespać zarwaną nockę.

Karol Olszewski
Karol Olszewski karol.olszewski@dataspace.pl Jako administrator specjalizował się w systemach monitoringu Data Center. Obecnie jest kierownikiem wdrożeń związanych z Serwerami Dedykowanymi.
General
Jak mierzyć wydajność, szybkość i niezawodność dysku
General
Wybór platformy serwera dedykowanego pod procesory Intel Skylake