Przerwy serwisowe „on demand” w Centrum Danych

Data Center
serwery dedykowane
Karol Olszewski
20.11.2018 Karol Olszewski

Oprócz zaplanowanych okien serwisowych, które odbywają się cyklicznie w centrum przetwarzania danych, występują także przerwy mniejsze, najczęściej dedykowane poszczególnym klientom. Stosując porównanie do służby zdrowia, można powiedzieć, że nie mamy wtedy do czynienia z wymianą sprzętu w szpitalu, a zaplanowanym zabiegiem dotyczącym jednego pacjenta.

Idąc tą myślą, serwery mają kilka cech wspólnych z ludźmi. Nie lubią, kiedy jest im za gorąco, nie przepadają za pryskaniem ich wodą, źle reagują na wirusy, a przede wszystkim nie mogą znieść, gdy ktoś im podmienia organy „na żywca”. Owszem, są takie komponenty/części ciała, które w stanie świadomości można wyjąć lub wymienić, na przykład zęby lub dyski, jednak do przeszczepu serca czy wątroby potrzebna jest narkoza, a w przypadku serwerów dedykowanych – przerwa serwisowa.

Technikalia

Serwer to skrzynka, która składa się z wielu komponentów. Niektóre zmiany związane z nimi można wykonywać w locie, na przykład modyfikacje dysków twardych instalowanych metodą hot-swap czy chociażby dokładanie połączeń sieciowych. Zmiany związane z pamięcią RAM, procesorem, komponentami na PCIe, czy dyskami cold swap są równoznaczne z fizycznym wyłączeniem maszyny. Jak dobrze wiemy, takie wyłączenie oznacza brak usług online, a to z kolei najczęściej… zarwaną nockę dla adminów, czyli wspomnianą już przerwę serwisową „on demand”.

Geneza

Odkładając awarie na bok, wymiana komponentów wynika z modyfikacji środowiska klienta na jego własne życzenie (rozbudowa), choć nie zawsze. Może to być powodowane przez wadliwy wentylator, który rzęzi i nie daje spać po nocach adminowi; może to być konflikt na linii ‘nowa aktualizacja systemu operacyjnego – wersja BIOS’, lub po prostu brak pożądanej wydajności środowiska. Tak naprawdę, przyczyn może być całe mnóstwo, szczególnie w przypadku środowisk customowych, szytych na miarę, gdzie każde rozwiązanie posiada często unikalną konfigurację sprzętową, o stronie systemowej czy aplikacyjnej nie wspominając.

Szermierka terminowa

Umówienie się na takie okno serwisowe to czasami wyzwanie nie mniejsze niż podmiana płyty głównej w godzinę. Jesteśmy serwerownią, czyli początkiem internetu, dlatego nasi klienci w większości przypadków mają swoich klientów, którzy z kolei mają swoich klientów – można to zapętlić trzykrotnie i matrioszka z klientów gotowa, a o przerwie serwisowej powinien dowiedzieć się każdy. Tak zaczyna się cyrkulacja i negocjacje terminów. Kultura informatyczna wymaga co najmniej tygodniowego wyprzedzenia i przeprowadzenia prac najlepiej w weekend i w środku nocy. Jednak takie prace wymagają też admina po drugiej stronie, który zweryfikuje poprawność działania usług i potwierdzi ich działanie, co pozwoli uznać prace za zakończone. Po naszej stronie wymaga to co najmniej dwóch osób odpowiedzialnych za sprzęt, do tego jednego przy monitoringu. Termin jest, można działać.

Kamera, akcja!

Omówmy przykład rozbudowy, np. podmiany płyty głównej na nową, większą, taką która ma więcej slotów RAM.

Prace są zaplanowane w niedzielę w godzinach 1:00 – 3:00 w nocy. Przed samą wymianą należy poczynić kilka kroków. Przede wszystkim przygotować sprzęt, który ma zostać podmieniony – w tym przypadku wspomniana wcześniej płyta główna, jak i komponenty jej towarzyszące (pasta do procesora, kable czy odpowiednie przejściówki). Do tego zestaw narzędzi, śrubokrętów, niezastąpiony w serwerowni wózek i drabinka. Po skompletowaniu sprzętu, pozostaje tylko oczekiwanie na „godzinę zero”, która dzisiejszej nocy wybija o 1:00.

Piętnaście minut przed startem, administrator po drugiej stronie dostaje informacje o naszej gotowości, więc może powoli przygotowywać siebie i środowisko do działania – położyć serwer, przepiąć usługi na środowisko zapasowe lub podwiesić witrynkę maintenance. Kiedy wszystko jest gotowe po obu stronach i nadchodzi czas działania, serwer zostaje rozpięty z okablowania, wyjeżdża z szyn i ląduje na wózku.

Po krótkiej przejażdżce do pomieszczenia dedykowanego do skręcania serwerów, ląduje u administratorów na stole. Wymiana płyty głównej dla ludzi, którzy skręcili setki lub tysiące serwerów, nie jest skomplikowanym zadaniem – parę machnięć śrubokrętem, kilka klików i komponenty już leżą na nowej płycie głównej. Wieko zostaje zamknięte na następne kilka miesięcy, serwer wraca na wózek, a ten z kolei do komory z serwerami.

W tym momencie zaczyna się najważniejszy moment prac serwisowych, tak zwany powrót do świata żywych, czyli ponowne uruchomienie serwera po podmianie komponentów. Po podpięciu klawiatury i monitora do serwera, zostaje on włączony i na bieżąco monitorowany, czy podnosi się prawidłowo. W momencie ujrzenia ekranu z napisem „login:” wiemy, że jesteśmy w domu. Zostaje tylko telefon do administratora klienta z pytaniem, czy po jego stronie wszystko jest w porządku. Jeżeli tak, to zostały jeszcze dwie płyty do podmiany, dlatego zapętlamy i powtarzamy czynność.

Kurtyna

Nie taki diabeł straszny – dedykowane przerwy serwisowe mają to do siebie, że dotyczą jednego środowiska, prace prowadzone są na jednej płaszczyźnie, a zadania są ściśle określone. Do tego wszystkiego najczęściej prowadzone są w środku nocy w weekend. Kiedy większość ludzkości się bawi, gdzieś na świecie admini sprawiają, że internet jest  choć trochę lepszy.

Karol Olszewski
Karol Olszewski karol.olszewski@dataspace.pl Jako administrator specjalizował się w systemach monitoringu Data Center. Obecnie jest kierownikiem wdrożeń związanych z Serwerami Dedykowanymi.
Newsy
Data Space dołącza do Bandwidth Alliance
Newsy
"Płyny w Centrach Danych" - zobacz wideo z PLNOG 21