Praca w IT, cz.5 - Maintenance Engineer

Opisane dotychczas stanowiska dotyczyły infrastruktury IT – serwerów, macierzy, czy innych urządzeń, które znajdziemy w szafach RACK. W tej całej układance ukryło się słowo-klucz – “działających” urządzeniach. A czego tak naprawdę potrzeba, aby serwery działały poprawnie? Dlaczego nie można kupić serwera i wstawić po prostu pod biurko?

Oprócz sprawnego oprogramowania, komponentów czy instalacji sieciowej, do prawidłowego działania każdego środowiska IT potrzebna jest infrastruktura Data Center – zasilanie, chłodzenie oraz cała masa rzeczy z tym związanych. Kto za to odpowiada? Zapraszam do prezentacji kolejnego stanowiska – Maintenance Engineer.

Spis treści

Maintenance Engineer zajmuje się przede wszystkim sprzętem wagi ciężkiej, czyli utrzymaniem infrastruktury Data Center. O ile między administratorami, technikami, devami czy sieciowcami istnieje jakiś wspólny mianownik, np. serwer dedykowany, tak wiedza ludzi odpowiedzialnych za utrzymanie prądu i chłodu jest dla nich często zupełnie obca.

Maintenance Engineer – obowiązki i zadania

Pracując przy utrzymaniu Data Center, lista obowiązków jest całkiem pokaźna, a wynika to z wielu czynników, które odpowiadają za nieprzerwaną pracę serwerowni. Zaczynając od prądu, “zabawek” z nim związanych jest tutaj całkiem sporo – w dużym skrócie transformatory, agregaty, UPSy, bezpieczniki, liczniki i listwy. Po drodze mamy jeszcze kilka rodzajów przewodów. Każda z tych rzeczy wymaga dozoru i konserwacji, transformatory np. potrzebują cyklicznych testów automatyki związanej z przełączeniem obciążenia pomiędzy nimi, agregaty wymagają wystarczającej ilości paliwa i testowania, a UPS-y należy monitorować pod kątem poprawności działania falownika.

Podobna liczba urządzeń dotyczy obszaru chłodzenia. Na dachu mamy chillery i drycoolery, po drodze dwie niezależne pompownie czynnika chłodzącego, a w samych komorach – szafy klimatyzacji precyzyjnej. Tak jak w przypadku prądu, mamy tutaj masę automatyki, która musi być cyklicznie testowana, gdyż brak chłodu w pomieszczeniu to uzyskanie temperatury krytycznej w kilkanaście – kilkadziesiąt minut. To na głowie Maintenance Engineera jest zapewnienie poprawności działania całego skomplikowanego układu, który sprawia, że dyski nie topią się w rękach.

Poza dwoma, teoretycznie najważniejszymi aspektami, jest też kilka innych czynników, które wchodzą w skład utrzymania: systemy gaszenia, wykrywania dymu, kontrole dostępu, systemy alarmowe, monitoring budynku, system BMS (Building Management/Monitoring System). Jak widać, wiedza na tym stanowisku musi być stosunkowo rozległa.

Podsumowując obowiązki:

Utrzymanie infrastruktury zasilania

Monitoring działania zasilania
Zapewnienie ciągłości w dostawie prądu
Wykonywanie cyklicznych testów automatyki
Zarządzanie poborem energii elektrycznej

Utrzymanie infrastruktury chłodu

Zapewnienie poprawnej pracy infrastruktury chłodzącej
Utrzymywanie odpowiedniego ciśnienia krążącego czynnika chłodzącego
Optymalizacja temperatury do odpowiednich warunków
Cykliczne testy redundancji urządzeń

Pozostałe systemy BMS

(nadzór działania i rozwiązywanie problemów)

Systemy alarmowe
Systemy gaszenia i wykrywania dymu
Monitoring budynku
System BMS (monitoring Data Center)
Nadzór instalacji elektrycznych w szafach RACK

Maintenance Engineer w Data Space

Powyższe dwa akapity zawierają cześć obowiązków naszych inżynierów. Z racji tego, że systemów jest tak dużo, posłużę się cytatem Mariusza, naszego Chief Maintenance Engineera:

Dzień zaczynam zazwyczaj od rozmowy z dyżurnym, czy pojawiły się jakieś nieprzewidziane sytuacje związane z działaniem infrastruktury zasilającej, chłodzącej, gaśniczej i innych. Jeśli wszystko jest tak jak powinno, mogę przejść do obchodu po Data Center celem fizycznej, poglądowej oceny stanu technicznego poszczególnych kluczowych elementów.
W przypadku, kiedy dostanę informację o alarmach dotyczących mojej działki, w pierwszej kolejności zabieram się za diagnozę usterki, żeby w jak najkrótszym czasie się jej pozbyć. W normalnym trybie zaczynam obchód od przepompowni czynnika chłodniczego, zwracając uwagę na to, czy nie pojawiły się żadne wycieki na łączeniach rur czy zaworach, a także na to, czy łożyska w pompach wodnych i glikolowych nie wydają dziwnych odgłosów. Następnie przechodzę przez każde pomieszczenie, które chłodzone jest za pomocą szaf klimatyzacji precyzyjnej, aby upewnić się, że temperatura, jaką pokazuje nam BMS, jest w rzeczywistości taka, jaka panuje w danej komorze.

W kolejnym etapie udaję się na rozdzielnię niskiego napięcia i przeglądam parametry, jakie wyświetlają zasilacze awaryjne UPS. Sprawdzam pobór mocy na poszczególnych obwodach instalacji elektrycznej, analizuję czy były jakieś zaniki w ciągu nocy oraz jak rozkładał się pobór energii elektrycznej w ciągu doby. Następnie udaję się do pomieszczenia z agregatami prądotwórczymi sprawdzając, czy nie sygnalizują jakichś ostrzeżeń oraz czy ilość oleju napędowego w zbiornikach jest na odpowiednim poziomie. Raz na jakiś czas przygotowuję rozpiskę, której będziemy się trzymali podczas testowego rozruchu agregatów prądotwórczych na obciążeniu, bo jeśli paliwo długo będzie stało nieruszane, straci swoje właściwości.

Ostatnim etapem pobieżnego obchodu jest sprawdzenie informacji na centralach przeciwpożarowych. Ostatnio mieliśmy coroczny przegląd, więc szczególnie w tych pierwszych dniach po nim muszę zwrócić uwagę, czy nie pojawiają się jakieś nietypowe ostrzeżenia. Jeśli nie stwierdziłem żadnych nieprawidłowości, mogę wrócić do biura i zabrać się za realizację i projektowanie kolejnej funkcjonalności w Data Center.
Niedawno zrealizowałem projekt monitorujący parametry powietrza w szafach RACK – w jaki sposób ciepłe powietrze jest odprowadzane, w którym miejscu w szafie jest najchłodniej oraz czy szafa jest otwarta czy zamknięta. Teraz skupiam się na zrobieniu sterowania do listwy PDU w szafie, aby można było zdalnie zrestartować serwer, który nie posiada KVM.
W międzyczasie dostaję informację, że od poniedziałku pojawi się u nas nowy pracownik, w związku z czym muszę przygotować mu kartę dostępową o odpowiednio skategoryzowanych dostępach w biurze i na serwerowni. Pod koniec dnia dowiaduję się też, że od jutra dokładamy nowe serwery dedykowane, a ze względu na kończące się miejsce w szafach RACK należy dozbroić kolejną szafę w odpowiednie zasilanie. Zatem już wiem, że jutro po obchodzie zabiorę się za przygotowanie infrastruktury w kolejnym RACK-u.

Ciekawostki

Testy agregatów potrafią być tak ekscytujące, że przyciągają gapiów w postaci pracowników. Nieznośny huk? Gęste spaliny? Kto by mógł się oprzeć!
Zbiornik na paliwo do agregatów mieści 30 000 litrów oleju napędowego, co wystarczyłoby, żeby objechać równik samochodem ośmiokrotnie (za bardzo nie dociskając pedału gazu).
… a jeżeli po drodze rozładuje się akumulator, nie ma się co martwić, nasze UPS-y wykorzystują ich ponad 1000.