OVH bez prądu - Data Space

Czwartkowy poranek okazał się niemiły dla tysięcy klientów OVH.pl. Wszyscy użytkownicy próbujący uruchomić aplikacje i serwisy, które hostowane są w Data Center firmy OVH, w swoich przeglądarkach mogli zobaczyć jedynie obracające się “ikony oczekiwania” – serwisy internetowe w ogóle nie odpowiadały.

Oficjalne kanały komunikacji firmy OVH poinformowały o poważnej awarii zasilania. Obecnie setki informatyków w całej Polsce zastanawia się jak to możliwe, że tak duży i poważny operator Data Center może mieć tak poważne kłopoty z zasilaniem? A gdzie te wszystkie protekcje, UPS, zdublowane linie zasilające? Czyżby to był tylko marketing? Zapewne i w tym wypadku prawda okazać się może okrutna. Rutyna, Rutyna, … Rutyna.

Problemy z prądem?

Prąd jest tak podstawową usługą w każdym Data Center, że wszystkim wydaje się, iż to nie jest już żaden problem. Jednocześnie systemy zasilające są najbardziej krytycznymi elementami każdego centrum przetwarzania danych. Szczególnie trudnym do wykonywania wszelkiego rodzaju testów sprawności czy procedur sprawdzających poprawność zadziałania na wypadek awarii.

Komunikat OVH zawiadamia o problemach z zasilaniem na obu łączach energetycznych. Sytuacja bardzo rzadka, ale zawsze prawdopodobna. Szczególnie gdy zasilanie doprowadzone jest do Data Center dwoma liniami energetycznymi, ale z sieci jednego dystrybutora energii. Nawet podłączenie się do dwóch oddzielnych GPZ (Główny Punkt Zasilania), nie gwarantuje bezprzerwowych dostaw energii elektrycznej. W Polsce jest to szczególnie trudne do wykonania, ponieważ kraj został podzielony pomiędzy paru dużych dystrybutorów i trudno jest dowiązać się do oddzielnej sieci energetycznej.

Możliwe rozwiązania

W Data Space udało się to zrobić i moc dostarczana jest z oddzielnych sieci energetycznych: sieci Energa oraz z sieci PKP Energetyka. Każda z tych sieci jest rozdzielona i posiada swoje własne metody organizacji rozpływu mocy na wypadek poważnych awarii w dostawach prądu. Więcej o architekturze naszego systemu zasilania piszemy tutaj.

Jak każdy operator Data Center, zawsze zakłada się przypadek, gdy na obu przyłączach energetycznych zaniknie moc. W takiej sytuacji do pracy przystępują UPS’y. Ich zadaniem jest automatyczne przełączenie obwodów i zapewnienie ciągłości zasilania dla całego Data Center. Zadanie dość wymagające, ponieważ milisekundowe przerwy w zasilaniu lub zbyt duże spadki napięcia, natychmiast restartują zasilanie w serwerach.

Strat agregatów

Jednak nikt nie skaluje UPS’ów na wiele godzin pracy. Zadaniem UPS’ów jest zagwarantowanie zasilania do czasu, aż wystartują generatory prądu. To kolejny poziom zabezpieczenia dostaw energii. Problem zaczyna się, gdy generatory prądu nie wystartują automatycznie. Wtedy zaczyna się „odliczanie śmierci” usług. Wydajność UPS’ów skaluje się na paręnaście minut – bo tyle jest potrzebna, aby agregaty prądotwórcze automatycznie wystartowały, osiągnęły odpowiednie obroty, a wtedy nastąpić powinno przełączenie obwodów na odbiór mocy z agregatów prądotwórczych.

Start agregatów to najbardziej krytyczny moment. Tutaj nie ma czasu na naprawy, regulacje czy weryfikacje. Albo wystartują, albo nie wystartują. Scenariusz obu przypadków jest oczywisty. Dlatego każdy operator Data Center w swoich procedurach powinien posiadać obowiązkowe testy sprawdzające poprawny start agregatów. Idealnie, gdy jest agregat zapasowy (tak jak jest to w Data Space). Jednak nie zawsze wszystko idzie tak jak powinno.

Co najczęściej zawodzi?

Agregaty wymagają nie tylko regularnych testów odpalenia (w Data Space robimy to co miesiąc), ale jak każde urządzenie mechaniczne, wymaga przeglądów (w tym cyklicznej wymiany oleju). Wydawać się może, że to oczywiste, problem w tym, że agregaty prądotwórcze dla dużych Data Center przypominają silniki okrętowe – nie da ich się zawieźć do autoryzowanego serwisu producenta. Wszystkie prace muszą być wykonane na miejscu.

Drugim miejscem, w którym następuje problem jest … paliwo. Nie chodzi o jego brak, ale o jego jakość. Wszystkim się wydaje, że jak zatankują zbiornik do pełna, to ich problemy się kończą. W przypadku agregatów sprawa jest bardziej skomplikowana. Do utrzymania ciągłości zasilania np. przez 48h, agregaty prądotwórcze potrzebują paru tysięcy litrów paliwa. Paliwo musi być w zbiornikach, w pełnej gotowości do zasilenia agregatów prądotwórczych.

Przy robieniu testów automatycznego uruchomienia agregatów raz w miesiącu zużywa się stosunkowo mało paliwa. Tym samym paliwo przechowywane jest w zbiornikach przez lata. Problem w tym, że wraz z upływem czasu jakość paliwa spada. W przypadku oleju napędowego dochodzi np. do wytrącania się parafiny. To już krok do problemów, ponieważ parafina zatyka wszystko na swojej drodze i tym samym unieruchamia silnik agregatu. Naprawa nie trwa 15-20 minut, ale potrzebnych jest wiele godzin.

Co jeszcze może zawieść w zakresie zapewnienia ciągłości zasilania?

Jest sporo punktów w planie dystrybucji mocy w Data Center, gdzie mogą zawieść sprzęgła energetyczne – nie nastąpi przełączenie na drogę zapasową. Są bezpieczniki, które potrafią zadziałać zbyt szybko lub zbyt wolno – efekt zawsze jest ten sam – awaria zasilania.

Na tym nie koniec problemów, przywrócenie zasilania w takim obiekcie jak Data Center to nie jest przełączenie włącznika w latarce. Należy stopniowo uruchamiać obwody, aby nie pojawiły się różne sprzężenia czy pętle zasilające. Im większy obiekt, tym większy problem.

Podsumowanie

Co zawiodło w OVH? Myślę, że tego nie dowiemy się z oficjalnych komunikatów. Może, kiedyś, przy jakimś piwie podczas konferencji, ktoś nieoficjalnie opowie, jak było naprawdę. Prawda jest stara jak wojskowa zasada „im więcej potu na poligonie, tym mniej krwi w boju”. W przypadku systemów zasilających zaniedbania w testach, żmudnych procedurach weryfikujących, kończy się niemiłym echem w sieciach społecznościowych.

To echo potrafi odbijać się jeszcze przez wiele lat – o czym przekonało się, wiele lat temu, inne polskie Data Center po awarii zasilania.