Disaster Recovery Plan (DRP) i Business Continuity Plan (BCP) dla infrastruktury IT

infrastruktura IT
Marcin Kowalski
12.07.2018 Marcin Kowalski

Czym jest Disaster Recovery Plan (DRP) i co zawiera?

Disaster Recovery Plan (DRP) to spisany dokument zawierający zestaw procedur niezbędnych do przetrwania działania firmy w przypadku katastrofy lub bardzo poważnej awarii. Po wykonaniu tych instrukcji powinno być możliwe odtworzenie działania podstawowych elementów działania organizacji. W skład dokumentu wchodzą wszystkie działania, jakie trzeba wykonać przed, w trakcie i po wystąpieniu zdarzenia zakwalifikowanego jako katastrofa.

Katastrofa może mieć przyczynę naturalną, środowiskową, lub być wynikiem działania człowieka. Działania człowieka mogą z kolei być wynikiem działań celowych (np. zamachy terrorystyczne), lub wypadku (np. wypadki komunikacyjne). Ponieważ większość firm w coraz większym stopniu zależna jest od przetwarzania informacji, plan bardzo często skupia się na odzyskaniu sprawności przetwarzania i uzyskania dostępu do niezbędnych danych.

Czym jest Business Continuity Plan (BCP) i co zawiera?

Plan Ciągłości Działania (BCP) ma pomóc ograniczyć skutki oraz skrócić okres niepewności w przypadku pojawienia się zakłóceń w prowadzeniu działalności. Zakłócenia zwykle wiążą się z kosztami – aby zminimalizować ich czas oraz ograniczyć koszty do minimum, dokumenty powinny zawierać wszystkie niezbędne kroki (wraz z ich harmonogramem), dzięki zastosowaniu których będzie można ponownie uzyskać zasoby oraz odbudować procesy w wypadku pojawienia się przerw w działaniu.

DRP i BCP w praktyce

DRP jako składowa BCP

Disaster Recovery Plan jest tylko składową Business Continuity Plan. DRP to dokładne kroki, jakie należy wykonać w wypadku wystąpienia zdarzenia. Ich projektowaniu należy poświęcić dużo czasu oraz zaangażować osoby odpowiedzialne za kluczowe elementy funkcjonowania firmy i utrzymanie ciągłości procesów.

Kluczowe założenia Disaster Recovery Plan

Tworząc Disaster Recovery Plan musimy myśleć o utrzymaniu w działaniu podstawowych parametrów pracy firmy.

  1. Fizyczna lokalizacja, zapasowa lokalizacja i zapasowe Centrum Danych, aby mieć osoby oraz miejsce do działania.
  2. Usługi niezbędne do działania firmy i utrzymania w sprawności kluczowych działań. Które systemy komunikacyjne są niezbędne, a bez których możemy pracować?
  3. Musimy określić czas, w jakim te kluczowe usługi w nowym miejscu mają zadziałać. Posługujemy się tutaj metryką RTO (ang. Recovery Time Object), czyli czas, po jakim krytyczne usługi muszą zadziałać. Im krótszy czas, tym wyższe koszty utrzymywania infrastruktury zapasowej, ale też większa stabilność działań biznesowych.
  4. Musimy ustalić RTP (ang. Recovery Point Object), która określa, jak dużą porcję danych możemy maksymalnie stracić. Warto zauważyć, że utrzymywanie systemów, które zachowają wszystkie dane w wypadku katastrofy, jest niezwykle kosztowne i często trudno osiągalne technicznie. Utrzymanie wszystkich danych w wypadku katastrofy wymaga uwzględnienia tego faktu na etapie planowania i budowy systemów.
  5. Musimy brać pod uwagę koszty Disaster Recovery Plan, które nie mogą być niewspółmierne do osiągniętych rezultatów i nie mogą prowadzić do utraty konkurencyjności na rynku, na którym działamy. Dość często spotyka się sytuację, w której stworzenie DRP i BCP jest wymagane przez różne regulacje, aby dodatkowo zmotywować organizację do działania.

Fizyczna lokalizacja zapasowego Data Center

Lokalizacja zapasowego Centrum Danych oraz jego wybór są bardzo istotnymi elementami. Z jednej strony ważne jest, aby mieć pewność przetrwania danych i utrzymania ciągłości działania w przypadku katastrofy, z drugiej – zbytnio oddalone Centrum Danych to dodatkowe koszty oraz wydłużenie czasu uruchomienia w wypadku wdrożenia Disaster Recovery Plan.

Dokonując wyboru należy wziąć pod uwagę odległość, współdzielenie infrastruktury energetycznej, transportowej, telekomunikacyjnej, ciągłość biznesową (np. oba budynki nie powinny być wynajmowane od tego samego podmiotu), ale też możliwość ograniczenia kosztów, np. poprzez wynajem serwerów dedykowanych lub chmury obliczeniowej i ponoszenie pełnych opłat dopiero w momencie wystąpienia awarii.

Wyżej: Tak może wyglądać Twoje zapasowe Centrum Danych

DRP i BCP w działaniu Data Center

DRP i BCP, które odwołują się do zewnętrznego Centrum Danych, muszą polegać na wartości usług dostarczanych przez Centrum Danych oraz ich gwarancji SLA. Kluczowe w tego typu dokumencie jest:

  • Określenie i rozdzielenie odpowiedzialności za poszczególne czynności między pracowników podmiotu i Data Center;
  • Określenie SLA i zapewnienie mechanizmów eskalacji w przypadku jego naruszeń;
  • Opracowanie procedury umożliwiające testowanie i doskonalenie procesów;
  • Stworzenie poprawnej komunikacji z dostawcą usług.

W większości przypadków Centrum Danych posiada własne wzorce postępowania w takich sytuacjach oraz procedury na moment uruchomienia planów DRP i BCP u swojego klienta.

Na co zwrócić uwagę przy DRP dla rozwiązań chmurowych

Rozwiązania chmurowe lub hybrydowe wymagają planowania na wypadek awarii tak samo jak każdy inny system. Nie dość, że są to systemy skomplikowane, to opieranie się o jednego dostawcę kluczowych komponentów prowadzi do uzależnienia biznesu, a w konsekwencji w razie poważnych awarii dostawcy zakłóca ciągłość pracy po naszej stronie. Jeżeli rozwiązanie hybrydowe zapewnia tylko zwiększenie okresowej mocy obliczeniowej, nie jest bardzo dużym zagrożeniem dla ciągłości trwania procesów biznesowych. Modele wykazujące większą zależność wymagają jednak planowania.

Podczas planowania należy zwrócić uwagę na możliwość skorzystania z innego dostawcy i uruchomienia usług we własnym środowisku, ale najważniejszy jest sposób przesyłania, składowania oraz zachowania ciągłości danych, jakich potrzebujemy, jak też kompatybilność systemów wielu dostawców. Ponieważ tego typu usługi cechują się bardzo dużą zmiennością zarówno po stronie naszego środowiska, jak i środowiska dostawcy, testy powinny być wykonywane często i w sposób szczególnie dokładny.

Na co zwrócić uwagę przy DRP dla rozwiązań big data i data bases (hadoop, database, sql server)

Większość systemów bazodanowych posiada wewnętrzne wbudowane mechanizmy pozwalające na powielanie danych i zapewniające bardzo wysoką dostępność. Planując nasze działania należy zwrócić uwagę na spójność danych, rozumianą jako zachowanie poprawnej struktury oraz kompletności danych w momencie w czasie, ale niezwykle istotne jest też wykonywanie kopii danych, składowanych w miejscach niedostępnych z poziomu podstawowych systemów. Zabezpieczy nas to przez awariami wynikającymi z błędnej konfiguracji, działania wirusów lub innego szkodliwego oprogramowania, jak też błędami ludzkimi. Zabezpieczyć powinniśmy też możliwość rozpoczęcia przetwarzania danych w nowym miejscu po wdrożeniu procedur Disaster Recovery Plan.

Zewnętrzne Data Center a SRP

Poważna awaria wymagająca zastosowania DRP w IT ma silną korelacją w zastosowania Disaster Recovery Plan dla innych działów. Pożar, powódź, wypadek komunikacyjny czy awaria mediów dotyczą w końcu całego budynku, w którym znajduje się firma.

Wykorzystanie zewnętrznego Centrum Danych razem z jego infrastrukturą i personelem technicznym pozwala w kryzysowej sytuacji ograniczyć ilość zadań którą muszą wykonać wewnętrzne służby IT.

Służby profesjonalnego Centrum Danych są zwykle dużo lepiej przygotowane do działania – wynika to w większości z rodzaju prac oraz normalnej skali działania. To, co dla klienta jest zjawiskiem bardzo rzadkim – uruchomienie procedur DR – dla pracowników Centrum Danych jest sytuacją powszechną, na wypadek której przechodzą częste ćwiczenia z wieloma różnymi klientami. To właśnie przygotowanie jest decydującym czynnikiem w wypadku przerwy w działaniu.

Centra Danych mają do dyspozycji bardzo bogaty wachlarz działań, które mogą wdrożyć w przypadku konieczności uruchomienia DRP u klienta, takie jak:

  • Redundantne, bardzo “grube” łącza do sieci publicznej;
  • Wolna powierzchnia kolokacyjna, w której może być szybko uruchomiona nowa usługa;
  • Wolne zasoby na macierzach dyskowych;
  • Wolne, duże zasoby sprzętowe, które mogą być uruchomione w ciągu minut i przejąć na siebie obliczenia klienta.

Środowisko, które pracowało w podstawowej lokalizacji, z punktu widzenia klienta może wydawać się duże, ale dla Centrum Danych jest to tylko niewielki procent wolnych zasobów dostępnych w danej chwili.

DRP i BCP – podsumowanie

Wdrożenie DRP i BCP jest decyzją biznesową i jednym ze sposobów radzenia sobie z ryzykiem awarii. Podejmując ją należy mieć na uwadzę ograniczenia zasobów w momencie katastrofy i rozważyć zastosowanie profesjonalnych zasobów oferowanych przez zewnętrzne podmioty wyspecjalizowane w tego typu usługach. Dzięki temu w momencie awarii będziemy mogli liczyć nie tylko na własnych pracowników, ale też na pracowników naszych kluczowych partnerów, dzięki czemu szybciej przejdziemy przez trudny dla nas okres.

Marcin Kowalski
Marcin Kowalski marcin.kowalski@dataspace.pl Od ponad 10 lat pomagam administratorom i klientom. Serwery, urządzenia sieciowe, kolokacja, rozwiązywanie problemów i tworzenie nowych produktów.
Bezpieczeństwo IT
Atak na sieć węzłów Bitcoin, cz.2
Bezpieczeństwo IT
Atak na sieć węzłów Bitcoin, cz.3