Nie stosuj RAID1 HW, to nic nie daje.

dyski
infrastruktura IT
Marcin Kowalski
22.03.2018 Marcin Kowalski

RAID – pierwszy odruch większości administratorów. Zmniejsza ilość problemów, przyspiesza działanie, zabezpiecza przed utratą danych, brakuje tylko funkcji robienia kawy. Kilkanaście lat temu kiedy dyski były dużo bardziej awaryjne, obliczenia związane z RAID mocno obciążały procesor, dedykowane układy były zbawieniem. Teraz to kolejne przyzwyczajenie, które w wielu wypadkach powinno odejść.

Przed czym chroni nas RAID:

  • Przerwanie działania produkcyjnego systemu w momencie awarii nośnika.

W czym jeszcze pomaga sprzętowy RAID:

  • Cache z pamięci i dysków SSD,
  • Sprzętowe szyfrowanie dysków,
  • Odciąża procesor z operacji I/O,

Służy jako “HBA” pozwalające podłączyć większa ilość dysków lokalnych.

W czym powinien pomagać RAID, ale tak się nie dzieje:

  • Dodanie kolejnego dysku w macierzy,
  • Zmiana rodzaju RAID,
  • Zmiana wielkości dysków logicznych,
  • Zmniejsza awaryjność.

Przed czym nie chroni nas RAID sprzętowy:

  • Awaria karty RAID,
  • Awaria okablowania,
  • Skasowanie danych,
  • Nadpisanie danych,
  • Błąd administratora lub użytkownika.
dyski_SSD_serwerownia

Przez ostatnich kilkunaście lat powoli, systematycznie spadała awaryjność dysków. Przełomem okazały się dyski SSD. Awaryjność spadła poniżej 0,4% średniej awaryjności rocznie. W nieoficjalnych rozmowach producenci przyznają, że awaryjność jest jeszcze niższa, ale ze względu na ilość zastosowanych nowych technologii w każdej kolejnej generacji nie chcą podawać mniejszej wartości. Mniejsza awaryjność wymusiła na producentach dysków talerzowych polepszenie parametrów. Rezultat:

Awaryjność według producentów:

MTBF

AFR

AVR Dysk talerzowy (HGST)

2000000

0,43%

AVR Dysk SSD Serwerowy HGST

2000000

0,43%

AVR Kontroler RAID

1031514

0,83%

AVR Bateria kontrolera RAID

3257908

0,26%


Te liczby pokrywają się z obserwowanymi przez nas wartościami na produkcji. Dyski talerzowe mają minimalnie większą awaryjność na starcie, dyski SSD minimalnie mniejszą, kontrolery natomiast padają równomiernie. Dane z Backblaze potwierdzają dane producentów dla dysków talerzowych. Jednocześnie widać wyraźnie zwiększoną awaryjność dysków desktopowych.

Backblaze Hard Drive Stats for 2017

Źródło: https://www.backblaze.com/blog/hard-drive-stats-for-2017/

Szybka analiza liczb:

Co ma mniejszą awaryjność – system z kontrolerem RAID i dwoma dyskami, czy system z jednym dyskiem? Oczywiście system z jednym dyskiem.

1 dysk

0,426000%

2 i kontroler

0,830097%

Uwzględniając baterię jako powód awarii:

1,090174%


Hmmm… Jeżeli robimy node pod chmurę prywatną, jaki jest sens posiadania HW RAID? Żaden! Chcesz mieć większą awaryjność, więcej problemów, więcej elementów, więcej sterowników? Użyj RAID. Jeżeli potrzeba skrócić czas naprawy po awarii dysku, lepiej mieć drugi dysk i skopiować na niego dane potrzebne do startu systemu – albo bootować całość po sieci.

dyski_kontroler_RAID_serwerownia

Pójdźmy dalej tym tokiem myślenia. Jeżeli to kontroler RAID jest źródłem awaryjności, co będzie lepsze – RAID6 i 10 dysków SSD 480 GB, czy jeden dysk 4800 GB NVMe? Jeden dysk NVMe. Mniejsza szansa na awarię, mniejsza komplikacja, szybsze działanie, lepsza kompatybilność – i taniej.

Podsumowując, kontroler RAID jest potrzebny, jeżeli trzeba jakoś podłączyć 24 dyski do serwera albo przyspieszyć dyski talerzowe. Jest natomiast zupełnie zbędny w małych serwerach z dyskami SSD, w nodach pod chmurę prywatną, oraz przy zastosowaniu dużej ilości dysków SSD.

Marcin Kowalski
Marcin Kowalski marcin.kowalski@dataspace.pl Od ponad 10 lat pomagam administratorom i klientom. Serwery, urządzenia sieciowe, kolokacja, rozwiązywanie problemów i tworzenie nowych produktów.
Infrastruktura IT
Zabezpieczenia serwerowni od A do Z
Newsy
Marcin Kowalski z Data Space z prelekcją na Warszawskich Dniach Informatyki (WDI)
   /   Infrastruktura IT   /   Nie stosuj RAID1 HW, to nic nie daje.