5 zasad optymalizacji kosztów storage

Storage to aktualnie najbardziej skomplikowany, najważniejszy i najszybciej rozwijający się element infrastruktury dostępnej w Centrum Danych. Ilość rozwiązań typu SDS (Software-defined storage) opartych o proste serwery dedykowane rośnie w gigantycznym tempie.

Spis treści

Głównymi motorami zmian są:

Konieczność zmniejszenia kosztów;
Lepsza skalowalność;
Chęć uniezależnienia się od dostawcy sprzętu.

Codziennie jesteśmy bombardowani rozwiązaniami przeznaczonymi dla gigantycznych chmur i olbrzymich projektów BigData. Miliardy IOPS, nieziemski bandwidth, zerowe opóźnienia, praktyczny brak możliwości utraty danych. 99% systemów, jakich używamy, nie potrzebuje tego typu rozwiązań. 50% serwerów dedykowanych nadal posiada dwa dyski talerzowe i sprawują się one znakomicie w powierzonych im zadaniach.

Omówmy proste zasady postępowania ze storage na podstawie najczęściej popełnianych błędów.

Zasada 1. Nie bierz więcej, niż potrzebujesz

Jeden z podstawowych błędów to kupowanie “przewymiarowanych” rozwiązań. Szczególnie dotyczy to sytuacji, gdy wynajmujemy serwer. Wszyscy ulegamy modzie i bardzo często podejmujemy nie do końca racjonalne decyzje. Dyski SSD są świetne, ale czy na pewno potrzebne, żeby gromadzić logi, trzymać kopie danych, lub do startu systemu? Przestrzeń na dyskach talerzowych jest 10-krotnie tańsza od SSD. Dysk o odporności na zapis 0,6 DRPD jest 2-krotnie tańszy od dysków 3 DRPD. Producenci nie bez powodu wycofali się z produkcji dysków o odporności 10 DRPD, ponieważ nie mogli znaleźć na nie kupców.

Drugim źródłem marnotrawienia jest złe planowanie potrzebnej przestrzeni. Wiele organizacji na zbyt wielu etapach zakłada różnego rodzaju zapas na dane, które pojawią się w przyszłości, lub źle oblicza potrzebne miejsce. Należy planować system tak, aby płynnie móc rozbudowywać dostępną przestrzeń dokładając kolejne nody storage’owe. Dodanie kolejnego serwera dedykowanego jest lepszą metoda skalowania, niż zakupienie z góry dużej ilości miejsca.

Zasada 2. Określ, jaka wydajność jest dla Ciebie najważniejsza

Miar wydajności jest wiele:

Transfer,
IOPS,
Opóźnienie w transferze,
Finansowe – ile $ za 1 TB powierzchni, ile $ za 1 IOPS wydajności, TCO dla całości infrastruktury…

Spokojnie – usiądź, zastanów się, zaplanuj i opisz, czego potrzebujesz. Jest wiele sposobów, aby optymalizować koszt storage znając niezbędne miary wydajności. Tiering, stosowanie mniejszych nośników, stosowanie nośników zoptymalizowanych pod zapis lub odczyt, planowanie możliwości rozbudowy na wczesnym etapie,wreszcie – zmiana rozwiązań technologicznych.

Zasada 3. Wiedz, ile rozwiązanie ma pracować i ile kosztują Cię przestoje

Wszyscy zdajemy sobie sprawę, że działająca infrastruktura kosztuje. Im większa ma być dostępność, tym więcej trzeba dodać sprzętu i innych rozwiązań, aby sprostać wymaganiom stawianym przez biznes. Dość często klienci projektują systemy, które przewyższają oczekiwania biznesu, lub – co jeszcze częstsze – niedostatecznie wymuszają na swoich organizacjach określenie zakładanego poziomu niezawodności.

Podejmując decyzje warto na liczbach (a nie tylko odczuciach) dokonać oceny, jakie rozwiązanie będzie mniej awaryjne, i czy nie lepiej posiadać więcej awaryjnych maszyn lub redundantnych systemów, zamiast małej liczby wysoce odpornych.

Rozmawiałem ostatnio ze stosunkowo dużą polską firmą IT. Wdrożyli dawno temu rozproszony system plików, znajdujący się na bardzo wielu serwerach. 2000 dysków. W zamierzchłych czasach ze względów kosztowych zastosowali tylko i wyłącznie desktopowe (!) dyski talerzowe. Produkcyjnie awaryjność to około 10% rocznie i rośnie. Usunięcie awarii nie jest drogie, dopóki nie padną dwa dyski w tym samym serwerze, albo większa ilość dysków w różnych serwerach.

Policzmy, jak to może wyglądać:

Ilość dysków 2000
Awaryjność dysków desktopowych (AFR) – 10%
Awaryjność dysków serwerowych (AFR) – 0,4 %
Długość gwarancji dysku desktopowego – 2 lata
Długość gwarancji dysku serwerowego – 5 lat
Koszt usunięcia awarii pojedynczego dysku – 70 zł (diagnostyka, praca technika, przestoje)
Koszt awarii jeżeli na raz psują się dwa dyski – 1000 zł (występuje raz na 50 awarii).
Zakup dysku Enterprise – 652 zł
Zakup dysku desktopowego 440 zł
Zakładamy że nie mamy kart RAID i systemowi technicznie wszystko jedno jakich dysków używamy.
Koszt kapitału rocznie – 5%

Po 2 latach:

Desktopy: 440*2000*(1+10%)+70*2*100+1000*4=986000 zł
Enterprise: 652*2000*(1+10%)+70*2*8+1000*0=1435520 zł

Kolejne 3 lata:
(zakładamy że na desktopy skończyła się gwarancja i trzeba kupić nowe w miejsce popsutych)

Desktopy: 440*2000*(15%)+(70+440)*3*100+440*300*7,5%+1000*6+986000=1286900zł
Enterprise: 70*3*8+1000*0+1435520=1437200 zł

Nieliczbowe argumenty:

Koszty dla dysków Enterprise prawie nie uległy zmianie po 5 latach;
Po kolejnych 2 latach koszty desktopów będą wyższe od dysków serwerowych;
Nie uwzględniamy wartości sprzętu, dyski Enterprise drożej odsprzedamy;
Przy dyskach desktopowych zakładamy, że nie będziemy mieli wielkiego pecha i nie znikną nam jakieś dane. 10% awaryjności to sporo i może się okazać za dużo dla systemu backupowemu. Trzeba zadać sobie pytanie, czy stać nas na utratę danych.
Dyski desktopowe po 5 latach zaczną mieć rosnącą wykładniczo awaryjność (po 5 latach popsuło się ich już 1000 sztuk i powinniśmy je już partiami zdejmować z produkcji);
Dyski Enterprise powinny jeszcze żyć przez kilka lat (po 5 latach popsuło się ich raptem 40 sztuk);
Duża awaryjność wymusza stosowanie większych zabezpieczeń. Jeżeli masz używać Raid 10 zamiast R5, to na nie ma co się zastanawiać i należy wybrać dyski Enterprise i zostać na R5/R6.

Werdykt:

Wszystko zależy od oceny ryzyka w danym przypadku.

Jeżeli liczy się tylko cena, w krótkim okresie albo możesz pozwolić sobie na utratę małej porcji danych – wybierz dyski desktopowe.
Jeżeli cenisz sobie jakość, przewidywalność oraz odpowiedzialnie podchodzisz do swoich danych – wybierz dyski serwerowe.
Jeżeli oszczędzasz na redundancji i backupach (czyli nie masz wszystkiego w 3 kopiach), nie oszczędzaj na dyskach.

Określ, ile kosztuje Cię awaria. 70 zł w podanym przykładzie to koszt obsłużenia awarii dla Centrum Danych, w którym wszystko jest zoptymalizowane do obsłużenia takiego incydentu. Dojazd, diagnostyka, wymiana, odtworzenie systemów, przestoje, niezadowoleni klienci, nadgodziny pracowników – to wszystko kosztuje.

Określ też, ile kosztuje Cię incydent, w którym z powodu dysku przestanie działać cały serwer. Awaria księgowości w ważnym dniu nie będzie kosztowała 1000 zł, tylko wielokrotnie więcej. Ważne, aby decydenci byli poinformowani i świadomie podejmowali decyzje.

Bardzo dokładnie zastanów się, jak długo mają żyć te dyski. Sprzęt serwerowy ma bardzo dużą żywotność i odporność na awarie. Sprzęt desktopowy w zastosowaniach 24/7 dla odmiany psuje się cały czas.

W Data Space cenimy sobie bezawaryjność. Uważamy, że jest ona wartością dla naszych klientów, dlatego w każdym systemie stosujemy wyłącznie dyski serwerowe.

Zasada 4. Wiedz, ile kosztuje utrata danych i jakie jest rzeczywiste prawdopodobieństwo awarii

W jednym z projektów, w jakich brałem udział, obliczenia wykonane w XLS zatriumfowały nad zdrowym rozsądkiem. W skrócie, kupowaliśmy serwery pod backup. Dużo danych, potrzeba sporej optymalizacji kosztowej, dwa rozważane warianty w obudowach po 24 dyski:

Serwer w R10 z dyskami serwerowymi, 3 serwery na wszystkie dane;
Serwer z dyskami desktopowymi w R6 z drugą kopią na drugim serwerze, synchronizacja raz na 4 godziny, 4 serwery na wszystkie dane.

Po podliczeniu wszystkiego przez osoby nietechniczne i oszacowaniu, XLS wskazał na desktopy. Teoretycznie podobna odporność na awarie, mniejsze koszty, drugi serwer z przesuniętą kopią. Same plusy.

W żadnym projekcie nie spotkałem się z taką ilością utraconych danych. R6 jest dobrym rozwiązaniem na 5-6 dysków. Dla 10 jeszcze można go stosować, ale powyżej tego poziomu zaczynają się spore problemy. W praktyce okazuje się, że dyski desktopowe nie lubią zwiększonego obciążenia po utracie jednego z dysków w RAID i padają seriami.

Techniczna część projektu zmieniła po pół roku dwa serwery na zawierające dyski Enterprise, jako powód podając zbyt duży koszt utraconych danych.

Czego biznes nauczył się w tamtej firmie:

Awaryjność desktopów jest podana dla zastosowań desktopowych a nie 24/7/365;
Jeśli pada dysk w grupie RAID, kolejny może paść w tym samym momencie;
Odtwarzanie danych przy awarii dysku trwa długo – im większe dyski, tym dłużej;
Kilka procent szansy na katastrofę rocznie może oznaczać nawet dwa tygodnie katastrofy rocznie.

Warto dodać, że wnioski nie zdziwiły nikogo w dziale technicznym.

Zasada 5. Koszty nie są liniowe – policz, kiedy zaczną rosnąć

Zależnie od technologii, do 30-100 TB danych koszty za 1 TB spadają. Potem zaczyna być bardzo różnie. Na starcie projektu trzeba określić minimum, optimum i maksimum ilości danych.

Prosty serwer 1U, dwa dyski 1 TB – koszt dysków 13%

Prosty serwer 1U cztery dyski 4 TB – koszt dysków 37%
Serwer z 12 dyskami 4 TB – koszt dysków 42%
Serwer z 24 dyskami 4 TB – koszt dysków 51%
5 serwerów każdy z 24 dyskami 4 TB + sieć pomiędzy nimi – koszt dysków 44%

Przy rozważaniach należy wrócić do technicznego projektowania usługi, czy dzielimy dane na kawałki mieszczące się na jednym serwerze i nie robimy wydajnej sieci, może łączymy serwery w pary i synchronizujemy dane po DRBD tylko pomiędzy serwerami w parze (odpada koszt wydajnego switcha), może stawiamy rozproszony system plików (sieć i administracja), albo wdrażamy inne rozwiązanie. W którym momencie kupimy na tyle dużo dysków, że cena nośników zacznie spadać? Kiedy stopień komplikacji jest zbyt duży?

Zależnie od krytycznego parametru wydajności ta krzywa wygląda inaczej, ale dość często pojawiają się momenty, w których razem ze skalą koszty przestają spadać, a zaczynają rosnąć. Warto zdawać sobie z tego sprawę i odpowiednio planować usługę.

Podsumowanie

Planuj, testuj, licz, rób outsourcing ryzyka. Storage jest skomplikowany, kosztuje często najwięcej ze wszystkich elementów infrastruktury i wymaga najwięcej uwagi, gdyż niepoprawna implementacja pociąga za sobą bardzo duże koszty. SDS zdaje się być odpowiedzią na rosnące koszty, ale trzeba umieć stosować serwery dedykowane w takiej roli.