SLA (Service Level Agreement) dla obiektu Data Center

Wcześniej pisałem o SLM i zakresie całego procesu, w którym tworzy warunki określone jako SLA. Zgodnie z tytułem tego wpisu postaram się przybliżyć kwestie SLA dla obiektów Data Center. W poniższym wpisie omówimy, co powinno zostać określone oraz co powinniśmy wziąć pod uwagę w celu prawidłowego określenia wymogów i zakresu SLA dla obiektu typu Data Center.

Przypomnijmy czym jest SLA. SLA jest swoistą definicją zobowiązań, planów do osiągnięcia, definicji limitów. Jest dokumentem spisanym pomiędzy klientem a usługodawcą określającym definicje relacji.

Do określenia i spisania prawidłowego SLA należy zdefiniować i określić cztery podstawowe elementy:

  • definicje ograniczeń dla obiektu Data Center
  • definicje poziomu infrastruktury zgodnie ze zdefiniowanymi standardami
  • definicje sposobu pomiaru czasu pracy / dostępności
  • definicje punktów danych, które będą częścią wskaźników KPI.

Należy pamiętać, że umowy SLA jak i wskaźniki KPI muszą być zgodne z celami biznesowymi. Umowy SLA muszą być realistyczne i muszą być mierzalne, a punkty danych muszą zatem zawierać informacje, które można porównywać.

Obietnice poczynione w zakresie świadczenia usług muszą być wspierane przez infrastrukturę, zespół i zewnętrzne zależności w celu uniknięcia niezgodności.

Przybliżmy te punkty.

Definicja ograniczeń dla obiektu Data Center

Centra danych mają wiele ograniczeń, takich jak posiadana i projektowana moc elektryczna, redundancja systemów zasilania, moc i gęstość systemów chłodzenia, wielkość fizyczna i pojemność telekomunikacyjna oraz redundancja. Ważnym elementem jest zrozumienie, że sam projekt techniczny infrastruktury nie może zagwarantować bezawaryjnego czasu pracy dla obiektu. Zawsze należy pamiętać, że same procesy operacyjne i konserwacyjne również odgrywają ważną rolę. Idealnie zbudowana infrastruktura, która działa bez ścisłych procedur i właściwej konserwacji, nie zapewni oczekiwanego czasu bezawaryjnej pracy.

W celu ustanowienia możliwości Data Center musimy zdefiniować ograniczenia obiektu, infrastruktury i lokalizacji. Podczas tych rozważań bierze się głównie pod uwagę:

  • fizyczną infrastrukturę (w tym: moc elektryczną, moc chłodniczą, przestrzeń fizyczną, telekomunikację, posiadaną redundancję dla wszystkich elementów)
  • możliwości obsługi (w tym: umiejętności, wiedzę , możliwości adaptacji w czasie)
  • możliwości zapewnienia bezpieczeństwa fizycznego
  • możliwości zapewnienia bezpieczeństwa pracy (BHP)
  • posiadane umowy serwisowe, suport
  • możliwości wynikające z obowiązujących przepisów

Podczas adresacji wszystkich punktów, możliwe jest wzięcie pod uwagę oczekiwań związanych z bezawaryjną pracą ze względu na zbudowaną infrastrukturę, ale także na możliwości redundancji utrzymywanych aplikacji lub sposobu działania (lustrzane obiekty, przetwarzanie w chmurze (cloud computing) itp.). Każdy brak lub niedoskonałość powinna być zaadresowana i przed przyjęciem SLA do realizacji poprawnie przeanalizowana.

Poziom infrastruktury zgodnie ze zdefiniowanymi standardami

Oczekiwania dotyczące czasu pracy można wskazać w oparciu o wykonaną infrastrukturę, bazując na wytycznych Rated wg ANSI/TIA-942 lub TIER według Uptime Institute. Bardzo ważne jest by zrozumieć, że tak określony poziom infrastruktury dotyczy wyłącznie obiektu i infrastruktury, która jest na nim wybudowana. Dla uzgodnionych poziomów usług, sama infrastruktura może nie być wystarczająca. Mogą się pojawić inne poziomy redundancji, które mogą być wymagane w celu spełnia uzgodnionych poziomów usług.

W tym miejscu warto przypomnieć określenia tych poziomów. W definicjach użyliśmy definiowane kiedyś przez rynek dostępności bazujące na szacunkach ANSI/TIA-942:

  • Rated-1 (dawniej Tier-1): Basic – pojedynczy tor do rozdziału mocy i chłodzenia, bez redundantnych komponentów, szacowana dostępność 96,671%
  • Rated-2 (dawniej Tier-2): redundant components – pojedynczy tor do rozdziału mocy i chłodzenia, redundantne komponenty, szacowana dostępność 99,741%
  • Rated-3 (dawniej Tier-3): concurrently maintanable – wiele torów dystrybucji zasilania i chłodzenia, minimum jeden tor aktywny, redundantne komponenty, możliwość współbieżnej konserwacji (concurrently mainainable), szacowana dostępność 99,982%
  • Rated-4 (dawniej Tier-4): fault tolerant – wiele torów dystrybucji zasilania i chłodzenia, dwa tory aktywne, redundantne komponenty, odporny na uszkodzenia (fault tolerant), szacowana dostępność 99,995%

Oczywiście wiele osób trzyma się kurczowo szacowanych dostępności, lecz musimy zwrócić uwagę, że szacunki określające te wartości już kilka lat temu zniknęły ze standardów jak i wielu opracowań. Jest to wynikiem opisanej zależności. Dane procentowe powyżej dotyczą tylko i wyłącznie infrastruktury. Jednakże dostępność usług wynika z większej ilości aspektów (obsługa, telekomunikacja, oprogramowanie itp) i musi być poprawnie przeanalizowana.

Definicja sposobu pomiaru czasu pracy / dostępności

Ważnym aspektem pomiaru czasu przestojów w ramach umowy SLA jest wyraźne określenie, gdzie i jak należy mierzyć czas pracy/dostępności. Musi również jasno określać, co stanowi przestój i co jest dopuszczalne pod względem awarii sprzętu.

Kluczem do zdefiniowania oczekiwanego pomiaru czasu pracy / dostępności jest określenie, gdzie i jak jest mierzona ta wartość. Oznacza to, że zdefiniowanie co jest pracą a co nie jest poprawną pracą jest bardzo ważne.

Zróbmy to na przykładzie.

Mamy na obiekcie równoległy system UPS, składający się z dwóch UPS pracujących w układzie N+1, jeden z urządzeń ma awarię. System UPS-ów ma awarię i przestój w pracy, więc należy to uważać za przestój. Jednakże nie mamy przestoju na prawidłowym działaniu układu zasilania szafy rack. Cały czas na wyjściu jest prąd do zapewnienia prawidłowej pracy.

Ten przykład pokazuje nam, że określenie czasu pracy / dostępności musi jasno określić co będzie znajdowało się w obszarze naszej kontroli i co będzie definiowane jako przestój. Ważnym aspektem jest także analiza czy dany element jest przez nas zarządzany. Nie można budować zobowiązań, których nie możemy kontrolować lub które nie mają zapewnionego odpowiedniego wsparcia, nie są pod kontrolą zarządzania. W żadnym wypadku nie wymaga to, aby wszystkie prace były wykonywane wyłącznie przez personel wewnętrzny. Możliwe jest, że wsparcie zewnętrzne ma zastosowanie, ale zewnętrzna obsługa musi być zarządzana przez inną umowę SLA, która jest kontrolowana przez SLA ustanowione w ramach dostarczanych usług Data Center.

Warto od razu powiedzieć sobie co jest czym w naszym wypadku działania.

Zdefiniowane punkty danych, które są częścią wskaźników KPI.

Niestosowne i źle zdefiniowane punkty danych ostatecznie doprowadzą do niezadowolenia klientów. Mogą skutkować zgodnością z uzgodnionym SLA, ale również skutkować niespełnieniem oczekiwań klienta, ponieważ ten będzie oczekiwał innego poziomu usług.

Źle zdefiniowane punkty danych prowadzą do niekończących się dyskusji i negocjacji cenowych, a nawet mogą doprowadzić do potencjalnej utraty klientów i / lub miejsc pracy.

Czym są te zdefiniowane punkty danych? Są to elementy, które składają się na usługę SLA i są mierzalne. Na te punkty składa się sporo kategorii.

Pierwszym krokiem jest definicja kategorii. Może to być kluczowa funkcja biznesowa lub usługi, które są zarządzane. W przypadku każdej funkcji biznesowej i powiązanej usługi, należy ustalić ramy czasowe, dla których ta usługa musi być dostępna. Niektóre usługi mogą być wymagane tylko w godzinach pracy biura, podczas gdy inne usługi mogą być potrzebne w trybie 24×7.

Zarówno dostawca usług, jak i klient muszą zdefiniować zakres odpowiedzialności za każdą dostarczoną usługę, aby uniknąć pomyłki związanej z własnością zadań i odpowiedzialności.

Kolejnym elementem jest określenie miernika poziomu usługi określając, co jest mierzone pod względem pracy wykonywanej przez usługodawcę. Bardzo często odbywa się to w procentach np. systemy muszą być dostępne w 99,90%.

Następnie należy określić, w jaki sposób obliczany jest procent, aby formuła została zdefiniowana za pomocą parametrów wejściowych. Powodem tego jest to, że obliczanie procentu dostępności w ciągu jednego dnia znacznie różni się od mierzenia tego samego w okresie jednego roku. Jedna minuta przestoju w ciągu dnia jest o wiele większa procentowo w porównaniu z minutą w okresie jednego roku.

Należy również ustalić przedział czasowy dla pomiarów, w tym okres sprawozdawczy.

Raportowanie wymaga danych wejściowych, dlatego należy określić poprawne dane wejściowe, aby możliwe było obliczenie miernika. Obowiązki z tego wynikające są zapisywane, a w nich informacja, jakie dane są rejestrowane, które są gromadzone, w jakim formacie, przez kogo i gdzie oraz jak długo te dane będą przechowywane.

Następnym bardzo ważnym elementem jest komunikacja podczas zarządzania umowami SLA, tymi wewnętrznymi jak i zewnętrznymi. Dlatego też należy jasno opisać, w jaki sposób komunikacja przebiega w przypadku normalnych działań i raportów, a także w razie eskalacji.

Eskalacje mogą być operacyjnymi eskalacjami zdarzeń, które są niezgodne z codzienną sytuacją lub gdy umowy SLA nie są spełnione przez dłuższy czas, w którym może zaistnieć potrzeba zaangażowania kierownictwa wyższego szczebla.

Gdy występują wyjątki, takie jak niezgodności, należy nałożyć kary lub wymagać ich nałożenia. W niektórych przypadkach, choć rzadko, mogą pojawić się nagrody w umowie za lepszą niż wymagana wydajność.

Aby mieć pewność, że właściwa nagroda lub kara ma zastosowanie, do celów obliczeniowych należy zdefiniować formułę, która powinna zawierać poprawne punkty danych.

Poniżej przedstawiam elementy punktów danych, które powinny być określone do każdej umowy świadczenia usług dla obiektu Data Center:

  • Definicja kategorii – opis kluczowej funkcji, procesu, funkcja obiektu lub procedura, która jest mierzona, zgłaszana i stale ulepszana
  • Ramy czasowe (dostępność) – określenie dat i godzin, podczas których jest mierzony określony poziom usług , zwykle wskazując na włączenie lub wyłączenie świąt państwowych
  • Założenia / obowiązki – oświadczenie o szczególnych wymaganiach, które muszą być spełnione przez dostawcę i odbiorcę, aby zachować zgodność z umową SLA
  • Miernik poziomu usługi – pomiar wymaganej pracy wykonywanej przez dostawcę usługi, zwykle wyrażony w procentach
  • Wzór pomiaru – opis formuły matematycznej używanej do mierzenia dostarczanych usług
  • Przedział pomiarowy / okres sprawozdawczy – okres pomiaru, który określa, czy poziomy usług zostały przekroczone, spełnione lub nie zostały spełnione
  • Źródła danych – opis rodzaju i pochodzenia danych, które będą gromadzone, gdzie i jak będzie przechowywany i kto będzie odpowiedzialny za nie
  • Komunikacja – określa, kto jest powiadamiany i kiedy, jeśli dostawca lub usługi jest poza akceptowalnym zakresem, obejmuje to „aktywność eskalacyjną” na co dzień sytuacje niezgodności oraz „zarządzanie eskalacją” w przypadkach, w których zgodność nie została osiągnięta w trakcie zdefiniowanego okres pomiaru
  • Wyjątki umowne, kary i nagrody – opisuje wszelkie wyjątki umowne, nagrody i kary zawarte w umowie
  • Formuła matematyczna nagrody / kary – opis formuły matematycznej stosowanej do nagród i kar

Reasumując, umowy dotyczące poziomu usług mają kluczowe znaczenie dla świadczonych przez nas usług i bezpośrednio wpływają na czas pracy czy też na zysk. Konieczne jest mierzenie wydajności naszego SLA i określanie prawidłowych oczekiwań wobec klientów.

Pamiętajmy:

  • Musimy pamiętać, że istnieje silna relacja między klientami, dostawcami usług, infrastrukturą, dostawcami czy też podwykonawcami.
  • Umowy dotyczące poziomu usług muszą być dobrze zdefiniowane w celu uniknięcia zamieszania, frustracji i ostatecznie strat biznesowych.
  • Punkty danych do umowy SLA muszą być dobrze zdefiniowane i zmierzone
  • Cykl zarządzania poziomem usług SLM odgrywa ważną rolę w utrzymywaniu umowy SLA

Polecamy zapoznanie się ze standardem EPI-DCOS – pierwszy na świecie standard zarządzania operacyjnego obiektów Data Center. Kopię standardu można zakupić tutaj.

Jeśli mają Państwo pytania w tym zakresie zapraszamy do kontaktu lub komentarzy.

 

One Response to “SLA (Service Level Agreement) dla obiektu Data Center

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *