Lista sprawdzająca dla Data Center, czyli jak zidentyfikować ukryte luki w nawet najlepiej zaprojektowanych centrach danych

Kilka dni temu otrzymaliśmy bardzo ciekawe artykuły od Uptime Institute obejmujące kwestię weryfikacji sposobu działalności obiektu Centrum Przetwarzania Danych. Artykuły dotknęły niezwykle ważnej sfery, jaką jest działanie operacyjne i utrzymanie obiektów.

W tym miejscu warto podkreślić jedną z najważniejszych tez ekspertów „.Nawet najlepiej zaprojektowane Centra Przetwarzania Danych (Data Center) mogą mieć lub mają luki w swoich zabezpieczeniach”.

Bazując na analizach ekspertów z Uptime Institute, wiele firm posiada zaimplementowane kompleksowe systemy informatyczne. Każdy z takich systemów jest zabezpieczony przed awariami na wielu warstwach ochrony (np. poprzez aplikacje bezpieczeństwa, systemy kopii zapasowych, klastry itp.). Przyjęte założenia pokazują, że wszelkie długotrwałe awarie infrastruktury informatycznej, nie powinny być wynikiem nieprawidłowej infrastruktury, braku systemów czy też braku systemów tworzenia kopii zapasowych. Jak wynika z przeprowadzonych analiz głównym problemem są niewystarczające lub niewyedukowane zespoły zarządzające jak i brak prawidłowych procedur lub procesów utrzymaniowych dla krytycznej infrastruktury.

Wniosek jest niezwykle ciekawy i potwierdza wyniki wielu analiz krytycznych błędów w infrastrukturach IT.

Bazując na raporcie Uptime Institute oceny sposobu zarządzania i działalności operacyjnej dla kilkuset obiektów Data Center można stwierdzić, że wiele obiektów posiada braki w zakresie poprawnego zarządzania operacyjnego. Po analizie wyników raportu eksperci postawili przed sobą następujące pytania: W jaki sposób ocenić sposób zarządzania obiektami? Jakie pytania należy zadać by mieć pewność, że sposób zarządzania jest prawidłowy, bezpieczny i gwarantuje najwyższą jakość usług? W jaki sposób powinno się oceniać tego typu obiekty?

Odpowiedź na takie pytania okazała się dosyć prosta. Nie trzeba być ekspertem, aby ustalić, czy podstawowe elementy w zarządzaniu i utrzymaniu obiektu zostały zaimplementowane jak i działają bez zarzutu. Wystarczy zadać kilka pytań i przeanalizować odpowiedzi. Uzyskane informacje powinny być źródłem do potwierdzenia, że zaimplementowano zasady odpowiedzialności, organizacja ma odpowiednią dojrzałość, przestrzega zasad i procedur, a wszystkie procesy są prawidłowo udokumentowane. Oczywiście należy pamiętać, że w takim aspekcie kluczowym elementem są procedury, sposób ich zaimplementowania, przestrzegania oraz monitorowania.

Poniżej przedstawiamy przykład praktycznej listy kontrolnej dla każdego rodzaju obiektu. Lista powinna pozwolić na zidentyfikowanie obszarów koniecznych do poprawy oraz braków organizacyjnych związanych ze świadczeniem usług. Weryfikację działania można przeprowadzić wewnątrz swojej organizacji, zadając pytania swoim operatorom DC lub podczas procesu wyboru/oceny swojego/wynajmowanej przestrzeni, zadając pytania podwykonawcy/partnerowi.

Lista kontrolna:

  • Czy w pomieszczeniach komór składowane są materiały palne typu: tektura, papier itp. na przykład na podwyższonej podłodze w pomieszczeniu CPD, w pomieszczeniach baterii lub w pomieszczeniach elektrycznych? Wszystkie przychodzące urządzenia powinny być pozbawione opakowania w dedykowanym miejscu poza krytycznymi przestrzeniami.
  • Czy niededykowane przedmioty – meble biurowe, regały, narzędzia – przechowywane są w przestrzeni krytycznej? Może to stanowić zagrożenie pożarowe, bezpieczeństwa i zanieczyszczeń.
  • Czy wszystkie gaśnice na obiekcie mają odpowiednie oznakowania i są zdatne do użytku. Poproś o wgląd do dokumentacji opisującej przyjętą politykę i procedury utrzymania czystości.
  • Jeśli obiekt posiada podłogę techniczną, sprawdź stan podpór i przestrzeni pod podłogą. Obszar ten powinien być regularnie czyszczony – poproś o wgląd do harmonogramu prac ekip czyszczących.
  • Ilu pracowników ma dostęp do przestrzeni krytycznej? Sprawdź czy organizacja ma politykę dostępu dla personelu?
  • Zapytaj o wymagania związane z wejściem i szkoleniami dla pracowników oraz dostawców (serwisów producenta, podwykonawców itp.). Osoby nieuprawnione nie powinny być dopuszczone do krytycznych obszarów.
  • Sprawdź czy rozdzielnice elektryczne jak i elementy instalacji mechanicznych np. zawory mają oznaczone pozycje, w jakich występuje „normalna” praca? Stanowi to jeden z kluczowych punktów polityki prewencyjnej.
  • Upewnij się, że na wszystkich rozdzielniach jak i elementach elektrycznych jest oznaczenie związane z zabezpieczeniami przeciwzwarciowymi.
  • Poproś o dokumentację archiwalną, harmonogramy czynności konserwacyjnych związanych z bateriami, agregatami prądotwórczymi, systemami mechanicznymi (m.in. chłodzenia), systemami ppoż itp.
  • Zapytaj o dokumentację zatrudnionego personelu – ilość nadgodzin przekraczająca ponad 10% może prowadzić do wzrostu liczby awarii i błędów ludzkich powodujących nieplanowane przerwy w pracy. Sprawdź czy są udokumentowano role i obowiązki pracowników? Czy wymienione są wszystkie kwalifikacje?
  • Zapytaj o listę wykonywanych konserwacji prewencyjnych. Czy działania są w pełni udokumentowane? Jaki jest proces kontroli jakości nad czynnościami?
  • Kto i jak przechowuje najważniejszą dokumentację dotyczącą sprzętu, w tym informacje dotyczące gwarancji, zapisów dotyczących wymaganych konserwacji (wymagania producenta np. z DTR) oraz danych dotyczących prawidłowości ich działania?
  • Zapytaj o rejestry szkoleń, informacje o sposobie planowania rocznego budżetu jak i harmonogramy alokacji pracowników na zmiany.
  • Jaki jest aktualny proces przechowywania dokumentacji, biblioteki referencyjnej (powinien obejmować dokumentację personelu, wyposażenia, konserwacji, procedur i skryptów czynności na obiekcie jak i dokumentacji infrastruktury)?
  • Zweryfikuj czy są jakieś otwarte lub perforowane płyty podłogowe w korytarzach ciepłych? Czy na podniesionej podłodze są otwarte zamknięte otwory? Czy uszczelniono luki w szafach pomiędzy sprzętem IT? Zapytaj o zarządzanie energooszczędnością. Jeśli takiego nie ma, wskazuje to na słabe zarządzanie efektywnością system chłodzenia i brakiem przestrzegania dobrych praktyk zarządzania.

Powyższe punkty stanowią bazę do zrozumienia zakresu czynności operacyjnych i utrzymaniowych. Jeśli na powyższe pytania uzyskano satysfakcjonujące odpowiedzi, można w prosty sposób stwierdzić, że organizacja i zaimplementowane procesy działają prawidłowo. Jeśli podczas uzyskiwania odpowiedzi pojawiły się wątpliwości lub odpowiedzi były lakoniczne – nie potwierdzone żadnymi dokumentami – znaczy to tylko i wyłącznie, że zespół utrzymania bazuje na wiedzy ludzi i głównie na pojedynczych jednostkach. Takie zarządzanie może działać, ale nie jest adekwatne do oczekiwanego poziomu dla typu obiektu. Słabość takiej organizacji ujawni się przy pierwszej większej awarii. W przypadku problemów, choroby głównych specjalistów, zmian struktur, organizacja może utracić możliwości zarządzania ciągłością biznesową.

Jak na wstępie zasygnalizowano wiele procedur operacyjnych Centrów Przetwarzania Danych, nawet bardzo rygorystycznych, posiada luki w zabezpieczeniach i powinny być poddawane ciągłej poprawie. Niektóre elementy z powyższej listy kontrolnej są wystarczające, inne niedostateczne i wymagają interwencji.

Istnieją jednak inne symptomy wskazujące na problemy, jakie pojawiają się w zarządzaniu obiektami. Poniżej lista czynników, które są niezwykle ważne do kontroli zespołów operacyjnych. Jeśli na jakiekolwiek z poniższych pytań odpowiedź brzmi tak, to należy stwierdzić, że zarządzanie nie jest wystarczające, a ryzyko przerwy w działaniu rośnie z dnia na dzień.

  • Czy poczta głosowa personelu CPD jest przepełniona? Czy są emaile, na które nie ma odpowiedzi? Czy przekroczono limit rozmiaru skrzynki odbiorczej email? Czy pominięto jakieś spotkania lub spotkania rutynowe anulowano?
  • Czy zespół Centrum Przetwarzania Danych ma wystarczający czas na szkolenia? Czy brakuje właściwie wykwalifikowanego personelu? Czy pracownicy wykonują pracę poza ich kompetencjami? Czy występuje duża rotacja personelu?
  • Czy zaplanowane ostatnio prace serwisowe przekroczyły swój budżet? Czy przekroczono planowane koszty zużycia energii?
  • Czy przód lub tył serwerów i tras kablowych wygląda jak „spaghetti”? Czy brakuje prawidłowo oznakowanego okablowania? Czy brakuje wdrożonego unikalnego systemu oznakowania sprzętu? Jeśli wygląda to jak bałagan, to jest to bałagan.

Prawidłowo działające zespoły utrzymania infrastruktury powinny być zajęte realizacją zaplanowanych szczegółowo prac, wyciąganiem wniosków ze swoich niepowodzeń oraz zwracaniem uwagi na szczegóły. Wszystkie czynności operacyjne i utrzymaniowe powinny bazować na procesach, a nie na indywidualnościach

Polecamy skorzystać z tej listy kontrolnej, aby wykryć luki w działach operacyjnych i rozpocząć rozmowę z pracownikami, współpracownikami, dostawcami lub dostawcami usług.

Bieżące zarządzanie jak i czynności operacyjne mają największy wpływ na wydajność i bezpieczeństwo infrastruktury informatycznej. Stanowią jeden z najważniejszych elementów, w którym można wprowadzić procedury naprawcze. Pozwala to na zmiany i poprawę wykonywanych aktualnych czynności zarządzania i zminimalizowanie ryzyka związanego z ciągłością działania.

Pamiętajmy: „Doskonałość organizacyjna to ciągła podróż – nie cel. Organizacja musi się uczyć i poprawiać każdego dnia.”

 

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *