Warsztaty z zarządzania Data Center – część I strategia operacyjna

Przestój w Data Center (Centrum Przetwarzania Danych) może mieć ogromne skutki dla firmy. W zależności od czasu i rozmiaru, może spowodować straty lub nawet doprowadzić do zamknięcia prowadzonej działalności. Jak wynika z badań prowadzonych przez niezależne instytucje, przestoje w Data Center są w większości skutkiem błędów popełnianych przez pracowników w trakcie działań operacyjnych, prac eksploatacji lub utrzymania. Nieodpowiednie wdrożenie procesów operacyjnych może więc sprawić, że nawet obiekt, który został wykonany według najwyższego poziomu bezpieczeństwa, będzie funkcjonował jak obiekt posiadający najniższe zabezpieczenia.

Należy zauważyć, że nawet przy najlepszych projektach technicznych, najwyższej jakości instalacjach, profesjonalnym wyposażeniu, możliwe jest, że zainstalowane systemy mogą niespodziewanie zawieść. Chociaż w większości przypadków zainstalowana redundancja w infrastrukturze krytycznej powinna zapobiegać natychmiastowemu przestojowi, możliwość szybkiego dostępu do zasobów w postaci wykwalifikowanego personelu i posiadania zapasowych elementów infrastruktury bezpośrednio na obiekcie jest kluczowa. Wprowadzenie tych elementów znacznie minimalizuje ryzyka i zapobiega przestojom. W dostępnych raportach ekspertów można wyczytać, że większość zanotowanych i przeanalizowanych awarii wynika ostatecznie z działania spowodowanego błędem ludzkim. Przyczyn jest wiele. Bardzo często jest to wynikiem rutynowej konserwacji, czy też prac przeprowadzonych przez niewystarczająco wykwalifikowany lub przeszkolony personel, czy też nieprawidłowej próby naprawienia usterki. Takie elementy są aktualnie głównymi przyczynami przestojów w obiektach Data Center.

Z takim problemami borykają się dziś osoby odpowiedzialne za prawidłowe działania infrastruktury systemów IT. Wiele z nich, z obawy o prawidłowość działań, decyduje się na próby zweryfikowania i wdrożenia prawidłowych standardów. Jednak osoby te stają przed problemem jak zacząć, jaką strategię przyjąć, co powinny zrobić i w jakiej kolejności.

W tym miejscu pojawia się konieczność określenia kluczowych punktów, ważnych w całym procesie operacyjnym, a następnie wzorców z jakich można skorzystać.

Niewątpliwie do jednego z najważniejszych punktów poza poziomem redundancji infrastruktury w Data Center można zaliczyć spójność procedur zarządzania operacyjnego, utrzymania i obsługi kluczowych systemów infrastruktury. Jest to konieczne dla zapewnienia ciągłej dostępności świadczonych usług. Właściwe procedury zarządzania obiektami, zapewnienie wykwalifikowanych oraz przeszkolonych pracowników wsparcia technicznego dla obsługi systemów krytycznych są niezbędne. Nie można lekceważyć znaczenia tych elementów.

Podczas poszukiwania najlepszego wzorca w tym zakresie przez długi okres nie można było powołać się na przepisy oraz standardy. Bardzo ciężko było znaleźć jednolite wytyczne. Z rozmów prowadzonych z osobami odpowiedzialnymi za Data Center wyłania się obraz, w którym w zależności od wiedzy i doświadczenia, każdy pracuje według własnych standardów. Głównie opiera się to na czynnościach rutynowych, powtarzalnych. Niestety wszystkie te procesy bazują na wierze w swoją nieomylność i nauce na błędach. Można powiedzieć, że cała wiedza jaką menadżerowie i ich pracownicy zdobyli znajduje się w nich samych a nie w organizacji. Takie podejście określone jako nieudokumentowane, silnie oparte na osobach jest mało bezpieczne i nie zapewnia ciągłości biznesowej. Nieocenionym wydaje się stosowanie standardów już wypracowanych przez innych. W innym przypadku dojście do oczywistych wniosków może zająć wiele miesięcy lub lat. Najczęściej dopiero ujawniony problemem pokazuje wszystkie słabości organizacji i stosowanych procedur. Od kilku lat widać, że wszystkie międzynarodowe firmy zajmujące się doradztwem już zidentyfikowały problem zarządzania operacyjnego. Wraz z pojawieniem się definicji Business Continuity rozpoczął się proces edukacji i dzielenia się tą istotną wiedzą. W zakresie zarządzania obiektami Data Center wyłaniają się dwa dokumenty, w których jeden nowszy staje się powoli uznawanym standardem dla wielu obiektów tego typu na świecie. Pierwszym dokumentem jest dokument Uptime Insitute o nazwie Operational Sustainability. Jest to zbiór wymagań funkcjonalnych stawianych przed infrastrukturą techniczna w odniesieniu już do znanych i uznawanych wytycznych w zakresie poziomów infrastruktury obiektów Data Center. Drugim dokumentem, nowszym, a za zarazem w moim przekonaniu kompletnym jest EPI-DCOS (Data Center Operational Standard). Dokument ten wskazuje wytyczne w zakresie wszystkich znanych czynności operacyjnych zapewniając zestawienie najważniejszych wytycznych do zarządzania obiektami typu Data Center. W moim przekonaniu narzędzie jakim jest EPI-DCOS jest kompletnym standardem wartym uwagi dla każdego i dla każdej branży. Warto zaznaczyć, że utrzymanie obiektów Data Center jak i utrzymanie innych obiektów przemysłowych, biurowych, produkcyjnych bazuje na tych bardzo podobnych czynnościach i zasadach działania. Myślę, że ten dokument może być inspiracją dla wszystkich.

W tym miejscu warto określić z czego składa się cały proces zarządzania Data Center. Nie jest to w istocie prosty element bazujący tylko i wyłącznie na prawidłowym serwisowaniu obiektu jak i szybkim naprawianiu usterek. Prawidłowo zaimplementowany proces utrzymaniowy ma o wiele więcej punktów do zaadresowania oraz bazuje na ciągłej analizie wykonywanych czynności. Całość działań na obiekcie jest związana z czynnościami określanymi jako cykl Deminga (określany też jako cykl PDCA). Ten cykl został upowszechniony przez kręgi związane z zarządzaniem jakością i normami ISO. Składa się z działań następujących po sobie w porządku logicznym:

  • ZAPLANUJ (ang. Plan): Zaplanuj lepszy sposób działania, lepszą metodę.
  • WYKONAJ, ZRÓB (ang. Do): Zrealizuj plan na próbę.
  • SPRAWDŹ (ang. Check): Zbadaj, czy rzeczywiście nowy sposób działania przynosi lepsze rezultaty.
  • POPRAW (ang. Act): Jeśli nowy sposób działania przynosi lepsze rezultaty, uznaj go za normę (obowiązującą procedurę), zestandaryzuj i monitoruj jego stosowanie.

Każda procedura powinna zostać wykonana w takim porządku co będzie stanowić bazę do ciągłych zmian pozwalających na ulepszenie działań.

Można się więc zastanowić od czego tak naprawdę zależy ciągłość biznesowa, bezpieczeństwo usług. Wiele osób z różnych obszarów powie, że od zastosowanych systemów, ilości redundantnych elementów, jakości urządzeń, a inni, że po prostu od szczęścia. Osoby te są w błędzie. Jak napisałem na wstępie artykułu wpływ ma na to czynnik ludzki, ponieważ większość procedur bazuje na czynnościach rutynowych, nieprawidłowych działaniach lub braku działań. To wskazuje jak wiele zadań zależy od wykwalifikowanego zespołu. Wiedza może zabezpieczyć nas przed popełnianiem ponownym błędem.

Czynności operacyjne można podzielić na kilkanaście zakresów. Poniżej umieściłem te najważniejsze choć nie obejmują jeszcze wszystkich:

– zarządzanie operacyjnym zespołem – w tym m.in. prawidłowe określenie zakresów obowiązków, odpowiedzialności, relacji, zastępstw w przypadku niedostępności, niezbędnych szkoleń, ścieżek rozwoju, zasad pracy zmianowej dla pracowników i zespołów,

– zarządzanie dostawcami – w tym m.in. sposób określenia zakresu pracy i dostępności, zarządzanie wymaganiami, procesem wyboru, oceną, odpowiedzialnością,

– zarządzanie utrzymaniem obiektu – w tym m.in. przygotowanie i zarządzenie programem utrzymania, definicje pojęć utrzymaniowych, określenie czynności utrzymaniowych, określenie sposobu realizacji usług i wyboru partnerów, minimalne wymogi kontraktów serwisowych i utrzymania, sposób raportowania, zarządzania gwarancjami, zarządzanie magazynem części zamiennych,

– zarządzanie bezpieczeństwem pracy na obiekcie – w tym m.in. przygotowanie pełnych planów zarządzania bhp, określenie instrukcji stanowiskowych, określenia instrukcji pozwolenia na pracę, planów ewakuacyjnych i bezpieczeństwa życia,

– zarządzenie procesem SLA (Service Level Management) – w tym m.in. określenie SLA obiektu, sposób przeglądu wymagań, określenie limitów obiektu, zarządzanie ciągłością działania, określenie punktów weryfikacji poprawnej realizacji umów SLA, określenie mierników pomiaru, sposób weryfikacji i raportowania,

– zarządzanie fizycznym dostępem  – w tym m.in. zarządzanie wymaganiami wdrożonych standardów np. ISO/IEC 27001, określenie procedur bezpieczeństwa, standardowych procedur operacyjnych, zarządzanie bezpieczeństwem fizycznym i zarządzania systemami bezpieczeństwa obiektu,

– zarządzanie codziennym działaniem operacyjnym – w tym m.in. określenie procedur np. ITIL, odpowiedzialności pracowników, sposób zarządzania środkami trwałymi, sposób zarządzania wprowadzaniem, instalacją i wyprowadzaniem, deinstalacją sprzętu z obiektu, sposobem realizacji transportów, przekazywania mienia, weryfikacji zakończonych instalacji,

– zarządzanie pojemnością obiektu – w tym m.in. określenia planowanej i aktualnej pojemności obiektu, limitami dla poszczególnych wartości krytycznych dla obiektu np. nośności stropu, mocy chłodniczej, mocy energetycznej itp. ,

– zarządzenie sposobem układania okablowania – w tym m.in. określenia zasad montażu, mocowania, oznakowania, prowadzenia tras kablowych,

– zarządzanie utrzymaniem czystości – w tym m.in. sposób utrzymania czystości, zarządzanie raportowaniem informacji o gazach zgodnie z przepisami, pomiary zabrudzenia, prewencyjne czyszczenie elementów, wymiany płynów,

– zarządzanie monitoringiem i systemami zintegrowanymi – w tym m.in. określenie punktów monitorowania, sposobu raportu błędów, problemów, sposobu archiwizacji, raportowania, przeglądu, zarządzania service desk,

– zarządzanie tworzoną dokumentacją i archiwum – w tym m.in. zarządzanie dokumentacją techniczną i operacyjną, sposób jej tworzenia, zatwierdzania, publikowania, archiwizowania, niszczenia,

– zarządzania cyklem życia systemów i urządzeń – w tym m.in. określenie żywotności określonych systemów, urządzeń, procedury i sposób zarządzania wymianą, określenie sposobu działań serwisowych, sposób raportowania, demontażu, ciągłej kontroli, testów,

– zarządzania ryzykiem i zgodnością – w tym m.in. ustaleniem zasad kontroli, audytów, przeglądów, przygotowanie rejestru ryzyka, określenia sposobu jego zarządzania i monitorowania.

Jak widać z powyższego zarządzanie częścią operacyjną obejmuje wiele czynności. Na domiar złego mogę dodać, że i tak wszystkie nie zostały powyżej wymienione i opisane. Cały proces jest niezwykle pracochłonny i wymaga dużej uwagi. W rozpoczęciu całości wdrożenia konieczny jest audyt wprowadzający weryfikację w celu określenia braków i niezgodności w aktualnie prowadzonych działaniach.

W celu przeprowadzania takiej analizy najlepszą praktyką jest wynajęcie zewnętrznych audytorów. Osobiście rekomenduję takie rozwiązanie. Z doświadczenia wiem, że osoby wprowadzone do organizacji z zewnątrz mogą zidentyfikować wiele niepotrzebnych, niebezpiecznych lub błędnych czynności wykonywanych przez zespoły operacyjne. Takie osoby mogą łatwo zweryfikować, jakie czynności zostały wykonane błędnie lub wcale. Wskazać luki w obowiązujących procedurach. Zauważyć to, czego nie widzimy w natłoku codziennej pracy. Celem audytora jest zweryfikować naszą pracę. Ustalenie, czy podstawowe elementy w zarządzaniu i utrzymaniu obiektu zostały zaimplementowane i czy działają bez zarzutu. Czasem wystarczy zadać kilka pytań i przeanalizować otrzymane odpowiedzi, a niekiedy wymaga to dogłębnej weryfikacji bazując na historii danych. Uzyskane informacje będą źródłem do potwierdzenia, że wdrożono zasady odpowiedzialności, organizacja ma odpowiednią dojrzałość, przestrzega zasad i procedur, a wszystkie procesy są prawidłowo udokumentowane. Oczywiście należy pamiętać, że w takim aspekcie kluczowym elementem są procedury, ich przestrzeganie oraz monitorowanie.

Po zapoznaniu się z listą braków oraz kroków jakie należy wykonać, trzeba zaplanować cały proces wprowadzania zmian z uwzględnieniem celów jakim mają służyć. Każda z odpowiedzialnych osób musi mieć pełną wiedzę, że taki proces wymaga poświecenia dodatkowej energii i pracy. Niestety nie jest możliwe wykonanie wszystkich zmian od razu. Każda zmiana wymaga czasu i rozsądku. W trakcie tego procesu pojawi się konieczność edukacji zespołów wewnętrznych i współpracowników, a także wielokrotnie swoich przełożonych. Jednakże z doświadczenia wiem, że sukcesywna praca, cierpliwość, determinacja, a także kreatywność pozwolą na wprowadzenie odpowiednich standardów. Wdrażanie strategii operacyjnej jest kluczem do prawidłowego działania każdego obiektu Data Center. Zaplanowanie, wdrożenie lub usprawnienie procesów operacyjnych z pewnością zredukuje ryzyko przestoju, jednocześnie zwiększając wydajność i efektywność danego Data Center. Jednakże pamiętajmy, że nie jest to cel, jaki musimy osiągnąć, jest to nieustanna podróż. Podróż, która będzie z dnia na dzień przybliżać nas do podnoszenia naszych standardów i jakości pracy.

Powyższy artykuł możecie przeczytać także w wydaniu nr. 4 magazynu RealEstate Manager sierpień-wrzesień 2017.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *