Zadziwiająca katastrofa T-Mobile na Annopolu

Pożar w data center na pewno nie jest sytuacją codzienną. Jednak w przypadku takiej firmy jak T-Mobile wydawać by się mogło, że przywrócenie ciągłości usług przez dobę nie powinno stanowić specjalnego problemu. Niestety, operator, który świadczy i chce nadal świadczyć usługi kolokacyjne i przetwarzania danych podmiotom zewnętrznym, nie podołał wyzwaniu.

Należy współczuć T-Mobile (oraz jego klientom), że na skutek pożaru na warszawskim Annopolu tak mocno ucierpiały call i data center operatora, co spowodowało problemy z dostępnością usług.

Niestety, nie sposób nie zauważyć, że na to zdarzenie losowe T-Mobile był bardzo słabo przygotowany. Operator ogłosił najpierw, że w 12 godzin udało mu się odzyskać pełną sprawność głównych usług, ale 4 lutego wydał komunikat, że pełna funkcjonalność „niemal” wszystkich usług telekomunikacyjnych w jego sieci została przywrócona. Oczywiście, T-Mobile interpretuje słowo „niemal” bardzo szeroko, bo np. – jak donosiły media – po 4 lutego nie działały usługi Heyah, niedostępna była aplikacja dla klientów „Mój T-Mobile” – umożliwiająca m.in. płatności za abonament – ani internetowe biuro obsługi MiBOA. Proces przenoszenia numerów został przywrócony 7 lutego. W odpowiedzi na komunikat z 4 lutego "Dziennik Zachodni" donosił (opierając się na informacjach od swych czytelników): „Niestety we wtorek, 5 lutego, awaria nadal daje się we znaki. Występują spore utrudnienia z dzwonieniem i wysyłaniem SMS. Wciąż nie można doładować konta. Sieć T-Mobile przyznaje, że nie jest w stanie wszystkim abonentom przywrócić wszystkich usług”.

Być może T-Mobile, wydając oficjalne komunikaty, chciał pokazać, że radzi sobie ze spełnianiem określonych wskaźników RTO (Recovery Time Objective) – czasu, w którym przedsiębiorstwo może funkcjonować bez procesów o znaczeniu krytycznym, oraz RPO (Recovery Point Objective) – akceptowalnego poziomu utraty danych, na który może sobie pozwolić organizacja. Wydawać by się z pozoru mogło, że przywrócenie ciągłości usług przez 12 lub 24 godziny dla takiej firmy jak T-Mobile, która świadczy i chce świadczyć usługi data center zewnętrznym podmiotom, nie powinno stanowić specjalnego problemu. Niestety, operator nie podołał wyzwaniu.

Wiele wskazuje, że Disaster Recovery Plan (DRP), czyli zestaw procedur niezbędnych do przetrwania działania firmy w przypadku katastrofy lub bardzo poważnej awarii, oraz Business Continuity Plan (BCP), czyli plan ciągłości działania, który ma pomóc ograniczyć skutki oraz skrócić okres niepewności w przypadku pojawienia się zakłóceń w prowadzeniu działalności, w przypadku T-Mobile (z jakichś powodów) nie sprawdziły się w praktyce. Zakładać należy, że takowe plany operator miał, choćby bardzo głęboko schowane w szafie.

Zastanawiające jest, ile podstawowych błędów zrobił T-Mobile. Dziwi już samo umiejscowienie data center w sąsiedztwie magazynu, w którym – jak wynika z relacji strażaków – było  dużo palnych materiałów. Był tam nie tylko skład artykułów spożywczych, ale i poligraficznych. Takie sąsiedztwo jest wbrew zasadom lokalizowania data center, które powinno znajdować się w miejscu bezpiecznym, a więc np. z daleko od dużych fabryk (zwłaszcza chemicznych), lotnisk czy elektrowni. Sąsiedztwo magazynów powoduje też, że do data center łatwy dostęp może mieć wiele osób (np. odwiedzających magazyny), co także jest niepożądane.

Inna zasada mówi, że budynek mieszczący data center, musi być odpowiednio wykonany. Powszechnie stosuje się ściany ze zbrojonego betonu, przy czym można wprowadzić dodatkową ochronę przed emisją ujawniającą za pomocą ekranu z prętów zbrojeniowych i ewentualnych dodatków zwiększających przewodność elektryczną. Patrząc na obiekty, które spłonęły i zapadły się na Annopolu, trudno przypuszczać, by spełniały te wymagania. Sami strażacy przyznawali, że ochrona części biurowej przed rozprzestrzenieniem się ognia (gdzie mieściły się biura T-Mobile) była bardzo trudna. Rodzi się więc pytanie, czy był tam odpowiedni system przeciwpożarowy? W przypadku data center stosuje się najczęściej systemy gaszenie specjalnym gazem. Jest on neutralny dla człowieka, a wypełnia przestrzeń pomieszczeń – odcinając tym samym dopływ tlenu do płonących elementów. Taką instalację trzeba oczywiście precyzyjnie zaprojektować i wykonać, aby zagwarantować 100 proc. wypełnienie gazem chronionego pomieszczenia.

Nawet jednak mimo tych potencjalnych słabości data center na Annoplu, kłopoty T-Mobile dziwią, bo operator ma też data center w innych miejscach Polski, takich jak Piaseczno, Wrocław czy Kraków. Firmy świadczące usługi z zakresu Business Continuity/Disaster Recovery zalecają posiadanie „lustrzanej” infrastruktury w innej lokalizacji. W takim scenariuszu dane są kopiowane do zapasowej serwerowni w trybie ciągłym, więc firma minimalizuje ryzyko ich utraty. Odpowiednia konfiguracja pozwala, by awaria głównej serwerowni pozostała niezauważona. I, jak lubią przy tym podkreślać, takie rozwiązanie jest skuteczne nie tylko w przypadku pożaru, ale i ataku nuklearnego, bo redundantne środowiska mogą być rozproszone nie tylko w kilku krajach, ale także na rożnych kontynentach. Wygląda, że T-Mobile nie wykorzystał (lub nieumiejętnie wykorzystał) do tego celu nawet własne centra w Polsce.

Być może T-Mobile, jak zwraca uwagę firma Veeam w swym badaniu przeprowadzonym wśród polskich klientów z 2017 r., było w gronie tych firm, które, co prawda, zainwestowały i wdrożyły rozwiązania ochrony dostępności usług, ale nie przeprowadzają regularnych testów lub nie tworzą odpowiednich polityk ochrony przed zagrożeniami. Według Veeam, to problem 60 proc. organizacji w Polsce, a 40 proc. zaniedbuje również testy technologii. Poprzestają na przeświadczeniu, że jednorazowa inwestycja w określoną technologię jest wystarczającą gwarancją.

Jaka jest cała prawda o data center T-Mobile na Annopolu być może nigdy się nie dowiemy, bo operator będzie wolał ją wstydliwie ukryć lub rozmydlić. Klienci usług kolokacyjnych operatora mogą jednak nabrać pewnych wątpliwości. T-Mobile wprawdzie podaje, że np. jego obiekt we Wrocławiu spełnia standardy techniczne i wymogi TIER III, więc należy przypuszczać, że nie sąsiaduje z magazynami z chińszczyzną czy fabryką chemiczną. I tym optymistycznym akcentem można zakończyć te rozważania.

Piątkowe komentarze TELKO.in mają charakter publicystyki – subiektywnych felietonów, stanowiących wyraz osobistych przekonań i opinii autorów. Różnią się pod tym względem od Artykułów oraz Informacji.

Postaw kawę autorowi