W nawiązaniu do porannego komentarza na TELKO.in Sytuacja kryzysowa przerosła OVH w Polsce, o wczorajszej awarii firma przesłała oświadczenie CEO OVH wyjaśniające przyczynę wydarzenia:
Wczoraj rano miał miejsce incydent w sieci światłowodowej, która łączy nasze centrum danych Roubaix (RBX) z 6 z 33 punktów międzynarodowej wymiany ruchu (POP) wchodzącymi w skład naszej sieci szkieletowej: Paryżem (TH2 oraz GSW), Frankfurtem (FRA), Amsterdamem (AMS), Londynem (LDN), Brukselą (BRU).
Centrum danych RBX jest połączone za pomocą 6 światłowodów do 6 punktów POP : 2x RBX<>BRU, 2x RBX<>LDN, 2x RBX<>Paris (1x RBX<>TH2 oraz 1x RBX<>GSW). Te łącza prowadzą do systemu nodów sieciowych, które dają nam 80 długości fal na 100Gbps w każdym światłowodzie.
Na każde pasmo 100G podłączone do routerów, wykorzystujemy 2 ścieżki optyczne, które są geograficznie odrębne. W przypadku przerwania światłowodu, na przykład w przypadku prac ziemnych, system jest ponownie konfigurowany w ciągu 50ms i wszystkie łącza pozostają aktywne.
Do połączenia Roubaix z punktami POP wykorzystujemy przepustowość 4,4TBps, czyli 44 łącza po 100G każde: 12x 100G do Paryża, 8x100G do Londynu, 2x100G do Brukseli, 8x100G do Amsterdamu, 10x100G do Frankfurtu, 2x100G do centrum danych Graveline (GRA) oraz 2x100G do centrum danych w Strasburgu.
O 8:01 nagle wszystkie łącza 100G, z 44 dostępnych, utraciły połączenie. Biorąc pod uwagę system redundancji, który mamy wdrożony, przyczyną problemu nie mogło być przecięcie wszystkich 6 światłowodów jednocześnie.
Nie mogliśmy przeprowadzić diagnostyki zdalnie, ponieważ interfejs zarządzania nie był dostępny. Musieliśmy podjąć więc interwencję bezpośrednio w sali routingu, bezpośrednio na urządzeniu sieciowym: odłączyliśmy kable sieciowe, aby zrestartować system i w końcu przeprowadzić diagnostykę z dostawcą urządzeń sieciowych. Próby zrestartowania urządzeń trwały bardzo długo, każde urządzenie uruchamiało się od 10 do 12 minut. To główny czynnik odpowiedzialny za czas trwania awarii.
Diagnostyka: wszystkie karty transponderów, których używamy: ncs2k-400g-lk9, ncs2k-200g-cklc, przeszły w tryb «standby». Taka sytuacja ma miejsce, gdy zostaje utracona konfiguracja. Przywróciliśmy więc poprzednią konfigurację z kopii zapasowej, dzięki czemu system ponownie skonfigurował wszystkie karty transponderów.
Komunikacja z routerami została przywrócona, a połączenie RXB z sześcioma punktami POP ponownie ustanowione o godzinie 10:34.
Powodem awarii jest błąd oprogramowania w urządzeniach sieciowych. Baza danych z konfiguracją jest rejestrowana trzy razy i kopiowana na dwie karty monitorujące. Mimo wszystkich tych zabezpieczeń baza zniknęła. Będziemy kontynuować współpracę z producentem sprzętu, aby znaleźć przyczynę problemu i doprowadzić do jak najszybszego usunięcia błędu oprogramowania. Nie wycofujemy zaufania, jakim darzymy dostawcę urządzeń, nawet jeżeli ten typ błędu jest szczególnie krytyczny. Wymagana dostępność jest kwestią projektu, który uwzględnia wszystkie przypadki, w tym sytuacje, kiedy wszystko przestaje działać. Tryb ograniczonego zaufania w OVH musi być jeszcze głębiej rozwinięty we wszystkich naszych projektach.
Błędy w oprogramowaniu mogą istnieć, awarie, które dotykają naszych klientów nie. Najwyraźniej mamy do czynienia z niedociągnięciem po stronie OVH, gdyż mimo istotnych inwestycji w sieć, światłowody, technologie, właśnie doświadczyliśmy dwóch godzin przerwy w usłudze w całej naszej infrastrukturze w Roubaix.
Jednym z rozwiązań jest stworzenie 2 systemów węzłów światłowodowych zamiast jednego. Oznacza to istnienie dwóch baz danych, co w przypadku utraty konfiguracji spowodowałoby awarię jedynie jednego systemu. Jeśli 50 proc. łączy przechodzi przez jeden z systemów, utracilibyśmy dzisiaj 50 proc. wydajności, nie zaś 100 proc. połączeń
Jest to jeden z projektów, którego realizację rozpoczęliśmy miesiąc temu, urządzenia zostały już zamówione i czekamy na ich dostawę w najbliższych dniach. W ciągu dwóch tygodni będziemy mogli rozpocząć prace konfiguracyjne oraz migrację. Biorąc pod uwagę dzisiejszy incydent, projekt ten staje się dla nas absolutnie priorytetowy w odniesieniu do całości naszej infrastruktury, wszystkich centrów danych i punktów obecności (PoP).
W branży dostawców rozwiązań chmurowych jedynie ci, którzy nie ufają nigdy do końca, są odpowiednio zabezpieczeni. Jakość usług jest konsekwencją dwóch elementów: wszystkich incydentów wynikających z projektu infrastruktury oraz awarii spowodowanych niedociągnięciami, z których wyciągamy naukę. Dzisiejszy incydent skłania nas do ustawienia poprzeczki jeszcze wyżej, abyśmy mogli osiągnąć poziom ryzyka bliski zeru.
Jest nam niezmiernie przykro z powodu przerwy w usłudze trwającej 2 godz. 33 minuty w obiekcie w Roubaix. W najbliższych dniach klienci, którzy odczuli negatywne skutki awarii otrzymają wiadomość mail dotyczącą naszych zobowiązań SLA.
Z poważaniem,
Octave Klaba