Poważne zakłócenia wpływające na części Internetu miały miejsce w środę po południu, kiedy platforma chmurowa Azure firmy Microsoft doznała nieoczekiwanej awarii. Incydent uwydatnia ciągłe wyzwania stojące przed dużymi dostawcami usług w chmurze w zakresie zapewnienia stałej dostępności usług.
Rozwój incydentu
Problemy techniczne zaczęły się około godziny 16:00 czasu UTC (12:00 czasu wschodniego), kiedy wiele firm i usług internetowych na całym świecie w dużym stopniu opiera się na infrastrukturze chmurowej. Strona stanu usług platformy Azure potwierdziła awarię, powołując się na problemy ze składnikiem Azure Front Door (AFD), który zarządza routingiem ruchu internetowego.
Zespół platformy Azure zidentyfikował „niezamierzoną zmianę konfiguracji” jako najbardziej prawdopodobną przyczynę powszechnej utraty usług. W odpowiedzi na kryzys inżynierowie Azure wdrożyli procedury awaryjne:
- Blokada konfiguracji: Natychmiast zawieszono wszystkie zmiany konfiguracji usług Azure Front Door, zarówno wewnętrzne ustawienia firmy Microsoft, jak i ustawienia klienta.
- Przywracanie systemu: W tym samym czasie zaczęto przywracać problematyczną konfigurację Azure Front Door do stabilnego stanu, w którym działała przed wystąpieniem problemów.
Wpływ na użytkowników i usługi
Ta awaria techniczna miała wymierne konsekwencje dla użytkowników Internetu i firm na całym świecie. Za pośrednictwem serwisów takich jak Downdetector napłynęły zgłoszenia wskazujące na powszechne problemy z dostępem do:
- Microsoft 365 (w tym Outlook.com i aplikacje Office)
*Minecrafta - Usługi Xbox Live
*Inne witryny i aplikacje hostowane na platformie Azure
Usterka była szczególnie zauważalna dla użytkowników Minecrafta i Xboxa, a liczne skargi online potwierdziły powagę problemu dla graczy. Awaria dodała kolejny poziom do rosnących obaw o niezawodność usług w chmurze po podobnym incydencie w Amazon Web Services (AWS) zaledwie kilka dni później.
Czy to znajomy wzór?
Była to druga znacząca awaria platformy Azure w tym miesiącu. Platforma jest podstawą niezliczonych stron internetowych, aplikacji i systemów korporacyjnych na całym świecie. Chociaż platforma Azure zapewnia krytyczne usługi w chmurze dla wielu firm i platform, hostując krytyczne dane i infrastrukturę, powtarzające się incydenty uwypuklają nieodłączne wyzwania związane z zapewnieniem absolutnej dostępności tak rozległych i złożonych systemów.
Wniosek: przywrócenie usług – pozostają pytania
Około 14:30 ET raporty użytkowników wskazują, że rozpoczęło się przywracanie usług dla niektórych platform zależnych od platformy Azure. Firma Microsoft potwierdziła, że wdraża „ostatnią znaną dobrą konfigurację”, która ma przywrócić pełne usługi w ciągu około 30 minut.
Chociaż bezpośredni kryzys został zażegnany, powtarzanie się poważnych awarii na platformach Azure i AWS rodzi szersze pytania dotyczące niezawodności nowoczesnej infrastruktury internetowej i ogromnej złożoności zarządzania globalnymi platformami chmurowymi
