„Google“ paskelbė trumpą ataskaitą apie incidentą, sutrikdžiusį pusę interneto
„Google“ paskelbė „trumpą ataskaitą apie incidentą“, susijusį su jos debesų platformos veikimu, dėl kurio buvo sutrikdyta keletas pagrindinių paslaugų, įskaitant „Spotify“, „Discord“, „Snapchat“, „OpenAI“ ir paties paieškos milžino paslaugas.
„Mes labai apgailestaujame dėl šio paslaugų sutrikimo padarinių, kurie paveikė visus mūsų vartotojus ir jų klientus. „Google Cloud“ savo darbo krūvius patiki tiek didelės, tiek mažos įmonės, ir mes dirbsime geriau. Artimiausiomis dienomis paskelbsime išsamią incidento ataskaitą, nurodydami priežastį, tikslius laiko rėmus ir patikimas priemones problemai pašalinti. Atsižvelgdami į šio incidento mastą ir pasekmes, norime pateikti tam tikrą informaciją žemiau“, – teigiama bendrovės pareiškime.
Remiantis oficialiais duomenimis, incidentas įvyko birželio 12 d. 10:49 Ramiojo vandenyno laiku (21:49 Maskvos laiku), o visų sistemų veikla buvo atkurta per tris valandas – 13:39 (birželio 13 d. 11:49 Lietuvos laiku); sutrikimas paveikė „Google“ sistemas visame pasaulyje. Pagrindinis problemos simptomas buvo staigus „503 klaidos“ atsakymų skaičiaus padidėjimas keliuose „Google Cloud“ ir „Google Workspace“ produktuose, gavus išorinius API užklausas.
„Pagal mūsų pirminę analizę, problema kilo dėl netinkamo automatinio kvotų atnaujinimo mūsų API valdymo sistemoje, kuris pasklido visame pasaulyje ir sukėlė atmetimą vykdant išorines API užklausas. Norėdami atkurti veiklą, įjungėme kvotų tikrinimo apeitį, kuri leido atkurti veiklą daugelyje regionų per dvi valandas. Tačiau kvotų politikos duomenų bazė us-central1 regione buvo perkrauta, todėl atkūrimas tame regione užtruko daug ilgiau. Keletas produktų patyrė nedidelius likutinius padarinius (pvz., neįvykdytas užduotis) valandą po pagrindinės problemos pašalinimo, o po to įvyko dalinis atkūrimas“, – teigiama trumpoje ataskaitoje.
Kad ateityje būtų išvengta panašių sutrikimų, bendrovė pažadėjo imtis šių priemonių:
- užkirsti kelią API valdymo platformos sutrikimams dėl sugadintų duomenų;
- neleisti globaliai diegti metaduomenų be tinkamos apsaugos, testavimo ir stebėjimo;
- patobulinti sisteminių klaidų tvarkymą ir visapusišką testavimą, skirtą valdyti sugadintus duomenis.