Amazon își cere scuze pentru problemele cu AWS

Peste 1.000 de platforme, inclusiv Snapchat și Reddit, au fost afectate de o pană de câteva ore cauzată de o eroare internă la Amazon Web Services.

Amazon își cere scuze pentru că a negat în mod greșit că șoferii trebuie să urineze în sticle
RecomandariAmazon își cere scuze pentru că a negat în mod greșit că șoferii trebuie să urineze în sticle

Luni, o defecțiune tehnică la Amazon Web Services (AWS) a lăsat mii de servicii globale fără conexiune, printre care bănci, jocuri online și chiar dispozitive inteligente pentru casă. O singură eroare a avut un impact considerabil asupra multor platforme, iar utilizatorii au resimțit efectele pe tot parcursul zilei.

Ce platforme au fost afectate

Peste 183 mii de români au intrat în Pilonul III de pensii. Randamentul a ajuns la 19,6 la sută
RecomandariPeste 183 mii de români au intrat în Pilonul III de pensii. Randamentul a ajuns la 19,6 la sută

Problema a apărut în dimineața zilei de 20 octombrie, în regiunea AWS US-EAST-1 din Virginia de Nord. Printre serviciile care au avut de suferit se numără Roblox, Fortnite, Venmo și aplicația bancară Lloyds. Un caz aparte a fost cel al paturilor inteligente Eight Sleep, care s-au blocat în poziție înclinată sau s-au supraîncălzit după pierderea conexiunii la internet.

Majoritatea serviciilor și-au revenit în câteva ore, însă unele, cum ar fi aplicația Lloyds, au funcționat intermitent până după-amiază. Efectul de domino a fost resimțit la nivel global, iar mulți utilizatori au întâmpinat dificultăți în accesarea platformelor preferate.

Impactul a fost atât de mare încât chiar și dispozitivele inteligente pentru casă, precum paturile Eight Sleep, au avut probleme de funcționare, ceea ce a dus la disconfort pentru utilizatori.

Cauza întreruperii și explicațiile oferite

Amazon a explicat că problema a apărut la sistemele automate care gestionează înregistrările DNS, esențiale pentru ca site-urile să poată fi găsite pe internet. Aceste sisteme funcționează ca o agendă globală, direcționând calculatoarele către adresele corecte. Când procesele interne ale AWS au ieșit din sincronizare, sistemul de „adresare” digitală a devenit inutilizabil.

Ce este o „condiție de concurență latentă”

Amazon a precizat că o succesiune rară de evenimente a activat un bug ascuns în codul platformei. Dr. Junade Ali, inginer software și membru al Institutului pentru Inginerie și Tehnologie, a declarat: „Motivul tehnic specific este că o automatizare defectă a stricat sistemele interne de „agenda de adrese” de care se baza regiunea,”

„Așadar, nu au putut găsi unul dintre celelalte sisteme cheie.”

Defecțiunea a avut loc fără intervenție umană, ceea ce arată că sistemele automate pot avea uneori rezultate neașteptate și pot genera probleme greu de anticipat.

Amazon a subliniat importanța serviciilor sale pentru clienți, afirmând: „Ne cerem scuze pentru impactul pe care acest eveniment l-a avut asupra clienților noștri,”

„Știm cât de critice sunt serviciile noastre pentru clienții noștri, pentru aplicațiile și utilizatorii lor finali și pentru afacerile lor.”

„Știm că acest eveniment a afectat mulți clienți în moduri semnificative.”

„Facem tot ce putem”

„condiție de concurență latentă”

Durata și reacțiile după incident

AWS controlează o mare parte din piața globală de cloud computing, iar când o regiune importantă, cum este US-EAST-1, întâmpină probleme, efectele se resimt rapid. Compania a menționat că a fost nevoie de repornirea manuală a mai multor procese critice pentru a restabili serviciile.

Experții recomandă diversificarea furnizorilor de servicii cloud pentru a reduce riscul unor astfel de incidente. Dr. Ali a spus: „Astfel încât să poată comuta pe alte centre de date și furnizori atunci când unul nu este disponibil.”

„În acest caz, cei care aveau un punct unic de eșec în această regiune Amazon erau susceptibili să fie scoși din funcțiune,”

Acest incident a evidențiat cât de mult depind companiile și utilizatorii de câțiva furnizori mari de cloud, precum AWS și Microsoft Azure. Mulți specialiști cred că este nevoie de o infrastructură mai rezistentă și de alternative pentru a preveni astfel de probleme în viitor.

Amazon a promis că va face tot posibilul să învețe din acest eveniment și să îmbunătățească disponibilitatea serviciilor sale, pentru a preveni repetarea unor incidente similare.

Perspective pentru viitorul cloud computing-ului

Amazon a anunțat că va lua măsuri suplimentare pentru a crește stabilitatea sistemelor sale, însă această întrerupere a atras atenția asupra faptului că o mare parte din infrastructura digitală globală este concentrată în mâinile câtorva companii.

În perioada următoare, multe companii din domeniul tehnologiei vor analiza posibilitatea diversificării infrastructurii cloud pentru a reduce dependența de un singur furnizor. Patru dintre cele mai mari platforme afectate au început deja să evalueze alternative, iar presiunea asupra AWS de a preveni astfel de incidente va crește.

Rămâne de văzut dacă acest incident va determina o schimbare semnificativă în modul în care companiile își gestionează infrastructura digitală. Pentru moment, însă, mulți utilizatori și afaceri au învățat cât de importantă este pregătirea pentru situații neprevăzute în mediul online.

„rezistent la întreruperi”

Sursa: financiarul.ro