Cloudflare skrušen nakon najgoreg kvara od 2019

anketa.plus
Izvor: anketa.plus

Izvršni direktor Cloudflarea Matthew Prince izvinjava se zbog najgoreg prekida rada kompanije u posljednjih nekoliko godina i dijeli detalje o tome kako je promjena dozvola sistema baze podataka izazvala kaskadni efekat koji je srušio neka od najvećih imena na internetu

By

  • Alex Scroxton,Security Editor

Objavljeno: 19 nov 2025 17:04

Suosnivač i izvršni direktor Cloudflarea Matthew Prince opisao je problem od utorka 18. novembra koji je satima poremetio globalni internet promet kao najgori prekid u radu organizacije od 2019. godine, rekavši da gigant za upravljanje prometom nije iskusio problem koji je uzrokovao da većina osnovnog saobraćaja prestane teći kroz njegovu mrežu u više od šest godina.

“Prekid kao što je današnji je neprihvatljiv. Dizajnirali smo naše sisteme tako da budu visoko otporni na neuspjeh kako bismo osigurali da će saobraćaj uvijek nastaviti teći. Kada smo imali ispade u prošlosti, to je uvijek dovelo do toga da gradimo nove, otpornije sisteme”, rekao je Prince. “U ime cijelog tima u Cloudflareu, želio bih da se izvinim za bol koji smo danas nanijeli internetu.”

Ispad Cloudflarea počeo je u utorak u 11.20 UTC (6.20 EST) kada je njegova mreža počela da doživljava značajne neuspjehe u isporuci osnovnog prometa, što se običnim web korisnicima manifestiralo kao stranica s greškom koja ukazuje na kvar Cloudflare mreže kada su pokušali pristupiti korisničkoj stranici. Problem nije pokrenut sajber napadom ili zlonamjernom aktivnošću, već manjom izmjenom koja je uticala na datoteku koju koristi sigurnosni sistem Cloudflare Bot Management.

Cloudflare Bot Management uključuje model mašinskog učenja koji generiše botove „bodove“ za bilo koji zahtev koji prolazi kroz mrežu – ove rezultate koriste korisnici da bi dozvolili ili onemogućili botovima pristup njihovim sajtovima. Oslanja se na datoteku konfiguracije karakteristika koju model koristi da predvidi da li je zahtjev automatiziran ili ne, a budući da je krajolik botova tako dinamičan, osvježava se i prenosi uživo svakih nekoliko minuta posebno kako bi Cloudflare mogao reagirati na nove botove i napade.

Prekid je proizašao iz promjene u sistemskim dozvolama baze podataka koja je uzrokovala da navedena baza podataka daje višestruke unose u datoteku konfiguracije značajke. Datoteka se brzo povećavala i nažalost proširila se na sve mašine koje čine Cloudflare mrežu. Ove mašine – koje usmeravaju saobraćaj preko mreže – trebale su da pročitaju datoteku kako bi ažurirale sistem upravljanja botovima, ali pošto njihov softver ima ograničenje na veličinu fajla karakteristika, nije uspeo kada se pojavila datoteka značajki veća od očekivanog, što je dovelo do pada mašina.

DDoS konfuzija

Princ je rekao da su Cloudflareovi tehnički timovi u početku sumnjali da vide hiperrazmjerni napad distribuiranog uskraćivanja usluge (DDoS) zbog dva faktora. Prvo, Cloudflare-ova sopstvena statusna stranica, koja se nalazi izvan njegove infrastrukture bez ikakvih zavisnosti, slučajno je pala. Drugo, na početku perioda prekida, Cloudflare je imao kratke periode očiglednog oporavka sistema.

To, međutim, nije bio rezultat aktivnosti aktera prijetnji – radije se događalo zato što se datoteka karakteristika generirala svakih pet minuta upitom koji je pokrenut na ClickHouse klasteru baze podataka, koji je i sam bio u procesu ažuriranja kako bi se poboljšalo upravljanje dozvolama.

Dodgy fajl je stoga generisan samo ako je upit pokrenut na ažuriranom delu klastera, tako da je svakih pet minuta postojala šansa da se generišu i propagiraju normalni ili abnormalni fajlovi karakteristika.

“Ova fluktuacija učinila je nejasnim šta se dešava jer će se cijeli sistem oporaviti, a zatim ponovo otkazati jer su ponekad dobri, ponekad loši konfiguracijski fajlovi distribuirani našoj mreži”, rekao je Prince. “U početku nas je to navelo da vjerujemo da bi ovo moglo biti uzrokovano napadom. Na kraju je svaki ClickHouse čvor generirao lošu konfiguracijsku datoteku i fluktuacija se stabilizirala u neuspjelom stanju.”

Ove greške su se nastavile sve dok tehnički tim nije uspio identificirati problem i riješiti ga zaustavljanjem generiranja i širenja datoteke sa lošim karakteristikama, ručnim umetanjem “poznato dobrog” fajla u red za distribuciju, a zatim isključivanjem i ponovnim uključivanjem glavnog proxyja. Ovo je učinjeno, stvari su počele da se vraćaju u normalu od 14:30 pa nadalje, a broj osnovnih grešaka na Cloudflare mreži vratio se u normalu oko dva i po sata kasnije.

Rizik i otpornost

Iako sam Cloudflare nije bio napadnut od strane pretnje, prekid je i dalje ozbiljan problem sajber rizika iz kojeg treba naučiti lekcije ne samo u Cloudflareu, već i među svim organizacijama, bez obzira da li su klijenti ili ne. Izložio je dublji, sistemski rizik u tome što previše internetske infrastrukture leži na samo nekoliko ramena.

Ryan Polk, direktor politike u američkoj neprofitnoj organizaciji Internet Society, rekao je da se tržišna koncentracija među mrežama za isporuku sadržaja (CDN) stalno povećavala od 2020. godine: “CDN-ovi nude jasne prednosti – poboljšavaju pouzdanost, smanjuju kašnjenje i nižu tranzitnu potražnju. Međutim, kada je previše internetskog prometa koncentrirano unutar nekoliko pojedinačnih pristupnih tačaka, ovi mrežni kvarovi mogu poremetiti velike dijelove interneta.

“Organizacije bi trebale procijeniti otpornost usluga na koje se oslanjaju i ispitati svoje lance snabdijevanja. Koji su sistemi i provajderi kritični za njihovo poslovanje? Gdje postoje pojedinačne tačke neuspjeha? Kompanije bi trebale istražiti načine za diversifikaciju, kao što je korištenje više oblaka, CDN ili provajdera autentifikacije kako bi se smanjio rizik i poboljšala ukupna otpornost.”

Martin Greenfield, izvršni direktor Quod Orbis, platforme za kontinuirano praćenje, dodao je: „Kada jedna automatski generirana konfiguracijska datoteka može odvesti velike dijelove weba van mreže, to nije čisto Cloudflare problem, već problem krhkosti koji je postao uklopljen u način na koji organizacije grade svoje sigurnosne stekove.

“Automatizacija čini sigurnost skalabilnom, ali kada se automatizirana konfiguracija trenutno širi širom globalne mreže, ona također povećava neuspjeh. Ono što nedostaje većini organizacija, a ovdje je očito nedostajalo, je automatizirano osiguranje koje potvrđuje te konfiguracije prije nego što se aktiviraju. Automatizacija bez osiguranja je krhkost na skali i oslanjanje na jednog dobavljača za efikasnu strategiju ne može izdržati.”

Sa svoje strane, Prince je rekao da će Cloudflare preduzeti korake da smanji šanse da se takav problem ponovo pojavi u budućnosti. To uključuje učvršćivanje unosa konfiguracijskih datoteka koje je generirao Cloudflare na isti način kao što bi to bilo za korisnički generirane ulaze, omogućavanje globalnih prekidačkih prekidača za funkcije, rad na eliminaciji mogućnosti da dumpovi jezgra ili izvještaji o greškama preplave sistemske resurse i pregled načina kvara za stanje greške u svim njegovim osnovnim proxy modulima.

Pročitajte više o Upravljanju sigurnošću mreže

  • Autor: Joe O’Halloran

  • Cloudflare popravlja drugi prekid u radu u mjesec dana

    Autor: Alex Scroxton

  • Ispad Cloudflarea ometa javne web usluge

    Autor: Alex Scroxton

  • Autor: Joe O’Halloran