Wer am Dienstag im Internet unterwegs war, hat vermutlich auf der einen oder anderen Seite den mittlerweile berühmten Fehler 500 von Cloudflare zu Gesicht bekommen. Zwischen 12:30 Uhr und 15:30 Uhr deutscher Zeit waren somit zahllose Seiten und Services nicht erreichbar. Darunter Ikea, PayPal, ChatGPT, X (vormals Twitter) und andere. Auch Notebookcheck war betroffen.
Cloudflare bietet verschiedene Dienste für Webseitenbetreiber
Wenn man von den größten Akteuren im Internet spricht, sind es normalerweise Amazon, Google, Microsoft und Meta (Facebook) die als Erstes genannt werden. Fällt hier etwas aus, funktionieren große Teile des Internets nicht mehr. Eher unbeachtet blieb bisher Cloudflare, eine Firma die primär Webseiten beschleunigt und gegen Angriffe schützt. Viele Webseiten und Dienste verlassen sich auf die Dienste von Cloudflare um Ladezeiten zu verkürzen und ihre eigenen Server zu schützen.
Cloudflare fungiert dabei oft als Proxy, also als Vermittler zwischen Client und Server. Dabei werden auch Daten von Webseiten und Diensten zwischengespeichert. Zudem filtert Cloudflare bösartige Anfragen und sorgt dafür, dass Lastspitzen abgefangen werden. Am bekanntesten ist Cloudflare damit wohl für den Schutz vor DDoS-Attacken. Für Webseitenbetreiber ist oft Webseitenbeschleunigung der wichtigste Punkt. Denn mit dem Zwischenspeichern der Seiten auf verschiedensten Servern rund um die Welt, werden die eigenen Server entlastet, während die Ladezeiten für Besucher verkürzt werden. So setzen sehr viele Webseitenbetreiber auf die Dienste von Cloudflare.
Am 18.11 kam es zu einem großflächigem Ausfall bei Cloudflare
Am Dienstag trat nun im Netzwerk von Cloudflare ein schwerer Fehler auf, der dafür sorgte, dass die Webseiten und Services von Cloudflare-Kunden nicht mehr erreichbar waren. In einem Blogeintrag beschreibt Matthew Prince CEO von Cloudflare detailliert, was zu dem größten Ausfall in Cloudflares Netzwerken seit 2019 geführt hat.
Gegen 12:30 Uhr kam es durch einen Konfigurationsfehler zu einem extrem hohen Anstieg an 5xx-Fehlern bei Cloudflare. Allerdings schwankte die Anzahl der Fehler bis 14 Uhr sehr stark, womit man bei Cloudflare zunächst davon ausging, dass hier ein Angriff von außen stattfand. Hierfür sprach auch, dass ebenfalls die Statusseite von Cloudflare zu diesem Zeitpunkt nicht erreichbar war. Zwischenzeitlich lagen die Fehler im Netzwerk auf den erwartbar niedrigen Werten. So war in internen Chats etwa eine Dreiviertelstunde nach Beginn des Ausfalls noch davon die Rede, dass ein Botnet für den Ausfall verantwortlich sein könnte.
Das eigentliche Problem kam jedoch aus dem eigenen Netzwerk. Eine Änderung der Berechtigungen eines Datenbanksystems führte zu diversen Fehlern. Diese wurde bereits um 12:05 Uhr bereitgestellt. Dadurch wurde eine Feature-Datei des Bot-Management-Systems künstlich aufgebläht und hat ihre Größe beinahe verdoppelt. Für diese Datei, und jedes andere Modul, ist in den Programmen von Cloudflare jedoch eine fixe Größe festgelegt und damit im Arbeitsspeicher reserviert. Die zu großen Dateien überfluteten den reservierten Speicher, daraus folgte ein Systemabsturz. Da diese Feature-Datei alle fünf Minuten aktualisiert wurde und nicht alle Cluster von Cloudflare auf der neuen Konfiguration liefen, konnte es dazu kommen, dass das komplette Netzwerk oder Teile des Netzwerks mit einer funktionierenden Feature-Datei ausgestattet wurden. Damit erklären sich auch die Schwankungen der Fehlerhäufigkeit. Alle fünf Minuten bestand die Chance, dass eben eine funktionierende oder eine kaputte Datei im Netzwerk verbreitet wurde. Erst um 14:37 Uhr erkannte man bei Cloudflare, dass die Anpassungen am Bot-Management für den Ausfall sorgten. Eine Stunde später konnte Cloudflare das Problem letztlich beheben.
Die Auswirkungen des Cloudflare-Ausfalls zeigen deutlich die fragwürdige Abhängigkeit des Internets von wenigen Akteuren. Ein einziger Konfigurationsfehler an einem zentralen Schlüsselpunkt hat hier ausgereicht, dass unzählige Webseiten und Services nicht mehr erreichbar waren. Damit stellt sich die Frage, wie anfällig das Internet, so wie wir es kennen, wirklich ist.











