Seit der vergangenen Woche hat unserer Rechenzentrum mit Wartungsarbeiten und zusätzlichen Ausfällen zweier Upstreamprovider zu kämpfen. Bisher gab es keine Stellungnahme unsererseits, da bis auf zeitweise längere Ladezeiten des OCC, für unsere Kunden keine Konsequenzen entstanden sind. Die erhöhten Latenzen zu uns fanden täglich in einem Zeitraum von etwa zehn bis 20 Minuten statt. Alle anderen Schwankungen und Spitzen konnten durch die Ausfallsicherheit unseres Clusters und erprobte Ausfallkonzepte abgefangen werden.

Heute Mittag gab es eine erneute Störung der Upstreamprovider. Diese dauerte etwa 20 Minuten und hat zu etwa 30.000 korrupter Verbindungen pro Minute auf unsere Backend Services geführt. Einer unserer Clusterknoten war dadurch mit etwa der doppelten Anzahl Verbindungen pro Minute konfrontiert als gewöhnlich, wovon über die Hälfte korrupt waren. Dies führte bei uns zum Eintreten mehrerer Alarmierungsszenarien.

In diesem Ausfall hat ein Background Thread begonnen unbemerkt inkorrekt zu arbeiten. Vereinfacht gesagt hat der Thread zuverlässig seine eigentliche Aufgabe und sein Ziel erfüllt, allerdings den Weg zum Ziel nicht mehr zu 100% sauber bearbeitet. Dies hat dazu geführt, dass heute Nacht zwischen 01:37 Uhr und 02:42 Uhr eingegangene Nachrichten teilweise zerstört und nicht als Alarm verarbeitet wurden.

Da alle Metriken des Background Threads in Ordnung waren können wir nicht genau bestimmen wie viele Nachrichten in diesem Zeitraum betroffen waren.

Wir prüfen wie wir dies in Zukunft messen und überwachen können. Zusätzlich stehen wir in regem Kontakt mit unserem Rechenzentrum, um über die aktuellen Ausfälle im Upstream informiert zu bleiben. Bei Fragen wenden Sie sich bitte an support@server-eye.de

 

Störung: Latenzen und Verarbeitungsverzögerungen
5 (100%) 1 vote[s]