Was ist passiert?

Im Rechenzentrum FRA5 der Firma Interxion gab es in der Nacht vom 9. auf den 10. April einen massiven Stromausfall. In diesem Frankfurter Rechenzentrum befindet sich auch ein Teil der DE-CIX Systeme. DE-CIX ist der wichtigste Internetknotenpunkt in Europa. Mit über 6 Tb/s ist er der grösste Knoten der Welt.

Auch Server-Eye ist an diesen Knoten angebunden. Diese Anbindung, mit ihren vielen Peeringpartnern, sorgt dafür, dass unsere Kunden stets einen schnellen Zugriff auf die Server-Eye Cloud haben.

Natürlich ist die Verbindung nach Frankfurt nicht unser einziger Kontakt zu Aussenwelt. Fällt eine Anbindung aus, werden die Daten die eigentlich dort ankommen sollen zu einer anderen Leitung umgeroutet.

Im aktuellen Fall hat das aber leider nicht wie geplant funktioniert.

Graph vom de-cix Ausfall

In dieser Grafik sieht man, dass ca. 80% des Traffics einfach verschwinden. 20% kommen noch bei uns an. Der fehlende Traffic betrifft alle Verbindungen, die durch das Netz der Deutschen Telekom zu uns geleitet wurden. Kunden von Kabel Deutschland waren z.B. nicht betroffen.

Wir sind noch dabei mit unserem Netzwerkprovider zu klären warum das umrouten nicht funktioniert hat.

Gegen 2:30h, nach ca. 5 Stunden, war die Anbindung wieder verfügbar. Die Daten von 5 Stunden kommen jetzt alle auf einmal bei uns an.

Diese Datenmenge war zu gross. Wir verarbeiten alle eingehenden Daten streng sequentiell, schliesslich soll die OK Meldung nicht vor der Alarmmeldung kommen. Damit dies funktioniert werden alle Daten in einen FIFO Buffer (First In, First Out) gespeichert und dann daraus verarbeitet. Dieser Buffer ist in seiner Grösse begrenzt. Wir können hier ca. 2 Stunden Daten auffangen. Mit 5 Stunden war die Datenmenge allerdings mehr als doppelt so gross. Wir konnten deshalb nicht alle Werte verarbeiten und mussten einen Teil der Daten verwerfen.

Was können wir als Server-Eye tun um diesen Fehler in Zukunft besser abzufangen?

  • Wir stocken unsere Hardware nochmal um 70% der vorhandenen Leistung auf. Dadurch können wir einen deutlich längeren Buffer zur Verfügung stellen.
  • Wir optimieren unseren internen Verarbeitungsprozess um Daten noch schneller und effizienter zu verarbeiten. Hier befinden wir uns bereits in der Planung.
  • Zusammen mit unserem Netzwerkbetreiber werden wir die Anbindung an die Server-Eye Cloud optimieren.
  • Wir werden uns in Zukunft nicht mehr nur auf das Routing unsers Netzwerkbetreibers verlassen. Wir haben ein Konzept entwickelt mit dem wir den Traffic unabhängig vom Netzwerkbetreiber umleiten können.