Ausgefallen

Wie im Krimi: So verlief der Netzausfall bei Things Mobile

Ein Netz­aus­fall ist nicht nur für die Kunden schlimm, sondern schadet auch dem Renommee des Provi­ders. Der IoT-Discounter Things Mobile kämpfte kürz­lich mit einem zwei­tä­gigen Ausfall - und erläu­tert jetzt, was geschah. Es liest sich wie ein Krimi.
Von

So verlief der tagelange Netzausfall bei Things Mobile So verlief der tagelange Netzausfall bei Things Mobile
Logo: Things Mobile
Tarife für die Vernet­zung von Sensoren, Maschinen und Trackern gibt es nicht mehr nur für teures Geld bei den Netz­be­trei­bern. Zahl­reiche Discounter bieten inzwi­schen güns­tige Tarife für eine welt­weite Vernet­zung an, oft sind die Tarife in vielen Ländern welt­weit verwendbar - was bei einem welt­weiten Waren­ver­kehr auch sinn­voll ist.

Der 2017 gestar­tete IoT-Discounter Things Mobile aus Italien, den teltarif.de seiner­zeit ausführ­lich getestet hatte und der von denselben Betrei­bern wie die Reise-SIM ChatSIM stammt, infor­miert seine Kunden nun über einen größeren Netz­aus­fall, der zwischen­zeit­lich offenbar unge­ahnte Ausmaße ange­nommen hatte.

Server geben falsches Datum und falsche Uhrzeit aus

So verlief der tagelange Netzausfall bei Things Mobile So verlief der tagelange Netzausfall bei Things Mobile
Logo: Things Mobile
In einer langen E-Mail an die Kunden berichtet Things Mobile unge­wöhn­lich offen und tech­nisch detail­liert über den Ausfall des welt­weiten Daten­dienstes, der am 12. Juli begonnen hatte und bis zum 14. Juli andau­erte. Dieser Vorfall sei der kritischste gewesen, den der Netz­werk-Partner (MNO-Partner) von Things Mobile jemals erlebt habe, und er sei sowohl hinsicht­lich seines Ausmaßes als auch seiner Dauer außer­ge­wöhn­lich gewesen.

Wie bei den meisten Tele­kom­mu­ni­ka­ti­ons­be­trei­bern basieren die Dienste des MNO-Part­ners auf einem voll­ständig ausfall­si­cheren IP-Netz­werk. Der MNO-Partner betreibt ein Netz­werk, das aus rund 100 IP-Routern besteht, die von Cisco bereit­ge­stellt und nach einem von Cisco geneh­migten Design konfi­gu­riert wurden. Diese Router sind über das IP-Netz­werk mit zwei Quellen verbunden, die Datum und Uhrzeit vorgeben (Network-Time-Protocol-Server/NTP - aus Gründen der Ausfall­si­cher­heit als primäre und sekun­däre verwaltet).

Am 12. Juli erzeugte eine der beiden Uhrzeit-Quellen ein falsches Datum (27/11/2000). Da die Quellen­tak­tung aus Service-Sicht verfügbar war, wech­selten die Router, deren primäre Uhrzeit- und Datums-Quelle dieser Server war, nicht zur sekun­dären Takt­quelle, sondern begannen statt­dessen, diesen falschen Zeit­s­tempel an die anderen Netz­werk­router des MNO-Part­ners weiter­zu­geben.

Das Unglück nahm seinen Lauf

Unter dem Gesichts­punkt der Synchro­ni­sa­tion sind die IP-Router so ausge­legt, dass sie entweder einem falschen Datum bezie­hungs­weise Zeit­s­tempel oder sogar dem völligen Fehlen eines Takt­si­gnals stand­halten, da sie alle über eine lokale Uhr verfügen, auf die sie umschalten können.

Um Routing-Infor­ma­tionen unter­ein­ander auszu­tau­schen, verwenden IP-Router ein Proto­koll namens IS-IS (Inter­me­diate Systems to Inter­me­diate Systems), ein Proto­koll, das von der Internet Engi­nee­ring Task Force (IETF) entwi­ckelt wurde. Dieses Proto­koll ist auf allen Routern des MNO-Part­ners imple­men­tiert. Um das IS-IS-Proto­koll zu sichern, authen­ti­fi­ziert sich jeder Router bei seinem Nach­barn mit einem lokal gespei­cherten Pass­wort.

Der Grund, warum dieser falsche Datums- bezie­hungs­weise Zeit­s­tempel so drama­ti­sche Auswir­kungen auf die Router hatte, wird durch ein uner­war­tetes Zusam­men­spiel erklärt, bei dem das lokale Kenn­wort vom IP-Router nur ab einem explizit konfi­gu­rierten Datum im Router ab dem 1. Juli 2012 als gültig ange­sehen werden kann. Things Mobile vermutet, dass dies das Datum ist, an dem die ersten Cisco-IP-Router bereit­ge­stellt wurden.

Da das über­tra­gene Datum (27.11.2000) vor dem Start­datum der Kenn­wort­gül­tig­keit (01.07.2012) lag, funk­tio­nierte der Router nicht mehr, da er kein gültiges Pass­wort mehr für die Kommu­ni­ka­tion mit seinen Nachbar-Routern hatte.

Sogar Untersee-Kabel­ver­bin­dungen fielen komplett aus

Am 12. Juli haben schließ­lich 15 von insge­samt 100 Routern bei Things Mobile das falsche Datum erhalten und sich vom Rest des Netz­werks isoliert. Auf diese Weise konnten 35 andere Router nicht erreicht werden. Nachdem etwa die Hälfte des gesamten Netz­werks "verloren gegangen" war, ging die inhä­rente Ausfall­si­cher­heit und Redun­danz des Netz­werk­de­signs verloren, und das Netz­werk versagte, was zu den oben beschrie­benen Konse­quenzen für die Endbe­nut­zer­dienste führte.

Unter diesen betrof­fenen Routern trennten zwei Router sogar die unter­see­ischen Kabel­ver­bin­dungen nach Groß­bri­tan­nien (London) und ein Router die Untersee-Kabel­ver­bin­dung nach Frank­reich (Paris).

Um den Service wieder­her­zu­stellen, mussten die Tech­niker des MNO-Part­ners die verschie­denen Stand­orte, an denen sich die Router befinden, persön­lich besu­chen. Sie mussten die Uhrzeit auf jedem betrof­fenen Router manuell ändern, um das falsche Datum zu ersetzen. Der letzte Router in Paris wurde am 13. Juli korri­giert.

Nachdem die Uhrzeit auf den isolierten Routern aktua­li­siert worden war, wurden die meisten Dienste wieder­her­ge­stellt. Es dauerte jedoch weitere 36 Stunden, bis alle inter­na­tional loka­li­sierten Geräte wieder verbunden waren. Dies kann durch die plötz­liche Rück­kehr der Konnek­ti­vität erklärt werden, die zu einem Akti­vi­täts­schub auf den Platt­formen der Roaming-Partner führt. Diese Platt­formen waren tech­nisch mit ihrer Kapa­zität zwar weit­ge­hend über­di­men­sio­niert, jedoch nicht so dimen­sio­niert, dass sie sich von einem voll­stän­digen Ausfall erholen konnten. Einige der Tele­kom­mu­ni­ka­ti­ons­partner inter­pre­tierten diese Last-Spitzen auch als abnor­males und verdäch­tiges Verhalten und stellten vorsorg­lich die Verbin­dungen zu dem MNO-Partner von Things Mobile auto­ma­tisch ab.

Fazit: Things Mobile gelobt Besse­rung

Things mobile entschul­digt sich für die Auswir­kungen dieses Ausfalls auf alle Kunden. Während die Ursache des Ausfalls eine Abfolge von Ereig­nissen war, die kaum vorher­sehbar war, erkennt der Provider, dass man sowohl aus den Fehlern als auch aus den Erfolgen bei der Wieder­her­stel­lung der Situa­tion viel lernen könne. Das Haupt­au­gen­merk liege eindeutig auf der Ausfall­si­cher­heit und Zuver­läs­sig­keit des Netz­werks.

Dies zeige sich darin, dass Things Mobile noch nie einen so großen Ausfall gehabt habe. Things Mobile werde die Anstren­gungen verdop­peln, um sicher­zu­stellen, dass ein solches Ereignis nie wieder auftritt. Things Mobile verspricht, auch alle Vorkomm­nisse zu doku­men­tieren und daraus lernen, wie man in Zukunft schneller reagiert, die Services schneller wieder­her­stellt und mit den Kunden bei zukünf­tigen Vorfällen besser kommu­ni­ziert.

Mehr zum Thema Netzausfall