OVH

Editorial: Wenn die Wolke sich in Rauch auflöst

OVH zeigt, wie man's nicht machen soll: Ein Rechen­zen­trum brennt aus, die Nach­bar­rechen­zen­tren sind eben­falls offline
Von

OVH Rechenzentrum (abgebrannt) Das Gebäude eines Cloud-Rechenzentrums des französischen Internet Service Providers OVH ist durch ein Feuer stark beschädigt. Verletzt wurde zum Glück niemand.
picture alliance/dpa/AFP | Patrick Hertzog
Daten in der Cloud, also alles sicher? Nun, so denken viele Menschen, egal, ob es um die privaten Hoch­zeits­fotos oder um die Geschäfts­daten der Firma geht. Dass das nicht immer stimmt, zeigte jüngst der Brand beim fran­zösi­schen Hosting-Spezia­listen OVH in Straß­burg: Von vier Rechen­zen­tren, die der Anbieter in Straß­burg unter­hält, brannte eines voll­ständig ab und eines teil­weise. Aber auch die anderen beiden Rechen­zen­tren sind vorläufig offline, weil deren Strom­ver­sor­gung und Internet-Anbin­dung wohl über das vom Brand zerstörte Rechen­zen­trum erfolgten.

Vertei­digungs­linie 1: RAID

OVH Rechenzentrum (abgebrannt) Das Gebäude eines Cloud-Rechenzentrums des französischen Internet Service Providers OVH ist durch ein Feuer stark beschädigt. Verletzt wurde zum Glück niemand.
picture alliance/dpa/AFP | Patrick Hertzog
Nun ist jedem System­ver­walter bekannt, dass Spei­cher­geräte ausfallen können, und die einfachste und billigste Gegen­maß­nahme dagegen heißt RAID. Beson­ders effi­zient ist RAID-6: Werden zum Beispiel acht Fest­platten oder SSDs zu einem RAID-6-Verbund zusam­men­geschlossen, können zwei belie­bige davon ausfallen, ohne, dass es dadurch zu Daten­ver­lust kommt. Insbe­son­dere kann man also nach dem Ausfall einer einzelnen Platte oder SSD das RAID weiter betreiben und das kaputt­gegan­gene Gerät in Ruhe ersetzen und das RAID wieder synchro­nisieren. Dazu muss man oftmals nicht einmal die Server herun­ter­fahren, bei geeig­neten Geräten kann man die Fest­platten oder SSDs direkt im Betrieb tauschen. Auf jeden Fall hat man bei RAID-6 auch nach dem Ausfall eines Daten­spei­cher­geräts weiterhin ein Redun­danz-Niveau, das einen weiteren Ausfall ohne Daten­ver­lust zulässt. Erst, wenn drei Fest­platten oder SSDs nach­ein­ander (oder gar gleich­zeitig) ausfallen, bevor die erste ersetzt worden ist, kommt es zum Daten­ver­lust.

Vertei­digungs­linie 2: Server-Redun­danz

Alter­nativ oder zusätz­lich zum RAID wird meist auch Server-Redun­danz einge­setzt: Die Daten werden auf zwei oder mehr Server verteilt. Fällt einer aus, sind sie noch vom anderen abrufbar. Sind für eine Web-Adresse zudem mehrere IP-Adressen regis­triert, probieren die Browser diese der Reihe nach alle durch, wenn eine oder mehrere nicht funk­tio­nieren. Der Dienst bleibt damit auch dann erreichbar, wenn ein Server ausfällt, aber für einen Teil der Nutzer lang­samer als gewohnt, weil sich deren Browser zunächst mit der IP des defekten Servers verbinden will.

Vertei­digungs­linie 3: Backup

Auf System­ver­walter-Foren liest man immer wieder den Satz: RAID is not Backup. Ein RAID-Level hilft nicht gegen Daten­ver­lust, schon deswegen, weil der häufigste Grund für Daten­ver­lust nicht der Ausfall von Daten­trä­gern, sondern die verse­hent­liche Löschung oder das unbe­absich­tigte Über­schreiben durch fehler­hafte Soft­ware ist. Aber genau dagegen hilft ein RAID nicht. Im Gegen­teil, je besser die RAID-Hard­ware ist, desto zuver­läs­siger und schneller wird sie einen solchen Fehler auf alle betei­ligten Spei­cher­medien verteilen. Hinzu kommt der Fall - wie in Straß­burg geschehen - dass aufgrund eines externen Ereig­nisses alle Platten auf einmal ausfallen. Neben Feuer sind da auch Wasser­schäden, Über­span­nung, Dieb­stahl oder gar Einsturz als mögliche Scha­dens­ereig­nisse zu nennen. Versi­che­rungen wissen ein Lied davon zu singen, was alles passieren kann.

Aber nicht nur RAID, auch Server-Redun­danz hilft zumeist nicht gegen Admi­nis­tra­tor­fehler: Wenn beispiels­weise die bei Daten­banken beliebte Master-Slave-Repli­kation aktiv ist, reicht die falsche Eingabe "drop table user;" auf dem Master dazu aus, die Nutzer­daten­bank auch auf allen verbun­denen Slaves über den Jordan zu jagen.

Ein gutes Daten­sicher­heits­kon­zept endet also nicht mit RAID und Redun­danz, sondern umfasst auch ein regel­mäßiges Backup aller Daten. Dabei wird möglichst ein soge­nanntes logi­sches Backup verwendet, bei dem alle Daten ausge­lesen, auf Konsis­tenz und Voll­stän­dig­keit geprüft und dann in einem alter­nativen Format außer­halb der live-Daten­banken und -Datei­sys­teme abge­legt werden. Zugleich achtet ein gutes Daten­sicher­heits­kon­zept auch auf ausrei­chende Distanz zwischen den Servern und insbe­son­dere auch zum Backup. Wenn schon ein Standort "abraucht", dann sollte man zumin­dest in der Lage sein, das Backup auf frisch gemie­teten Servern woan­ders wieder einzu­spielen.

Verant­wor­tung der Provider

Eigent­lich ist alles vorab geschrie­bene hinläng­lich bekannt. Beachtet wird es von System­admi­nis­tra­toren und Firmen­chefs dennoch nicht immer. Manchmal sind aber auch falsche Verspre­chungen und vor allem die Produkt­politik der Server- und Cloud-Anbieter mitschuld an fehlender Redun­danz. Was nutzt es, wenn "Daten-Backup auf physi­kalisch sepa­rierten Servern" als kosten­pflich­tiger Zusatz­dienst ange­boten wird, der Backup-Server dann aber ledig­lich ein Stock­werk höher oder tiefer steht? Brand­schutz­türen sehen zwar sicher aus, aber sie können einem Voll­brand dennoch nur wenige Minuten wider­stehen. Zudem können sie nicht verhin­dern, dass sich ein Feuer durch die in Server­farmen meist reich­lich vorhan­denen und groß­zügig bemes­senen Kabel­kanäle frisst. Die Umman­telung von Netz­werk­kabeln besteht beispiels­weise oft aus PE (Poly­ethylen), das bei gut 100 °C schmilzt. Während sich Feuer mit den heißen Rauch­gasen zumeist nach oben ausbreitet, können bren­nende flüs­sige Kunst­stoffe in einer Server­farm auch zu einer Ausbrei­tung nach unten führen. Zwar verhin­dern Flamm­schutz­mittel in Kabeln norma­ler­weise, dass ein einzelnes Kabel die Flamme weiter­trägt. Aber wenn der ganze Raum brennt, aus dem die Kabel kommen, dann wird die Lösch­kapa­zität dieser Beimen­gungen bei weitem über­schritten.

Der Back­upraum und der Netz­werk­raum im Keller geraten also genauso mit in Brand, wenn die Server­hallen darüber brennen und die Kabel­kanäle zu diesen Räumen nicht ausrei­chend gesi­chert sind. Spätes­tens hier hat OVH ganz offen­sicht­lich über­mäßig gespart: Dass das Feuer vom voll­ständig abge­brannten Rechen­zen­trum SBG-2 auf SBG-1 über­griff (laut OVH sind vier von zwölf "Hallen" beschä­digt, wobei es sich bei SBG-1 wohl eher um Container als um Hallen handelt), zeigt, dass die beiden Bereiche nicht ausrei­chend getrennt waren. Und dass das vom Brand nicht betrof­fene SBG-3 erst in ca. einer Woche wieder ans Netz gehen soll, weil bis dahin Strom­ver­sor­gung und Inter­net­zugang neu instal­liert werden müssen, zeigt, dass es sich mitnichten um getrennte Rechen­zen­tren handelt, wie man aufgrund der Numme­rie­rung eigent­lich erwarten würde. Einen guten Über­blick über die Anlage samt elek­tri­scher Anschluss­werte liefert übri­gens Baxtel.

Ein weiteres Problem ist das Marke­ting der Cloud- und Server-Anbieter: Kunden sollen möglichst ihren kompletten Storage- und Compu­ting-Bedarf von einem Anbieter kaufen. In der Folge wird Daten­transfer inner­halb einer Cloud­farm subven­tio­niert (meist ist er sogar kostenlos), was sich dann in umso höheren Preisen für externen Daten­transfer wider­spie­gelt. Oft genug gibt es nicht einmal die Möglich­keit, garan­tierte Band­breiten für die Verbin­dung von Rechen­zen­trum X bei Provider A in der Stadt M zu Rechen­zen­trum Y bei Provider B in der Stadt N zu verhan­deln. Eine beson­ders sichere Redun­danz-Lösung, die Server in unter­schied­lichen Städten bei unter­schied­lichen Provi­dern vorsieht, ist daher auch beson­ders teuer - und beson­ders anfällig für Ausfälle der Verbin­dungen zwischen den beiden Stand­orten. Am Ende schwenken die Kunden dann doch auf die lokale Lösung um. Wer aber beispiels­weise Server und Spie­gel­server in SBG-2 und das Backup "physi­kalisch getrennt" in SBG-1 posi­tio­niert hat, dem ist dennoch mögli­cher­weise alles abge­brannt, obwohl er eigent­lich bereits ein recht hohes Sicher­heits­niveau geplant hatte. Und selbst, wenn er das Glück hatte, dass seine Daten auf den zwei Drit­teln der unbe­schä­digten Server in SBG-1 lagern: Bis er wieder an seine Daten rankommt, vergeht voraus­sicht­lich noch eine Woche.

Strom macht Feuer

Die genaue Brand­ursache ist noch nicht offi­ziell ermit­telt und bekannt gegeben worden, aber es dürfte eini­ger­maßen wahr­schein­lich sein, dass sie mit der Strom­ver­sor­gung im Zusam­men­hang steht: Rechen­zen­tren verbrau­chen viel Strom, und so wird meist Mittel­span­nung (in Europa typi­scher­weise 10 000 V) ange­lie­fert und durch große Trans­for­matoren vor Ort auf die übliche Strom­span­nung von 230 V redu­ziert. Hier ist schon das erste Brand­risiko - nach einem internen Kurz­schluss, wie er bei Trans­for­matoren leider immer wieder mal auftritt, sind Über­hit­zung, Ölaus­tritt und Feuer eher die Regel als die Ausnahme.

Der wohl bekann­teste Trans­for­mato­ren­brand der letzten Jahre war ein bren­nender ICE3 auf der Schnell­strecke zwischen Köln und Frank­furt. Zwar sind schon vor hundert Jahren Sicher­heits­schalter ("Buch­holz-Relais") entwi­ckelt worden, die gefähr­liche Verän­derungen am Trans­for­mato­renöl (Ausgasen, Ölver­lust etc.) erkennen können und recht­zeitig den Trans­for­mator abschalten. Zumin­dest beim ICE-Brand entwi­ckelte sich der Schaden aber laut Unter­suchungs­bericht so plötz­lich, dass das Buch­holz-Relais erst ansprach und einen Alarm meldete, als es vom Brand selber zerstört wurde. Aller­dings gibt es auch anonyme Hinweise darauf, dass die Buch­holz-Relais (wohl wegen häufiger Fehl­alarme, die dann natür­lich jeweils zum Stehen­bleiben des Zuges führen) bei den ICE der Serien 1 bis 3 auch gerne mal über­brückt [Link entfernt] werden. Ein auf diese Weise außer Kraft gesetzter Sicher­heits­schalter ist natür­lich nutzlos, aber hoffent­lich nicht der Auslöser des Feuers bei OVH.

Fällt die öffent­liche Strom­ver­sor­gung aus, haben so gut wie alle Rechen­zen­tren den Anspruch, dennoch ihre Server weiter­zube­treiben. Dafür gibt es Notstrom­gene­ratoren, die meist mit Diesel betrieben werden. Um sicher­zustellen, dass die Diesel­motoren nicht im wahrsten Sinne des Wortes einrosten, müssen sie alle paar Wochen oder Monate test­weise gestartet werden. Auslau­fende Treib- oder Schmier­stoffe, sowie heiße Stellen an den Motoren oder der Abgas­anlage sind das Brand­risiko Nummer 2.

Notstrom­gene­ratoren brau­chen aller­dings etliche Sekunden, um anzu­springen und auf Nenn­dreh­zahl hoch­zulaufen. Bis dahin über­nehmen nach einem Netz­aus­fall leis­tungs­starke Puffer­bat­terien die Strom­ver­sor­gung. Die sind das Brand­risiko Nummer 3 - und zwar egal, ob es noch die alten Blei­bat­terien oder die modernen Lithium-Batte­rien sind. Zwar brennen Blei­bat­terien selber nicht, aber beim Aufladen entsteht unter Umständen explo­siver Wasser­stoff. Lithium-Akkus können hingegen Feuer fangen, wenn es aufgrund von Herstel­lungs­feh­lern zu internen Kurz­schlüssen kommt, oder schad­hafte Lade­geräte die Zellen über­laden.

Zum Ausgleich für die vielen Brand­risiken gehören Brand­melde- und Feuer­lösch­ein­rich­tungen in Rechen­zen­tren zum Stan­dard. Nur: Wenn ein Trans­for­mator über­hitzt, aber von den Siche­rungen nicht vom Netz getrennt wird, dann hilft auch eine Lösch­gas­anlage nicht weiter, denn nach dem Versprühen des Gases kommt ja mit der Zeit wieder normale Luft in den Raum - und dann flammt das Feuer am über­hitzten Trans­for­mator erneut auf. Dasselbe gilt für den Brand bzw. den Thermal Runaway eines großen Lithium-Akkus: Hier reagiert die sauer­stoff­reiche Kathode eines gela­denen Akkus direkt mit der lithium- und kohlen­stoff­rei­chen Anode, dem Elek­tro­lyten und/oder dem Metall­gehäuse. Da dabei laufend Gase entstehen - allen voran brenn­barer Wasser­stoff - kommt ein Löschgas gar nicht erst an die Zellen ran. Ohne eine saubere Evalu­ierung aller Brand­risiken und einer darauf abge­stimmten Instal­lation von Brand­schutz- bzw. Brand­lösch­ein­rich­tungen wird es also nichts.

Opfer

Bekann­testes Opfer des Feuers ist wohl das Compu­ter­spiel Rust, bei dem man in einer feind­lich geson­nenen Spie­lewelt möglichst lange über­leben muss. Die Spiel­stände der euro­päi­schen Rust-Nutzer über­lebten jeden­falls das Feuer in Straß­burg nicht - diese User dürfen also wieder von vorne anfangen. Dass die Gerichts­voll­zieher-Kanzlei Leroi Associés ihre E-Mails verloren hat, dürfte zwar zu einiger Scha­den­freude Anlass geben. Dennoch nicht optimal, wenn auf diesem Weg zum Beispiel auch Zahlungs­nach­weise verloren gegangen sind.

Blick nach vorn

Wie nach jedem Groß­schaden geht auch nach dem Groß­brand bei OVH das Leben weiter. Wer noch selber Server mietet, wird sich künftig aber wahr­schein­lich stärker diver­sifi­zieren und nicht alles bei einem Anbieter mieten, zumin­dest nicht alles in einem Rechen­zen­trum in einer Stadt. Wer die IT outge­sourct hat, wird seine Partner fragen, wie ihr Konzept gegen Groß­scha­dens­ereig­nisse wie bei OVH ist. Und hoffent­lich denkt auch der eine oder andere Cloud-Anbieter im Sinne seiner Kunden um und bietet beispiels­weise künftig hohe Rabatte für off-peak-Backup-Daten­trans­fers zur Konkur­renz.

Weitere Edito­rials