22. Oktober 2010
En Detail: Die Störungen der letzten Tage
Gelinde gesagt sind wir mit der momentanen Verfügbarkeit von mite unzufrieden. Offen gesagt brennt hier gerade die Hütte. Eine einstündige Nicht-Erreichbarkeit am Nachmittag des 15. Oktober, eine fünfzehnminütige in der Nacht des 19. und nun noch eine zweistündige in der vergangenen Nacht mussten wir verzeichnen – das ist definitiv nicht die Qualität, für die mite steht. Wir sind euch nicht nur eine weitere Entschuldigung schuldig, sondern eine Erklärung.
Was genau ist passiert?
Alle drei Ausfälle wurden durch Fehler der Hardware im Rechenzentrum verursacht, die Anwendung selbst lief tadellos. Störung 1 war unabhängig von Störung 2 und 3; Unglück und Pech kamen hier leider zusammen.
Am 15. Oktober fiel – trotz selbstverständlich redundant ausgelegter Stromversorgungskreise – die Elektrizität in unserem primären Rechenzentrum aus. Im Rahmen von Wartungsarbeiten war dort ein Umschalten zwischen den separaten Stromkreisen eingeplant, das aufgrund einer Kombination aus fehlerhafter Dokumentation einer Anlage und einer nicht perfekten Notfallplanung schiefging. Die Stromversorgung konnte binnen einer halben Stunde wiederhergestellt werden, danach brauchten die Systeme noch einige Minuten, um Daten zu überprüfen und korrekt wiederhochzufahren.
Die nächtlichen Ausfälle am 19. und am 21. Oktober gingen beide auf das Konto von Netzwerkswitches. Am 19. fiel einer dieser Switches aus und wurde binnen Minuten ersetzt, dieser Defekt konnte sehr fix behoben werden. In der gestrigen Nacht traten auf beiden Netzwerkswitches eines IBM Bladecenters gleichzeitig Störungen auf. Ein Tausch der Switches fruchtete nicht. Der Fehler konnte erst durch einen leider zeitintensiveren Umbau auf ein Ersatzblade behoben werden.
Welche Maßnahmen greifen, um solch Ausfälle künftig zu verhindern?
Zwei Anmerkungen vorneweg: Keine Hardware wird immer zu 100% funktionieren, nicht in unserem Rechenzentrum und nicht in anderen. Das ist leider schlicht Realität, wir werden dies nicht grundsätzlich ändern können. Höchste und übergeordnete Priorität hat für uns die Sicherstellung der Datensicherheit. Eure Daten sind heilig, diese dürfen zu keinem Zeitpunkt in Gefahr sein. Zur Gewährleistung dieser Richtlinie nehmen wir im Zweifelsfall auch einmal eine um einige Minuten längere Nicht-Erreichbarkeit in Kauf.
Wo wir in Zusammenarbeit mit Hoster und Rechenzentrum jedoch fraglos ansetzen können und ansetzen, ist erstens die Klärung von Störungen bis ins letzte Detail, um die jeweilige Wurzel eines Problems wirklich zu verstehen und künftig besser verhindern zu können und zweitens die Erhöhung der Ausfallsicherheit durch redundante Systeme, die im Notfall möglichst unterbrechungsfrei den Dienst übernehmen können.
Im konkreten Fall wurde nach der Störung vom 15. Oktober ein Umschaltmotor zwischen den Stromkreisen ausgetauscht. Darüberhinaus arbeiten Hoster, Rechenzentrum und Hersteller der Stromversorgungsanlagen an einer Klärung des abweichend dokumentierten Verhaltens der Anlagen zusammen. Die Einrichtung einer zusätzlichen Notfallstromversorgung wird diskutiert.
Die Störungen vom 19. und 21. Oktober im Bereich der Netzwerkswitches werden im Rahmen von Wartungsarbeiten angegangen werden, ein Umbau wird hier stattfinden. Voraussichtlich in der kommenden Woche werden wir hierzu weitere Informationen paratstellen.
Weitreichendere Maßnahmen wie den Aufbau redundanter Notfallserver in einem anderen Rechenzentrum überdenken wir aktuell.
Auf der Positivseite möchten wir anmerken, dass wir trotz der aktuell gehäuft auftretenden Störungen großes Vertrauen in unseren Hoster SysEleven haben, bei denen fünf Server von mite seit März ihr Zuhause haben. Überwachungssysteme schlugen jeweils binnen einer Minute zuverlässig an, binnen fünf Minuten waren Techniker vor Ort. Geschäftsführung und Technikleitung informierten uns stets persönlich, zeitnah, detailliert und transparent über Hintergründe und weitere Maßnahmen. Sie sind ebenfalls höchst unzufrieden und setzen alles daran, die Probleme stabil und langfristig in den Griff zu bekommen. Den Rest des Jahres wird alle Konzentration in eine Überprüfung, Optimierung und Absicherung des aktuellen Setups fließen, diese Arbeiten haben Vorrang vor neuen Funktionalitäten. Schlussendlich zeigt SysElevens Historie der letzten 10 Jahre, dass die aktuelle Situation auch auf ihrer Seite absolut nicht die Regel ist.
Verfügbarkeit von mite im Jahresschnitt 2010: 99,93%
Abschließend möchten wir die vergangenen Ausfälle in einen etwas größeren Kontext stellen. Die Störungen haben wir zum Anlass genommen, die Verfügbarkeit von mite im Jahresmittel zu anlysieren um euch eine bessere Einschätzung der Gesamtsituation zu ermöglichen.
mite war vom 1.1.2010 bis zum heutigen Tag aufgrund außerplanmäßiger Störungen insgesamt 295 Minuten nicht erreichbar. Dies entspricht einer Verfügbarkeit des Dienstes von 99,93%. Selbst bei Hinzuzählen planungsmäßiger Wartungsarbeiten war mite unterm Strich zu 99,89% verfügbar.
Die fehlenden Ziffern hinterm Komma sind zwar wenige, doch zehren sie an uns. Unser Anspruch ist ein höherer. Wir werden alles Sinnvolle daran setzen, die Verfügbarkeit weiter zu maximieren. Wir bitten um euer Vertrauen: Der Maschinenraum wird wieder geschmeidiger arbeiten. Solltet ihr weitere Informationen wünschen: bitte, jederzeit!
Julia in Maschinenraum
Selbst kommentieren?