Ankündigung von Wartungsarbeiten: Freitagnacht

Update 6:17 Uhr: Die Wartungsarbeiten wurden soeben erfolgreich abgeschlossen, mite ist nun wieder erreichbar. Unseren herzlichen Dank für eure so große Geduld! Bitte meldet euch bei uns, falls euch diese Wartung über das akzeptable Maß hinaus belästigt haben sollte; die deutliche Verzögerung tut uns wirklich leid.

Update 3:02 Uhr: Die Wartungsarbeiten nehmen wider Erwarten noch etwas länger in Anspruch. Unser Pardon für diese Verzögerung!

~~
In der Nacht von Freitag, den 26. November auf Samstag, den 27. November wird mite zwischen 1:00 und ~2:00 Uhr mitteleuropäischer Zeit aufgrund von Wartungsarbeiten an unseren Servern nicht verfügbar sein.

Im Rahmen der mehrwöchig vorbereiteten Wartungsarbeiten werden unsere Hauptserver innerhalb unseres Rechenzentrums auf eine eigens umgebaute Cage-Fläche mit ausfallsicherer Anbindung ziehen. Diese hardwareseitige Verbesserung ist eine der Konsequenzen, die wir in Zusammenarbeit mit unserem Hoster aus den Nicht-Erreichbarkeiten im Oktober gezogen haben, um künftig wieder ein stabileres mite gewährleisten zu können. Wir bitten um euer Verständnis!

Julia in Maschinenraum

En Detail: Die Störungen der letzten Tage

Gelinde gesagt sind wir mit der momentanen Verfügbarkeit von mite unzufrieden. Offen gesagt brennt hier gerade die Hütte. Eine einstündige Nicht-Erreichbarkeit am Nachmittag des 15. Oktober, eine fünfzehnminütige in der Nacht des 19. und nun noch eine zweistündige in der vergangenen Nacht mussten wir verzeichnen – das ist definitiv nicht die Qualität, für die mite steht. Wir sind euch nicht nur eine weitere Entschuldigung schuldig, sondern eine Erklärung.

Was genau ist passiert?

Alle drei Ausfälle wurden durch Fehler der Hardware im Rechenzentrum verursacht, die Anwendung selbst lief tadellos. Störung 1 war unabhängig von Störung 2 und 3; Unglück und Pech kamen hier leider zusammen.

Am 15. Oktober fiel – trotz selbstverständlich redundant ausgelegter Stromversorgungskreise – die Elektrizität in unserem primären Rechenzentrum aus. Im Rahmen von Wartungsarbeiten war dort ein Umschalten zwischen den separaten Stromkreisen eingeplant, das aufgrund einer Kombination aus fehlerhafter Dokumentation einer Anlage und einer nicht perfekten Notfallplanung schiefging. Die Stromversorgung konnte binnen einer halben Stunde wiederhergestellt werden, danach brauchten die Systeme noch einige Minuten, um Daten zu überprüfen und korrekt wiederhochzufahren.

Die nächtlichen Ausfälle am 19. und am 21. Oktober gingen beide auf das Konto von Netzwerkswitches. Am 19. fiel einer dieser Switches aus und wurde binnen Minuten ersetzt, dieser Defekt konnte sehr fix behoben werden. In der gestrigen Nacht traten auf beiden Netzwerkswitches eines IBM Bladecenters gleichzeitig Störungen auf. Ein Tausch der Switches fruchtete nicht. Der Fehler konnte erst durch einen leider zeitintensiveren Umbau auf ein Ersatzblade behoben werden.

Welche Maßnahmen greifen, um solch Ausfälle künftig zu verhindern?

Zwei Anmerkungen vorneweg: Keine Hardware wird immer zu 100% funktionieren, nicht in unserem Rechenzentrum und nicht in anderen. Das ist leider schlicht Realität, wir werden dies nicht grundsätzlich ändern können. Höchste und übergeordnete Priorität hat für uns die Sicherstellung der Datensicherheit. Eure Daten sind heilig, diese dürfen zu keinem Zeitpunkt in Gefahr sein. Zur Gewährleistung dieser Richtlinie nehmen wir im Zweifelsfall auch einmal eine um einige Minuten längere Nicht-Erreichbarkeit in Kauf.

Wo wir in Zusammenarbeit mit Hoster und Rechenzentrum jedoch fraglos ansetzen können und ansetzen, ist erstens die Klärung von Störungen bis ins letzte Detail, um die jeweilige Wurzel eines Problems wirklich zu verstehen und künftig besser verhindern zu können und zweitens die Erhöhung der Ausfallsicherheit durch redundante Systeme, die im Notfall möglichst unterbrechungsfrei den Dienst übernehmen können.

Im konkreten Fall wurde nach der Störung vom 15. Oktober ein Umschaltmotor zwischen den Stromkreisen ausgetauscht. Darüberhinaus arbeiten Hoster, Rechenzentrum und Hersteller der Stromversorgungsanlagen an einer Klärung des abweichend dokumentierten Verhaltens der Anlagen zusammen. Die Einrichtung einer zusätzlichen Notfallstromversorgung wird diskutiert.

Die Störungen vom 19. und 21. Oktober im Bereich der Netzwerkswitches werden im Rahmen von Wartungsarbeiten angegangen werden, ein Umbau wird hier stattfinden. Voraussichtlich in der kommenden Woche werden wir hierzu weitere Informationen paratstellen.

Weitreichendere Maßnahmen wie den Aufbau redundanter Notfallserver in einem anderen Rechenzentrum überdenken wir aktuell.

Auf der Positivseite möchten wir anmerken, dass wir trotz der aktuell gehäuft auftretenden Störungen großes Vertrauen in unseren Hoster SysEleven haben, bei denen fünf Server von mite seit März ihr Zuhause haben. Überwachungssysteme schlugen jeweils binnen einer Minute zuverlässig an, binnen fünf Minuten waren Techniker vor Ort. Geschäftsführung und Technikleitung informierten uns stets persönlich, zeitnah, detailliert und transparent über Hintergründe und weitere Maßnahmen. Sie sind ebenfalls höchst unzufrieden und setzen alles daran, die Probleme stabil und langfristig in den Griff zu bekommen. Den Rest des Jahres wird alle Konzentration in eine Überprüfung, Optimierung und Absicherung des aktuellen Setups fließen, diese Arbeiten haben Vorrang vor neuen Funktionalitäten. Schlussendlich zeigt SysElevens Historie der letzten 10 Jahre, dass die aktuelle Situation auch auf ihrer Seite absolut nicht die Regel ist.

Verfügbarkeit von mite im Jahresschnitt 2010: 99,93%

Abschließend möchten wir die vergangenen Ausfälle in einen etwas größeren Kontext stellen. Die Störungen haben wir zum Anlass genommen, die Verfügbarkeit von mite im Jahresmittel zu anlysieren um euch eine bessere Einschätzung der Gesamtsituation zu ermöglichen.

mite war vom 1.1.2010 bis zum heutigen Tag aufgrund außerplanmäßiger Störungen insgesamt 295 Minuten nicht erreichbar. Dies entspricht einer Verfügbarkeit des Dienstes von 99,93%. Selbst bei Hinzuzählen planungsmäßiger Wartungsarbeiten war mite unterm Strich zu 99,89% verfügbar.

Die fehlenden Ziffern hinterm Komma sind zwar wenige, doch zehren sie an uns. Unser Anspruch ist ein höherer. Wir werden alles Sinnvolle daran setzen, die Verfügbarkeit weiter zu maximieren. Wir bitten um euer Vertrauen: Der Maschinenraum wird wieder geschmeidiger arbeiten. Solltet ihr weitere Informationen wünschen: bitte, jederzeit!

Julia in Maschinenraum

Heutige Nicht-Erreichbarkeit

Update: Seit 01:17 ist mite wieder erreichbar. Unsere Entschuldigung noch einmal! Wir werden überaus genau recherchieren, was hier schieflief und uns darum kümmern, ein künftiges Auftreten zu verhindern, darauf könnt ihr zählen.

~~
Seit 23:18 mitteleuropäischer Sommerzeit ist mite aufgrund eines Hardwaredefekts leider erneut nicht erreichbar. Techniker arbeiten bereits an einer Behebung. Bitte werft für neueste Informationen einen Blick auf Twitter. Wir werden dort kontinuierlich über den aktuellen Fortgang der Arbeiten informieren. Unsere Entschuldigung!

Julia in Maschinenraum

Downtime

Update (12:41 Uhr CEST): mite ist nun wieder verfügbar. Alle Daten sind selbstverständlich unversehrt, diese waren zu keinem Zeitpunkt in Gefahr. Unsere Entschuldigung noch einmal für diesen Ausfall. Wir hoffen, dass euch nicht allzu große Probleme dadurch entstanden sind!

~~
Seit 11:45 treten leider Stromversorgungsprobleme in unserem Rechenzentrum auf, die dazu führen, dass die mite.server nicht erreichbar sind. Das Rechenzentrum ist informiert und arbeitet mit komplettem Team an der Behebung des Problems.

Unsere Entschuldigung von Herzen für diese Störung! So etwas sollte fraglos nicht passieren. Bitte werft für aktuelle Informationen einen Blick auf Twitter. Wir werden dort kontinuierlich über den Fortgang der Störung informieren.

Julia in Maschinenraum

Ankündigung von Wartungsarbeiten: 17. Mai

In der kommenden Nacht von Sonntag, den 16. Mai auf Montag, den 17. Mai werden zwischen 1:00 und 2:00 Uhr mitteleuropäischer Sommerzeit Wartungsarbeiten an unseren Servern vorgenommen werden. 10 bis 15 Minuten wird mite innerhalb dieses Fensters nicht verfügbar sein.

Die Arbeiten umfassen erstens Aktualisierungen der Kernel, dem Software-Herz unserer Linux-Server, zweitens hardwareseitige Verbesserungen, konkret eine Umstrukturierung der Racks. Beide Arbeiten zielen darauf, die Wahrscheinlichkeit künftiger Serviceunterbrechungen weiter zu reduzieren. An der Wurzel möchte unser Hostingpartner SysEleven die Probleme packen – ein Ansatz, den wir überzeugt unterstützen. Wir bitten um euer Verständnis.

Julia in Maschinenraum

Heutige Nicht-Erreichbarkeit

Zwischen 13:22 und 14:20 Uhr CEST war mite heute leider unerwartet nicht erreichbar. Technische Störungen im Rechenzentrum waren hierfür verantwortlich: ein Leitungs- bzw. Routerdefekt beim Upstream-Provider führte zum Ausfall deren Außenanbindung.

Unsere Entschuldigung von Herzen für diesen einstündigen Ausfall!

Zwei Minuten nach Beginn der Downtime stellten wir die Störung fest und informiertem ab diesem Zeitpunkt via Twitter. Techniker waren binnen weniger Minuten vor Ort. Daten waren selbstverständlich zu keine Zeitpunkt in Gefahr. In Zusammenarbeit mit unserem Hosting-Partner SysEleven werden wir den Ursachen dieses Ausfalls weiter auf den Grund gehen um solch Probleme in Zukunft zu vermeiden, dies versteht sich von selbst.

Unser erneutes Pardon für diese Serviceunterbrechung!

Julia in Maschinenraum

Kurze weitere Wartungsarbeiten am 21. März

Update, 21.3. 07:53: Die Wartungsarbeiten wurden wie geplant durchgeführt.

Einer unserer frischen Server fühlt sich leider noch nicht ganz wohl in seinem neuen Zuhause. Um künftige Probleme auszuschließen, werden wir diesen daher auf ein neues Blade umziehen – in ein Zimmer mit Sonnenbalkon zieht der Server quasi. Dieser Eingriff macht leider erneute Wartungsarbeiten erforderlich. Diese werden jedoch aller Voraussicht nach sehr zügig vonstatten gehen.

Wir planen mit einer Nicht-Verfügbarkeit von mite für etwa 20 Minuten. Die Wartungsarbeiten werden am Sonntagmorgen, den 21. März, gegen 07:30 Uhr mitteleuropäischer Zeit beginnen.

Unser Pardon für die Umstände! Wir haben intensiv diskutiert, ob wir euch diese erneute kurze Nicht-Erreichbarkeit aufbürden können; Denken jedoch, dass diese vorbeugende Maßnahme sinnvoll ist und hoffen daher auf euer Verständnis.

Julia in Maschinenraum

Heutige Nicht-Erreichbarkeit

Gegen 11:00 Uhr mitteleuropäischer Zeit wurde mite heute leider überaus langsam; zwischen 11:24 und 11:35 Uhr war der Dienst nicht nur langsam, sondern nicht erreichbar. Zuallererst möchten wir uns für diese Unterbrechung bei euch von Herzen entschuldigen. Unser Pardon!

Ursache dieser Störung war eine Störung der externen Internetanbindung unseres Rechenzentrums – neben mite wurden auch einige andere Dienste wie Golem.de mitgerissen. Unsere eigenen Alarmsysteme wie auch die unseres Partners SysEleven schlugen zuverlässig an; Wir informierten über Twitter. SysEleven konnte das Problem des IP-Uplinks beheben. Wir rechnen mit keinen weiteren Ausfällen, werden jedoch selbstverständlich ein doppelt aufmerksames Auge auf mite haben.

Julia in Maschinenraum

Ankündigung von Wartungsarbeiten: 7. März

Update, 7.3. 05:18: Der Umzug klappte wie geplant. Auf gute Zeiterfassung auf den neuen mite.servern! Bitte gebt möglichst detailliert Bescheid, solltet ihr wider Erwarten auf einen Fehler stoßen.

Stabil, sicher und fix ist mite zu Diensten und soll es auch in Zukunft bleiben, trotz steigender Nutzerzahlen. Die Umsetzung dieses Anspruchs beschäftigte uns die vergangenen Wochen: auf den Umzug auf eine neue Serverarchitektur bereitete Sebastian, der Herr unseres Maschinenraums, die Anwendung vor. Am kommenden Wochenende geht’s nun los: wir packen die Datenkoffer!

In der Nacht von Samstag auf Sonntag, den 7.3. wird mite daher für kurze Zeit offline gehen. Wir planen mit einer Nicht-Verfügbarkeit zwischen 03:00 und 05:00 Uhr mitteleuropäischer Zeit.
(Andere Zeitzone?)

Auf Twitter werden wir in diesem Zeitraum Updates in Echtzeit geben, und auch diesen Eintrag hier entsprechend aktualisieren.

Von der frischen Infrastruktur selbst werdet ihr im Idealfall genau nichts mitbekommen. All eure Daten stehen selbstverständlich auch bei unserem neuen Gastgeber, der Berliner SysEleven GmbH, 1:1 zur Verfügung. Während der ersten Tage auf neuem System können wir jedoch trotz aller vorbereitenden Tests, Tests, Tests kleinere Kursabweichungen nicht vollständig ausschließen – einige Stellschrauben werden im laufenden Betrieb vermutlich nocheinmal feinreguliert werden müssen, das zeigt die Erfahrung. Nicht nur wir, sondern auch das Team von SysEleven werden mite folglich besonders aufmerksam im Auge behalten. Versprochen. Doch nun ersteinmal: los geht’s, und frisch voraus!

Julia in Maschinenraum

Nicht-Erreichbarkeit über einige DNS-Server

[Update: 10. Juni, 7:25] Die irrtümlich gesperrte reguläre Domain *.yo.lk wurde nun wieder entsperrt. Alle mite.accounts sollten unter gewohnter URL wieder erreichbar sein. Die Gefahr eines Datenverlusts bestand selbstverständlich zu keinem Zeitpunkt.

Weltweite DNS-Server, welche für die Namensauflösung technisch zuständig sind, können unter Umständen einige Zeit für die Aktualisierung benötigen. Sollte euer Account unter regulärer Adresse noch nicht erreichbar sein, verwendet bitte noch vorübergehend die Ausweichdomain. Unsere Entschuldigung für die Unannehmlichkeiten!

Seit dem heutigen Nachmittag ist mite für einige Nutzer nicht erreichbar. Unsere Server laufen sicher und stabil, doch wird die Domain von einigen DNS-Servern aktuell nicht aufgelöst. Sollte dein Account ebenfalls von diesen Problemen betroffen sein, möchten wir uns zuallererst entschuldigen!

Eine temporäre Ausweichdomain ist bereits aktiviert. Deinen mite.account kannst du überbrückungsweise unter folgender Internet-Adresse erreichen:
http://deinaccountname.appmite.de

Unter dieser Ausweichdomain stehen alle deine Daten zur Verfügung. Dort erfasste Zeiteinträge werden, sobald die reguläre Domain wieder freigegeben wurde, selbstverständlich immer noch vorhanden sein. Die Datenbank ist nicht betroffen, das Problem liegt allein auf Ebene des Domainnamens.

Leider kann mite auf der Ausweichdomain nicht via SSL angesteuert werden. Bitte verwende ausnahmsweise die Adresse ohne vorangestelltes HTTPS.

Aktuelle Informationen kannst du alternativ via Twitter verfolgen.
So bald als möglich werden wir uns hier wieder detaillierter melden. Hoffentlich mit der Information, mite nun wieder unter gewohnter Adresse ansteuern zu können, sicherlich aber mit Details, wie diese Probleme auftreten konnten. Zur Zeit wissen wir nur, dass ein für die Beantragung der Domain verantwortlicher Dienstleister Insolvenz angemeldet hat und unseren DNS-Eintrag vermutlich mit sich gerissen hat.

Nocheinmal möchten wir uns von Herzen entschuldigen.

Julia in Maschinenraum