In eigener Sache: Informationen zur Downtime von betterplace.org am 1. August 2015:

Leonie Gehrke
04.08.2015

Was passiert ist und was wir tun, um das in Zukunft zu vermeiden.

Am vergangenen Samstag, den 1. August 2015, war betterplace.org für den längsten Zeitraum seit Bestehen unserer Plattform im Jahr 2007 durch eine Verkettung von Fehlern für neun Stunden und 15 Minuten offline. Von 8:18 Uhr bis 17:33 Uhr waren die Website betterplace.org, alle integrierten Spendenformulare sowie alle APIs und damit alle angeschlossenen Spendenportale nicht erreichbar. Das tut uns aufrichtig leid. Wir bitten alle Nutzer, insbesondere die Projektverantwortlichen und Spender, für mögliche Unannehmlichkeiten um Entschuldigung.

Das Wichtigste zuerst:

  • Seit Samstag, den 1. August 2015, 17.33 Uhr ist das System wieder voll funktionsfähig.
  • Abgesehen von der Nicht-Erreichbarkeit gibt es keine nachteiligen Auswirkungen.
  • Wir haben Maßnahmen ergriffen, damit die Fehler, die zum Ausfall geführt haben, nicht mehr auftreten können bzw. die Behebung von Fehlern schneller erfolgen kann.

Zur Einordnung:

Die Verfügbarkeit unserer Systeme liegt aktuell bei 99,66% für dieses Jahr, trotz des Ausfalls.

Verfügbarkeit betterplace.org

**Jahr ** **Uptime in % ** Längste ungeplante Downtime in h/min
2012 99,88% 1h 05 min
2013 99,78% 1h 55 min
2014 99,92% 50 min

Wie immer bei einem Ausfall von dieser Größenordnung müssen mehrere Fehler gleichzeitig auftreten und sich gegenseitig „begünstigen”.

Wir möchten Euch hier erklären, was passiert ist und was wir aus diesen Fehlern gelernt haben.

Was passiert ist:

  1. Ein von uns selbst falsch konfigurierter automatischer Prozess hat am Samstagmorgen Teile unserer Datenbank in einen fehlerhaften (inkonsistenten) Zustand gebracht.
  2. Wir haben das System offline genommen, um die Daten zu prüfen und zu korrigieren.
  3. Sobald wir sicher waren, dass alle Daten vollständig waren, haben wir die Datenbank wieder in einen fehlerfreien (konsistenten) Zustand gebracht. Dieser Vorgang war sehr zeitaufwändig.
  4. Anschließend haben wir die Seite wieder online geschaltet.

Das alles hat sehr lange gedauert, weil wir große Datenmengen überprüfen und verarbeiten müssen – allein das Backup des Datenbankbestandes hat ca. eine Stunde gedauert. Da die Datensicherheit oberste Priorität hatte, sind wir auch erst wieder online gegangen als wir sicher waren, dass alles einwandfrei funktioniert.

Was wir gelernt haben und was wir tun, damit das nicht wieder vorkommt

Nach jedem ungeplanten Ausfall überprüfen wir unsere Prozesse und ergreifen Maßnahmen, um diese Fehler zu verhindern:

  • Wir haben noch striktere Regeln für Updates am Live-System eingeführt.
  • Wir bauen ein System, das die Einhaltung dieser Regeln automatisch kontrolliert.
  • Wir erweitern unsere Systemüberwachung, die unser technisches Personal bei Fehlern oder einem Ausfall noch schneller und besser informiert.
  • Wir überarbeiten unseren Notfallplan anhand der Erfahrungen, die wir bei dieser Downtime gemacht haben.
  • Wir haben unsere Backup-Prozesse optimiert.

Solltest Du als Projektverantwortlicher oder Spender in Bezug auf den Zeitraum des Ausfalls weitere Fragen haben, richte diese bitte an: [email protected].