Hintergrundinformationen zum Ausfall am vergangenen Donnerstag
Am Donnerstag den 15.08.2019 hatten wir einen netzweiten Ausfall des Exit-VPNs. Wir möchten hier einmal darüber informieren was genau warum passiert ist und wie der aktuelle Status des Netzwerks ist.
Der Ausfall begann vermutlich bereits am Donnerstag morgen, wobei dem Kernteam erst an späten Nachmittag wirklich bewusst wurde, dass etwas nicht stimmt. Es trudelten einige E-Mails im Ticketsystem ein, die davon berichteten, dass Endgeräte kein Internet hätten, obwohl betroffene Knoten im Meshviewer als "online" markiert sei.
Wir konnten den Fehler schnell reproduzieren und hatten auch direkt den Verdacht, dass etwas mit dem Exit-VPN nicht stimmte. Merkwürdig war jedoch, dass es alle Gateways betraf. Freifunk Pinneberg hat gleich vier davon im Produktivbetrieb, die zudem auch verschiedene Exit-VPNs nutzen. Ein gleichzeitiger Ausfall bei mehreren Anbietern erschien uns doch etwas suspekt.
Unser Netz kann auch problemlos mit nur einem Gateway arbeiten, die anderen drei dienen also primär der Ausfallsicherheit und sorgen für etwas mehr Bandbreite. In der Theorie können drei der vier Server ausfallen, ohne das irgendein Router deswegen offline gehen muss. Es kann höchstens zu Einbußen bei der Geschwindigkeit kommen.
Im Zuge der Fehlersuche stellte sich als erstes heraus, dass wir schlicht versäumt hatten zwei der vier Exit-VPNs zu bezahlen. Die Bezahlung erfolgt dabei auf dem Postweg in Bar nach dem Prepaid-Prinzip. Diesen Umstand zu beseitigen dauert nun etwas, da hierzu ein Brief ins Ausland gesendet werden muss.
Blieben noch zwei Server übrig, hier war mit dem Guthaben alles in Ordnung. Bei einem davon war die Ursache tatsächlich ein technisches Problem auf seiten des VPN-Anbieters, wir konnten jedoch auf einen anderen Server beim selben Anbieter ausweichen und das Problem so an diesem Gateway beheben.
Damit blieb noch ein Server übrig. Das Merkwürdigste war für uns jedoch, die Selbsttests auf dem Gateway haben immer wieder ergeben, dass alles in Ordnung wäre, auch die simple Maßnahme des Aus- und wieder Einschaltens hatte am Testergebnis nichts geändert. Sogar ein Ping durch das Exit-VPN war vom Gateway aus möglich, und doch gab es kein Internet für die Clients. Hier stellte sich bei genauerer Analyse am nächsten Morgen heraus, dass im DHCP die IP eines anderen Gateways angegeben war. Deshalb versuchten die Endgeräte eine Internetverbindung über eines der ausgefallenen Gateways aufzubauen. Dies konnte dann zügig behoben werden.
Damit war das Netz dann am Freitag morgen wieder online, jedoch nur mit zwei von vier Servern. Die beiden die noch auf Bezahlung warten, bieten derzeit ihren Dienst nicht via Alfred an, damit sind alle Router mit den verbleibenden zwei Gateways verbunden, und das Netz wieder stabil. Im Laufe der Woche dürfte es dann wieder von zwei auf vier Server gehen.
Um so etwas in Zukunft möglichst zu verhindern, werden wir unser Monitoring ausweiten. Die Gateway-Selbstchecks sind zudem demnächst öffentlich sichtbar, damit jeder selbst sehen kann, in welchen Zustand das Netz derzeit ist. Eine komplett neue Webseite ist ebenfalls bereits in Arbeit, und dieses Feature mitbringen. Wir machen uns auch Gedanken darüber, wie wir den Weg vom Endgerät übers Mesh ins Internet möglichst automatisiert testen können.
Update 20.08:
Es sind wieder alle 4 Gateways online