Forum nicht erreichbar

MonztA

Das Forum läuft seit dem Ausfall von heute spürbar schneller, find ich.

graubaer

Hallo,

Zitat von MonztA

Das Forum läuft seit dem Ausfall von heute spürbar schneller, find ich.

vorhin ist das Forum allerdings überhaupt nicht gelaufen. :traurig:

pittifox

Immer gut wenn man weiß wo man nachsehen muss: http://twitter.com/atopal :idea:

MaximaleEleganz

Statt Forum gab es heute Morgen: [Blockierte Grafik: http://www.cosgan.de/images/smilie/sportlich/n020.gif]

Global Associate

Hach! Gestern Nacht 1:45 "Forum vorübergehend nicht erreichbar". Ich folgte Twitter, aha ein Upgrade. Ging zu Bette. Heute morgen Camp Firefox: nema nischta :cry: . Ich folgte Twitter, aha upgrade auf Debian 'irgendwas' erfolgreich. :arrow: , Heute Mittag: dumm gelaufen, war doch nicht so erfolgreich. Eben: *entzücktguck* da sind wir wieder

A.Topal

Hallo zusammen, ich wollte ja schon länger mal schreiben, was eigentlich in den letzten Wochen passiert ist. Dazu muss ich vorausschicken, dass das Problem heute nicht damit zu tun hatte, zumindest nicht direkt.

Die Kurzversion: Ich habe ein Upgrade der Server durchgehführt und das schien zwar geklappt zu haben, aber ein automatisch geplanter Neustart am frühen Morgen hat dann einen Fehler provoziert und die Lösung hat mehrere Stunden in Anspruch genommen. Inzwischen läuft wieder alles ganz normal.

Lange Version: Gestern Nacht habe ich unseren Server, der eigentlich eine virtuelle Maschine ist, und den Wirtsserver von Debian Etch auf Debian Lenny aktualisiert. Das Upgrade der virtuellen Maschine lief auch recht problemlos, weil ich das schon drei Mal getestet hatte. Das Upgrade des Wirtsservers hätte eigentlich sogar noch weniger problematisch sein sollen, weil auf dem praktisch kein Dienst außer dem XEN-Hypervisor läuft. Ausgerechnet der hat dann offenbar das Problem verursacht. Denn heute Morgen sollte ein Skript die VMs herunterfahren, ein Backup erstellen, und wieder hochfahren. Das Herunterfahren und Sichern lief, aber die VMs wurden nicht mehr hochgefahren.

Das Problem: Beim Upgrade wurden die Xen-Pakete mit dem alten Kernel beibehalten, aber die restlichen Pakete wurden aktualisiert. Das führte dann dazu, dass die Xen-Skripte eine ältere Version von Python erwarteten als installiert war und daraufhin den Betrieb verweigerten. Nach einem Upgrade des Kernels waren die Pakete dann zwar kompatibel, aber die Netzwerkkonfiguration in XEN hatte sich geändert: Die VMs liefen zwar ganz normal, hatten aber keine Verbindung mehr nach Außen. Leider ist die Doku dazu recht lückenhaft und so hat es mehrere Stunden gedauert, bis ich den Fehler erkannt und eine Lösung gefunden hatte.

Die schlechte Nachricht: Die schlechte Dokumentation von Xen wird wohl bei jedem Upgrade zu Fehlern führen. Die gute Nachricht: Debian-Upgrades stehen nur alle paar Jahre an.

Endor

Hallo A. Topal
Danke für die Erklärung des letzten Ausfalls.
Verfolge immer über Twitter, so bin ich immer auf dem laufenden.
Danke für die ganze Mühe die Du Dir für uns machst.

Endor

pittifox

Zitat von Endor

Danke für die ganze Mühe die Du Dir für uns machst.

Dito ! :wink:

A.Topal

Bei so einer Community mache ich das gerne

Dann noch ein Wort zum Ausfall letzte Woche (Vorsicht, sehr technisch): Eigentlich wollte ich den Server bereits letzte Woche upgraden, aber schon beim ersten Befehl fiel mir auf, dass einige Partitionen read-only gemountet waren, darunter auch /root /etc. Nachdem ich die Logs durchgegangen war, war klar, dass die 2. Festplatte im Raid defekt war. Eigentlich ist das ja kein Problem, dafür haben wir schließlich ein Raid. Wenn eine Festplatte ausfällt, macht die andere weiter. In diesem Fall leider nicht. Auf dem Server sind drei Partitionen vorhanden, wie ich dann feststellen musste, war Partition A nur auf der defekten Festplatte vorhanden, weil das Raid aus einem unbekannten Grund Festplatte 1 abgeschaltet hatte, aber nur für Partition A. Partition B und C waren dagegen nur auf Festplatte 1 vorhanden, denn dafür wurde die defekte Festplatte deaktiviert, wie es auch sein sollte.

Also folgender Zustand:

Code

Part.  | Platte
A             2
B             1
C             1

Einen solchen Zustand sollte es in einem korrekten Raid eigentlich nie geben. Denn so kann man nicht einfach eine der beiden Festplatten entfernen. Noch schlimmer: Die Partitionen waren schon seit 2 Tagen read-only geschaltet worden und damit waren auch alle Backups seit 2 Tagen veraltet. Ich musste also erst ein Backup der Server erstellen, übers Netz verteilen, dann die Festplatte 1 mit der defekten Festplatte synchronisieren und dann nach einem Austausch der defekten Festplatte die neue Festplatte synchronisieren.

Das wirft natürlich eine Reihe von Fragen auf: Die wichtigste, "wie konnte das Raid in einen solchen Zustand kommen?", kann ich leider nicht mehr beantworten, die Logs dazu waren schon seit längerem gelöscht. Die zweitwichtigste Frage, "Warum hat der Server nicht darüber informiert?", kann ich hingegen beantworten. Das Monitoring für die Festplatten war deaktiviert. Das Basis-System war ein vorkonfiguriertes Image vom Hoster und ich hatte mich darauf verlassen, dass so etwas wichtiges wie Fesplatten-Monitoring funktionieren würde. Das war selbstverständlich ein grober Fehler meinerseits.

Zwar lässt sich das Ganze leider nicht rückgängig machen, aber zumindest für die Zukunft deutlich besser absichern. Inzwischen läuft ein Monitoring der Festplatten auf zwei Ebenen, einmal direkt auf der Hardware und einmal ein Monitoring des Raid-Zustandes. Zumindest bleibt die Erkenntnis, dass Backups einen auch in diesen Situationen noch die Nerven behalten lassen.

pittifox

Zitat

Das wirft natürlich eine Reihe von Fragen auf

Kenne ich nur zu gut-allerdings nur was mein "kleines" System betrifft, hätte ich nicht True Image müsste ich wohl schon öfter das BS neu aufsetzen.

mrspeggy

Ich habe von all dem nur Bahnhof verstanden... :lol: aber ich finde Deine Arbeit trotzdem sehr gut. Danke für Deine Mühen.

Lendo

Kadir, danke für deine Erläuterungen. Ich hoffe, du hast Zeit, deine XEN- und Debian-Reparaturschritte auch wieder schön detailiert in deinem Blog nachvollziehbar aufzuschreiben? Wenn es schon so wenig Dokumentation zu XEN gibt ...

Global Associate

Na, nun war ich eben mal drin, Und dann General Error. Abdulkadir, wehe wenn Du jetzt noch einen Trojaner rüberschickst

Estartu

War mir auch schon aufgefallen. Hatte deswegen gleich mal im Chat Bescheid gesagt. Er ist dort nämlich gerade online.

Global Associate

Na Gott sei Dank. Ich hatte schon meine "Befürchtungen" :wink: Ich denke, Debian hat wohl wieder Schluckauf.

Estartu

Mal Abwarten, wie sich Kadir dazu äußert.

Edith verweist auf http://twitter.com/atopal

Global Associate

Alles klar, hatte ich schon gelesen. Danke Estartu :wink:

A.Topal

Aus unbekanntem Grund hat sich der Server neugestartet, aber alles deutet darauf hin, dass es einen Stromausfall gab. Ich warte noch auf Antwort von meinem Hoster.

Edit: Es war kein Stromausfall. :-???

A.Topal

Zitat von Lendo

Kadir, danke für deine Erläuterungen. Ich hoffe, du hast Zeit, deine XEN- und Debian-Reparaturschritte auch wieder schön detailiert in deinem Blog nachvollziehbar aufzuschreiben? Wenn es schon so wenig Dokumentation zu XEN gibt ...

Eine wirklich gute Idee :wink:

pittifox

ist aber seit Kurzem wieder träge hier, verabschiedet sich der Server schon wieder ? :-??