Brainstorming: Remote Server Reboot

24unix · Post by **24unix** » Mon 7. Apr 2025, 19:42

Hi, ich wollte mich mal mit euch austauschen, andere Ideen oder Gedanken einholen.

Mein NAS (OMV auf einem ausrangiertem Intel-MacMini) verliert manchmal seine NIC, wenn zu viel Last drauf ist, z. B. große Backups.
Das System läuft weiter, hat aber kein Netzwerk mehr.
Ich habe dafür ein Script geschrieben, welches per systemd timer jede Minute prüft, ob das Netzwerk noch erreichbar ist, wenn nein, dann einen Reboot macht.
In einem kommerziellem Umfeld wäre das inakzeptabel, aber das hätte ich auch kein ausrangierten MacMini als NAS

Für einen 2-Personen-Haushalt ist es völlig OK.

Nun will ich etwas ähnliches, ein Reboot bei Problemen, aber von aussen getriggert.
Das ganze halt im Zusammenhang mit dem Monitoring-Tool.
Wenn Server x den Staus offline hat (API endpoint /ping reagiert nicht), dann Semaphore per scp anlegen.

Ich überlege nun einen Dienst zu nutzen, der schaut ob ein Semaphore gesetzt ist, wenn ja, dann reboot.

Habt ihr Bedenken? Bessere/andere Ideen?

Danke schon mal!

Post by **Daniel** » Tue 8. Apr 2025, 12:37

Moin,

sollte zuverlässig funktionieren.

Hatte vor mehreren Jahren ein "ähnliches" Problem mit einem HA-DB-Cluster und dem keepalived service.
Die Systeme liefen grundlegend fehlerfrei mit all Ihren Diensten, keepalived funktionierte ebenfalls mit seinen Grundfunktionalitäten - vrrp, interface tracking, service check & health check etc. Ein zusätzliches internes/externes Monitoring war nicht gewünscht.

Aber warum auch immer "hing" die global adressierte vIP im Kernel in unregelmäßigen Abständen, war jedoch weiterhin adressiert und mittels vrrp wurde allen anderen Servern mitgeteilt "Ja, funktioniert". Am Ende musste ich als workaround und dem kritischen Zustand ein "track_script" erstellen was zusätzlich mittels icmp und hohem Intervall prüft ob die global adressierte vIP auch tatsächlich funktioniert und im Zweifel den keepalived service neustartet. Irgendwann..nach Monaten wurde das Problem durch ein Update gelöst.

Unabhängig davon..vielleicht reicht bei dir anstelle von nem reboot auch ifdown/ifup mit kurzer Wartezeit.
Für zuhause kann man sich auch ein active-backup bond bauen mit dem onboard ethernet/wifi/usb-ethernet adapter.

Wenn das System produktiv ist, würde ich vorab ein paar zusätzliche Prüfungen durchführen, bevor ich einen Dienst oder Server automatisiert neustarte. Bspw. erreicht der Server vielleicht sein eigenes Gateway(ping/arp)? Sieht die Routentabelle so aus wie sie auch sein sollte? Habe ich andere Schnittstellen oder Systeme welche ich prüfen kann. Ist wie immer natürlich Abhängig von der betroffenen Infrastruktur und den Gegebenheiten.
Hast du mehrere Schnittstellen mit unterschiedlichen Verwendungen, kannst du theoretisch die externe Prüfung mit "internen" Routinen von einer VM/dediziertem System kombinieren.

Server "extern" nicht erreichbar, intern erreichbar & Semaphore gesetzt, System prüft potentielle Ursachen bezogen auf die externe NIC(linkstatus, gateway, routen(v4/v6), packetloss,..) oder Dienste - startet diese im Zweifel neu bzw. den Server. Nach Ausführung und eventuellem Reboot keine Besserung -> notify 24/7 IT

24unix · Post by **24unix** » Tue 8. Apr 2025, 13:00

Danke für das feedback

Daniel wrote: ↑Tue 8. Apr 2025, 12:37 Unabhängig davon..vielleicht reicht bei dir anstelle von nem reboot auch ifdown/ifup mit kurzer Wartezeit.

Ah ja, das könnte ich mal testen, gute Idee.

Brainstorming: Remote Server Reboot

Brainstorming: Remote Server Reboot

Re: Brainstorming: Remote Server Reboot

Re: Brainstorming: Remote Server Reboot