Brainstorming: Remote Server Reboot

For topics beyond KeyHelp. / Für Themen jenseits von KeyHelp.
Post Reply
User avatar
24unix
Posts: 2037
Joined: Sun 21. Jun 2020, 17:16
Location: Kollmar
Contact:

Brainstorming: Remote Server Reboot

Post by 24unix »

Hi, ich wollte mich mal mit euch austauschen, andere Ideen oder Gedanken einholen.

Mein NAS (OMV auf einem ausrangiertem Intel-MacMini) verliert manchmal seine NIC, wenn zu viel Last drauf ist, z. B. große Backups.
Das System läuft weiter, hat aber kein Netzwerk mehr.
Ich habe dafür ein Script geschrieben, welches per systemd timer jede Minute prüft, ob das Netzwerk noch erreichbar ist, wenn nein, dann einen Reboot macht.
In einem kommerziellem Umfeld wäre das inakzeptabel, aber das hätte ich auch kein ausrangierten MacMini als NAS :-)
Für einen 2-Personen-Haushalt ist es völlig OK.

Nun will ich etwas ähnliches, ein Reboot bei Problemen, aber von aussen getriggert.
Das ganze halt im Zusammenhang mit dem Monitoring-Tool.
Wenn Server x den Staus offline hat (API endpoint /ping reagiert nicht), dann Semaphore per scp anlegen.

Ich überlege nun einen Dienst zu nutzen, der schaut ob ein Semaphore gesetzt ist, wenn ja, dann reboot.

Habt ihr Bedenken? Bessere/andere Ideen?

Danke schon mal! :)
Cheers Micha
--
A Windows user reinstalls software every few weeks.
A Linux user reinstalls software every few weeks.
The difference is with Linux the version numbers change.
User avatar
Daniel
Keyweb AG
Posts: 136
Joined: Mon 25. Jan 2016, 04:42

Re: Brainstorming: Remote Server Reboot

Post by Daniel »

Moin,

sollte zuverlässig funktionieren.

Hatte vor mehreren Jahren ein "ähnliches" Problem mit einem HA-DB-Cluster und dem keepalived service.
Die Systeme liefen grundlegend fehlerfrei mit all Ihren Diensten, keepalived funktionierte ebenfalls mit seinen Grundfunktionalitäten - vrrp, interface tracking, service check & health check etc. Ein zusätzliches internes/externes Monitoring war nicht gewünscht.

Aber warum auch immer "hing" die global adressierte vIP im Kernel in unregelmäßigen Abständen, war jedoch weiterhin adressiert und mittels vrrp wurde allen anderen Servern mitgeteilt "Ja, funktioniert". Am Ende musste ich als workaround und dem kritischen Zustand ein "track_script" erstellen was zusätzlich mittels icmp und hohem Intervall prüft ob die global adressierte vIP auch tatsächlich funktioniert und im Zweifel den keepalived service neustartet. Irgendwann..nach Monaten wurde das Problem durch ein Update gelöst.

Unabhängig davon..vielleicht reicht bei dir anstelle von nem reboot auch ifdown/ifup mit kurzer Wartezeit.
Für zuhause kann man sich auch ein active-backup bond bauen mit dem onboard ethernet/wifi/usb-ethernet adapter.

Wenn das System produktiv ist, würde ich vorab ein paar zusätzliche Prüfungen durchführen, bevor ich einen Dienst oder Server automatisiert neustarte. Bspw. erreicht der Server vielleicht sein eigenes Gateway(ping/arp)? Sieht die Routentabelle so aus wie sie auch sein sollte? Habe ich andere Schnittstellen oder Systeme welche ich prüfen kann. Ist wie immer natürlich Abhängig von der betroffenen Infrastruktur und den Gegebenheiten.
Hast du mehrere Schnittstellen mit unterschiedlichen Verwendungen, kannst du theoretisch die externe Prüfung mit "internen" Routinen von einer VM/dediziertem System kombinieren.

Server "extern" nicht erreichbar, intern erreichbar & Semaphore gesetzt, System prüft potentielle Ursachen bezogen auf die externe NIC(linkstatus, gateway, routen(v4/v6), packetloss,..) oder Dienste - startet diese im Zweifel neu bzw. den Server. Nach Ausführung und eventuellem Reboot keine Besserung -> notify 24/7 IT :)
Mit freundlichen Grüßen / Best regards
Daniel Marckardt

**************************************************************
Keyweb AG - Die Hosting Marke
Neuwerkstr. 45/46, 99084 Erfurt / Germany
https://www.keyweb.de - https://www.keyhelp.de
**************************************************************
User avatar
24unix
Posts: 2037
Joined: Sun 21. Jun 2020, 17:16
Location: Kollmar
Contact:

Re: Brainstorming: Remote Server Reboot

Post by 24unix »

Danke für das feedback :-)
Daniel wrote: Tue 8. Apr 2025, 12:37 Unabhängig davon..vielleicht reicht bei dir anstelle von nem reboot auch ifdown/ifup mit kurzer Wartezeit.
Ah ja, das könnte ich mal testen, gute Idee.
Cheers Micha
--
A Windows user reinstalls software every few weeks.
A Linux user reinstalls software every few weeks.
The difference is with Linux the version numbers change.
Post Reply