Moin,
sollte zuverlässig funktionieren.
Hatte vor mehreren Jahren ein "ähnliches" Problem mit einem HA-DB-Cluster und dem keepalived service.
Die Systeme liefen grundlegend fehlerfrei mit all Ihren Diensten, keepalived funktionierte ebenfalls mit seinen Grundfunktionalitäten - vrrp, interface tracking, service check & health check etc. Ein zusätzliches internes/externes Monitoring war nicht gewünscht.
Aber warum auch immer "hing" die global adressierte vIP im Kernel in unregelmäßigen Abständen, war jedoch weiterhin adressiert und mittels vrrp wurde allen anderen Servern mitgeteilt "Ja, funktioniert". Am Ende musste ich als workaround und dem kritischen Zustand ein "track_script" erstellen was zusätzlich mittels icmp und hohem Intervall prüft ob die global adressierte vIP auch tatsächlich funktioniert und im Zweifel den keepalived service neustartet. Irgendwann..nach Monaten wurde das Problem durch ein Update gelöst.
Unabhängig davon..vielleicht reicht bei dir anstelle von nem reboot auch ifdown/ifup mit kurzer Wartezeit.
Für zuhause kann man sich auch ein active-backup bond bauen mit dem onboard ethernet/wifi/usb-ethernet adapter.
Wenn das System produktiv ist, würde ich vorab ein paar zusätzliche Prüfungen durchführen, bevor ich einen Dienst oder Server automatisiert neustarte. Bspw. erreicht der Server vielleicht sein eigenes Gateway(ping/arp)? Sieht die Routentabelle so aus wie sie auch sein sollte? Habe ich andere Schnittstellen oder Systeme welche ich prüfen kann. Ist wie immer natürlich Abhängig von der betroffenen Infrastruktur und den Gegebenheiten.
Hast du mehrere Schnittstellen mit unterschiedlichen Verwendungen, kannst du theoretisch die externe Prüfung mit "internen" Routinen von einer VM/dediziertem System kombinieren.
Server "extern" nicht erreichbar, intern erreichbar & Semaphore gesetzt, System prüft potentielle Ursachen bezogen auf die externe NIC(linkstatus, gateway, routen(v4/v6), packetloss,..) oder Dienste - startet diese im Zweifel neu bzw. den Server. Nach Ausführung und eventuellem Reboot keine Besserung -> notify 24/7 IT
