Nous utilisons Nagios pour surveiller notre réseau avec de bons résultats. Il y a maintenant une nouvelle exigence avec laquelle nous nous débattons :
-
Nous voulons notifier Nagios d'un non fatale mais critique de l'application. L'application application ne s'arrête pas de fonctionner mais mais il y a une sorte de problème qui qui doit être examiné.
-
Une fois que le problème a été examiné, nous devons trouver un moyen de "désélectionner" le problème dans Nagios.
Nous avons essayé d'utiliser le syslog, mais le plus gros problème était qu'une fois qu'une erreur était enregistrée, le service était mis dans un état d'erreur sans possibilité de récupération. De plus, si les applications signalent une erreur critique dans le syslog, la plupart du temps, elles ne signalent pas d'erreur "All clear".