Nagios est bon, c'est peut-être bon de système de tests (Selenium) fonctionnant régulièrement.
Edit: Hyperic et des Bases aussi intéressante.
Il y a probablement une suite de test système test de pression tout aussi bien pour vous. Je ne me souviens pas le nom sur le dessus de ma tête, peut-être quelqu'un peut citer celui ci-dessous.
D'autres choses que j'aime faire:
Le meilleur slogan pour l'infrastructure est toujours corriger, détecter, réparer. Se lever, aller à la racine, et de guérir ou de prévenir si vous le pouvez.
Depuis un système existe à plusieurs niveaux, nous devrions tester à plusieurs niveaux:
Edit: toutes les erreurs ou les avertissements affichés directement à votre gestionnaire de cas via e-mail. De cette façon, vous pouvez suivre les événements en un seul endroit.
1) Connexion : moniteur de la connectivité à internet à partir du serveur et de l'extérieur. Journal de cela quelque part
2) Serveur : surveiller tous les processus que vous avez besoin pour s'assurer qu'ils sont en cours d'exécution et ne donne pas le serveur. L'utilisation d'un Serveur HP ou quelque chose d'équivalent avec le matériel notification d'échec qu'il peut faire à partir d'un niveau du bios. Informer et journal s'ils sont.
3) Logiciel : Identifier les principaux logiciels qui doit toujours être en cours d'exécution. Définir les niveaux de performance, le cas échéant, et ensuite de les surveiller. Nagios doit être en mesure d'aider avec cela. Sur windows, il peut être un peu plus. Lorsqu'une exception se produit, vous devriez être en mesure d'exécuter un script pour redémarrer les processus automatiquement. Mon rêve système me permet d'interagir avec les serveurs via SMS si le serveur ne voit en elle qu'une exception que je dois soit permis, ou celui qui va arriver automatiquement à moins que je annuler par sms. Un jour..
4) Alimentation de la Télécommande : Assurer à Distance la réinitialisation de l'alimentation capacités sont dans votre main. Vous pouvez planifier hebdomadaire redémarre si jamais vous utilisez windows pour quoi que ce soit.
5) la Logique Métier de Test : Avez régulièrement l'exécution de scripts de test le flux de travail de votre système. Le sélénium peut probablement obtenir un peu de ceci, mais j'ai comme l'exploitation forestière, les résultats ainsi dire ceci couru à cette époque et ces fichiers a des erreurs. Si possible n'importe où, ont le moniteur système lui-même par le biais de vos scripts.
6) les Sauvegardes : Faire une copie de sauvegarde que vous pouvez régler et oublier. Si vous pouvez obtenir des choses dans des machines virtuelles, il serait idéal que vous pouvez redimensionner, déplacer, ou de déployer une partie de votre infrastructure n'importe où. J'ai eu des cas où j'ai déménagé morts serveur sur mon ordinateur portable, le laisser courir dans vmware tandis que je fixe un problème.