4 votes

Retarder l'alerte Prometheus avant de passer de l'état actif à inactif

J'ai une alerte dans ma configuration Prometheus qui envoie une alerte lorsque someMetric > 100 est valide pendant 5m et renvoie ensuite l'alerte toutes les 24h selon la configuration ci-dessous:

prometheus-alert.yml

 ` - alerte: TestAlert
          expr: someMetric > 100
          pour: 5m
` 

alertmanager-config.yml

 ` repeat_interval: 24h
` 

Cependant, someMetric a un comportement où il peut être "stable" au-dessus de 100 (ce qui signifie qu'une alerte est active), mais de temps en temps il tombe à quelque chose en dessous de 100 pour un seul raclage avant de remonter au-dessus de 100. Cela va causer une alerte active de devenir inactive (résolue) puis revenir à en attente et active à nouveau après 5 minutes. Cela forcera Prometheus à renvoyer l'alerte, ce que je veux éviter.

Y a-t-il un moyen de configurer Prometheus pour avoir quelque chose de similaire à for: 5m , mais pour la transition active -> inactive (résolue) ?

1voto

Seb Wills Points 774

Vous pourriez utiliser l'une des fonctions promQL d'agrégation dans le temps pour 'filtrer' les pics qui descendent en dessous de 100, dans votre exemple ? Dans votre cas, il semble que max pourrait fonctionner ? Le seul inconvénient étant que cela pourrait prendre quelques minutes de plus pour mettre fin à l'alerte une fois que la valeur est définitivement inférieure à 100.

- alert: TestAlert
      expr: max_over_time(someMetric[2m]) > 100
      for: 5m

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X