cookbooks/prometheus/templates/default/alert_rules.yml.erb

   1 # DO NOT EDIT - This file is being maintained by Chef
   2
   3 groups:
   4   - name: alertmanager
   5     rules:
   6       - alert: prometheus target missing
   7         expr: up == 0
   8         for: 5m
   9         labels:
  10           alertgroup: "prometheus"
  11   - name: apache
  12     rules:
  13       - alert: apache down
  14         expr: apache_up == 0
  15         for: 5m
  16         labels:
  17           alertgroup: "{{ $labels.instance }}"
  18       - alert: apache workers busy
  19         expr: sum(apache_workers{state="busy"}) by (instance) / sum(apache_scoreboard) by (instance) > 0.8
  20         for: 5m
  21         labels:
  22           alertgroup: "{{ $labels.instance }}"
  23         annotations:
  24           busy_workers: "{{ $value | humanizePercentage }}"
  25   - name: cpu
  26     rules:
  27       - alert: cpu pressure
  28         expr: rate(node_pressure_cpu_waiting_seconds_total[5m]) > 0.3
  29         for: 15m
  30         labels:
  31           alertgroup: "{{ $labels.instance }}"
  32         annotations:
  33           pressure: "{{ $value | humanizePercentage }}"
  34   - name: database
  35     rules:
  36       - alert: postgres replication delay
  37         expr: pg_replication_lag_seconds > 5
  38         for: 5m
  39         labels:
  40           alertgroup: database
  41         annotations:
  42           delay: "{{ $value | humanizeDuration }}"
  43   - name: filesystem
  44     rules:
  45       - alert: readonly filesystem
  46         expr: node_filesystem_readonly == 1
  47         for: 0m
  48         labels:
  49           alertgroup: "{{ $labels.instance }}"
  50       - alert: filesystem low on space
  51         expr: node_filesystem_avail_bytes / node_filesystem_size_bytes < 0.05
  52         for: 5m
  53         labels:
  54           alertgroup: "{{ $labels.instance }}"
  55         annotations:
  56           percentage_free: "{{ $value | humanizePercentage }}"
  57           free_bytes: "{{ with printf \"node_filesystem_avail_bytes{instance='%s',mountpoint='%s'}\" $labels.instance $labels.mountpoint | query }}{{ . | first | value | humanize1024 }}bytes{{end}}"
  58           total_total: "{{ with printf \"node_filesystem_size_bytes{instance='%s',mountpoint='%s'}\" $labels.instance $labels.mountpoint | query }}{{ . | first | value | humanize1024 }}bytes{{end}}"
  59       - alert: filesystem low on inodes
  60         expr: node_filesystem_files_free / node_filesystem_files < 0.1
  61         for: 5m
  62         labels:
  63           alertgroup: "{{ $labels.instance }}"
  64         annotations:
  65           percentage_free: "{{ $value | humanizePercentage }}"
  66           free_inodes: "{{ with printf \"node_filesystem_files_free{instance='%s',mountpoint='%s'}\" $labels.instance $labels.mountpoint | query }}{{ . | first | value }}{{end}}"
  67           total_inodes: "{{ with printf \"node_filesystem_files{instance='%s',mountpoint='%s'}\" $labels.instance $labels.mountpoint | query }}{{ . | first | value }}{{end}}"
  68   - name: hwmon
  69     rules:
  70       - alert: hwmon fan alarm
  71         expr: node_hwmon_fan_alarm == 1
  72         for: 5m
  73         labels:
  74           alertgroup: "{{ $labels.instance }}"
  75         annotations:
  76           fan_rpm: "{{ with printf \"node_hwmon_fan_rpm{instance='%s',chip='%s',sensor='%s'}\" $labels.instance $labels.chip $labels.sensor | query }}{{ . | first | value | humanize }}rpm{{end}}"
  77           fan_min_rpm: "{{ with printf \"node_hwmon_fan_min_rpm{instance='%s',chip='%s',sensor='%s'}\" $labels.instance $labels.chip $labels.sensor | query }}{{ . | first | value | humanize }}rpm{{end}}"
  78       - alert: hwmon temperature alarm
  79         expr: node_hwmon_temp_alarm == 1
  80         for: 5m
  81         labels:
  82           alertgroup: "{{ $labels.instance }}"
  83         annotations:
  84           temp_celsius: "{{ with printf \"node_hwmon_temp_celsius{instance='%s',chip='%s',sensor='%s'}\" $labels.instance $labels.chip $labels.sensor | query }}{{ . | first | value | humanize }}C{{end}}"
  85           temp_max_celsius: "{{ with printf \"node_hwmon_temp_max_celsius{instance='%s',chip='%s',sensor='%s'}\" $labels.instance $labels.chip $labels.sensor | query }}{{ . | first | value | humanize }}C{{end}}"
  86           temp_crit_celsius: "{{ with printf \"node_hwmon_temp_crit_celsius{instance='%s',chip='%s',sensor='%s'}\" $labels.instance $labels.chip $labels.sensor | query }}{{ . | first | value | humanize }}C{{end}}"
  87       - alert: hwmon voltage alarm
  88         expr: node_hwmon_in_alarm == 1
  89         for: 5m
  90         labels:
  91           alertgroup: "{{ $labels.instance }}"
  92         annotations:
  93           in_volts: "{{ with printf \"node_hwmon_in_volts{instance='%s',chip='%s',sensor='%s'}\" $labels.instance $labels.chip $labels.sensor | query }}{{ . | first | value | humanize }}V{{end}}"
  94           in_min_volts: "{{ with printf \"node_hwmon_in_min_volts{instance='%s',chip='%s',sensor='%s'}\" $labels.instance $labels.chip $labels.sensor | query }}{{ . | first | value | humanize }}V{{end}}"
  95           in_max_volts: "{{ with printf \"node_hwmon_in_max_volts{instance='%s',chip='%s',sensor='%s'}\" $labels.instance $labels.chip $labels.sensor | query }}{{ . | first | value | humanize }}V{{end}}"
  96   - name: io
  97     rules:
  98       - alert: io pressure
  99         expr: rate(node_pressure_io_waiting_seconds_total[5m]) > 0.6
 100         for: 60m
 101         labels:
 102           alertgroup: "{{ $labels.instance }}"
 103         annotations:
 104           pressure: "{{ $value | humanizePercentage }}"
 105   - name: ipmi
 106     rules:
 107       - alert: ipmi fan alarm
 108         expr: ipmi_fan_speed_state > 0
 109         for: 5m
 110         labels:
 111           alertgroup: "{{ $labels.instance }}"
 112         annotations:
 113           fan_speed_rpm: "{{ with printf \"ipmi_fan_speed_rpm{instance='%s',id='%s'}\" $labels.instance $labels.id | query }}{{ . | first | value | humanize }}rpm{{end}}"
 114       - alert: ipmi temperature alarm
 115         expr: ipmi_temperature_state > 0
 116         for: 5m
 117         labels:
 118           alertgroup: "{{ $labels.instance }}"
 119         annotations:
 120           temperature_celsius: "{{ with printf \"ipmi_temperature_celsius{instance='%s',id='%s'}\" $labels.instance $labels.id | query }}{{ . | first | value | humanize }}C{{end}}"
 121       - alert: ipmi voltage alarm
 122         expr: ipmi_voltage_state > 0
 123         for: 5m
 124         labels:
 125           alertgroup: "{{ $labels.instance }}"
 126         annotations:
 127           voltage_volts: "{{ with printf \"ipmi_voltage_volts{instance='%s',id='%s'}\" $labels.instance $labels.id | query }}{{ . | first | value | humanize }}V{{end}}"
 128       - alert: ipmi power alarm
 129         expr: ipmi_power_state > 0 or ipmi_sensor_state{type=~"Power .*"} > 0
 130         for: 5m
 131         labels:
 132           alertgroup: "{{ $labels.instance }}"
 133   - name: mail
 134     rules:
 135       - alert: exim queue length
 136         expr: exim_queue > exim_queue_limit
 137         for: 60m
 138         labels:
 139           alertgroup: mail
 140         annotations:
 141           queue_length: "{{ $value }}"
 142       - alert: mailman queue length
 143         expr: mailman_queue_length > 200
 144         for: 60m
 145         labels:
 146           alertgroup: mail
 147         annotations:
 148           queue_length: "{{ $value }}"
 149   - name: mdadm
 150     rules:
 151       - alert: mdadm array inactive
 152         expr: node_md_state{state="inactive"} > 0
 153         for: 0m
 154         labels:
 155           alertgroup: "{{ $labels.instance }}"
 156         annotations:
 157           required: "{{ with printf \"node_md_disks_required{instance='%s',device='%s'}\" $labels.instance $labels.device | query }}{{ . | first | value | humanize }} disks{{end}}"
 158           active: "{{ with printf \"node_md_disks{instance='%s',device='%s',state='active'}\" $labels.instance $labels.device | query }}{{ . | first | value | humanize }} disks{{end}}"
 159           failed: "{{ with printf \"node_md_disks{instance='%s',device='%s',state='failed'}\" $labels.instance $labels.device | query }}{{ . | first | value | humanize }} disks{{end}}"
 160           spare: "{{ with printf \"node_md_disks{instance='%s',device='%s',state='spare'}\" $labels.instance $labels.device | query }}{{ . | first | value | humanize }} disks{{end}}"
 161       - alert: mdadm array degraded
 162         expr: sum (node_md_disks{state="active"}) without (state) < node_md_disks_required
 163         for: 0m
 164         labels:
 165           alertgroup: "{{ $labels.instance }}"
 166         annotations:
 167           required: "{{ with printf \"node_md_disks_required{instance='%s',device='%s'}\" $labels.instance $labels.device | query }}{{ . | first | value | humanize }} disks{{end}}"
 168           active: "{{ with printf \"node_md_disks{instance='%s',device='%s',state='active'}\" $labels.instance $labels.device | query }}{{ . | first | value | humanize }} disks{{end}}"
 169           failed: "{{ with printf \"node_md_disks{instance='%s',device='%s',state='failed'}\" $labels.instance $labels.device | query }}{{ . | first | value | humanize }} disks{{end}}"
 170           spare: "{{ with printf \"node_md_disks{instance='%s',device='%s',state='spare'}\" $labels.instance $labels.device | query }}{{ . | first | value | humanize }} disks{{end}}"
 171       - alert: mdadm disk failed
 172         expr: node_md_disks{state="failed"} > 0
 173         for: 0m
 174         labels:
 175           alertgroup: "{{ $labels.instance }}"
 176         annotations:
 177           required: "{{ with printf \"node_md_disks_required{instance='%s',device='%s'}\" $labels.instance $labels.device | query }}{{ . | first | value | humanize }} disks{{end}}"
 178           active: "{{ with printf \"node_md_disks{instance='%s',device='%s',state='active'}\" $labels.instance $labels.device | query }}{{ . | first | value | humanize }} disks{{end}}"
 179           failed: "{{ with printf \"node_md_disks{instance='%s',device='%s',state='failed'}\" $labels.instance $labels.device | query }}{{ . | first | value | humanize }} disks{{end}}"
 180           spare: "{{ with printf \"node_md_disks{instance='%s',device='%s',state='spare'}\" $labels.instance $labels.device | query }}{{ . | first | value | humanize }} disks{{end}}"
 181   - name: memory
 182     rules:
 183       - alert: low memory
 184         expr: node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes < 0.1
 185         for: 15m
 186         labels:
 187           alertgroup: "{{ $labels.instance }}"
 188         annotations:
 189           memory_free: "{{ $value | humanizePercentage }}"
 190       - alert: memory pressure
 191         expr: rate(node_pressure_memory_waiting_seconds_total[5m]) > 0.6
 192         for: 60m
 193         labels:
 194           alertgroup: "{{ $labels.instance }}"
 195         annotations:
 196           pressure: "{{ $value | humanizePercentage }}"
 197       - alert: oom kill detected
 198         expr: increase(node_vmstat_oom_kill[1m]) > 0
 199         for: 0m
 200         labels:
 201           alertgroup: "{{ $labels.instance }}"
 202         annotations:
 203           new_oom_kills: "{{ $value }}"
 204   - name: network
 205     rules:
 206       - alert: interface transmit rate
 207         expr: rate(node_network_transmit_bytes_total[1m]) / node_network_speed_bytes > 0.98
 208         for: 5m
 209         labels:
 210           alertgroup: "{{ $labels.instance }}"
 211         annotations:
 212           bandwidth_used: "{{ $value | humanizePercentage }}"
 213       - alert: interface receive rate
 214         expr: rate(node_network_receive_bytes_total[1m]) / node_network_speed_bytes > 0.98
 215         for: 5m
 216         labels:
 217           alertgroup: "{{ $labels.instance }}"
 218         annotations:
 219           bandwidth_used: "{{ $value | humanizePercentage }}"
 220       - alert: interface transmit errors
 221         expr: rate(node_network_transmit_errs_total[1m]) / rate(node_network_transmit_packets_total[1m]) > 0.01
 222         for: 5m
 223         labels:
 224           alertgroup: "{{ $labels.instance }}"
 225         annotations:
 226           error_rate: "{{ $value | humanizePercentage }}"
 227       - alert: interface receive errors
 228         expr: rate(node_network_receive_errs_total[1m]) / rate(node_network_receive_packets_total[1m]) > 0.01
 229         for: 5m
 230         labels:
 231           alertgroup: "{{ $labels.instance }}"
 232         annotations:
 233           error_rate: "{{ $value | humanizePercentage }}"
 234       - alert: conntrack entries
 235         expr: node_nf_conntrack_entries / node_nf_conntrack_entries_limit > 0.8
 236         for: 5m
 237         labels:
 238           alertgroup: "{{ $labels.instance }}"
 239         annotations:
 240           entries_used: "{{ $value | humanizePercentage }}"
 241   - name: planet
 242     rules:
 243       - alert: planet dump overdue
 244         expr: time() - file_stat_modif_time_seconds{path=~"/store/planet/(pbf|planet)/.*"} > 7 * 86400 and ignoring (job, name, path) chef_role{name="planetdump"} == 1
 245         for: 24h
 246         labels:
 247           alertgroup: planet
 248         annotations:
 249           overdue_by: "{{ $value | humanizeDuration }}"
 250       - alert: notes dump overdue
 251         expr: time() - file_stat_modif_time_seconds{path=~"/store/planet/notes/.*"} > 86400 and ignoring (job, name, path) chef_role{name="planetdump"} == 1
 252         for: 6h
 253         labels:
 254           alertgroup: planet
 255         annotations:
 256           overdue_by: "{{ $value | humanizeDuration }}"
 257       - alert: daily replication feed delayed
 258         expr: time() - file_stat_modif_time_seconds{path=~"/store/planet/replication/day/.*"} > 86400 and ignoring (job, name, path) chef_role{name="planetdump"} == 1
 259         for: 3h
 260         labels:
 261           alertgroup: planet
 262         annotations:
 263           delayed_by: "{{ $value | humanizeDuration }}"
 264       - alert: hourly replication feed delayed
 265         expr: time() - file_stat_modif_time_seconds{path=~"/store/planet/replication/hour/.*"} > 3600 and ignoring (job, name, path) chef_role{name="planetdump"} == 1
 266         for: 30m
 267         labels:
 268           alertgroup: planet
 269         annotations:
 270           delayed_by: "{{ $value | humanizeDuration }}"
 271       - alert: minutely replication feed delayed
 272         expr: time() - file_stat_modif_time_seconds{path=~"/store/planet/replication/minute/.*"} > 60 and ignoring (job, name, path) chef_role{name="planetdump"} == 1
 273         for: 5m
 274         labels:
 275           alertgroup: planet
 276         annotations:
 277           delayed_by: "{{ $value | humanizeDuration }}"
 278       - alert: changeset replication feed delayed
 279         expr: time() - file_stat_modif_time_seconds{path=~"/store/planet/replication/changesets/.*"} > 60 and ignoring (job, name, path) chef_role{name="planetdump"} == 1
 280         for: 5m
 281         labels:
 282           alertgroup: planet
 283         annotations:
 284           delayed_by: "{{ $value | humanizeDuration }}"
 285   - name: postgresql
 286     rules:
 287       - alert: postgresql down
 288         expr: pg_up == 0
 289         for: 1m
 290         labels:
 291           alertgroup: "{{ $labels.instance }}"
 292       - alert: postgresql replication delay
 293         expr: pg_replication_lag_seconds > 5
 294         for: 1m
 295         labels:
 296           alertgroup: "{{ $labels.instance }}"
 297         annotations:
 298           delay: "{{ $value | humanizeDuration }}"
 299       - alert: postgresql connection limit
 300         expr: sum (pg_stat_activity_count) by (instance, server) / sum (pg_settings_max_connections) by (instance, server) > 0.8
 301         for: 1m
 302         labels:
 303           alertgroup: "{{ $labels.instance }}"
 304         annotations:
 305           connections_used: "{{ $value | humanizePercentage }}"
 306       - alert: postgresql deadlocks
 307         expr: increase(pg_stat_database_deadlocks[1m]) > 5
 308         for: 0m
 309         labels:
 310           alertgroup: "{{ $labels.instance }}"
 311         annotations:
 312           new_deadlocks: "{{ $value }}"
 313       - alert: postgresql slow queries
 314         expr: pg_slow_queries > 0
 315         for: 5m
 316         labels:
 317           alertgroup: "{{ $labels.instance }}"
 318         annotations:
 319           queries: "{{ $value }}"
 320   - name: smart
 321     rules:
 322       - alert: smart failure
 323         expr: smart_health_status == 0
 324         for: 60m
 325         labels:
 326           alertgroup: "{{ $labels.instance }}"
 327       - alert: smart ssd wearout approaching
 328         expr: smart_percentage_used >= 90
 329         for: 60m
 330         labels:
 331           alertgroup: "{{ $labels.instance }}"
 332         annotations:
 333           percentage_used: "{{ $value | humanizePercentage }}"
 334   - name: ssl
 335     rules:
 336       - alert: ssl certificate probe failed
 337         expr: ssl_probe_success == 0
 338         for: 60m
 339         labels:
 340           alertgroup: ssl
 341       - alert: ssl certificate expiry
 342         expr: ssl_verified_cert_not_after{chain_no="0"} - time() < 86400 * 14
 343         for: 0m
 344         labels:
 345           alertgroup: ssl
 346         annotations:
 347           expires_in: "{{ $value | humanizeDuration }}"
 348       - alert: ssl certificate revoked
 349         expr: ssl_ocsp_response_status == 1
 350         for: 0m
 351         labels:
 352           alertgroup: ssl
 353       - alert: ocsp status unknown
 354         expr: ssl_ocsp_response_status == 1
 355         for: 0m
 356         labels:
 357           alertgroup: ssl
 358   - name: systemd
 359     rules:
 360       - alert: systemd failed service
 361         expr: node_systemd_unit_state{state="failed"} == 1
 362         for: 5m
 363         labels:
 364           alertgroup: "{{ $labels.instance }}"
 365   - name: tile
 366     rules:
 367       - alert: renderd replication delay
 368         expr: renderd_replication_delay > 120
 369         for: 5m
 370         labels:
 371           alertgroup: tile
 372         annotations:
 373           delay: "{{ $value | humanizeDuration }}"
 374       - alert: missed tile rate
 375         expr: sum(rate(modtile_http_response_total{code="404"}[5m])) by (instance) / sum(rate(modtile_http_response_total[5m])) by (instance) > 0.05
 376         for: 5m
 377         labels:
 378           alertgroup: tile
 379         annotations:
 380           miss_rate: "{{ $value | humanizePercentage }}"
 381   - name: time
 382     rules:
 383       - alert: clock not synchronising
 384         expr: min_over_time(node_timex_sync_status[1m]) == 0 and node_timex_maxerror_seconds >= 16
 385         for: 5m
 386         labels:
 387           alertgroup: "{{ $labels.instance }}"
 388       - alert: clock skew detected
 389         expr: (node_timex_offset_seconds > 0.05 and deriv(node_timex_offset_seconds[5m]) >= 0) or (node_timex_offset_seconds < -0.05 and deriv(node_timex_offset_seconds[5m]) <= 0)
 390         for: 5m
 391         labels:
 392           alertgroup: "{{ $labels.instance }}"
 393         annotations:
 394           skew: "{{ with printf \"node_timex_offset_seconds{instance='%s'}\" $labels.instance | query }} {{ . | humanizeDuration }}{{ end }}"
 395   - name: web
 396     rules:
 397       - alert: web error rate
 398         expr: sum(rate(api_call_count_total{status=~"50[0-8]|5[1-9][0-9]"}[5m])) by (instance) / sum(rate(api_call_count_total[5m])) by (instance) > 0.002
 399         for: 5m
 400         labels:
 401           alertgroup: web
 402         annotations:
 403           error_rate: "{{ $value | humanizePercentage }}"