Mis à jour le 29 mars 2026

Monitoring de serveur : les alertes indispensables à configurer

Selon une étude de Gartner, une minute d’indisponibilité d’un serveur de production coûte en moyenne 5 600 dollars aux entreprises. Pourtant, 60 % des pannes auraient pu être anticipées si un monitoring adapté avait été en place. Le monitoring ne se limite pas à vérifier que le serveur est « up » : c’est un système d’alerte précoce qui détecte les anomalies avant qu’elles ne deviennent des pannes. Voici les alertes indispensables à configurer pour dormir tranquille.

Les fondamentaux du monitoring serveur

Un bon système de monitoring repose sur trois piliers : la collecte de métriques (données chiffrées sur l’état du serveur), les seuils d’alerte (valeurs au-delà desquelles une notification est envoyée) et les canaux de notification (email, SMS, Slack, PagerDuty).

La règle des deux seuils

Pour chaque métrique surveillée, configurez deux niveaux d’alerte :

  • Warning (attention) : le seuil est atteint, la situation nécessite une surveillance mais pas d’action immédiate
  • Critical (critique) : la situation est urgente et nécessite une intervention immédiate

Cette approche évite les deux écueils du monitoring : trop d’alertes (alert fatigue, où l’équipe finit par ignorer les notifications) et pas assez d’alertes (les problèmes ne sont détectés qu’au moment de la panne).

Point clé : Le pire ennemi du monitoring est l’alert fatigue. Si votre équipe reçoit 50 notifications par jour, elle n’en lira bientôt plus aucune. Chaque alerte doit être actionnable : si personne ne doit réagir, ce n’est pas une alerte mais une métrique à afficher dans un tableau de bord.

Alertes système essentielles

Les alertes système surveillent les ressources fondamentales du serveur : CPU, mémoire, disque, réseau. Ce sont les signaux vitaux de votre infrastructure.

CPU

L’utilisation CPU est la métrique la plus visible mais pas toujours la plus pertinente. Un CPU à 90 % pendant un batch nocturne est normal. Un CPU à 90 % en permanence pendant les heures de bureau est un problème.

  • Warning : utilisation CPU moyenne supérieure à 80 % pendant plus de 15 minutes
  • Critical : utilisation CPU moyenne supérieure à 95 % pendant plus de 5 minutes
  • Conseil : surveillez également le load average sur Linux, qui reflète mieux la charge globale que le % CPU

Mémoire RAM

La saturation mémoire entraîne le swap (utilisation du disque comme mémoire de secours), ce qui dégrade drastiquement les performances. Sur un serveur d’application ou de base de données, le swap doit être minimal.

  • Warning : mémoire disponible inférieure à 20 % de la RAM totale
  • Critical : mémoire disponible inférieure à 10 % ou utilisation du swap supérieure à 500 Mo

Espace disque

Le manque d’espace disque est l’une des causes de panne les plus fréquentes et les plus évitables. Quand le disque est plein, plus rien ne fonctionne : la base de données refuse les écritures, les logs ne s’écrivent plus, les applications plantent.

  • Warning : espace disque utilisé supérieur à 80 %
  • Critical : espace disque utilisé supérieur à 90 %
  • Conseil : surveillez séparément chaque partition (/, /var, /tmp, /home)
60 %des pannes auraient pu être anticipées
5 600 $coût moyen d’une minute d’indisponibilité
5 mindélai maximum pour détecter une anomalie critique

Réseau

Les anomalies réseau se manifestent de plusieurs façons : saturation de bande passante, augmentation de la latence, perte de paquets. Chacune peut impacter l’expérience utilisateur bien avant une panne complète.

  • Warning : utilisation bande passante supérieure à 70 % ou latence supérieure à 50 ms
  • Critical : perte de paquets supérieure à 1 % ou interface réseau down

Alertes applicatives et métier

Les alertes système ne suffisent pas. Un serveur peut afficher des métriques système parfaites tout en ayant une application en panne. Les alertes applicatives vérifient que le service rendu à l’utilisateur fonctionne correctement.

Disponibilité des services

  • HTTP/HTTPS : vérifiez que le site web ou l’application répond avec un code 200 en moins de 2 secondes
  • Base de données : vérifiez que MySQL/PostgreSQL accepte les connexions et répond aux requêtes
  • Services critiques : vérifiez que chaque service applicatif (API, workers, queues) est actif et fonctionnel
  • Certificat SSL : alertez 30 jours avant l’expiration du certificat

Performances applicatives

Le temps de réponse est un indicateur clé de l’expérience utilisateur. Un temps de réponse qui se dégrade progressivement est un signe avant-coureur de problème. Surveillez le temps de réponse moyen, le P95 (95e percentile) et le P99 pour détecter les dégradations avant qu’elles n’impactent tous les utilisateurs.

Sauvegardes

La sauvegarde est trop souvent le parent pauvre du monitoring. Une sauvegarde qui échoue silencieusement pendant des semaines est une bombe à retardement. Configurez une alerte en cas d’échec de sauvegarde et vérifiez quotidiennement que la dernière sauvegarde a été réalisée avec succès et que sa taille est cohérente.

Alertes de sécurité

Les alertes de sécurité détectent les tentatives d’intrusion, les comportements anormaux et les vulnérabilités. Elles sont essentielles pour réagir rapidement à une cyberattaque.

Les alertes de sécurité prioritaires

  • Tentatives de connexion échouées : plus de 10 échecs en 5 minutes sur SSH, FTP ou l’application
  • Connexion root réussie : toute connexion directe en root doit être alertée et investiguée
  • Modification de fichiers critiques : changement de /etc/passwd, /etc/shadow, crontab
  • Mises à jour de sécurité disponibles : alertez quand des correctifs critiques n’ont pas été appliqués sous 48h
  • Trafic réseau anormal : pic de trafic sortant inhabituel (signe possible d’exfiltration de données)

Outils et bonnes pratiques

Le choix de l’outil de monitoring dépend de la taille de l’infrastructure, du budget et des compétences disponibles.

Les solutions du marché

Pour les PME, plusieurs solutions se distinguent par leur rapport fonctionnalités/simplicité :

  • Uptime Kuma : solution open source légère, idéale pour le monitoring de disponibilité
  • Netdata : monitoring système en temps réel avec interface web intuitive
  • Prometheus + Grafana : solution open source puissante pour le monitoring avancé
  • Zabbix : solution enterprise open source complète
  • Datadog : solution SaaS complète, facturation à l’usage

Les bonnes pratiques

Quelle que soit la solution choisie, quelques bonnes pratiques s’imposent. Testez régulièrement vos alertes en simulant des incidents. Documentez les procédures de réaction pour chaque type d’alerte. Revoyez les seuils trimestriellement en fonction de l’évolution de la charge. Enfin, mettez en place une rotation d’astreinte claire pour que chaque alerte soit prise en charge par un responsable identifié.

Questions fréquentes
3 questions
En fonctionnement normal, vous ne devriez recevoir aucune alerte critique et au maximum 2 à 3 warnings par jour. Si vous recevez plus de 10 notifications par jour, c’est le signe que vos seuils sont mal calibrés ou que votre infrastructure a des problèmes structurels à résoudre. L’objectif est que chaque alerte déclenche une action concrète.
Les solutions SaaS (Datadog, New Relic, Better Stack) sont fiables et bénéficient d’une infrastructure de monitoring distribuée qui surveille vos serveurs depuis plusieurs points géographiques. L’agent installé sur votre serveur envoie les métriques au cloud du fournisseur. Le risque est limité : si le fournisseur de monitoring est en panne, vos serveurs continuent de fonctionner. Pour les données très sensibles, une solution on-premise comme Zabbix ou Prometheus permet de garder les métriques en interne.
Des solutions comme Uptime Kuma (monitoring de disponibilité) ou Netdata (monitoring système) s’installent en quelques minutes et proposent des configurations par défaut pertinentes. Pour aller plus loin sans embaucher un administrateur système, externalisez le monitoring auprès d’un prestataire IT qui configurera les alertes, les analysera et interviendra en cas de problème. C’est souvent la solution la plus économique pour une PME.

Besoin d’accompagnement ?

Odyssix met en place et supervise le monitoring de vos serveurs. Configuration des alertes, analyse des métriques, intervention proactive : nous surveillons votre infrastructure pour que vous puissiez vous concentrer sur votre métier.

Contactez nos experts

Odyssix

Rédigé par l'équipe Odyssix

Experts IT, Cybersécurité & Digital depuis 2018

Odyssix accompagne les PME dans leur transformation numérique et la sécurisation de leur système d'information. Nos experts certifiés (CEH, OSCP, ISO 27001) partagent leur expérience terrain à travers nos articles de blog.

Besoin d'en savoir plus ?

Contactez nos experts pour une démonstration personnalisée.

Nous contacter