Monitoring de serveur : les alertes indispensables à configurer
Mis à jour le 29 mars 2026
Monitoring de serveur : les alertes indispensables à configurer
Selon une étude de Gartner, une minute d’indisponibilité d’un serveur de production coûte en moyenne 5 600 dollars aux entreprises. Pourtant, 60 % des pannes auraient pu être anticipées si un monitoring adapté avait été en place. Le monitoring ne se limite pas à vérifier que le serveur est « up » : c’est un système d’alerte précoce qui détecte les anomalies avant qu’elles ne deviennent des pannes. Voici les alertes indispensables à configurer pour dormir tranquille.
Sommaire
Les fondamentaux du monitoring serveur
Un bon système de monitoring repose sur trois piliers : la collecte de métriques (données chiffrées sur l’état du serveur), les seuils d’alerte (valeurs au-delà desquelles une notification est envoyée) et les canaux de notification (email, SMS, Slack, PagerDuty).
La règle des deux seuils
Pour chaque métrique surveillée, configurez deux niveaux d’alerte :
- Warning (attention) : le seuil est atteint, la situation nécessite une surveillance mais pas d’action immédiate
- Critical (critique) : la situation est urgente et nécessite une intervention immédiate
Cette approche évite les deux écueils du monitoring : trop d’alertes (alert fatigue, où l’équipe finit par ignorer les notifications) et pas assez d’alertes (les problèmes ne sont détectés qu’au moment de la panne).
Point clé : Le pire ennemi du monitoring est l’alert fatigue. Si votre équipe reçoit 50 notifications par jour, elle n’en lira bientôt plus aucune. Chaque alerte doit être actionnable : si personne ne doit réagir, ce n’est pas une alerte mais une métrique à afficher dans un tableau de bord.
Alertes système essentielles
Les alertes système surveillent les ressources fondamentales du serveur : CPU, mémoire, disque, réseau. Ce sont les signaux vitaux de votre infrastructure.
CPU
L’utilisation CPU est la métrique la plus visible mais pas toujours la plus pertinente. Un CPU à 90 % pendant un batch nocturne est normal. Un CPU à 90 % en permanence pendant les heures de bureau est un problème.
- Warning : utilisation CPU moyenne supérieure à 80 % pendant plus de 15 minutes
- Critical : utilisation CPU moyenne supérieure à 95 % pendant plus de 5 minutes
- Conseil : surveillez également le load average sur Linux, qui reflète mieux la charge globale que le % CPU
Mémoire RAM
La saturation mémoire entraîne le swap (utilisation du disque comme mémoire de secours), ce qui dégrade drastiquement les performances. Sur un serveur d’application ou de base de données, le swap doit être minimal.
- Warning : mémoire disponible inférieure à 20 % de la RAM totale
- Critical : mémoire disponible inférieure à 10 % ou utilisation du swap supérieure à 500 Mo
Espace disque
Le manque d’espace disque est l’une des causes de panne les plus fréquentes et les plus évitables. Quand le disque est plein, plus rien ne fonctionne : la base de données refuse les écritures, les logs ne s’écrivent plus, les applications plantent.
- Warning : espace disque utilisé supérieur à 80 %
- Critical : espace disque utilisé supérieur à 90 %
- Conseil : surveillez séparément chaque partition (/, /var, /tmp, /home)
Réseau
Les anomalies réseau se manifestent de plusieurs façons : saturation de bande passante, augmentation de la latence, perte de paquets. Chacune peut impacter l’expérience utilisateur bien avant une panne complète.
- Warning : utilisation bande passante supérieure à 70 % ou latence supérieure à 50 ms
- Critical : perte de paquets supérieure à 1 % ou interface réseau down
Alertes applicatives et métier
Les alertes système ne suffisent pas. Un serveur peut afficher des métriques système parfaites tout en ayant une application en panne. Les alertes applicatives vérifient que le service rendu à l’utilisateur fonctionne correctement.
Disponibilité des services
- HTTP/HTTPS : vérifiez que le site web ou l’application répond avec un code 200 en moins de 2 secondes
- Base de données : vérifiez que MySQL/PostgreSQL accepte les connexions et répond aux requêtes
- Services critiques : vérifiez que chaque service applicatif (API, workers, queues) est actif et fonctionnel
- Certificat SSL : alertez 30 jours avant l’expiration du certificat
Performances applicatives
Le temps de réponse est un indicateur clé de l’expérience utilisateur. Un temps de réponse qui se dégrade progressivement est un signe avant-coureur de problème. Surveillez le temps de réponse moyen, le P95 (95e percentile) et le P99 pour détecter les dégradations avant qu’elles n’impactent tous les utilisateurs.
Sauvegardes
La sauvegarde est trop souvent le parent pauvre du monitoring. Une sauvegarde qui échoue silencieusement pendant des semaines est une bombe à retardement. Configurez une alerte en cas d’échec de sauvegarde et vérifiez quotidiennement que la dernière sauvegarde a été réalisée avec succès et que sa taille est cohérente.
Alertes de sécurité
Les alertes de sécurité détectent les tentatives d’intrusion, les comportements anormaux et les vulnérabilités. Elles sont essentielles pour réagir rapidement à une cyberattaque.
Les alertes de sécurité prioritaires
- Tentatives de connexion échouées : plus de 10 échecs en 5 minutes sur SSH, FTP ou l’application
- Connexion root réussie : toute connexion directe en root doit être alertée et investiguée
- Modification de fichiers critiques : changement de /etc/passwd, /etc/shadow, crontab
- Mises à jour de sécurité disponibles : alertez quand des correctifs critiques n’ont pas été appliqués sous 48h
- Trafic réseau anormal : pic de trafic sortant inhabituel (signe possible d’exfiltration de données)
Outils et bonnes pratiques
Le choix de l’outil de monitoring dépend de la taille de l’infrastructure, du budget et des compétences disponibles.
Les solutions du marché
Pour les PME, plusieurs solutions se distinguent par leur rapport fonctionnalités/simplicité :
- Uptime Kuma : solution open source légère, idéale pour le monitoring de disponibilité
- Netdata : monitoring système en temps réel avec interface web intuitive
- Prometheus + Grafana : solution open source puissante pour le monitoring avancé
- Zabbix : solution enterprise open source complète
- Datadog : solution SaaS complète, facturation à l’usage
Les bonnes pratiques
Quelle que soit la solution choisie, quelques bonnes pratiques s’imposent. Testez régulièrement vos alertes en simulant des incidents. Documentez les procédures de réaction pour chaque type d’alerte. Revoyez les seuils trimestriellement en fonction de l’évolution de la charge. Enfin, mettez en place une rotation d’astreinte claire pour que chaque alerte soit prise en charge par un responsable identifié.
Besoin d’accompagnement ?
Odyssix met en place et supervise le monitoring de vos serveurs. Configuration des alertes, analyse des métriques, intervention proactive : nous surveillons votre infrastructure pour que vous puissiez vous concentrer sur votre métier.
Besoin d'en savoir plus ?
Contactez nos experts pour une démonstration personnalisée.



