1. Supervision de l'utilisation individuelle du processeur sur tous les cœurs
Checkmk configure automatiquement un service sous Linux et Windows qui effectue la supervision de l'utilisation moyenne du processeur au cours de la dernière minute. D'un côté, cela est logique, mais d'un autre côté, cela ne permet pas de détecter certaines erreurs, par exemple lorsqu'un seul processus se déchaîne et utilise en permanence un processeur à 100 %. Dans un système équipé de 16 processeurs, cependant, un processeur ne contribue qu’à hauteur de 6,25 % à la performance globale ; ainsi, même dans le cas extrême décrit, une utilisation totale de seulement 6,25 % est enregistrée — ce qui ne déclenche pas de notification.
C'est pourquoi Checkmk offre la possibilité (sous Linux et sous Windows) de surveiller individuellement tous les processeurs disponibles et de déterminer si l'un de leurs cœurs est constamment occupé sur une longue période. La mise en place de cette vérification s'est avérée être une bonne idée.
Pour configurer ce check sur vos serveurs Windows, vous avez besoin, pour le service « CPU utilization », du jeu de règles « CPU utilization for simple devices », que vous trouverez sous « Service monitoring rules ». Ce jeu de règles est chargé de surveiller tous les processeurs, mais il comporte également cette option : « Levels over an extended time period on a single core CPU utilization ».
Créez une nouvelle règle et activez uniquement cette option :

Définissez la condition de manière à ce qu’elle s’applique uniquement aux serveurs Windows, par exemple en utilisant un dossier ou une balise de l’hôte appropriée. Cette règle n’affectera pas les autres règles du même jeu de règles si celles-ci définissent d’autres options, telles que les valeurs seuils pour l’utilisation totale du processeur.
Pour les serveurs Linux, cette tâche relève du jeu de règles « CPU utilization on Linux/Unix », dans lequel vous pouvez définir la même option.
This is a machine translation based on the English version of the article. It might or might not have already been subject to text preparation. If you find errors, please file a GitHub issue that states the paragraph that has to be improved. |
2. Supervision des services Windows
Par défaut, Checkmk ne surveille aucun service sur vos serveurs Windows. Pourquoi ? Tout simplement parce que Checkmk ne sait pas quels services sont importants pour vous.
Si vous ne souhaitez pas vous donner la peine de déterminer manuellement, pour chaque serveur, quels sont les services importants, vous pouvez également configurer une check qui se contente de vérifier si tous les services dont le type de démarrage est « automatique » sont effectivement en cours d’exécution. De plus, vous pouvez être informé si des services ont été démarrés manuellement — hors séquence, pour ainsi dire. Ceux-ci ne fonctionneront plus après un redémarrage — ce qui pourrait poser problème.
Pour mettre cela en œuvre, vous avez d’abord besoin du jeu de règles « Windows Services », que vous trouverez sous Service monitoring rules, en utilisant par exemple la fonction de recherche Setup > General > Rule search. L’option cruciale dans la nouvelle règle est « Services states ». Activez-la et ajoutez trois nouveaux éléments pour les états des services :

Cela vous permet de mettre en place la supervision suivante :
Un service dont le type de démarrage est « auto » et qui est en cours d'exécution est considéré comme « OK ».
Un service dont le type de démarrage est « auto » et qui n'est pas en cours d'exécution est considéré comme « CRIT ».
Un service dont le type de démarrage est « demand » et qui est en cours d'exécution est considéré comme « WARN ».
Cependant, cette règle ne s'applique qu'aux services qui sont effectivement supervisés. Par conséquent, une deuxième étape et une deuxième règle sont nécessaires, cette fois-ci issues du jeu de règles « Windows service discovery », avec lesquelles vous définissez quels services Windows Checkmk doit superviser en tant que services.
Lorsque vous créez cette règle, vous pouvez d'abord saisir l'expression régulière .* dans l'option Services (Regular Expressions), qui sera ensuite appliquée à tous les services.
Après avoir enregistré la règle, passez à la configuration des services pour un ordinateur hôte approprié. Vous y trouverez un grand nombre de nouveaux services — un pour chaque service Windows.
Pour limiter le nombre de services sous supervision à ceux qui vous intéressent, revenez à la règle et affinez les termes de recherche si nécessaire. La distinction entre majuscules et minuscules est prise en compte. Voici un exemple de sélection de services personnalisée :

Si vous aviez précédemment inclus dans la supervision des services qui ne correspondent pas aux nouvelles expressions de recherche, ceux-ci apparaîtront comme ayant disparu dans la configuration du service. Grâce au bouton « Rescan », vous pouvez faire table rase et recréer l'intégralité de la liste des services.
3. Supervision des connexions internet
L'accès à l'internet de votre organisation revêt sans aucun doute une grande importance pour tout le monde. La supervision de la connexion à « l'internet » est un peu difficile à mettre en œuvre, car elle concerne les milliards d'ordinateurs qui pourraient (espérons-le) être accessibles — ou non. Néanmoins, vous pouvez tout de même mettre en place un système de supervision efficace, en suivant le plan de mise en œuvre suivant :
Sélectionnez plusieurs ordinateurs sur internet qui devraient normalement être accessibles via l'instruction
pinget notez leurs adresses IP.Créez un nouvel ordinateur hôte dans Checkmk, par exemple avec le nom «
internet», et configurez-le comme suit : Dans le champ « IPv4 address », saisissez l’une des adresses IP notées. Dans le champ « Additional IPv4 addresses », saisissez les adresses IP restantes. Dans le champ « Monitoring agents », activez « Checkmk agent / API integrations » et sélectionnez « No API integrations, no Checkmk agent » dans ce menu. Enregistrez l’ordinateur hôte sans reconnaissance du service.Créez une nouvelle règle à partir du jeu de règles « Check hosts with PING (ICMP Echo Request) » qui s’applique uniquement au nouvel ordinateur hôte
internet(par exemple, via la condition « Explicit hosts » ou une balise de l’hôte correspondante). Configurez la règle comme suit : Activez « Service description » et saisissezInternet connection. Activez « Alternate address to ping » et sélectionnez Ping all IPv4 addresses. Activez « Number of positive responses required for OK state » et saisissez1.Créez une autre règle qui s'applique également uniquement à l'ordinateur hôte
internet, cette fois-ci à partir du jeu de règles Host check command. Sélectionnez-y l'option Use the status of the service… comme « Host check command » et saisissezInternet connectioncomme nom – le même nom que celui que vous avez choisi comme nom du service à l'étape précédente.
Si vous activez maintenant les modifications, vous obtiendrez le nouvel ordinateur hôte internet avec le service unique Internet connection dans la supervision.
Si au moins une des destinations ping est joignable, l'ordinateur hôte aura l'état UP et le service aura l'état OK. Parallèlement, le service vous fournit des données de performance concernant la durée de rotation des packs (round trip average) et la perte de paquets pour chacune des adresses IP spécifiées. Cela vous donnera une indication de la qualité de votre connexion au fil du temps :

Par défaut, Checkmk fait en sorte qu’un ordinateur hôte passe à l’état « DOWN » si la première adresse IP n’est pas joignable par ping. La quatrième et dernière étape de la procédure présentée ci-dessus remplace ce comportement par défaut en effectuant l'affectation de l'état de son seul service à l'état de l'ordinateur hôte. Étant donné que Checkmk n'envoie en principe pas de notification pour les services lorsqu'un ordinateur hôte est en état « DOWN », il est important que vous contrôliez les notifications via son ordinateur hôte — et non via le service. De même, dans ce cas particulier, vous devriez utiliser une méthode de notification qui ne nécessite pas de connexion à l'internet. |
4. Supervision des services HTTP/HTTPS
Imaginons que vous souhaitiez vérifier l'accessibilité d'un site web ou d'un service web. L'agent Checkmk n'offre pas de solution dans ce cas, car il n'affiche pas ces informations. De plus, il se peut que vous n'ayez même pas la possibilité d'installer un agent sur le serveur.
La solution réside dans ce qu’on appelle un check actif. Il s’agit d’un check qui n’est pas effectué par un agent, mais en contactant directement un protocole réseau sur l’ordinateur hôte cible — dans ce cas, HTTP(S).
La procédure est la suivante :
Créez un nouvel ordinateur hôte pour le serveur web, par exemple pour
checkmk.com. Sous « Monitoring agents », activez l’option « Checkmk agent / API integrations » et sélectionnez « No API integrations, no Checkmk agent ». Enregistrez l’ordinateur hôte sans reconnaissance du service.Créez une nouvelle règle à partir du jeu de règles « Check HTTP web service », qui s’applique uniquement au nouvel ordinateur hôte (par exemple via la condition « Explicit hosts »).
Dans la case « Value », vous trouverez de nombreuses options pour effectuer la vérification. Le principe est le suivant : Définissez une nouvelle ressource pour chaque URL à vérifier. Un service est créé pour chaque ressource. Définissez ensuite le nom du service (par exemple
Basic webserver health) et, si nécessaire, un préfixe (HTTPouHTTPS) pour la ressource.-
Vous pouvez également définir des paramètres supplémentaires dans la zone « Value » située sous les ressources. Par exemple, vous pouvez utiliser Response time pour configurer le service sur WARN ou CRIT si le temps de réponse est trop long, et utiliser Certificate validity pour vérifier la période de validité du certificat. Avec Search for strings, vous pouvez vérifier si un texte donné apparaît dans la réponse, c’est-à-dire dans la page renvoyée. Cela vous permet de vérifier une partie pertinente du contenu afin qu’un simple message d’erreur provenant du serveur ne soit pas interprété comme une réponse positive.
Vous pouvez définir ces paramètres de manière identique pour toutes les ressources ou individuellement pour chaque ressource.
Enregistrez la règle et activez les modifications.
Vous disposez désormais d’un nouvel ordinateur hôte avec les services que vous avez spécifiés et qui checkent l’accès via HTTP(S) :

Vous pouvez bien sûr également effectuer cette vérification sur un ordinateur hôte déjà sous supervision avec Checkmk via un agent Checkmk. Dans ce cas, il n’est pas nécessaire de créer l’ordinateur hôte et il vous suffira de créer la règle pour l’ordinateur hôte. |
5. Personnaliser « comme par magie » les valeurs seuils des systèmes de fichiers
Trouver de bonnes valeurs seuil pour la supervision des systèmes de fichiers peut s’avérer fastidieux. Après tout, une valeur seuil de 90 % est bien trop basse pour un disque dur de très grande capacité et peut-être déjà trop juste pour un petit disque. Nous avons déjà présenté la fonctionnalité permettant de définir des valeurs seuil en fonction de la taille d’un système de fichiers dans le chapitre consacré au réglage fin de la supervision — et nous avions alors laissé entendre que Checkmk proposait une autre option, encore plus astucieuse : le facteur magique.
Vous configurez le facteur magique comme suit :
Dans le jeu de règles « Filesystems (used space and growth) », vous créez une seule règle.
Dans cette règle, activez l’Levels for used/free space et laissez la valeur par défaut des valeurs seuils à 80 % ou 90 % sans la modifier.
De plus, activez l’Magic factor (automatic level adaptation for large filesystems) et confirmez la valeur par défaut de 0,80.
Définissez également l'Reference size for magic factor sur 20 Go. Comme 20 Go est la valeur par défaut, cela s'appliquera même si vous n'activez pas explicitement l'option.
Le résultat se présentera comme suit :

Si vous enregistrez maintenant cette règle et activez la modification, vous obtiendrez des valeurs de seuil qui varient automatiquement en fonction de la taille du système de fichiers :
Les systèmes de fichiers dont la taille est exactement de 20 Go se voient attribuer les valeurs seuils 80 % / 90 %.
Les systèmes de fichiers de moins de 20 Go se voient attribuer des valeurs seuils inférieures.
Les systèmes de fichiers de plus de 20 Go se voient attribuer des valeurs seuils plus élevées.
La hauteur exacte des valeurs seuils est, disons... magique ! Le facteur (ici 0,80) détermine l’ampleur de l’ajustement des valeurs. Un facteur de 1,0 ne change rien, et tous les systèmes de fichiers reçoivent les mêmes valeurs. Des valeurs plus faibles ont un effet plus important sur l’ajustement des valeurs. Les valeurs par défaut de Checkmk utilisées dans cette section ont fait leurs preuves dans la pratique avec de très nombreuses installations.
Vous pouvez voir exactement quelles valeurs seuils s’appliquent à chaque service dans son Summary :

Le tableau suivant présente quelques exemples de l'effet du facteur magique avec une valeur de référence de 20 Go / 80 % :
| Facteur magique | 5 Go | 10 Go | 20 Go | 50 Go | 100 Go | 300 Go | 800 Go |
|---|---|---|---|---|---|---|---|
1,0 |
80 % |
80 % |
80 % |
80 % |
80 % |
80 % |
80 % |
0,9 |
77 % |
79 % |
80 % |
82 % |
83 % |
85 % |
86 % |
0,8 |
74 % |
77 % |
80 % |
83 % |
86 % |
88 % |
90 % |
0,7 |
70 % |
75 % |
80 % |
85 % |
88 % |
91 % |
93 % |
0,6 |
65 % |
74 % |
80 % |
86 % |
89 % |
93 % |
95 % |
0,5 |
60 % |
72 % |
80 % |
87 % |
91 % |
95 % |
97 % |
Avec ce chapitre consacré au facteur magique, nous concluons notre guide du débutant.
Si vous souhaitez faire une pause, vous pouvez vous déconnecter. Dans la barre de navigation de Checkmk, vous trouverez l’entrée « Logout » dans le menu « User ». |
Nous espérons que vous avez pu établir des bases solides pour votre système Checkmk, avec ou sans l’aide de la magie. Pour presque tous les thèmes que nous avons abordés dans ce guide du débutant, vous trouverez des informations plus détaillées dans d’autres articles du guide de l’utilisateur.
Nous vous souhaitons beaucoup de succès avec Checkmk à l’avenir !
