This is a machine translation based on the English version of the article. It might or might not have already been subject to text preparation. If you find errors, please file a GitHub issue that states the paragraph that has to be improved. |
1. Tâches de supervision essentielles
Vous avez donc ajouté des ordinateurs hôtes et examiné certains outils importants — et nous sommes désormais prêts à commencer la supervision proprement dite. Après tout, l’intérêt de Checkmk n’est pas de passer son temps à s’occuper de la configuration, mais d’apporter un soutien aux opérations informatiques.
Il est vrai que les vues disponibles par défaut, ou par exemple le snap-in « Overview », vous indiquent déjà très précisément le nombre et la nature des problèmes existants. Mais pour modéliser un flux de travail, c'est-à-dire des « procédures de travail systématiques » avec la supervision, vous avez besoin d'un peu plus d'informations sur :
la confirmation des problèmes
l'envoi de notifications lors d'événements
la définition des périodes de maintenance planifiées
Ce chapitre traite uniquement du premier et du dernier des points susmentionnés. Les notifications feront l'objet d'un chapitre distinct plus loin, car ce sujet particulier nécessite certaines préparations spécifiques.
2. Confirmation des problèmes
Dans l’aperçu, nous avons déjà vu que les problèmes peuvent être signalés comme non traités ou traités. La confirmation est précisément l’action qui transforme un problème non traité en un problème traité. Cela ne signifie pas nécessairement que quelqu’un travaille effectivement sur le problème. Certains problèmes disparaissent d’ eux-mêmes. Mais la confirmation aide à garder une vue d’ensemble et à établir un flux de travail.
Que se passe-t-il exactement lorsqu’un problème est confirmé ?
Dans l’Overview, le problème ne sera plus comptabilisé dans la colonne «Unhandled» à l’ordinateur hôte ou au service.
Les tableaux de bord ne font plus figurer le problème sur leur liste.
L'objet (ordinateur hôte ou service) est marqué dans les vues de la table par le symbole «
».Une entrée est créée dans l'historique de l'objet afin de pouvoir retracer l'action ultérieurement.
Les notifications répétitives, si elles sont configurées, seront interrompues.
Comment donc obtenir une confirmation pour un incident ?
Commencez par ouvrir une vue de la table contenant le problème. Le plus simple est d'utiliser les vues prédéfinies dans les menus « Monitor > Problems > Host problems » ou « Service problems ». D'ailleurs, vous pouvez y accéder encore plus rapidement en cliquant sur le nombre de problèmes dans la section « Overview ».
Vous pouvez cliquer sur l'hôte ou le service problématique dans la liste, puis, sur la page contenant ses détails, effectuer la confirmation uniquement pour cet hôte ou ce service en particulier. Cependant, nous resterons sur la page de la liste, car vous disposez ici de toutes les options pour effectuer la confirmation pour un seul incident ou plusieurs incidents à la fois.
Il n’est pas rare que vous souhaitiez confirmer plusieurs problèmes (liés) en une seule action. Pour ce faire, il suffit de cliquer sur «Show checkboxes» afin d’afficher une nouvelle première colonne dans la liste, qui contient une case à cocher devant chaque ligne. Les cases à cocher sont toutes décochées, car la sélection vous appartient : cochez la case correspondant à chaque ordinateur hôte ou service sur lequel vous souhaitez agir.
Important : si vous effectuez une action sur une page comportant une liste sans cases à cocher, cette action sera appliquée à tous les éléments de la liste.
Cliquez maintenant sur « Acknowledge problems », ce qui affichera le panneau suivant en haut de la page :

Saisissez un commentaire et cliquez sur «Acknowledge problems» — puis, après avoir confirmé la question «Êtes-vous sûr ?»…

… tous les problèmes sélectionnés seront marqués comme ayant fait l’objet d’une confirmation.
Pour finir, quelques conseils :
Vous pouvez également supprimer des confirmations à l'aide de l'entrée de menu « Commands > Remove acknowledgments ».
Les confirmations peuvent s’exécuter automatiquement. L’option « Expire on » (Confirmer automatiquement) sert à cela, mais elle n’est disponible que dans les éditions commerciales.
Pour plus d'informations sur toutes les options relatives aux actions de confirmation, consultez l'article sur la confirmation.
3. Mise en place de périodes de maintenance planifiées
Parfois, les pannes ne surviennent pas par accident, mais sont plutôt intentionnelles — ou, pour le dire plus précisément, une interruption nécessaire peut être tolérée. Après tout, tout matériel ou logiciel nécessite une maintenance occasionnelle, et pendant ces opérations, l’ordinateur hôte ou le service concerné dans la supervision est très susceptible de passer à l’état « DOWN » ou « CRIT ».
Pour les personnes chargées de réagir aux problèmes dans Checkmk, il est bien sûr très important qu’elles soient informées des périodes de maintenance planifiées et qu’elles ne perdent pas un temps précieux à cause de « fausses alertes ». Pour garantir cela, Checkmk dispose du concept de période de maintenance planifiée (ou de période de maintenance de courte durée).
Ainsi, lorsqu’un objet doit faire l’objet d’une maintenance, vous pouvez le mettre en période de maintenance — soit immédiatement, soit à une date prévue dans le futur.
La configuration des périodes de maintenance planifiées est très similaire au processus de confirmation des incidents. Vous commencez à nouveau par une vue de la table contenant l’objet souhaité (ordinateur hôte ou service) pour lequel vous souhaitez configurer une période de maintenance planifiée. Par exemple, vous pouvez cliquer sur le total des ordinateurs hôtes ou des services dans l’Overviewe pour obtenir une liste de tous les objets.
Dans la liste qui s'affiche, utilisez l'option « Show checkboxes » pour afficher les cases à cocher, puis sélectionnez toutes les entrées appropriées.
Cliquez ensuite sur « Schedule downtimes ». Le panneau suivant s'affichera alors en haut de la page :

Il existe toute une gamme d’options pour les périodes de maintenance planifiées. Vous devez saisir un commentaire dans chaque cas. Il existe de nombreuses options différentes pour définir la période — de la simple option « 2 hours », qui définit la période de maintenance immédiatement, à la spécification d’une période explicite, qui peut également être utilisée pour définir une période de maintenance future. Contrairement aux confirmations, les périodes de maintenance auront toujours une heure de fin définie à l’avance.
Voici quelques conseils supplémentaires :
Lorsque vous planifiez une période de maintenance pour un ordinateur hôte, tous ses services sont automatiquement planifiés également, ce qui vous évite d’avoir à effectuer cette opération deux fois.
Les périodes de maintenance flexibles ne commencent en réalité que lorsque l'objet passe à un état autre que «OK».
Si vous utilisez l’une des éditions commerciales, vous pouvez également définir des périodes de maintenance régulières, par exemple pour un redémarrage obligatoire une fois par semaine.
Vous pouvez obtenir un aperçu de toutes les périodes de maintenance en cours dans l'Monitor > Overview > Scheduled downtimes.
Les effets d’une période de maintenance planifiée sont les suivants :
Dans l'Overview, les ordinateurs hôtes et services concernés n'apparaissent plus comme présentant des problèmes.
Dans les vues de la table, l’ordinateur hôte ou le service sélectionné est marqué du cône de guidage d’
.
Si un ordinateur hôte avec tous ses services est mis en période de maintenance, les services reçoivent l’icône d’
avec un serveur et un petit cône de guidage.Pour ces objets, la notification des problèmes est désactivée pendant la période de maintenance planifiée.
Une notification spéciale est déclenchée au début et à la fin d’une période de maintenance.
Dans l'analyse de disponibilité, les périodes de maintenance planifiées sont prises en compte séparément.
Pour une description détaillée de tous les aspects mentionnés ci-dessus et d'autres aspects, consultez l'article sur les périodes de maintenance planifiées.
