Checkmk
to checkmk.com
Important

This is a machine translation based on the English version of the article. It might or might not have already been subject to text preparation. If you find errors, please file a GitHub issue that states the paragraph that has to be improved.

1. Mode d'exploitation

Les opérations informatiques distinguent deux types de pannes : planifiées et non planifiées. Au départ, le système de surveillance ne peut pas savoir si une panne détectée était planifiée ou non. Grâce au concept des périodes de maintenance planifiées, le système peut être informé des pannes planifiées d'un hôte ou d'un service en définissant une période de maintenance planifiée pour l'objet correspondant. Si un hôte ou un service fait l'objet d'une telle période de maintenance planifiée, cela a les effets suivants :

  • Dans les vues, une icône apparaît à côté des hôtes et des services concernés : Les services sont marqués par un cône de guidage, les hôtes par une icône de pause bleue. Les services dont les hôtes sont en période de maintenance obtiennent également l'icône de pause bleue. Dans l'historique, les temps d'arrêt commencés sont marqués par et les temps d'arrêt terminés par .

  • Les notifications de problèmes sont désactivées pendant la période de maintenance.

  • Les hôtes/services affectés ne sont pas identifiés comme ayant un problème dans l'historique des temps d'arrêt. Overview.

  • Les périodes de maintenance programmées sont spécialement prises en compte dans l'analyse de la disponibilité.

  • Pour information, une notification spéciale sera déclenchée au début et à la fin d'une période de maintenance programmée.

2. Saisie des périodes de maintenance programmées

La définition des périodes de maintenance s'effectue par le biais d'instructions. Toutes les actions relatives aux périodes de maintenance sont disponibles dans une case unique :

Dialog for defining a scheduled downtime.

Le champ Comment doit toujours être rempli. Vous pouvez y inclure une URL, telle que https://www.example.com, qui sera remplacée par un lien cliquable. Il existe plusieurs façons de définir les périodes de début et de fin : du simple 2 hours, qui définit la période de maintenance à partir de maintenant, à la saisie d'une période explicite dans laquelle une période de maintenance future peut également être définie.

2.1. Périodes de maintenance régulières

Certaines opérations de maintenance sont effectuées régulièrement - par exemple, le redémarrage automatique d'un serveur une fois par semaine. La saisie manuelle d'une période d'indisponibilité programmée pour chaque occasion prendrait beaucoup de temps. Si vous souhaitez uniquement faire taire les notifications, vous pouvez configurer des périodes de temps et l'ensemble de règles Notification period for Hosts/Services. Ces options présentent toutefois diverses restrictions, l'une d'entre elles étant que des autorisations de configuration globale sont nécessaires pour définir des périodes de temps.

À cet effet, les éditions commerciales proposent le concept de périodes de maintenance automatiques, périodiques et planifiées, qui peuvent être définies de deux manières différentes.

Réglage à l'aide d'une instruction

La première méthode consiste à utiliser l'option Repeat.

Select the recurrence period.

Cette option vous permet de sélectionner la période de maintenance qui doit se répéter. Saisissez la première occurrence via Start et End. La période est calculée à partir de l'heure de début saisie ici. Les options suivantes sont disponibles :

never

La période de maintenance programmée n'est pas répétée, c'est-à-dire qu'elle n'est exécutée qu'une seule fois (réglage par défaut).

hour

La période de maintenance programmée se répète toutes les heures à la même heure.

day

Tous les jours, à la même heure.

week

Se répète tous les sept jours, le même jour de semaine et à la même heure que la première fois.

second week

Comme pour la semaine, mais tous les 14 jours.

fourth week

Comme pour la semaine, mais tous les 28 jours.

same nth weekday (from beginning)

Vous pouvez ainsi obtenir des résultats tels que "tous les deux lundis du mois". Checkmk prend le jour de la semaine comme point de départ, vérifie quel jour du mois nous sommes et base la période sur ce jour. Si la date de départ est le deuxième lundi du mois, une période de maintenance sera programmée pour le deuxième lundi de chaque mois suivant.

same nth weekday (from end)

Cette méthode est similaire, sauf qu'elle est calculée à partir de la fin du mois - par exemple "tous les derniers vendredis du mois".

same day of the month

Dans ce cas, le jour de la semaine n'a pas d'importance. C'est la date du mois qui est utilisée. Ainsi, si la date de début est le 5, la période de maintenance sera programmée le 5 de chaque mois.

Jeu de règles

Une autre méthode élégante pour la configuration des périodes de maintenance périodiques programmées consiste à les définir à l'aide de règles. Avec les balises hôte, vous pouvez définir des choses telles que, par exemple,Chaque serveur Windows de production a une période de maintenance programmée tous les dimanches de 22:00 à 22:10.

Vous pouvez en fait obtenir presque les mêmes résultats en utilisant la recherche d'hôte pour trouver tous les serveurs concernés, puis en entrant la période de maintenance programmée par le biais d'une instruction. Mais cela ne fonctionne qu'avec les serveurs existants.

Si, à l'avenir, un nouvel hôte est ajouté à la surveillance, il ne sera pas couvert par cette entrée. Cependant, si vous travaillez avec des règles, cela ne posera pas de problème. Un autre avantage des règles est que la directive de maintenance peut être modifiée très facilement à une date ultérieure - simplement en modifiant les règles.

Vous trouverez les règles relatives aux périodes de maintenance récurrentes sous Setup > Hosts > Host monitoring rules > Recurring downtimes for hostsou Setup > Services > Service monitoring rules > Recurring downtimes for services.

Defining a regular scheduled downtime using a rule.

2.2. Options avancées

Outre les périodes de maintenance régulières que nous venons de décrire, il existe d'autres options pour définir les périodes de maintenance programmées, que vous trouverez à l'adresse Advanced options:

The advanced options for scheduled downtimes.

L'option Only for hosts: Set child hosts in downtime est utile pour les routeurs et les commutateurs, mais aussi pour les hôtes de virtualisation, par exemple. De cette manière, Checkmk définira automatiquement une période de maintenance programmée pour tous les hôtes directement connectés, ainsi que pour les hôtes indirectement connectés via l'hôte en question (si l'option Include indirectly connected hosts (recursively) est sélectionnée).

Avec l'option Only start downtime if host/service goes DOWN/UNREACH…​, la période de maintenance programmée ne commence pas automatiquement à un moment donné, mais d'abord lorsqu'un véritable statut de problème apparaît pour l'hôte. Cette option est utile lorsque, par exemple, vous savez qu'un hôte entrera dans un état DOWN pendant quelques minutes, mais que l'heure exacte de l'événement ne peut pas être prévue.

Exemple : Vous définissez un temps d'arrêt planifié de 14:00 à 16:00, et activez l'option Only start downtime if host/service goes DOWN/UNREACH during the defined start and end time avec une durée de 30 minutes. A 14:00 le temps d'arrêt planifié ne sera pas activé, mais sera en position de veille. Dès que l'hôte entrera dans un état DOWN ou UNREACH, le temps d'arrêt planifié commencera et l'icône de pause bleue apparaîtra. Il en sera ainsi pour la durée du temps désigné dans l'option, quel que soit le statut réel de l'hôte, et si nécessaire au-delà de l'heure de fin spécifiée pour le temps d'arrêt.

Setting a flexible scheduled downtime.

Par conséquent, dans le cas des temps d'arrêt programmés flexibles, l'heure de début et de fin n'est que la fenêtre temporelle dans laquelle le temps d'arrêt programmé peut commencer. Si aucun problème ne survient dans cette fenêtre temporelle, le temps d'arrêt programmé sera tout simplement ignoré. Ces conditions s'appliquent bien entendu également aux services.

3. Activation des périodes de maintenance programmées

Cliquez sur Schedule downtime on service ou Schedule downtime on host pour activer les paramètres que vous venez de définir pour les services ou les hôtes concernés.

Si vous venez de planifier des périodes de maintenance pour des services, par exemple dans la vue Services of Host, vous pouvez également cliquer sur Schedule downtime on host pour vous assurer que les périodes de maintenance planifiées ne concernent pas les services, mais directement l'ordinateur hôte associé.

Confirmation that the scheduled downtime should actually be applied to the host.

4. Édition et suppression des périodes de maintenance programmées

Les périodes de maintenance programmées ont leur propre vue dans Checkmk - vous y accédez via Monitor > Overview > Scheduled downtimes. Comme dans chaque vue, vous pouvez restreindre la sélection à l'aide d'un filtre :

View of scheduled downtimes.

Comme dans chaque vue, vous pouvez restreindre la sélection à l'aide d'un filtre. Avec les instructions, vous pouvez dans cette vue supprimer un ou plusieurs temps d'arrêt, et même les modifier rétroactivement (uniquement dans les éditions commerciales), par exemple, si les temps doivent être prolongés lorsque la période d'arrêt s'avère plus longue que prévu.

Editing a scheduled downtime.

5. Historique

La vue Monitor > History > Downtime history n'affiche pas les périodes de maintenance programmées en cours, mais leur historique, c'est-à-dire tous les événements par lesquels une période de maintenance programmée a commencé ou s'est terminée (par une fin naturelle ou par une instruction de suppression).

Overview of past scheduled downtimes.

6. Périodes de maintenance programmées et disponibilité

Comme nous l'avons mentionné au début, les périodes de maintenance programmées ont un effet sur l'analyse de la disponibilité. Par défaut, toutes les périodes de maintenance programmées sont calculées dans leur propre "pot" et affichées dans la colonne Downtime.

Availability analysis of the hosts.

La manière précise dont les périodes de maintenance doivent être évaluées peut être définie via Availability > Change computation options:

Selection for taking scheduled downtimes into account.

Honor scheduled downtimes

Les périodes de maintenance programmées sont incluses dans les graphiques de disponibilité et affichées dans une colonne distincte. C'est la norme.

Exclude scheduled downtimes

Les temps d'arrêt programmés sont totalement ignorés lors du calcul des 100 %. Tous les pourcentages de disponibilité se réfèrent donc uniquement aux temps restants, afin de répondre à la question suivante :quel pourcentage de temps sans maintenance l'objet était-il disponible ?

Ignore scheduled downtimes

Les périodes de maintenance programmées ne sont pas prises en compte - seuls les états réels de l'objet sont pertinents.

Sous Phases, vous trouverez l'option supplémentaire Treat phases of UP/OK as non-downtime. Si vous la sélectionnez, les périodes pendant lesquelles un objet fait l'objet d'une maintenance mais est toujours OK ou UP au même moment ne sont pas traitées comme des périodes d'arrêt programmées. Ainsi, seule la période programmée qui a donné lieu à une panne réelle sera prise en compte dans les calculs.

Sur cette page