This is a machine translation based on the English version of the article. It might or might not have already been subject to text preparation. If you find errors, please file a GitHub issue that states the paragraph that has to be improved. |
1. Les bases
Vous pouvez connecter deux Checkmk Appliances pour former un cluster de failover. Ce faisant, toutes les configurations et données sont synchronisées entre les deux appliances. Les appliances connectées en tant que cluster sont également appelées nœuds. L’un des nœuds du cluster assume le rôle actif, c’est-à-dire qu’il exécute les tâches du cluster. Les deux nœuds échangent en permanence des informations sur leur état. Dès que le nœud inactif détecte que le nœud actif ne peut plus remplir ses tâches, par exemple en raison d’une panne, le nœud inactif prend le relais des tâches du nœud actif et devient alors le nouveau nœud actif.
Le cluster de failover a pour but d’augmenter la disponibilité de votre installation de supervision en la protégeant contre les pannes matérielles d’un appareil ou de composants individuels. Toutefois, la mise en cluster ne remplace pas la sauvegarde des données et ne détecte pas les erreurs logiques.
Dans les situations suivantes, le cluster réduit les périodes de maintenance en permettant au nœud inactif de prendre le relais sur les ressources :
Lorsque le RAID d'un rack Checkmk n'est plus accessible.
Lorsque le dispositif précédemment actif n'est plus accessible (défaillance).
Si l'appareil précédemment actif ne peut plus accéder au réseau « externe », mais que le nœud inactif le peut.
Si vous effectuez une mise à jour du micrologiciel sur les nœuds.
Bien entendu, le cluster ne peut fonctionner en cas d'urgence que si les nœuds sont opérés via des commutateurs et des alimentations électriques distincts !
2. Conditions préalables
Pour configurer un cluster, vous devez d'abord disposer de deux Checkmk Appliances compatibles. Les modèles suivants peuvent être combinés pour former un cluster :
2 x Checkmk rack1
2 x Checkmk rack5
2 x Checkmk virt1 (techniquement possible, mais non pris en charge ni recommandé pour la production. Voir ci-dessous pour plus de détails.)
1 x Checkmk rack1/rack5 et 1 x Checkmk virt1
De plus, les deux périphériques doivent utiliser un micrologiciel compatible. Si vous combinez un périphérique virt1 avec un rack physique, la machine virtuelle doit avoir les mêmes spécifications que le serveur physique — sinon, elle pourrait subir un plantage lorsqu’elle prendra le relais du rack.
Les unités doivent être câblées avec au moins deux connexions réseau indépendantes. L'une de ces connexions est utilisée pour la connexion réseau normale, la seconde pour la synchronisation entre les nœuds du cluster. La connexion de synchronisation doit s'établir directement entre les unités lorsque cela est possible, mais au minimum via un réseau séparé.
Pour améliorer la disponibilité des connexions réseau, vous devez créer une configuration de regroupement. La forme concrète que doit prendre cette configuration de regroupement dépend principalement de votre environnement (réseau). Si nécessaire, consultez vos collègues du centre de données ou du service réseau.
Mise en cluster d'appliances virtuelles
Il est certes techniquement possible de mettre en cluster deux instances virt1. Cependant, étant donné que la fonction de cluster est conçue pour pallier les pannes matérielles, nous ne recommandons pas cette approche pour une exploitation en production. Pour la haute disponibilité, les plateformes de virtualisation telles que VMware vSphere fournissent leurs propres fonctions. Vous pouvez toutefois tester très facilement le comportement et la configuration d’un cluster avec deux machines virtuelles. Les « virtualiseurs de bureau » tels que VirtualBox ou VMware Workstation Player conviennent également à cet effet. Avec ces solutions, vous pouvez vous passer de la configuration de l'agrégation. Au lieu de configurer l'agrégation comme indiqué ci-dessous, utilisez simplement la deuxième interface réseau inutilisée. Pour le cluster proprement dit, sélectionnez simplement vos deux interfaces individuelles au lieu des interfaces d'agrégation.
3. Configuration d'un cluster
Ces instructions partent du principe que vous avez déjà préconfiguré les deux appareils de manière à pouvoir ouvrir leurs interfaces web à l'aide d'un navigateur.
Avant de procéder à la mise en place effective du cluster, vous devez d'abord préparer les deux appareils. Pour ce faire, vous devez principalement modifier la configuration réseau afin de répondre aux exigences mentionnées ci-dessus. Notez les ports utilisés pour la mise en cluster, si nécessaire.
Ce qui suit décrit une configuration de référence d'un cluster avec deux interfaces en agrégation, qui correspond au schéma suivant :

Les désignations d'interface LAN1, LAN2, etc. utilisées dans le schéma représentent les interfaces physiques sur l'appareil. Les désignations réelles dépendent du matériel concerné.
Les adresses IP utilisées sont bien sûr arbitraires. Veillez toutefois à ce que le réseau interne du cluster (bond1 dans le schéma) utilise un réseau IP différent de celui du réseau « externe » (bond0 dans le schéma).
3.1. Configuration réseau
Ouvrez l’interface web du premier nœud, sélectionnez les paramètres de l’appareil, puis, en haut, l’Network Settings. Dans l’Network Settings, deux modes sont disponibles.
L'Simple Mode,, qui vous permet uniquement de configurer l'interface standard de votre périphérique, est activée par défaut. (Ce mode correspond à la configuration via la console texte que vous avez effectuée lors de la configuration initiale du périphérique).

Le mode avancé est requis pour le clustering. Pour activer ce mode, cliquez sur le bouton « Advanced Mode » en haut de la page et validez le dialogue de confirmation.
Sur la page suivante, vous verrez toutes les interfaces réseau disponibles sur l'appareil. Seule l'interface réseau standard est actuellement configurée — ici ens32 dans la capture d'écran ci-dessous. Cette configuration a été reprise du mode Simple.

Créez maintenant la première interface de regroupement en cliquant sur « Create Bonding ». Dans le dialogue suivant, saisissez toutes les données comme indiqué dans la capture d'écran ci-dessous et confirmez le dialogue en cliquant sur « Save. ».

Créez ensuite la deuxième interface de liaison bond1 avec la configuration appropriée pour la connexion de synchronisation directe.

Une fois les deux interfaces de liaison créées, vous verrez à nouveau tous les paramètres définis dans le dialogue de configuration réseau pour les interfaces réseau …

… ainsi que pour les agrégations qui ont été créées :

Une fois toutes les étapes de configuration terminées, cliquez sur « Activate Changes » pour que les paramètres prennent effet. Les nouveaux paramètres réseau seront alors chargés. Au bout de quelques secondes, la configuration réseau affichera le statut « OK » partout, pour les interfaces réseau réelles …

… ainsi que pour les agrégations :

Répétez maintenant la configuration des paramètres réseau avec les paramètres appropriés sur votre deuxième appareil.
3.2. Noms de domaine
Les périphériques devant être connectés au sein d’un cluster doivent avoir des noms de domaine différents.
Vous pouvez désormais les définir dans les paramètres de l’appareil.
Dans notre exemple, les périphériques ont reçu les noms cma1 et cma2.
3.3. Connexion du cluster
Maintenant que vous avez terminé les préparatifs, vous pouvez poursuivre la configuration du cluster.
Pour ce faire, ouvrez le module « Clustering » sur l'interface web dans le menu principal du premier appareil (ici cma1) et cliquez sur « Create Cluster. »
Dans le dialogue de création du cluster, saisissez la configuration correspondante et confirmez le dialogue en cliquant sur « Save ». L'adresse Cluster IP address,, que vous utiliserez ultérieurement pour accéder au cluster, revêt ici une importance particulière. Si vous avez besoin d'informations supplémentaires sur ce dialogue, consultez l'aide en ligne en cliquant sur l'icône située à côté du logo Checkmk.

Sur la page suivante, vous pouvez connecter les deux appareils à un cluster. Pour ce faire, vous devez saisir le mot de passe de l’interface web du deuxième appareil. Ce mot de passe est utilisé une seule fois pour établir la connexion entre les deux unités. Validez le dialogue de confirmation si vous êtes certain de vouloir écraser les données sur l’appareil cible affiché.

Une fois cette connexion établie avec succès, la synchronisation des appareils du cluster commencera. Vous pouvez consulter l'état actuel de ce processus sur la page du cluster. Pendant la synchronisation, toutes les ressources, y compris les instances de supervision existantes, seront lancées sur le premier nœud.

Désormais, à l’aide de l’adresse IP du cluster (ici 10.3.3.30), vous pourrez accéder aux ressources du cluster, par exemple vos instances de supervision, quel que soit le nœud qui héberge actuellement ces ressources.
4. État du cluster
Une fois la première synchronisation terminée, votre cluster sera pleinement opérationnel. Vous pouvez consulter son état à tout moment sur la page du cluster.

Grâce à la vue d'état de la console, vous pouvez également consulter l'état actuel du cluster sous forme résumée dans la zone « État du cluster » (Cluster). Le rôle de chaque nœud est affiché entre parenthèses après l'état actuel : pour le nœud actif, « M » (pour Main) et pour le nœud passif, « S » (pour Subordinate).

5. Particularités du cluster
5.1. Accès aux ressources
Toutes les requêtes adressées aux sites de supervision, telles que les accès à l'interface web, ainsi que les messages entrants, tels que les traps SNMP ou les messages syslog destinés à l'Event Console ou les requêtes Livestatus, doivent normalement toujours passer par l'adresse IP du cluster.
Vous ne devriez avoir besoin d'accéder directement aux nœuds individuels que dans des circonstances exceptionnelles, par exemple lors du diagnostic d'erreurs ou de la mise à jour d'un nœud spécifique.
5.2. Options des appareils
Les paramètres, tels que ceux relatifs à la synchronisation de l'heure ou à la résolution des noms, qui étaient auparavant définis indépendamment sur chaque unité, sont synchronisés au sein du cluster entre les deux nœuds.
Cependant, vous ne pouvez effectuer l’édition de ces paramètres que sur le nœud actif correspondant. Les paramètres sont verrouillés sur le nœud inactif.
Il existe certains paramètres spécifiques aux appareils, tels que ceux de l'interface de gestion Checkmk rack1, que vous pouvez modifier à tout moment sur les appareils individuels.
5.3. Adresses IP ou noms de domaine des nœuds
Pour pouvoir modifier les configurations IP des nœuds individuels, vous devez d'abord déconnecter la liaison entre les nœuds. Pour ce faire, cliquez sur « Disconnect Cluster » (Déconnecter le cluster) sur la page du cluster. Vous pouvez ensuite modifier les paramètres comme vous le souhaitez via les interfaces web des nœuds individuels.
Une fois les modifications effectuées, vous devez sélectionner « Reconnect Cluster » sur la page du cluster. Si les nœuds parviennent à se reconnecter, le cluster reprendra son fonctionnement après quelques minutes. Vous pourrez consulter l'état sur la page du cluster.
5.4. Gestion des versions de Checkmk et des instances de supervision
Les instances de supervision et les versions de Checkmk sont également synchronisés entre les deux nœuds. Vous ne pouvez les modifier que dans l’interface web du nœud actif — aussi bien via son adresse IP que via l’adresse IP du cluster.
6. Tâches administratives en mode cluster
6.1. Mise à jour du micrologiciel (version majeure)
Contrairement à la mise à jour du micrologiciel entre versions compatibles décrite ci-dessous, par exemple de la version 1.6.1 à la version 1.6.2, vous devrez procéder de manière quelque peu différente lors de la mise à jour entre versions majeures (par exemple, de la version 1.6.x à la version 1.7.y). La raison : les versions majeures mettent généralement à jour la version du système d’exploitation utilisée comme base ou modifient les concepts sous-jacents. En bref, cela signifie que vous devrez mettre le cluster complètement hors ligne pendant un court instant — vous subirez donc une période de maintenance. Pour les mises à jour mineures, il suffit de mettre les nœuds individuels du cluster en état de maintenance afin d’effectuer la mise à jour. Pour effectuer une mise à jour majeure, procédez comme suit :
En guise de préparation, effectuez d'abord une mise à jour vers la dernière version mineure de Checkmk, puis effectuez une mise à jour vers la dernière version mineure du micrologiciel du périphérique.
Déconnectez les nœuds du cluster via Clustering > Disconnect Cluster.
Mettez à jour tous les nœuds comme décrit dans l'article principal sur le périphérique.
Une fois tous les nœuds mis à jour, reconnectez-les au cluster via Clustering > Reconnect Cluster.
Vérifiez si vos instances utilisent des versions compatibles de Checkmk (ce qui n'est généralement pas le cas). Si nécessaire, installez le paquet Checkmk correspondant au micrologiciel du périphérique pour chaque instance, comme décrit dans l'article principal sur le périphérique.
6.2. Mise à jour du micrologiciel (version mineure)
La version du micrologiciel d'un appareil n'est pas synchronisée, même en mode cluster. Les mises à jour du micrologiciel sont donc effectuées individuellement sur chaque nœud. Cela présente toutefois l'avantage qu'un nœud peut continuer à effectuer la supervision pendant que l'autre est en cours de mise à jour.
Lors de la mise à jour vers une version de micrologiciel compatible, vous devez toujours procéder comme suit :
Ouvrez d'abord le module «Clustering» dans l'interface web du nœud à mettre à jour.
Cliquez ensuite sur l'icône « cœur » dans la colonne de ce nœud et validez le dialogue de confirmation qui s'affiche. Cela place le nœud en état de maintenance.
Les nœuds en état de maintenance libèrent toutes les ressources actuellement actives sur le nœud, et l'autre nœud les prendra en charge.
Tant qu’un nœud est en état de maintenance, le cluster n’est pas à sécurité intégrée. Si le nœud actif est mis hors tension, le nœud inactif, qui est en état de maintenance, ne prend pas le relais des ressources. Si vous mettez également le deuxième nœud en état de maintenance, toutes les ressources seront arrêtées. Ces ressources ne seront réactivées que lorsqu’un nœud sera sorti de l’état de maintenance. Vous devez toujours supprimer l’état de maintenance manuellement.
Si la page du cluster affiche ce qui suit, vous verrez que le nœud est en état de maintenance :

Vous pouvez désormais effectuer la mise à jour du micrologiciel sur ce nœud, de la même manière que sur les périphériques non mis en cluster.
Une fois la mise à jour du micrologiciel effectuée avec succès, ouvrez à nouveau la page du cluster. Supprimez l'état de maintenance de l'appareil mis à jour. L'appareil se réintégrera alors automatiquement dans le cluster, rendant celui-ci à nouveau pleinement opérationnel.

Nous vous recommandons d'utiliser la même version de micrologiciel sur les deux nœuds. Vous devez donc répéter la même procédure pour l'autre nœud une fois que le cluster a été entièrement restauré.
6.3. Dissolution d'un cluster
Il est possible de détacher les nœuds d’un cluster et de continuer à les exploiter individuellement. Ce faisant, vous pouvez continuer à utiliser la configuration synchronisée sur les deux appareils ou, par exemple, réinitialiser l’un des appareils à son état d’usine et le reconfigurer.
Vous pouvez retirer un ou les deux nœuds du cluster pendant son fonctionnement. Si vous souhaitez continuer à utiliser les deux nœuds avec les données actuelles, vous devez d’abord vous assurer que la synchronisation des données fonctionne correctement. Vous pouvez le vérifier sur la page du cluster.
Pour dissoudre un cluster, cliquez sur « Disband Cluster » (Dissoudre le cluster) sur la page du cluster de l’interface web. Prenez note du texte du dialogue de confirmation suivant. Dans toutes les situations possibles, celui-ci vous indiquera dans quel état se trouvera l’appareil concerné une fois la connexion interrompue.

La séparation des périphériques doit être effectuée séparément sur les deux nœuds afin que les deux périphériques puissent fonctionner individuellement à l'avenir.
Si vous souhaitez n'utiliser qu'un seul des appareils à l'avenir, détachez le cluster sur l'appareil que vous souhaitez continuer à utiliser, puis rétablissez les paramètres d'usine sur l'autre appareil.
Une fois que vous avez déconnecté un nœud du cluster, les instances de supervision ne redémarrent pas automatiquement. Vous devez le faire manuellement par la suite si nécessaire.
6.4. Remplacement d’un périphérique
Si les disques durs de l'ancien périphérique sont en état de marche, vous pouvez les retirer de l'ancien périphérique et les installer dans le nouvel appareil, puis câbler ce dernier exactement comme l'ancien périphérique l'était — et enfin le mettre sous tension. Après le démarrage, le nouvel appareil se réintégrera dans le cluster de la même manière que l'ancien.
Si vous souhaitez remplacer complètement un ancien périphérique par un nouveau, vous devez procéder de la même manière que si vous dissolviez complètement le cluster. Pour ce faire, sélectionnez l’un des périphériques existants, retirez-le du cluster et créez un nouveau cluster avec celui-ci et le nouvel appareil.
7. Diagnostic des pannes
7.1. Journalisation
La gestion du cluster est en grande partie automatique. Des processus automatiques sur les nœuds déterminent quelles ressources doivent être démarrées et arrêtées sur chaque appareil. Ce comportement est consigné en détail sous forme d'entrées de journal. Vous pouvez accéder à ces entrées depuis la page du cluster via le bouton « Cluster Log ».
Veuillez noter que ces entrées, tout comme les autres messages système, sont perdues lors du redémarrage de l'unité. Si vous souhaitez conserver ces messages, vous pouvez télécharger le fichier journal actuel via votre navigateur ou configurer de manière permanente le transfert des messages de journal vers un serveur syslog.
