This is a machine translation based on the English version of the article. It might or might not have already been subject to text preparation. If you find errors, please file a GitHub issue that states the paragraph that has to be improved. |
1. Nozioni di base
Puoi collegare due Checkmk Appliance per formare un cluster di failover. In questo modo, tutte le configurazioni e i dati vengono sincronizzati tra le due Appliance. Le Appliance collegate in cluster vengono anche chiamate nodi. Uno dei nodi del cluster assume il ruolo attivo, ovvero esegue i compiti del cluster. Entrambi i nodi si scambiano costantemente informazioni sul loro stato. Non appena il nodo inattivo riconosce che il nodo attivo non è più in grado di svolgere i propri compiti, ad esempio a causa di un guasto, il nodo inattivo assume i compiti del nodo attivo e diventa così il nuovo nodo attivo.
Il cluster failover serve ad aumentare la disponibilità della tua installazione di monitoraggio proteggendola dai guasti hardware di un dispositivo o di singoli componenti. Tuttavia, il clustering non sostituisce il backup dei dati e non rileva gli errori logici.
Nelle seguenti situazioni, il cluster riduce il tempo di manutenzione programmata consentendo al nodo inattivo di assumere il controllo delle sue risorse:
Quando il RAID in un rack Checkmk non è più accessibile.
Quando il dispositivo precedentemente attivo non è più accessibile (guasto).
Se il dispositivo precedentemente attivo non riesce più a raggiungere la rete "esterna", ma il nodo inattivo sì.
Se esegui un aggiornamento del firmware sui nodi.
Ovviamente il cluster può funzionare in caso di emergenza solo se i nodi sono gestiti tramite switch e alimentatori separati!
2. Prerequisiti
Per configurare un cluster, ti servono innanzitutto due dispositivi Checkmk compatibili. I seguenti modelli possono essere combinati in un cluster:
2 x Checkmk rack1
2 x Checkmk rack5
2 x Checkmk virt1 (tecnicamente possibile, ma non supportato né consigliato per la produzione. Vedi sotto per i dettagli.)
1 x Checkmk rack1/rack5 e 1 x Checkmk virt1
Inoltre, i due dispositivi devono utilizzare un firmware compatibile. Se combini un dispositivo virt1 con un rack fisico, la macchina virtuale deve avere le stesse specifiche del server fisico; altrimenti potrebbe crashare quando assume il carico dal rack.
Le unità devono essere collegate con almeno due connessioni di rete indipendenti. Una di queste connessioni viene utilizzata per la normale connessione di rete, la seconda per la sincronizzazione tra i nodi del cluster. La connessione di sincronizzazione dovrebbe avvenire direttamente tra le unità, ove possibile, ma come minimo tramite una rete separata.
Per aumentare la disponibilità delle connessioni di rete, dovresti creare una configurazione di bonding. L'aspetto concreto di questa configurazione di bonding dipende principalmente dal tuo ambiente (di rete). Se necessario, consulta i tuoi colleghi del data center o del reparto di rete.
Clustering di dispositivi virtuali
È certamente tecnicamente possibile raggruppare in cluster due istanze virt1. Tuttavia, poiché la funzione di cluster è progettata per compensare i guasti di hardware, non lo consigliamo per l'operatività di produzione. Per l'alta disponibilità, le piattaforme di virtualizzazione come VMware vSphere forniscono le proprie funzioni. Tuttavia, puoi testare molto facilmente il comportamento e la configurazione di un cluster con due macchine virtuali. Anche i "virtualizzatori desktop" come VirtualBox o VMware Workstation Player sono adatti a questo scopo. Con queste soluzioni puoi fare a meno della configurazione del bonding. Invece di configurare il bonding come mostrato di seguito, usa semplicemente la seconda interfaccia di rete inutilizzata. Per il cluster vero e proprio, seleziona semplicemente le tue due interfacce individuali invece delle interfacce di bonding.
3. Configurazione di un cluster
Queste istruzioni presuppongono che tu abbia già preconfigurato entrambi i dispositivi in modo da poter aprire le loro interfacce web con un browser web.
Prima di configurare effettivamente il cluster, devi preparare entrambi i dispositivi. Per farlo, devi principalmente modificare la configurazione di rete in modo che siano soddisfatti i requisiti menzionati sopra. Se necessario, prendi nota delle porte utilizzate per il clustering.
Di seguito viene descritta una configurazione di riferimento di un cluster con due interfacce di bonding, che corrisponde al seguente diagramma:

Le denominazioni delle interfacce LAN1, LAN2 ecc. utilizzate nel diagramma rappresentano le interfacce fisiche sul dispositivo. Le denominazioni effettive dipendono dal rispettivo hardware.
Gli indirizzi IP utilizzati sono ovviamente arbitrari. Assicurati però che la rete interna del cluster (bond1 nel diagramma) utilizzi una rete IP diversa rispetto alla rete "esterna" (bond0 nel diagramma).
3.1. Configurazione di rete
Apri l'interfaccia web del primo nodo, seleziona le impostazioni del dispositivo e, in alto, l'Network Settings. All'interno dell'Network Settings sono disponibili due modalità.
L'Simple Mode,, con cui puoi configurare solo l'interfaccia standard del tuo dispositivo, è attivata di default. (Questa modalità corrisponde alla configurazione tramite la console di testo che hai eseguito durante l'installazione iniziale del dispositivo).

La modalità avanzata è necessaria per il clustering. Per attivare questa modalità, clicca sul pulsante "Advanced Mode" in alto e conferma il dialogo.
Nella pagina seguente vedrai tutte le interfacce di rete disponibili nell'unità. Al momento solo l'interfaccia di rete standard ha una configurazione — qui ens32 nella schermata qui sotto. Questa è stata ripresa dalla modalità Semplice.

Ora crea la prima interfaccia di bonding bond0 cliccando su Create Bonding. Nella finestra di dialogo che segue, inserisci tutti i dati come mostrato nella schermata qui sotto e conferma con Save.

Crea ora la seconda interfaccia di bonding bond1 con la configurazione appropriata per la connessione di sincronizzazione diretta.

Dopo aver creato le due interfacce di bonding, vedrai nuovamente tutte le impostazioni effettuate nel dialogo di configurazione di rete per le interfacce di rete …

… e per i bonding che sono stati creati:

Una volta completati con successo tutti i passaggi di configurazione, clicca su Activate Changes per rendere effettive le impostazioni. Verranno quindi caricate le nuove impostazioni di rete. Dopo pochi secondi la configurazione di rete mostrerà lo stato 'OK' ovunque, sia per le interfacce di rete reali …

… e di nuovo nei bonding:

Ora ripeti la configurazione delle impostazioni di rete con le impostazioni appropriate sul tuo secondo dispositivo.
3.2. Nomi host
I dispositivi che devono essere collegati in un cluster devono avere nomi host diversi.
Ora puoi definirli nelle impostazioni del dispositivo.
Nel nostro esempio, ai dispositivi sono stati assegnati i nomi cma1 e cma2.
3.3. Connessione del cluster
Ora che hai completato i preparativi, puoi procedere con la configurazione del cluster.
Per farlo, apri il modulo Clustering sull'interfaccia web nel menu principale del primo dispositivo (in questo caso cma1) e clicca su Create Cluster.
Nella finestra di dialogo per la creazione del cluster, inserisci la configurazione corrispondente e conferma la finestra con Save. L'Cluster IP address,, che userai in seguito per accedere al cluster, è particolarmente importante in questa fase. Se hai bisogno di ulteriori informazioni su questa finestra di dialogo, richiama l'aiuto in linea tramite il simbolo accanto al logo Checkmk.

Nella pagina seguente puoi collegare i due dispositivi a un cluster. Per farlo, devi inserire la password dell'interfaccia web del secondo dispositivo. Questa password viene utilizzata una sola volta per stabilire la connessione tra le due unità. Conferma la finestra di dialogo se sei sicuro di voler sovrascrivere i dati sul dispositivo di destinazione visualizzato.

Una volta stabilita con successo questa connessione, inizierà la sincronizzazione dei dispositivi del cluster. Puoi visualizzare lo stato attuale di questo processo nella pagina del cluster. Durante la sincronizzazione, tutte le risorse, compresi eventuali siti di monitoraggio esistenti, verranno avviate sul primo nodo.

D'ora in poi, con l'aiuto dell'indirizzo IP del cluster (in questo caso 10.3.3.30), potrai accedere alle risorse del cluster, ad esempio le tue istanze di monitoraggio, indipendentemente dal nodo che attualmente detiene le risorse.
4. Stato del cluster
Una volta completata la prima sincronizzazione, il tuo cluster sarà pienamente operativo. Puoi visualizzarne lo stato in qualsiasi momento nella pagina del cluster.

Con l'aiuto della visualizzazione di stato della console, puoi anche vedere lo stato attuale del cluster in forma sintetica nella box "Cluster". Il ruolo di ciascun nodo viene visualizzato tra parentesi dopo lo stato attuale: per il nodo attivo M (per Main) e per il nodo passivo S (per Subordinate).

5. Caratteristiche particolari del cluster
5.1. Accesso alle risorse
Tutte le richieste ai siti di monitoraggio, come gli accessi all'interfaccia web, così come i messaggi in entrata come le SNMP trap o i messaggi syslog alla Console degli Eventi o le richieste Livestatus, dovrebbero normalmente passare sempre tramite l'indirizzo IP del cluster.
Dovresti accedere direttamente ai singoli nodi solo in circostanze eccezionali, come durante la diagnosi di errori o gli aggiornamenti di un nodo specifico.
5.2. Opzioni del dispositivo
Le impostazioni, come quelle relative alla sincronizzazione dell'ora o alla risoluzione dei nomi, che in precedenza venivano configurate in modo indipendente sulle singole unità, vengono sincronizzate nel cluster tra i due nodi.
Tuttavia, puoi modificare queste impostazioni solo sul rispettivo nodo attivo. Le impostazioni sono bloccate sul nodo inattivo.
Esistono alcune impostazioni specifiche del dispositivo, come quelle per l'interfaccia di gestione Checkmk rack1, che puoi modificare in qualsiasi momento sui singoli dispositivi.
5.3. Indirizzi IP o nomi host per i nodi
Per poter modificare le configurazioni IP dei singoli nodi, devi prima disconnettere il collegamento tra i nodi. Per farlo, clicca su "Disconnect Cluster" nella pagina del cluster. Puoi quindi modificare le impostazioni come richiesto tramite le interfacce web nei singoli nodi.
Una volta completate le modifiche, devi selezionare "Reconnect Cluster" nella pagina del cluster. Se i nodi riescono a riconnettersi correttamente, il cluster riprenderà a funzionare dopo pochi minuti. Potrai vedere lo stato nella pagina del cluster.
5.4. Gestione delle versioni di Checkmk e delle istanze di monitoraggio
Anche le istanze di monitoraggio e le versioni di Checkmk vengono sincronizzate tra i due nodi. Puoi modificarli solo nell'interfaccia web del nodo attivo, sia tramite il suo indirizzo IP che tramite quello del cluster.
6. Attività amministrative nel funzionamento in cluster
6.1. Aggiornamento del firmware (versione principale)
A differenza dell'aggiornamento del firmware tra versioni compatibili descritto di seguito, ad esempio da 1.6.1 a 1.6.2, dovrai procedere in modo leggermente diverso quando aggiorni le versioni principali (ad es. da 1.6.x a 1.7.y). Il motivo: le versioni principali di solito aggiornano la versione del sistema operativo utilizzata come base o modificano i concetti sottostanti. In breve, ciò significa che dovrai mettere il cluster completamente offline per un breve periodo — si verificherà quindi un tempo di manutenzione programmata. Per gli aggiornamenti minori, è sufficiente mettere i singoli nodi del cluster in stato di manutenzione per eseguire l'aggiornamento. Per eseguire qualsiasi aggiornamento principale, procedi come segue:
Come preparazione, esegui prima un aggiornamento all'ultima versione minore di Checkmk, quindi esegui un aggiornamento all'ultima versione minore del firmware del dispositivo.
Disconnetti i nodi dal cluster tramite Clustering > Disconnect Cluster.
Aggiorna tutti i nodi come descritto nell'articolo principale sul dispositivo.
Quando tutti i nodi sono aggiornati, ricollegali al cluster tramite Clustering > Reconnect Cluster.
Verifica se le tue istanze utilizzano versioni compatibili di Checkmk (il più delle volte non sarà così). Se necessario, installa il pacchetto Checkmk corrispondente al firmware del dispositivo per ciascuna istanza come descritto nell'articolo principale sul dispositivo.
6.2. Aggiornamento del firmware (versione minore)
La versione del firmware di un dispositivo non viene sincronizzata nemmeno in modalità cluster. Gli aggiornamenti del firmware vengono quindi eseguiti individualmente su ciascun nodo. Tuttavia, questo ha il vantaggio che un nodo può continuare il monitoraggio mentre l'altro nodo viene aggiornato.
Quando si esegue l'aggiornamento a una versione del firmware compatibile, è necessario procedere sempre come segue:
Per prima cosa apri il modulo "Clustering" nell'interfaccia web del nodo da aggiornare.
Ora clicca sul simbolo a forma di "cuore" nella colonna di questo nodo e conferma il dialogo che appare. Questo imposta il nodo in stato di manutenzione.
I nodi in stato di manutenzione rilasciano tutte le risorse attualmente attive sul nodo e l'altro nodo le rileva.
Mentre un nodo è in stato di manutenzione, il cluster non è a prova di guasto. Se il nodo attivo viene switchato, il nodo inattivo, che si trova in stato di manutenzione, non rileva le risorse. Se ora metti anche il secondo nodo in stato di manutenzione, tutte le risorse verranno disattivate. Queste risorse verranno riattivate solo quando un nodo verrà portato fuori dallo stato di manutenzione. Devi sempre rimuovere lo stato di manutenzione manualmente.
Se la pagina del cluster mostra quanto segue, vedrai che il nodo è in stato di manutenzione:

Ora puoi eseguire l'aggiornamento del firmware su questo nodo, allo stesso modo di quanto fatto sui dispositivi non in cluster.
Dopo aver eseguito con successo l'aggiornamento del firmware, apri nuovamente la pagina del cluster. Rimuovi lo stato di manutenzione dal dispositivo aggiornato. Il dispositivo si reinserirà automaticamente nel cluster, rendendo il cluster nuovamente pienamente funzionante.

Ti consigliamo di utilizzare la stessa versione del firmware su entrambi i nodi. Dovresti quindi ripetere la stessa procedura per l'altro nodo dopo che il cluster si è completamente ripristinato.
6.3. Scioglimento di un cluster
È possibile scollegare i nodi da un cluster e continuare a utilizzarli singolarmente. In questo modo, puoi continuare a utilizzare la configurazione sincronizzata su entrambi i dispositivi oppure, ad esempio, ripristinare uno dei dispositivi alle impostazioni di fabbrica e riconfigurarlo.
Puoi rimuovere uno o entrambi i nodi dal cluster durante il funzionamento. Se vuoi continuare a utilizzare entrambi i nodi con i dati attuali, devi prima assicurarti che la sincronizzazione dei dati funzioni correttamente. Puoi verificarlo nella pagina del cluster.
Per sciogliere un cluster, clicca su "Disband Cluster" nella pagina del cluster dell'interfaccia web. Presta attenzione al testo della seguente finestra di dialogo di conferma. In tutte le situazioni possibili, questo ti dirà in quale stato si troverà il rispettivo dispositivo dopo che la connessione è stata interrotta.

La separazione dei dispositivi deve essere eseguita separatamente su entrambi i nodi, in modo che in futuro sia possibile utilizzare entrambi i dispositivi singolarmente.
Se in futuro desideri utilizzare solo uno dei dispositivi, scollega il cluster dal dispositivo che desideri continuare a utilizzare e effettua il ripristino delle impostazioni di fabbrica sull'altro dispositivo.
Dopo aver scollegato un nodo dal cluster, le istanze di monitoraggio non vengono riavviate automaticamente. Se necessario, dovrai farlo manualmente in seguito.
6.4. Sostituzione di un dispositivo
Se i dischi rigidi del vecchio dispositivo funzionano correttamente, puoi rimuoverli dal vecchio dispositivo e installarli nel nuovo, collegando il nuovo dispositivo esattamente come era collegato quello vecchio, quindi accenderlo. Dopo l'avvio, la nuova unità si reinserirà nel cluster allo stesso modo della vecchia unità.
Se vuoi sostituire completamente un vecchio dispositivo con uno nuovo, devi procedere come se stessi sciogliendo completamente il cluster. Per farlo, seleziona uno dei dispositivi esistenti, rimuovilo dal cluster e crea un nuovo cluster con questo e il nuovo dispositivo.
7. Diagnosi dei guasti
7.1. Registrazione
La gestione del cluster è in gran parte automatica. I processi automatici sui nodi decidono quali risorse devono essere avviate e arrestate su ciascun dispositivo. Questo comportamento viene registrato in dettaglio sotto forma di voci di log. Puoi accedere a queste voci dalla pagina del cluster tramite il pulsante "Cluster Log".
Tieni presente che queste voci, proprio come gli altri messaggi di sistema, vanno perse quando l'unità viene riavviata. Se vuoi conservare i messaggi oltre questo momento, puoi effettuare lo scaricamento del file di log corrente tramite il tuo browser o impostare in modo permanente un inoltro dei messaggi di log a un server syslog.
