Checkmk
to checkmk.com
Important

This is a machine translation based on the English version of the article. It might or might not have already been subject to text preparation. If you find errors, please file a GitHub issue that states the paragraph that has to be improved.

1. Le basi

Puoi collegare due appliance Checkmk per formare un cluster failover. In questo modo, tutte le configurazioni e i dati vengono sincronizzati tra le due appliance. Le appliance connesse come cluster vengono anche chiamate nodi. Uno dei nodi del cluster assume il ruolo active-active, cioè esegue i compiti del cluster. Entrambi i nodi si scambiano costantemente informazioni sul loro stato. Non appena il nodo inattivo riconosce che il nodo attivo non può più svolgere i suoi compiti, ad esempio a causa di un guasto, il nodo inattivo assume i compiti del nodo attivo e diventa il nuovo nodo attivo.

Il cluster failover serve ad aumentare la disponibilità della tua installazione di monitoraggio proteggendola dai guasti hardware di un dispositivo o di singoli componenti. Tuttavia, il cluster non sostituisce il backup dei dati e non rileva gli errori logici.

Nelle seguenti situazioni, il cluster riduce i tempi di manutenzione programmata permettendo al nodo inattivo di assumerne le risorse:

  • Quando il RAID in un rack Checkmk non è più accessibile.

  • Quando il dispositivo precedentemente attivo non è più accessibile (fallito).

  • Se il dispositivo precedentemente attivo non può più raggiungere la rete "esterna", ma il nodo inattivo sì.

  • Se si esegue un aggiornamento del firmware sui nodi.

Ovviamente il nodo del cluster può funzionare in caso di emergenza solo se i nodi vengono operati tramite switch e alimentatori separati!

2. Prerequisiti

Per creare un cluster, dovrai innanzitutto disporre di due Checkmk Appliance compatibili. I seguenti modelli possono essere combinati in un cluster:

  • 2 x Checkmk rack1

  • 2 x Checkmk rack5

  • 2 x Checkmk virt1 (tecnicamente possibile, ma non supportato o consigliato per la produzione. Vedi sotto per i dettagli).

  • 1 x Checkmk rack1/rack5 e 1 x Checkmk virt1

Inoltre, le due appliance devono utilizzare un firmware compatibile. Se combini un'appliance virtuale o fisica con un rack, l'appliance virtuale deve avere le stesse specifiche del server fisico, altrimenti potrebbe crashare quando assume il carico dal rack.

Le unità devono essere cablate con almeno due connessioni di rete indipendenti. Una di queste connessioni viene utilizzata per la normale connessione di rete, la seconda per la sincronizzazione tra i nodi del cluster. La connessione di sincronizzazione dovrebbe essere eseguita direttamente tra le unità, se possibile, ma come minimo tramite una rete separata.

Per aumentare la disponibilità delle connessioni di rete, è necessario creare una configurazione di bonding. L'aspetto concreto di questa configurazione dipende principalmente dal tuo ambiente (di rete). Se necessario, consulta i tuoi colleghi del data center o del dipartimento di rete.

Clustering di appliance virtuali

Tecnicamente è possibile creare un cluster di due istanze virt1. Tuttavia, poiché la funzione di cluster è stata concepita per compensare i guasti dell'hardware, non lo consigliamo per la produzione. Per l'high availability, le piattaforme di virtualizzazione come VMware vSphere forniscono le proprie funzioni. Tuttavia, puoi testare molto facilmente il comportamento e la configurazione di un cluster con due macchine virtuali. Anche i "virtualizzatori desktop" come VirtualBox o VMware Workstation Player sono adatti a questo scopo. Con queste soluzioni puoi fare a meno della configurazione del bonding. Invece di configurare il bonding come mostrato di seguito, usa semplicemente la seconda interfaccia di rete inutilizzata. Per il cluster vero e proprio, seleziona semplicemente le due interfacce individuali invece di quelle di bonding.

3. Configurazione di un cluster

Queste istruzioni presuppongono che tu abbia già preconfigurato entrambi i dispositivi al punto da poter aprire le loro interfacce web con un browser web.

Prima di configurare il cluster, devi innanzitutto preparare entrambi i dispositivi, modificando la configurazione di rete in modo da soddisfare i requisiti di cui sopra. Se necessario, prendi nota delle porte utilizzate per il cluster.

Di seguito viene descritta una configurazione di riferimento di un cluster con due interfacce di bonding, che corrisponde al seguente diagramma:

cluster

Le denominazioni delle interfacce LAN1, LAN2 ecc. utilizzate nel diagramma rappresentano le interfacce fisiche del dispositivo. Le denominazioni effettive dipendono dal rispettivo hardware.

Gli indirizzi IP utilizzati sono ovviamente arbitrari, ma assicurati che la rete interna del cluster (bond1 nel diagramma) utilizzi una rete IP diversa da quella "esterna" (bond0 nel diagramma).

3.1. Configurazione della rete

Apri l'interfaccia web del primo nodo, seleziona le impostazioni del dispositivo e, in alto, Network Settings. All'interno di Network Settings sono disponibili due modalità.

La modalità Simple Mode,, con la quale puoi configurare solo l'interfaccia standard del dispositivo, è attivata per impostazione predefinita (questa modalità corrisponde alla configurazione tramite la console di testo che hai eseguito durante la configurazione iniziale dell'appliance).

appliance cluster edit simple network

La modalità avanzata è necessaria per il cluster. Per attivare questa modalità, clicca sul pulsante Advanced Mode in alto e accetta la finestra di dialogo di conferma.

Nella pagina seguente vedrai tutte le interfacce di rete disponibili nell'unità. Solo l'interfaccia di rete standard ha attualmente una configurazione - qui ens32 nella schermata sottostante. Questa è stata ripresa dalla modalità semplice.

appliance cluster advanced mode

Ora crea la prima interfaccia di collegamento bond0 cliccando su Create Bonding. Nella finestra di dialogo che segue, inserisci tutti i dati come mostrato nella seguente schermata e conferma la finestra di dialogo con Save.

appliance cluster create bond0

Quindi crea la seconda interfaccia di bonding bond1 con la configurazione appropriata per la connessione di sincronizzazione diretta.

appliance cluster create bond1

Dopo aver creato le due interfacce di rete, vedrai ancora una volta tutte le impostazioni effettuate nella finestra di dialogo della configurazione di rete per le interfacce di rete ...

appliance cluster create bonds pending interfaces

... e per i collegamenti creati:

appliance cluster create bonds pending bonds

Una volta completati tutti i passaggi di configurazione, clicca su Activate Changes per rendere effettive le impostazioni. Le nuove impostazioni di rete verranno quindi caricate. Dopo qualche secondo, la configurazione di rete mostrerà ovunque lo stato "OK", sia per le interfacce di rete reali ... che per i bonding.

appliance cluster create bonds no pending interfaces

... e ancora per i collegamenti:

appliance cluster create bonds no pending bonds

Ora ripeti la configurazione dei dispositivi di rete con le impostazioni appropriate sul tuo secondo dispositivo.

3.2. Nomi host

I dispositivi che devono essere connessi in un cluster devono avere nomi host diversi. Ora puoi definirli nelle impostazioni del dispositivo. Nel nostro esempio, alle appliance sono stati assegnati i nomi cma1 e cma2.

3.3. Connessione del cluster

Ora che hai completato i preparativi, puoi continuare a configurare il cluster. Per farlo, apri il modulo Clustering sull'interfaccia web nel menu principale del primo dispositivo (in questo caso cma1) e fai clic su Create Cluster.

Nella finestra di dialogo per la creazione del cluster, inserisci la configurazione corrispondente e conferma la finestra di dialogo con Save. Il modulo Cluster IP address,, che utilizzerai in seguito per accedere al cluster, è particolarmente importante. Se hai bisogno di ulteriori informazioni su questa finestra di dialogo, richiama l'aiuto inline tramite il simbolo accanto al logo Checkmk.

appliance cluster create cluster

Nella pagina successiva, puoi collegare i due dispositivi a un cluster. Per farlo, devi inserire la password per l'interfaccia web del secondo dispositivo. Questa password viene utilizzata una volta per stabilire la connessione tra le due unità. Approva la finestra di dialogo di conferma se sei sicuro di voler sovrascrivere i dati sul dispositivo di destinazione visualizzato.

cma de cluster 2 2

Una volta stabilita con successo la connessione, inizierà la sincronizzazione dei dispositivi del cluster. Puoi visualizzare lo stato attuale di questo processo nella pagina del cluster. Durante la sincronizzazione, tutte le risorse, compresi i siti di monitoraggio esistenti, verranno avviate sul primo nodo.

appliance cluster cluster resources

D'ora in poi, con l'aiuto dell'indirizzo IP del cluster (qui 10.3.3.30), sarai in grado di accedere alle risorse del cluster, ad es. ai siti di monitoraggio, indipendentemente dal nodo del cluster in cui si trovano attualmente le risorse.

4. Stato del cluster

Dopo aver completato la prima sincronizzazione, il tuo cluster sarà completamente operativo. Puoi visualizzare il suo stato in qualsiasi momento nella pagina del cluster.

appliance cluster cluster status

Con l'aiuto della visualizzazione dello stato della console, puoi anche vedere lo stato attuale del cluster in un modulo riassuntivo nel box Cluster. Il ruolo di ogni rispettivo nodo viene visualizzato tra parentesi dopo lo stato attuale: per il nodo active-active M (per Main) e per il nodo passive S (per Subordinate).

appliance cluster tui cluster

5. Caratteristiche speciali del cluster

5.1. Accesso alle risorse

Tutte le richieste ai siti di monitoraggio, come gli accessi all'interfaccia web, nonché i messaggi in arrivo come SNMP trap o syslog alla Console degli Eventi o le richieste di Livestatus, di norma devono sempre passare attraverso l'indirizzo IP del cluster.

Dovresti avere bisogno di accedere direttamente ai singoli nodi solo in circostanze eccezionali, come ad esempio durante la diagnosi degli errori o gli aggiornamenti di un nodo specifico.

5.2. Opzioni del dispositivo

Le impostazioni, come la sincronizzazione dell'ora o la risoluzione dei nomi, che in precedenza venivano effettuate in modo indipendente sulle singole unità, vengono sincronizzate nel nodo del cluster tra i due nodi.

Tuttavia, puoi modificare queste impostazioni solo sul rispettivo nodo attivo. Le impostazioni sono bloccate sul nodo inattivo.

Ci sono alcune impostazioni specifiche del dispositivo, come quelle dell'interfaccia di gestione Checkmk rack1, che puoi modificare in qualsiasi momento sui singoli dispositivi.

5.3. Indirizzi IP o nomi host per i nodi

Per poter modificare le configurazioni IP dei singoli nodi, devi prima scollegare il collegamento tra i nodi. Per farlo, clicca su Disconnect Cluster nella pagina del cluster. Potrai poi modificare le impostazioni come richiesto tramite le interfacce web dei singoli nodi.

Dopo aver completato le modifiche, devi selezionare Reconnect Cluster nella pagina del cluster. Se i nodi riescono a riconnettersi con successo, il cluster riprenderà a funzionare dopo qualche minuto. Potrai vedere lo stato nella pagina del cluster.

5.4. Gestione delle versioni di Checkmk e dei siti di monitoraggio

Anche i siti di monitoraggio e le versioni di Checkmk sono sincronizzati tra i due nodi. Puoi modificarli solo nell'interfaccia web del nodo active-active, sia tramite il proprio indirizzo IP che tramite quello del cluster.

6. Attività amministrative nel funzionamento in cluster

6.1. Aggiornamento del firmware (versione principale)

A differenza dell'aggiornamento del firmware all'interno delle versioni compatibili descritte di seguito, ad esempio da 1.6.1 a 1.6.2, dovrai procedere in modo diverso quando si tratta di aggiornare le versioni maggiori (es. da 1.6.x a 1.7.y). Il motivo: Le versioni maggiori di solito aggiornano la versione del sistema operativo utilizzato come base o cambiano i concetti sottostanti. In breve, questo significa che dovrai mettere il cluster completamente offline per un breve periodo di tempo - quindi avrai un tempo di manutenzione programmata. Per gli aggiornamenti minori, è sufficiente mettere i singoli nodi del cluster in stato di manutenzione per poter eseguire l'aggiornamento. Per eseguire un aggiornamento maggiore, procedi come segue:

  1. Per prepararti, esegui prima un aggiornamento all'ultima versione minore di Checkmk Appliance e poi un aggiornamento all'ultima versione minore del firmware dell'appliance.

  2. Disconnetti i nodi del cluster tramite Clustering > Disconnect Cluster.

  3. Aggiorna tutti i nodi come descritto nell'articolo principale dell'appliance.

  4. Quando tutti i nodi sono stati aggiornati, ricollegali al cluster tramite Clustering > Reconnect Cluster.

  5. Verifica se le tue istanze Checkmk utilizzano versioni compatibili (molto spesso non è così). Se necessario, installa il pacchetto Checkmk corrispondente al firmware dell'appliance per ogni sito, come descritto nell'articolo principale dell'appliance.

6.2. Aggiornamento del firmware (versione minore)

La versione del firmware di un dispositivo non è sincronizzata nemmeno durante il funzionamento del cluster. Gli aggiornamenti del firmware vengono quindi eseguiti individualmente su ogni nodo. Tuttavia, questo ha il vantaggio che un nodo può continuare a monitorare mentre l'altro nodo viene aggiornato.

Per l'aggiornamento a una versione compatibile del firmware, devi sempre procedere come segue:

Per prima cosa apri il modulo Clustering nell'interfaccia web del nodo da aggiornare.

Ora fai clic sul simbolo del "cuore" nella colonna di questo nodo e approva la finestra di dialogo che segue. In questo modo il nodo passa allo stato di manutenzione.

I nodi in stato di manutenzione rilasciano tutte le risorse attualmente attive sul nodo e l'altro nodo le prenderà in carico.

Mentre un nodo è in stato di manutenzione, il cluster non è a prova di guasto. Se il nodo attivo viene spento, il nodo inattivo, che è in stato di manutenzione, non assume le risorse. Se ora metti anche il secondo nodo in stato di manutenzione, tutte le risorse verranno spente. Queste risorse verranno riattivate solo quando un nodo uscirà dallo stato di manutenzione. Devi sempre rimuovere lo stato di manutenzione manualmente.

Se la pagina del cluster mostra quanto segue, vedrai che il nodo è in stato di manutenzione:

appliance cluster cluster maintenance

Ora puoi eseguire l'aggiornamento del firmware su questo nodo, come per le appliance non appartenenti al cluster.

Dopo aver eseguito con successo l'aggiornamento del firmware, apri di nuovo la pagina del cluster e rimuovi lo stato di manutenzione dal dispositivo aggiornato. Il dispositivo si reinserirà automaticamente nel cluster, rendendolo di nuovo completamente funzionante.

appliance cluster cluster status

Si consiglia di eseguire la stessa versione del firmware su entrambi i nodi. Pertanto, devi ripetere la stessa procedura per l'altro nodo dopo che il cluster si è completamente ristabilito.

6.3. Sciogliere un cluster

È possibile staccare i nodi del cluster e continuare a operare singolarmente. In questo modo, puoi continuare a utilizzare la configurazione sincronizzata su entrambi i dispositivi o, ad esempio, riportare uno dei dispositivi allo stato di fabbrica e riconfigurarlo.

Puoi rimuovere uno o entrambi i nodi dal cluster durante il funzionamento. Se vuoi continuare a usare entrambi i nodi con i dati attuali, devi prima assicurarti che la sincronizzazione dei dati funzioni correttamente. Puoi vederlo nella pagina del cluster.

Per sciogliere un cluster, clicca su Disband Cluster nella pagina del cluster dell'interfaccia web. Prendi nota del testo della finestra di dialogo seguente: in tutte le possibili situazioni, ti dirà in quale stato si troverà il dispositivo in questione dopo la chiusura della connessione.

appliance cluster disband cluster

La separazione delle appliance deve essere effettuata separatamente su entrambi i nodi, in modo da poter operare singolarmente in futuro.

Se in futuro vuoi utilizzare solo uno dei dispositivi, scollega il cluster sul dispositivo che vuoi continuare a utilizzare e poi ripristina lo stato di fabbrica sull'altro dispositivo.

Dopo aver scollegato un nodo del cluster, i siti di monitoraggio non vengono riavviati automaticamente: devi farlo manualmente se necessario.

6.4. Sostituzione di un'appliance

Se i dischi rigidi della vecchia appliance sono funzionanti, puoi rimuoverli dalla vecchia appliance e installarli nella nuova appliance, cablare la nuova appliance esattamente come era cablata la vecchia appliance e poi accenderla. Dopo l'avvio, la nuova unità si reinserirà nel cluster allo stesso modo della vecchia.

Se vuoi sostituire completamente un vecchio apparecchio con uno nuovo, devi procedere come se dovessi sciogliere completamente il cluster. Per farlo, seleziona uno dei dispositivi esistenti, rimuovilo dal cluster e crea un nuovo cluster con questo e il nuovo dispositivo.

7. Diagnosi dei guasti

7.1. Log

La gestione del cluster è in gran parte automatica. Processi automatici sui nodi decidono quali risorse devono essere avviate e fermate su ogni dispositivo. Questo comportamento viene registrato in dettaglio sotto forma di voci di log. Puoi accedere a queste voci dalla pagina del cluster tramite il pulsante Cluster Log.

Tieni presente che queste voci, proprio come gli altri messaggi di sistema, vengono perse quando l'unità viene riavviata. Se vuoi ricevere i messaggi anche dopo, puoi scaricare il file di log corrente tramite il tuo browser o impostare in modo permanente l'inoltro dei messaggi di log a un file server syslog.

In questa pagina