This is a machine translation based on the English version of the article. It might or might not have already been subject to text preparation. If you find errors, please file a GitHub issue that states the paragraph that has to be improved. |
1. Attività di monitoraggio essenziali
Hai aggiunto gli host e dato un'occhiata ad alcuni strumenti importanti: ora siamo pronti per iniziare con il monitoraggio vero e proprio. Dopotutto, lo scopo principale di Checkmk non è quello di tenerti costantemente impegnato con la configurazione, ma di fornire supporto alle operazioni IT.
È vero che le visualizzazioni disponibili di default, o ad esempio lo snap-in "Overview", ti mostrano già in modo molto preciso quanti e quali problemi esistono al momento. Ma per modellare un flusso di lavoro, cioè delle "procedure di lavoro sistematiche" con il monitoraggio, hai bisogno di qualche informazione in più su:
il riconoscimento dei problemi
l'invio di notifiche in caso di eventi
l'impostazione dei tempi di manutenzione programmata
Questo capitolo tratta solo il primo e l'ultimo dei punti sopra citati. Le notifiche saranno trattate più avanti in un capitolo a parte, poiché per questo argomento specifico è necessario effettuare alcuni preparativi particolari.
2. Segnalare i problemi
Nella panoramica abbiamo già visto che i problemi possono essere contrassegnati come non gestiti o gestiti. La conferma è proprio l'azione che trasforma un problema non gestito in uno gestito. Questo non significa necessariamente che qualcuno stia effettivamente lavorando al problema. Alcuni problemi scompaiono da soli. Ma la conferma aiuta a mantenere una visione d'insieme e a stabilire un flusso di lavoro.
Cosa succede esattamente quando viene riconosciuto un problema?
Nella sezione "Overview" il problema non verrà più conteggiato nella colonna "Unhandled" a livello di host o servizio.
Anche le dashboard non mostrano più l'elenco dei problemi.
L'oggetto (host o servizio) viene contrassegnato nelle visualizzazioni con il simbolo "
".Viene inserita una voce nella cronologia dell'oggetto in modo che l'azione possa essere successivamente ricostruita.
Le notifiche ricorrenti, se configurate, verranno interrotte.
Allora, come si fa a confermare il problema?
Per prima cosa apri una visualizzazione che contenga il problema. Il modo più semplice è usare le visualizzazioni predefinite nei menu "Monitor > Problems > Host problems" o "Service problems". A proposito, puoi accedervi quasi più rapidamente cliccando sul conteggio dei problemi nella "Overview".
Puoi cliccare sull'host o sul servizio problematico nell'elenco e poi, nella pagina con i dettagli, effettuare il riconoscimento solo per quel singolo host o servizio. Tuttavia, resteremo nella pagina dell'elenco perché qui hai tutte le opzioni per effettuare il riconoscimento di un solo problema o di più problemi contemporaneamente.
Non è affatto raro che tu voglia effettuare un riconoscimento di una serie di problemi (correlati) con un'unica azione. Questo si fa facilmente cliccando su "Show checkboxes" per visualizzare una nuova prima colonna nell'elenco, che contiene una checkbox davanti a ogni riga. Le checkbox sono tutte deselezionate perché la scelta spetta a te: seleziona la checkbox per ogni host o servizio su cui vuoi agire.
Importante: se esegui un'azione su una pagina con un elenco senza checkboxes, tale azione verrà eseguita per tutte le voci dell'elenco.
Ora clicca su "Acknowledge problems", che visualizzerà il seguente pannello nella parte superiore della pagina:

Inserisci un commento e clicca su "Acknowledge problems" — e dopo aver confermato la domanda "Are you sure?" …

… tutti i problemi selezionati verranno contrassegnati come soggetti a riconoscimento.
Infine, un paio di consigli:
Puoi anche rimuovere i riconoscimenti tramite la voce di menu "Commands > Remove acknowledgments".
I riconoscimenti possono essere eseguiti automaticamente. L'opzione "Expire on" serve a questo scopo, ma è disponibile solo nelle edizioni commerciali.
Per ulteriori informazioni su tutte le opzioni relative alle azioni di riconoscimento, consulta l'articolo sul riconoscimento.
3. Impostazione dei tempi di manutenzione programmati
A volte le cose non si "rompono" per caso, ma piuttosto di proposito — o, per dirla in modo un po' più delicato, un'interruzione necessaria può essere tollerata. Dopotutto, ogni componente hardware o software ha bisogno di manutenzione occasionale, e durante questi lavori è molto probabile che l'host o il servizio in questione nel monitoraggio entri nello stato "DOWN" o "CRIT".
Per chi deve reagire ai problemi in Checkmk, è ovviamente molto importante essere a conoscenza dei tempi di manutenzione programmata e non perdere tempo prezioso con "falsi allarmi". Per garantire ciò, Checkmk prevede il concetto di tempo di manutenzione programmata (o tempo di manutenzione breve).
Quindi, quando un oggetto deve essere sottoposto a manutenzione, puoi impostarlo sul tempo di manutenzione programmata — immediatamente o per un momento pianificato in futuro.
L'impostazione dei tempi di manutenzione programmata è molto simile al processo di conferma dei problemi. Si ricomincia con una visualizzazione contenente l'oggetto desiderato (host o servizio) per il quale si vuole impostare un tempo di manutenzione programmata. Ad esempio, puoi cliccare sul totale degli host o dei servizi nell'Overview per ottenere un elenco di tutti gli oggetti.
Nell'elenco visualizzato, usa "Show checkboxes" per mostrare le checkbox, quindi seleziona tutte le voci appropriate.
Ora clicca su "Schedule downtimes". Questo visualizzerà il seguente pannello nella parte superiore della pagina:

Esiste un'ampia gamma di opzioni per i tempi di manutenzione programmati. Devi inserire un commento in ogni caso. Esistono numerose opzioni diverse per definire il periodo di tempo: dal semplice "2 hours", che definisce immediatamente il tempo di manutenzione, alla specificazione di un periodo di tempo esplicito, che può essere utilizzato anche per definire un tempo di manutenzione futuro. A differenza dei riconoscimenti, i tempi di manutenzione programmati avranno sempre un orario di fine prestabilito.
Ecco un paio di consigli in più:
Quando pianifichi un tempo di manutenzione programmata per un host, tutti i suoi servizi vengono automaticamente pianificati insieme, risparmiandoti così il lavoro di doverlo fare due volte.
I tempi di manutenzione programmata flessibili iniziano effettivamente solo quando l'oggetto passa a uno stato diverso da "OK".
Se utilizzi una delle edizioni commerciali, puoi anche definire tempi di manutenzione programmati regolari, ad esempio per un riavvio obbligatorio una volta alla settimana.
Puoi ottenere una panoramica di tutti i tempi di manutenzione programmata attualmente in corso in Monitor > Overview > Scheduled downtimes.
Gli effetti di una tempesta di manutenzione programmata sono i seguenti:
In Overview gli host e i servizi interessati non vengono più visualizzati come problematici.
Nelle visualizzazioni, l'host o il servizio selezionato viene contrassegnato con il cono guida di
.
Se un host con tutti i suoi servizi viene messo in tempo di manutenzione programmata, i servizi ricevono il simbolo
con il server e un piccolo cono guida.Per questi oggetti, la notifica dei problemi viene disattivata durante il tempo di manutenzione programmata.
All'inizio e alla fine di un periodo di manutenzione programmata viene attivata una notifica speciale.
Nell'analisi della disponibilità, i tempi di manutenzione programmati vengono considerati separatamente.
Per una descrizione dettagliata di tutti gli aspetti sopra menzionati e di altri, consulta l'articolo sui tempi di manutenzione programmati.
