This is a machine translation based on the English version of the article. It might or might not have already been subject to text preparation. If you find errors, please file a GitHub issue that states the paragraph that has to be improved. |
1. Tareas básicas de monitorización
Ya has añadido hosts y has echado un vistazo a algunas herramientas importantes, y ahora estamos listos para empezar con la monitorización propiamente dicha. Al fin y al cabo, el objetivo de Checkmk no es estar constantemente ocupado con la configuración, sino dar soporte a las operaciones de TI.
Es cierto que las vistas de tabla disponibles por defecto, o por ejemplo el snap-in «Overview», ya te muestran con mucha precisión cuántos y qué problemas hay actualmente. Pero para modelar un Flujo de trabajo, es decir, «procedimientos de trabajo sistemáticos» con la monitorización, necesitas un poco más de información sobre:
el reconocimiento de problemas
el envío de notificaciones en caso de eventos
la configuración del tiempo de mantenimiento programado
Este capítulo solo trata el primero y el último de los puntos anteriores. Las notificaciones se tratarán más adelante en un capítulo aparte, ya que hay que hacer algunos preparativos especiales para este tema en concreto.
2. Reconocer los problemas
En la Vista general ya hemos visto que los problemas pueden marcarse como no tratados o procesados. El Reconocimiento es precisamente la acción que convierte un problema no tratado en uno procesado. Esto no significa necesariamente que alguien esté trabajando realmente en el problema. Algunos problemas desaparecen por sí solos. Pero el Reconocimiento ayuda a mantener una visión general y a establecer un Flujo de trabajo.
¿Qué ocurre exactamente cuando se realiza el reconocimiento del problema?
En el panel de control (Overview), el problema ya no aparecerá en la columna «Unhandled» del host o servicio.
Los dashboards tampoco muestran ya la lista del problema.
El objeto (host o servicio) se marca en las vistas de tabla con el símbolo «
».Se crea una entrada en el historial de objetos para que la acción se pueda rastrear más adelante.
Las notificaciones repetidas, si están configuradas, se detendrán.
Entonces, ¿cómo se reconoce un problema?
Primero, abre una vista de tabla que contenga el problema. La forma más fácil es usar las vistas predefinidas en los menús «Monitor > Problems > Host problems» o «Service problems». Por cierto, puedes acceder a ellas casi más rápido haciendo clic en el recuento de problemas en «Overview».
Puedes hacer clic en el host o servicio problemático de la lista y, a continuación, en la página con sus detalles, realizar el Reconocimiento solo para ese host o servicio concreto. Sin embargo, nos quedaremos en la página de la lista porque aquí tienes todas las opciones para realizar el Reconocimiento de un solo problema o varios a la vez.
No es nada raro que quieras realizar el Reconocimiento de varios problemas (relacionados) de una sola vez. Esto se hace fácilmente haciendo clic en «Show checkboxes» para mostrar una nueva primera columna en la lista, que contiene una checkbox delante de cada fila. Las checkboxes están todas desmarcadas, ya que la selección es tuya: marca la checkbox de cada host o servicio sobre el que quieras actuar.
Importante: Si realizas una acción en una página con una lista sin checkboxes, dicha acción se aplicará a todas las entradas de la lista.
Ahora haz clic en «Acknowledge problems», lo que mostrará el siguiente panel en la parte superior de la página:

Introduce un comentario y haz clic en «Acknowledge problems» —y, tras confirmar la pregunta «¿Estás seguro?»…

… todos los problemas seleccionados recibirán Reconocimiento.
Por último, un par de consejos:
También puedes eliminar reconocimientos con la opción de menú «Commands > Remove acknowledgments».
Los reconocimientos pueden ejecutarse automáticamente. La opción «Expire on» sirve para esto, pero solo está disponible en las ediciones comerciales.
Para obtener más información sobre todas las opciones de acciones de Reconocimiento, consulta el artículo sobre el Reconocimiento.
3. Programar tiempos de mantenimiento planificados
A veces las cosas no se «estropean» por accidente, sino a propósito —o, por decirlo de forma más cuidadosa, se puede tolerar una interrupción necesaria. Al fin y al cabo, todo hardware o software necesita un mantenimiento ocasional, y durante ese trabajo es muy probable que el host o servicio correspondiente en la monitorización pase al estado «DOWN» o «CRIT».
Para quienes deben reaccionar ante los problemas en Checkmk, es por supuesto muy importante que estén al tanto de los tiempos de mantenimiento planificados y no pierdan un tiempo valioso con «Falsas alarmas». Para garantizarlo, Checkmk cuenta con el concepto de tiempo de mantenimiento programado (o tiempo de mantenimiento breve).
Así que, cuando un objeto tiene que someterse a mantenimiento, puedes configurarlo en el tiempo de mantenimiento programado, ya sea de forma inmediata o para una fecha prevista en el futuro.
Configurar tiempos de mantenimiento programados es muy similar al proceso de reconocer problemas. Empiezas de nuevo con una vista de tabla que contenga el objeto deseado (host o servicio) para el que quieres configurar un tiempo de mantenimiento programado. Por ejemplo, puedes hacer clic en el total de hosts o servicios en la vista de tabla «Overview» para obtener una lista de todos los objetos.
En la lista que se muestra, usa «Show checkboxes» para mostrar las checkboxes y, a continuación, selecciona todas las entradas correspondientes.
Ahora haz clic en «Schedule downtimes». Esto mostrará el siguiente panel en la parte superior de la página:

Hay toda una gama de opciones para los tiempos de mantenimiento programados. Debes introducir un comentario en cada caso. Existen numerosas opciones diferentes para definir el intervalo de tiempo: desde el simple «2 hours», que define el tiempo de mantenimiento de forma inmediata, hasta la especificación de un intervalo de tiempo explícito, que también se puede utilizar para definir un tiempo de mantenimiento en el futuro. A diferencia de los Reconocimientos, los tiempos de mantenimiento programados siempre tendrán una hora de finalización establecida de antemano.
Aquí tienes un par de consejos más:
Cuando programas un tiempo de mantenimiento para un host, todos sus servicios también se programan automáticamente, lo que te ahorra el trabajo de tener que hacerlo dos veces.
Los tiempos de mantenimiento programados flexibles, en realidad, solo comienzan cuando el objeto cambia a un estado distinto de «OK».
Si utilizas una de las ediciones comerciales, también puedes definir tiempos de mantenimiento programados periódicamente, por ejemplo, para reiniciar una vez a la semana.
Puedes obtener una vista general de cualquier tiempo de mantenimiento programado actualmente en curso en Monitor > Overview > Scheduled downtimes.
Los efectos de un tiempo de mantenimiento programado son los siguientes:
En el «Overview», los hosts y servicios afectados ya no aparecen como problemáticos.
En las vistas de tabla, el host o servicio seleccionado se marca con el cono de guía de
.
Si se envía un host con todos sus servicios al tiempo de mantenimiento, los servicios reciben el icono de
con el servidor y un pequeño cono de guía.Para estos objetos, la notificación de problemas se desactiva durante el tiempo de mantenimiento programado.
Se activa una notificación especial al inicio y al final del tiempo de mantenimiento.
En el análisis de disponibilidad, los tiempos de mantenimiento programados se contabilizan por separado.
Para una descripción detallada de todo lo mencionado anteriormente y otros aspectos, consulta el artículo sobre tiempo de mantenimiento programado.
