Checkmk
to checkmk.com
Important

This is a machine translation based on the English version of the article. It might or might not have already been subject to text preparation. If you find errors, please file a GitHub issue that states the paragraph that has to be improved.

1. Conceptos básicos

Puedes conectar dos appliances Checkmk para formar un clúster de Failover. Al hacerlo, todas las configuraciones y los datos se sincronizan entre los dos appliances. Las appliances conectadas como clúster también se denominan nodos. Uno de los nodos del clúster asume el papel activo, es decir, realiza las tareas del clúster. Ambos nodos intercambian constantemente información sobre su estado. En cuanto el nodo inactivo detecta que el nodo activo ya no puede cumplir con sus tareas, por ejemplo, debido a un fallo, el nodo inactivo asume las tareas del nodo activo y se convierte en el nuevo nodo activo.

El clúster Failover sirve para aumentar la disponibilidad de tu instalación de monitorización protegiéndola contra fallos de hardware en un dispositivo o en componentes individuales. Sin embargo, la agrupación en clústeres no sustituye a las copias de seguridad de datos y no detecta errores lógicos.

En las siguientes situaciones, el clúster reduce el tiempo de mantenimiento al permitir que el nodo inactivo se haga cargo de sus recursos:

  • Cuando ya no se puede acceder al RAID de un rack de Checkmk.

  • Cuando ya no se puede acceder al dispositivo que antes estaba activo (ha fallado).

  • Si el dispositivo que antes estaba activo ya no puede conectarse a la red «externa», pero el nodo inactivo sí puede.

  • Si realizas una actualización de firmware en los nodos.

¡Por supuesto, el clúster solo puede funcionar en caso de emergencia si los nodos se gestionan a través de switches y fuentes de alimentación independientes!

2. Requisitos previos

Para configurar un clúster, primero necesitarás dos appliances Checkmk compatibles. Los siguientes modelos se pueden combinar en un clúster:

  • 2 x Checkmk rack1

  • 2 x Checkmk rack5

  • 2 x Checkmk virt1 (técnicamente posible, pero no es compatible ni se recomienda para entornos de producción. Consulta más abajo para obtener más detalles.)

  • 1 x Checkmk rack1/rack5 y 1 x Checkmk virt1

Además, los dos dispositivos deben utilizar un firmware compatible. Si combinas un appliance virt1 con un rack físico, la máquina virtual debe tener las mismas especificaciones que el servidor físico; de lo contrario, podría crashar al asumir la carga del rack.

Las unidades deben estar conectadas con al menos dos conexiones de red independientes. Una de estas conexiones se utiliza para la conexión de red normal, la segunda para la sincronización entre los nodos del clúster. La conexión de sincronización debe establecerse directamente entre las unidades siempre que sea posible, pero como mínimo a través de una red separada.

Para aumentar la disponibilidad de las conexiones de red, debes crear una configuración de enlace. El aspecto concreto de esta configuración de enlace depende principalmente de tu entorno (de red). Si es necesario, consulta a tus compañeros del centro de datos o del departamento de redes.

Agrupación en clúster de appliances virtuales

Técnicamente es posible agrupar en clúster dos instancias de virt1. Sin embargo, dado que la función de clúster está diseñada para compensar fallos de hardware, no lo recomendamos para operaciones de producción. Para una alta disponibilidad, las plataformas de virtualización como VMware vSphere ofrecen sus propias funciones. No obstante, puedes probar muy fácilmente el comportamiento y la configuración de un clúster con dos máquinas virtuales. Los «virtualizadores de escritorio» como VirtualBox o VMware Workstation Player también son adecuados para esto. Con estas soluciones puedes prescindir de la configuración de bonding. En lugar de configurar el bonding como se muestra a continuación, simplemente utiliza la segunda interfaz de red que no se esté utilizando. Para la agrupación en clúster propiamente dicha, simplemente selecciona tus dos interfaces individuales en lugar de las interfaces de bonding.

3. Configuración de un clúster

Estas instrucciones dan por hecho que ya has preconfigurado ambos dispositivos hasta el punto de poder abrir sus interfaces web con un navegador web.

Antes de configurar el clúster, debes preparar primero ambos dispositivos. Para ello, principalmente tendrás que modificar la configuración de red para que se cumplan los requisitos mencionados anteriormente. Anota los puertos utilizados para el clúster, si es necesario.

A continuación se describe una configuración de referencia de un clúster con dos interfaces de enlace, que se corresponde con el siguiente diagrama:

cluster

Las designaciones de interfaz LAN1, LAN2, etc., utilizadas en el diagrama representan las interfaces físicas del dispositivo. Las designaciones reales dependen del hardware correspondiente.

Las direcciones IP utilizadas son, por supuesto, arbitrarias. Sin embargo, asegúrate de que la red interna del clúster (bond1 en el diagrama) utilice una red IP diferente a la red «externa» (bond0 en el diagrama).

3.1. Configuración de red

Abre la interfaz web del primer nodo, selecciona la configuración del dispositivo y, en la parte superior, la Network Settings. Dentro de la Network Settings hay dos modos disponibles.

El modo «Simple Mode,», con el que solo puedes configurar la interfaz estándar de tu dispositivo, está activado por defecto. (Este modo corresponde a la configuración a través de la consola de texto que realizaste durante la configuración inicial del appliance).

appliance cluster edit simple network

El modo avanzado es necesario para la creación de clústeres. Para activar este modo, haz clic en el botón «Advanced Mode» (Modo sencillo) en la parte superior y confirma el diálogo.

En la página siguiente verás todas las interfaces de red disponibles en la unidad. Actualmente, solo la interfaz de red estándar tiene una configuración —aquí ens32 en la captura de pantalla de abajo. Esto se ha heredado del modo simple.

appliance cluster advanced mode

Ahora crea la primera interfaz de enlace (bond0) haciendo clic en «Create Bonding». En el diálogo siguiente, introduce todos los datos tal y como se muestra en la siguiente captura de pantalla y confirma el diálogo con «Save.»

appliance cluster create bond0

A continuación, crea la segunda interfaz de enlace bond1 con la configuración adecuada para la conexión de sincronización directa.

appliance cluster create bond1

Una vez creadas las dos interfaces de enlace, volverás a ver todos los ajustes realizados en el diálogo de configuración de red para las interfaces de red …

appliance cluster create bonds pending interfaces

… y para las uniones que se han creado:

appliance cluster create bonds pending bonds

Cuando hayas completado con éxito todos los pasos de configuración, haz clic en «Activate Changes» para que los ajustes surtan efecto. A continuación, se cargarán los nuevos ajustes de red. Tras unos segundos, la configuración de red mostrará el estado «OK» en todas partes, tanto para las interfaces de red reales…​

appliance cluster create bonds no pending interfaces

… y de nuevo en las uniones:

appliance cluster create bonds no pending bonds

Ahora repite la configuración de los ajustes de red con los ajustes adecuados en tu segundo dispositivo.

3.2. Nombres del host

Los dispositivos que se van a conectar en un clúster deben tener nombres del host diferentes. Ahora puedes definirlos en la configuración del dispositivo. En nuestro ejemplo, a las appliances se les han asignado los nombres cma1 y cma2.

3.3. Conexión del clúster

Ahora que has completado los preparativos, puedes continuar con la configuración del clúster. Para ello, abre el módulo Clustering en la interfaz web del menú principal del primer dispositivo (en este caso, cma1) y haz clic en «Create Cluster.»

En el diálogo para crear el clúster, introduce la configuración correspondiente y confirma el diálogo con «Save». La dirección Cluster IP address,, que usarás más adelante para acceder al clúster, es especialmente importante aquí. Si necesitas más información sobre este diálogo, abre la ayuda en línea haciendo clic en el icono junto al logotipo de Checkmk.

appliance cluster create cluster

En la página siguiente, puedes conectar los dos dispositivos a un clúster. Para ello, debes introducir la contraseña de la interfaz web del segundo dispositivo. Esta contraseña se utiliza una sola vez para establecer la conexión entre las dos unidades. Acepta el diálogo de confirmación si estás seguro de que quieres sobrescribir los datos del dispositivo de destino que se muestra.

cma de cluster 2 2

Una vez establecida correctamente esta conexión, comenzará la sincronización de los dispositivos del clúster. Puedes ver el estado actual de este proceso en la página del clúster. Durante la sincronización, todos los recursos, incluidos los sitios de monitorización existentes, se iniciarán en el primer nodo.

appliance cluster cluster resources

A partir de ahora, con la ayuda de la dirección IP del clúster (en este caso, 10.3.3.30), podrás acceder a los recursos del clúster, por ejemplo, a tus sitios de monitorización, independientemente del nodo que albergue los recursos en ese momento.

4. Estado del clúster

Una vez completada la primera sincronización, tu clúster estará totalmente operativo. Puedes ver su estado en cualquier momento en la página del clúster.

appliance cluster cluster status

Con la ayuda de la vista de tabla de estado de la consola, también puedes ver el estado actual del clúster de forma resumida en la caja «Cluster». La función de cada nodo se muestra entre paréntesis después del estado actual: para el nodo activo «M» (para Main) y para el nodo pasivo «S» (para Subordinate).

appliance cluster tui cluster

5. Características especiales del clúster

5.1. Acceso a los recursos

Todas las solicitudes a los sitios de monitorización, como los accesos a la interfaz web, así como los mensajes entrantes, como las Traps SNMP o los mensajes syslog a la Consola de eventos o las solicitudes de Livestatus, deberían pasar siempre por la dirección IP del clúster.

Solo deberías acceder directamente a los nodos individuales en circunstancias excepcionales, como durante el diagnóstico de errores o las actualizaciones de un nodo específico.

5.2. Opciones del dispositivo

Los ajustes, como los de sincronización horaria o resolución de nombres, que antes se realizaban de forma independiente en cada unidad, se sincronizan en el clúster entre los dos nodos.

Sin embargo, solo puedes realizar ediciones en los ajustes en el nodo activo correspondiente. Los ajustes están bloqueados en el nodo inactivo.

Hay algunos ajustes específicos de cada dispositivo, como los de la interfaz de gestión Checkmk rack1, que puedes editar en cualquier momento en los dispositivos individuales.

5.3. Direcciones IP o nombres del host de los nodos

Para poder realizar la edición de las configuraciones de IP de los nodos individuales, primero debes desconectar el enlace entre los nodos. Para ello, haz clic en «Disconnect Cluster» en la página del clúster. A continuación, puedes modificar los ajustes según sea necesario a través de las interfaces web de los nodos individuales.

Una vez que hayas completado las modificaciones, debes seleccionar «Reconnect Cluster» en la página del clúster. Si los nodos pueden volver a conectarse correctamente, el clúster reanudará su funcionamiento al cabo de unos minutos. Podrás ver el estado en la página del clúster.

5.4. Gestión de versiones de Checkmk y sites de monitorización

Los sitios de monitorización y las versiones de Checkmk también se sincronizan entre los dos nodos. Solo puedes modificarlos en la interfaz web del nodo activo, tanto a través de su propia dirección IP como de la del clúster.

6. Tareas administrativas en el modo de clúster

6.1. Actualización del firmware (versión principal)

A diferencia de la actualización de firmware entre versiones compatibles que se describe a continuación, por ejemplo, de la 1.6.1 a la 1.6.2, tendrás que proceder de forma algo diferente al actualizar versiones principales (por ejemplo, de la 1.6.x a la 1.7.y). El motivo: las versiones principales suelen actualizar la versión del sistema operativo que se utiliza como base o cambiar conceptos subyacentes. En resumen, esto significa que tendrás que desconectar completamente el clúster durante un breve periodo de tiempo, por lo que se producirá un tiempo de mantenimiento. Para las actualizaciones menores, basta con poner los nodos individuales del clúster en estado de mantenimiento para llevar a cabo la actualización. Para realizar cualquier actualización principal, procede de la siguiente manera:

  1. Como preparación, primero actualiza a la última versión menor de Checkmk y, a continuación, actualiza al firmware del appliance a la última versión menor.

  2. Desconecta los nodos del clúster a través de Clustering > Disconnect Cluster.

  3. Actualiza todos los nodos tal y como se describe en el artículo principal sobre la appliance.

  4. Cuando todos los nodos estén actualizados, vuelve a conectarlos al clúster a través de Clustering > Reconnect Cluster.

  5. Comprueba si tus sitios utilizan versiones compatibles de Checkmk (lo más probable es que no sea así). Si es necesario, instala el paquete de Checkmk que coincida con el firmware del dispositivo para cada sitio, tal y como se describe en el artículo principal sobre el dispositivo.

6.2. Actualización del firmware (versión menor)

La versión del firmware de un dispositivo no se sincroniza, ni siquiera en el funcionamiento en clúster. Por lo tanto, las actualizaciones de firmware se realizan individualmente en cada nodo. Sin embargo, esto tiene la ventaja de que un nodo puede seguir realizando la monitorización mientras se actualiza el otro.

Al actualizar a una versión de firmware compatible, siempre debes proceder de la siguiente manera:

Primero, abre el módulo «Clustering» en la interfaz web del nodo que se va a actualizar.

Ahora haz clic en el icono del «corazón» en la columna de este nodo y confirma el diálogo que aparece a continuación. Esto pone el nodo en estado de mantenimiento.

Los nodos en estado de mantenimiento liberan todos los recursos que están activos actualmente en el nodo, y el otro nodo se hará cargo de ellos.

Mientras un nodo está en estado de mantenimiento, el clúster no es a prueba de fallos. Si el nodo activo se apaga, el nodo inactivo, que está en estado de mantenimiento, no se hace cargo de los recursos. Si ahora también pones el segundo nodo en estado de mantenimiento, todos los recursos se apagarán. Estos recursos solo se reactivarán cuando un nodo salga del estado de mantenimiento. Siempre debes eliminar el estado de mantenimiento manualmente.

Si la página del clúster muestra lo siguiente, verás que el nodo está en estado de mantenimiento:

appliance cluster cluster maintenance

Ahora puedes realizar la actualización del firmware en este nodo, de la misma manera que en las appliances no agrupadas en clúster.

Una vez que hayas realizado correctamente la actualización del firmware, vuelve a abrir la página del clúster. Elimina el estado de mantenimiento del dispositivo actualizado. El dispositivo se reincorporará automáticamente al clúster, haciendo que este vuelva a estar plenamente operativo.

appliance cluster cluster status

Recomendamos ejecutar la misma versión de firmware en ambos nodos. Por lo tanto, debes repetir el mismo procedimiento para el otro nodo una vez que el clúster se haya recuperado por completo.

6.3. Disolver un clúster

Es posible separar los nodos de un clúster y seguir utilizándolos de forma individual. Al hacerlo, puedes seguir utilizando la configuración sincronizada en ambos dispositivos o, por ejemplo, restablecer uno de los dispositivos a su estado de fábrica y reconfigurarlo.

Puedes eliminar uno o ambos nodos del clúster durante el funcionamiento. Si quieres seguir utilizando ambos nodos con los datos actuales, primero debes asegurarte de que la sincronización de los datos funciona correctamente. Puedes comprobarlo en la página del clúster.

Para disolver un clúster, haz clic en «Disband Cluster» en la página del clúster de la interfaz web. Fíjate en el texto del siguiente diálogo de confirmación. En todas las situaciones posibles, esto te indicará en qué estado se encontrará el dispositivo correspondiente una vez que se haya terminado la conexión.

appliance cluster disband cluster

La separación de los appliances debe realizarse por separado en ambos nodos para que ambos puedan funcionar de forma independiente en el futuro.

Si quieres utilizar solo uno de los dispositivos en el futuro, desconecta el clúster del dispositivo que quieras seguir utilizando y, a continuación, restaura los ajustes de fábrica en el otro dispositivo.

Una vez que hayas desconectado un nodo del clúster, los sitios de monitorización no se reinician automáticamente. Debes hacerlo manualmente después si es necesario.

6.4. Sustitución de una appliance

Si los discos duros del appliance antiguo funcionan correctamente, puedes retirarlos del appliance antiguo e instalarlos en el nuevo, cablear el nuevo appliance exactamente igual que el antiguo y, a continuación, encenderlo. Tras el arranque, la nueva unidad se reincorporará al clúster de la misma manera que la antigua.

Si quieres sustituir completamente una appliance antigua por una nueva, debes proceder de la misma manera que si estuvieras disolviendo completamente el clúster. Para ello, selecciona uno de los dispositivos existentes, retíralo del clúster y crea un nuevo clúster con este y la nueva appliance.

7. Diagnóstico de fallos

7.1. Registro

La gestión del clúster es en gran parte automática. Los procesos automáticos en los nodos deciden qué recursos se deben iniciar y detener en cada dispositivo. Este comportamiento se registra en detalle en forma de entradas de registro. Puedes acceder a estas entradas desde la página del clúster a través del botón «Cluster Log».

Ten en cuenta que estas entradas, al igual que los demás mensajes del sistema, se pierden cuando se reinicia la unidad. Si quieres conservar los mensajes más allá de eso, puedes descargar el archivo de registro actual a través de tu navegador o configurar de forma permanente el reenvío de los mensajes de registro a un servidor syslog.


Last modified: Fri, 19 Sep 2025 08:34:53 GMT via commit 2a59bb807
En esta página