Appliance en funcionamiento de clúster

This is a machine translation based on the English version of the article. It might or might not have already been subject to text preparation. If you find errors, please file a GitHub issue that states the paragraph that has to be improved.

1. Lo básico

Puedes conectar dos appliance Checkmk para formar un cluster Failover. Al hacerlo, todas las configuraciones y datos se sincronizan entre los dos appliance. Los appliance conectados como cluster también se denominan nodos. Uno de los nodos del cluster asume el papel activo, es decir, realiza las tareas del cluster. Ambos nodos intercambian constantemente información sobre su estado. En cuanto el nodo inactivo reconoce que el nodo activo ya no puede realizar sus tareas, debido a un fallo, por ejemplo, el nodo inactivo asume las tareas del nodo activo y se convierte en el nuevo nodo activo.

El clúster de Failover sirve para aumentar la disponibilidad de tu instalación de monitorización, asegurándola frente a fallos de hardware en un dispositivo o en componentes individuales. Sin embargo, el clúster no sustituye a la copia de seguridad de los datos y no detecta errores lógicos.

En las siguientes situaciones, el clúster reduce el tiempo de mantenimiento al permitir que el nodo inactivo se haga cargo de sus recursos:

Cuando el RAID de un bastidor Checkmk deja de ser accesible.
Cuando el dispositivo previamente activo ya no es accesible (ha fallado).
Si el dispositivo anteriormente activo ya no puede acceder a la red "externa", pero el nodo inactivo sí.
Si realizas una actualización de firmware en los nodos.

Por supuesto, ¡el clúster sólo puede funcionar en caso de emergencia si los nodos se operan mediante interruptores y fuentes de alimentación independientes!

2. Requisitos previos

Para configurar un clúster, primero necesitarás dos appliance Checkmk compatibles. Los siguientes modelos se pueden combinar en un clúster:

2 x Checkmk rack1
2 x Checkmk rack5
2 x Checkmk virt1 (técnicamente posible, pero no compatible ni recomendado para producción. Consulta los detalles más abajo ).
1 x Checkmk rack1/rack5 y 1 x Checkmk virt1

Además, los dos appliance deben utilizar un firmware compatible. Si combinas un appliance virt1 con un rack físico, la máquina virtual debe tener las mismas especificaciones que el servidor físico; de lo contrario, podría bloquearse cuando asuma la carga del rack.

Las unidades deben estar cableadas con al menos dos conexiones de red independientes. Una de estas conexiones se utiliza para la conexión de red normal, la segunda para la sincronización entre los nodos de clúster. La conexión de sincronización debe funcionar directamente entre las unidades siempre que sea posible, pero como mínimo a través de una red independiente.

Para aumentar la disponibilidad de las conexiones de red, debes crear una configuración de enlace. El aspecto concreto de esta configuración de enlace depende principalmente de tu entorno (de red). Si es necesario, consulta a tus colegas del centro de datos o del departamento de redes.

Agrupación en clúster de appliance virtuales

Desde luego, es técnicamente posible agrupar en clúster dos instancias virt1. Sin embargo, como la función de clúster está diseñada para compensar fallos de hardware, no lo recomendamos para el funcionamiento en producción. Para la alta disponibilidad, las plataformas de virtualización como VMware vSphere proporcionan sus propias funciones. No obstante, puedes probar muy fácilmente el comportamiento y la configuración de un clúster con dos máquinas virtuales. También son adecuados para ello los "virtualizadores de escritorio" como VirtualBox o VMware Workstation Player. Con estas soluciones puedes prescindir de la configuración de enlace. En lugar de configurar el enlace como se muestra a continuación, utiliza simplemente la segunda interfaz de red no utilizada. Para el clúster real, selecciona simplemente tus dos interfaces individuales en lugar de las interfaces de enlace.

3. Configurar un clúster

Estas instrucciones suponen que ya has preconfigurado ambos dispositivos hasta el punto de poder abrir sus interfaces web con un navegador web.

Antes de configurar realmente el clúster, debes preparar ambos dispositivos. Para ello, debes modificar principalmente la configuración de red, de modo que se cumplan los requisitos mencionados anteriormente. Si es necesario, toma nota de los puertos utilizados para la agrupación en clúster.

A continuación se describe una configuración de referencia de un clúster con dos interfaces de enlace, que se corresponde con el siguiente diagrama:

Las designaciones de interfaz LAN1, LAN2 etc. utilizadas en el diagrama representan las interfaces físicas del dispositivo. Las designaciones reales dependen del hardware respectivo.

Las direcciones IP utilizadas son, por supuesto, arbitrarias. No obstante, asegúrate de que la red interna del clúster (bond1 en el diagrama) utiliza una red IP distinta de la red "externa" (bond0 en el diagrama).

3.1. Configuración de la red

Abre la interfaz web del primer nodo, selecciona la configuración del dispositivo y, en la parte superior, el Network Settings. Dentro del Network Settings hay dos modos disponibles.

El Simple Mode,, con el que sólo puedes configurar la interfaz estándar de tu appliance, está activado por defecto (este modo corresponde a la configuración a través de la consola de texto que realizaste durante la configuración inicial del appliance).

El modo avanzado es necesario para el clúster. Para activar este modo, haz clic en el botón Advanced Mode de la parte superior y aprueba el diálogo de confirmación.

En la página siguiente verás todas las interfaces de red disponibles en la unidad. Sólo la interfaz de red estándar tiene actualmente una configuración - aquí ens32 en la captura de pantalla inferior. Ésta se tomó del modo Simple.

Ahora crea la primera interfaz de enlace bond0 haciendo clic en Create Bonding. En el siguiente diálogo, introduce todos los datos como se muestra en la siguiente captura de pantalla y confirma el diálogo con Save.

A continuación, crea la segunda interfaz de enlace bond1 con la configuración adecuada para la conexión de sincronización directa.

Una vez creadas las dos interfaces de enlace, verás de nuevo todos los ajustes realizados en el diálogo de configuración de red para las interfaces de red ...

appliance cluster create bonds pending interfaces

... y para las uniones que se han creado:

appliance cluster create bonds pending bonds

Cuando hayas completado correctamente todos los pasos de configuración, pulsa Activate Changes para hacer efectivos los ajustes. A continuación, se cargarán los nuevos ajustes de red. Tras unos segundos, la configuración de red mostrará el estado "OK" en todas partes, para las interfaces de red reales ...

appliance cluster create bonds no pending interfaces

... y de nuevo en los enlaces:

appliance cluster create bonds no pending bonds

Ahora repite la configuración de los ajustes de red con los ajustes adecuados en tu segundo dispositivo.

3.2. Nombres del host

Los aparatos que se van a conectar en un clúster deben tener nombres del host diferentes. Ahora puedes definirlos en los ajustes del aparato. En nuestro ejemplo, los aparatos han recibido los nombres cma1 y cma2.

3.3. Conexión del clúster

Ahora que has completado los preparativos, puedes continuar con la configuración del clúster. Para ello, abre el módulo Clustering en la interfaz web del menú principal del primer aparato (aquí cma1) y haz clic allí en Create Cluster.

En el diálogo para crear el clúster, introduce la configuración correspondiente y confirma el diálogo con Save. Aquí es especialmente importante Cluster IP address,, que utilizarás más tarde para acceder al clúster. Si necesitas más información sobre este diálogo, llama a la ayuda en línea a través del icono que hay junto al logotipo de Checkmk.

En la página siguiente, puedes conectar los dos dispositivos a un clúster. Para ello, debes introducir la contraseña de la interfaz web del segundo dispositivo. Esta contraseña se utiliza una vez para establecer la conexión entre las dos unidades. Aprueba el diálogo de confirmación si estás seguro de que quieres sobrescribir los datos del dispositivo de destino mostrado.

Una vez establecida con éxito esta conexión, comenzará la sincronización de los dispositivos del clúster. Puedes ver el estado actual de este proceso en la página del clúster. Durante la sincronización, todos los recursos, incluidos los sites de monitorización existentes, se iniciarán en el primer nodo.

A partir de ahora, con la ayuda de la dirección IP del clúster (aquí 10.3.3.30), podrás acceder a los recursos del clúster, por ejemplo, a tus sitios de monitorización, independientemente del nodo que tenga actualmente los recursos.

4. Estado del clúster

Una vez completada la primera sincronización, tu clúster estará plenamente operativo. Puedes ver su estado en cualquier momento en la página del clúster.

Con ayuda de la vista de estado de la consola, también puedes ver el estado actual del clúster de forma resumida en la caja Cluster. El rol de cada nodo respectivo se muestra entre paréntesis después del estado actual: para el nodo activo M (para Principal) y para el nodo pasivo S (para Subordinado).

5. Características especiales del clúster

5.1. Acceso a los recursos

Normalmente, todas las solicitudes a los sites de monitorización, como los accesos a la interfaz web, así como los mensajes entrantes, como los Trap SNMP o los mensajes syslog a la Consola de eventos o las solicitudes de Livestatus, deben ir siempre a través de la dirección IP del clúster.

Sólo deberás acceder directamente a los nodos individuales en circunstancias excepcionales, como durante diagnósticos de errores o actualizaciones de un nodo concreto.

5.2. Opciones del dispositivo

Los ajustes, como los de sincronización horaria o resolución de nombres, que antes se realizaban de forma independiente en las unidades individuales, se sincronizan en el clúster entre los dos nodos.

Sin embargo, sólo puedes editar estos ajustes en el nodo activo correspondiente, ya que están bloqueados en el nodo inactivo.

Hay algunos ajustes específicos de cada dispositivo, como los de la interfaz de gestión Checkmk rack1, que puedes editar en cualquier momento en los dispositivos individuales.

5.3. Direcciones IP o nombres del host de los nodos

Para poder editar las configuraciones IP de los nodos individuales, primero debes desconectar el enlace entre los nodos. Para ello, haz clic en Disconnect Cluster en la página del clúster. A continuación, puedes modificar las configuraciones según sea necesario a través de las interfaces web de los nodos individuales.

Una vez completadas las modificaciones, debes seleccionar Reconnect Cluster en la página del clúster. Si los nodos pueden volver a conectarse correctamente, el clúster reanudará su funcionamiento al cabo de unos minutos. Podrás ver el estado en la página del clúster.

5.4. Gestionar las versiones de Checkmk y los sites de monitorización

Los sites de monitorización y las versiones de Checkmk también están sincronizados entre los dos nodos. Sólo puedes modificarlos en la interfaz web del nodo activo, tanto a través de la suya propia como a través de la dirección IP del clúster.

6. Tareas administrativas en el funcionamiento en clúster

6.1. Actualización del firmware (versión mayor)

A diferencia de la actualización del firmware dentro de las versiones compatibles que se describe a continuación, por ejemplo de 1.6.1 a 1.6.2, tendrás que proceder de forma algo diferente cuando actualices versiones mayores (por ejemplo, de 1.6.x a 1.7.y). La razón: Las versiones mayores suelen actualizar la versión del sistema operativo utilizada como base o cambian los conceptos subyacentes. En resumen, esto significa que tendrás que desconectar completamente el clúster durante un breve periodo de tiempo, por lo que experimentarás un tiempo de inactividad. Para las actualizaciones menores, basta con poner los nodos individuales del clúster en estado de mantenimiento para llevar a cabo la actualización. Para realizar cualquier actualización mayor, procede como sigue:

Para la preparación, realiza primero una actualización a la última versión menor de Checkmk y, a continuación, realiza una actualización a la última versión menor del firmware del appliance.
Desconecta los nodos del clúster a través de Clustering > Disconnect Cluster.
Actualiza todos los nodos como se describe en el artículo principal del appliance.
Cuando todos los nodos estén actualizados, vuelve a conectarlos al clúster a través de Clustering > Reconnect Cluster.
Comprueba si tus sites utilizan versiones de Checkmk compatibles (lo más frecuente es que no sea así). Si es necesario, instala el paquete Checkmk que coincida con el firmware del appliance de cada site, como se describe en el artículo principal del appliance.

6.2. Actualización del firmware (versión menor)

La versión de firmware de un aparato no está sincronizada ni siquiera en funcionamiento en clúster. Por tanto, las actualizaciones de firmware se realizan individualmente en cada nodo. Sin embargo, esto tiene la ventaja de que un nodo puede seguir monitorizando mientras se actualiza el otro.

Cuando actualices a una versión de firmware compatible, debes proceder siempre como se indica a continuación:

Primero abre el módulo Clustering en la interfaz web del nodo que se va a actualizar.

Ahora haz clic en el icono "corazón" de la columna de este nodo y aprueba el diálogo de confirmación que aparece a continuación. Esto pone el nodo en estado de mantenimiento.

Los nodos en estado de mantenimiento liberan todos los recursos que estén actualmente activos en el nodo, y el otro nodo se hará cargo de ellos.

Mientras un nodo está en estado de mantenimiento, el clúster no es a prueba de fallos. Si el nodo activo se apaga, el nodo inactivo, que está en estado de mantenimiento, no se hace cargo de los recursos. Si ahora también pones el segundo nodo en estado de mantenimiento, se apagarán todos los recursos, que sólo se reactivarán cuando un nodo salga del estado de mantenimiento. Siempre debes eliminar manualmente el estado de mantenimiento.

Si la página del clúster muestra lo siguiente, verás que el nodo está en estado de mantenimiento:

Ahora puedes realizar la actualización del firmware en este nodo, del mismo modo que en los appliance no agrupados.

Cuando hayas realizado con éxito la actualización del firmware, abre de nuevo la página del clúster. Elimina el estado de mantenimiento del aparato actualizado. A continuación, el aparato se reinsertará automáticamente en el clúster, haciendo que éste vuelva a ser totalmente funcional.

Te recomendamos que ejecutes la misma versión de firmware en ambos nodos, por lo que deberás repetir el mismo procedimiento para el otro nodo una vez que el clúster se haya recuperado por completo.

6.3. Disolución de un clúster

Es posible separar los nodos de un clúster y seguir operándolos individualmente. Al hacerlo, puedes seguir utilizando la configuración sincronizada en ambos dispositivos o, por ejemplo, restablecer uno de los dispositivos al estado de fábrica y volver a configurarlo.

Puedes eliminar uno o ambos nodos del clúster durante su funcionamiento. Si quieres seguir utilizando ambos nodos con los datos actuales, primero debes asegurarte de que la sincronización de los datos funciona correctamente. Puedes verlo en la página del clúster.

Para disolver un clúster, haz clic en Disband Cluster en la página de clústeres de la interfaz web. Fíjate en el texto del siguiente diálogo de confirmación. En todas las situaciones posibles, te indicará en qué estado se encontrará el aparato correspondiente una vez finalizada la conexión.

La separación de los appliance debe realizarse por separado en ambos nodos para que ambos appliance puedan funcionar individualmente en el futuro.

Si quieres utilizar sólo uno de los aparatos en el futuro, separa el clúster en el aparato que quieras seguir utilizando y, a continuación, restaura el estado de fábrica en el otro aparato.

Después de desconectar un nodo del clúster, los sites de monitorización no se reinician automáticamente. Si es necesario, debes hacerlo después manualmente.

6.4. Sustitución de un appliance

Si los discos duros del appliance antiguo funcionan correctamente, puedes extraerlos del appliance antiguo e instalarlos en el nuevo appliance y cablear el nuevo appliance exactamente igual que estaba cableado el appliance antiguo, y luego encenderlo. Tras la puesta en marcha, el nuevo appliance se reinsertará en el clúster de la misma forma que el antiguo.

Si quieres sustituir completamente un aparato antiguo por uno nuevo, debes proceder del mismo modo que si disolvieras completamente el clúster. Para ello, selecciona uno de los aparatos existentes, elimínalo del clúster y crea un nuevo clúster con éste y el nuevo aparato.

7. Diagnóstico de averías

7.1. Registro

La gestión del clúster es en gran medida automática. Los procesos automáticos de los nodos deciden qué recursos deben iniciarse y detenerse en cada dispositivo. Este comportamiento se registra detalladamente en forma de entradas de registro. Puedes acceder a estas entradas desde la página del clúster a través del botón Cluster Log.

Ten en cuenta que estas entradas, al igual que los demás mensajes del sistema, se pierden cuando se reinicia la unidad. Si quieres recibir los mensajes más allá de eso, puedes descargar el archivo de registro actual a través de tu navegador o configurar permanentemente un reenvío de los mensajes de registro a un servidor syslog.

En esta página

1. Lo básico
2. Requisitos previos
3. Configurar un clúster
4. Estado del clúster
5. Características especiales del clúster
6. Tareas administrativas en el funcionamiento en clúster
7. Diagnóstico de fallos
- 7.1. Registrando

Appliance en funcionamiento en clúster