1. Guía de Operaciones con HeartBeat - AMEInfra - Confluence https://ame.endesa.es/confluence/pages/viewpage.action?pageId=19393
AMEInfra
FRAMEWORK AME Guía de Operaciones con HeartBeat
Dashboard > AMEInfra > ... > Manual de Operaciones > Guía de Operaciones con HeartBeat
Home Log In
View
Added by Fernando Parrilla, last edited by Fernando Parrilla on Dec 11, 2007 (view change)
Labels: (None)
Introducción
Ésta guía presupone que se dispone de un Cluster HeartBeat configurado con dos Nodos y formado por un Servicio Activo - Pasivo. Si dispone de otra configuración y no
está seguro de que estos procedimientos sean compatibles con ella consúltenos y le asesoraremos para adaptar estos procedimientos a su escenario.
Todos los comandos se podrán ejecutar desde un terminal remoto y se tendrá que estar logado como root
Arranque de HeartBeat en ambos nodos simultáneamente después de una parada no controlada
Situación: HeartBeat debe pararse siempre de forma controlada, pero si por cualquier motivo no se hubiera realizado así, este es el procedimiento que se debe seguir
para volver a arrancar el Cluster
Si HeartBeat está parado en ambos nodos y queremos levantarlo en los dos junto con su servicio tendremos que hacer lo siguiente:
Desde el nodo Master ejecutaremos el script de arranque de HeartBeat:
mdvha1:~ # rcheartbeat start
Starting High-Availability services2007/12/10_18:07:33 INFO: Resource is stopped
heartbeat[14959]: 2007/12/10_18:07:33 info: Version 2 support: on
heartbeat[14959]: 2007/12/10_18:07:34 info: **************************
heartbeat[14959]: 2007/12/10_18:07:34 info: Configuration validated. Starting heartbeat 2.0.8
done
mdvha1:~ #
Una vez nos devuelva el promt ejecutaremos el script de monitorización del Cluster para ver el progreso de arranque:
mdvha1:~ # crm_mon -i5
Esto nos actualizará el estado del Cluster cada 5 segundos, de modo que iremos viendo las siguientes pantallas
Refresh in 3s...
no connect
Refresh in 2s...
============
Last updated: Mon Dec 10 18:10:10 2007
Current DC:
2 Nodes configured.
1 Resources configured.
============
Node: mdvha2 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): offline
Node: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171): offline
Refresh in 5s...
============
Last updated: Mon Dec 10 18:11:36 2007
Current DC: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171)
2 Nodes configured.
1 Resources configured.
============
Node: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): online
Node: mdvha2 (05d6cab0-018a-4450-bdb4-8500352f6171): offline
Resource Group: group_1
IPaddr_192_168_215_44 (heartbeat::ocf:IPaddr): Started mdvha1
Filesystem_2 (heartbeat::ocf:Filesystem): Started mdvha1
Filesystem_3 (heartbeat::ocf:Filesystem): Started mdvha1
Filesystem_4 (heartbeat::ocf:Filesystem): Started mdvha1
aplicAME_5 (lsb:aplicAME): Started mdvha1
vsftpd_6 (lsb:vsftpd): Started mdvha1
Una vez que veamos que los recursos se han levantado correctamente en el Nodo Master podemos ejecutar el script de arranque de HeartBeat en el nodo Esclavo
mdvha2:~ # rcheartbeat start
Starting High-Availability services2007/12/10_18:07:33 INFO: Resource is stopped
heartbeat[14959]: 2007/12/10_18:07:33 info: Version 2 support: on
heartbeat[14959]: 2007/12/10_18:07:34 info: **************************
heartbeat[14959]: 2007/12/10_18:07:34 info: Configuration validated. Starting heartbeat 2.0.8
done
mdvha2:~ #
Y volvemos al terminal donde se está ejecutando el script de monitorización hasta que veamos que el Nodo Esclavo aparece como online:
Refresh in 5s...
============
Last updated: Mon Dec 10 18:11:36 2007
Current DC: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171)
2 Nodes configured.
1 Resources configured.
============
1 de 5 20/11/2009 11:22
2. Guía de Operaciones con HeartBeat - AMEInfra - Confluence https://ame.endesa.es/confluence/pages/viewpage.action?pageId=19393
Node: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): online
Node: mdvha2 (05d6cab0-018a-4450-bdb4-8500352f6171): online
Resource Group: group_1
IPaddr_192_168_215_44 (heartbeat::ocf:IPaddr): Started mdvha1
Filesystem_2 (heartbeat::ocf:Filesystem): Started mdvha1
Filesystem_3 (heartbeat::ocf:Filesystem): Started mdvha1
Filesystem_4 (heartbeat::ocf:Filesystem): Started mdvha1
aplicAME_5 (lsb:aplicAME): Started mdvha1
vsftpd_6 (lsb:vsftpd): Started mdvha1
Para salir de esta pantalla basta con pulsar Ctrl+c
Parada controlada de HeartBeat ambos Nodos
Situación: Labores de mantemiento en ambos nodos simultaneamente, incidencia que obligue a la parada de HeartBeat, etc Para realizar una parada controlada de
HeartBeat en ambos nodos se tendrán que ralizar los siguientes pasos: Primero habrá que ver el estado en que se encuentra el cluster antes de realizar la parada. Para
ello ejecutaremos el script de monitorización de HeartBeat
mdvha1:~ # crm_mon -i5
que nos mostrará lo siguiente
Refresh in 5s...
============
Last updated: Mon Dec 10 18:11:36 2007
Current DC: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171)
2 Nodes configured.
1 Resources configured.
============
Node: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): online
Node: mdvha2 (05d6cab0-018a-4450-bdb4-8500352f6171): online
Resource Group: group_1
IPaddr_192_168_215_44 (heartbeat::ocf:IPaddr): Started mdvha1
Filesystem_2 (heartbeat::ocf:Filesystem): Started mdvha1
Filesystem_3 (heartbeat::ocf:Filesystem): Started mdvha1
Filesystem_4 (heartbeat::ocf:Filesystem): Started mdvha1
aplicAME_5 (lsb:aplicAME): Started mdvha1
vsftpd_6 (lsb:vsftpd): Started mdvha1
Si no tenemos claro cuántos servicios están configurados en el Cluster prodemos ejecutar esto:
mdvha2:~ # crm_resource -L | grep Group
Resource Group: group_1
Una vez comprobados que el servicio está activo en el nodo Master y los servidores están online pararemos el servicio ejecutando lo siguiente desde cualquiera de los
dos nodos:
mdvha2:~ # crm_resource -r group_1 -t group -p target_role -v stopped
Después volveremos a ejecutar crm_mon para comprobar que el servicio ya no se está ejecutando:
Refresh in 3s...
============
Last updated: Mon Dec 10 18:24:45 2007
Current DC: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171)
2 Nodes configured.
1 Resources configured.
============
Node: mdvha2 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): online
Node: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171): online
También se podría ejecutar este otro comando para asegurarnos de que el servicio está en estado de parada:
mdvha2:~ # crm_resource -W -r group_1 -t group
resource group_1 is NOT running
Una vez que el servicio está parado ya podemos ejecutar los script de parada de heartbeat en ambos nodos:
mdvha1:~ # rcheartbeat stop
Stopping High-Availability services done
mdvha2:~ # rcheartbeat stop
Stopping High-Availability services done
Arranque de HeartBeat en ambos nodos simultáneamente después de una parada controlada
Situación: Reanudación del servicio después de alguna situación que obligue una parada controlada. Arranqueremos en ambos nodos HeartBeat con su script de
arranque:
mdvha1:~ # rcheartbeat start
2 de 5 20/11/2009 11:22
3. Guía de Operaciones con HeartBeat - AMEInfra - Confluence https://ame.endesa.es/confluence/pages/viewpage.action?pageId=19393
Starting High-Availability services2007/12/10_18:45:45 INFO: Resource is stopped
heartbeat15939: 2007/12/10_18:07:33 info: Version 2 support: on
heartbeat15939: 2007/12/10_18:07:34 info: **************************
heartbeat15939: 2007/12/10_18:07:34 info: Configuration validated. Starting heartbeat 2.0.8
done
mdvha1:~ #
mdvha2:~ # rcheartbeat start
Starting High-Availability services2007/12/10_18:53:45 INFO: Resource is stopped
heartbeat14322: 2007/12/10_18:46:53 info: Version 2 support: on
heartbeat14322: 2007/12/10_18:46:54 info: **************************
heartbeat14322: 2007/12/10_18:46:54 info: Configuration validated. Starting heartbeat 2.0.8
done
mdvha2:~ #
Monitorizar con crm_mon hasta que el aparezcan los dos nodos online
mdvha1:~ # crm_mon -i5
Refresh in 5s...
============
Last updated: Mon Dec 10 18:47:44 2007
Current DC: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171)
2 Nodes configured.
1 Resources configured.
============
Node: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): online
Node: mdvha2 (05d6cab0-018a-4450-bdb4-8500352f6171): online
Una vez verificado que los nodos están online arrancar el servicio con el siguiente comando:
mdvha2:~ # crm_resource -r group_1-t group -p target_role -v started
Después comprobar con crm_mon y crm_resource que el servició arranco correctamente:
Refresh in 5s...
============
Last updated: Mon Dec 10 18:11:36 2007
Current DC: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171)
2 Nodes configured.
1 Resources configured.
============
Node: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): online
Node: mdvha2 (05d6cab0-018a-4450-bdb4-8500352f6171): online
Resource Group: group_1
IPaddr_192_168_215_44 (heartbeat::ocf:IPaddr): Started mdvha1
Filesystem_2 (heartbeat::ocf:Filesystem): Started mdvha1
Filesystem_3 (heartbeat::ocf:Filesystem): Started mdvha1
Filesystem_4 (heartbeat::ocf:Filesystem): Started mdvha1
aplicAME_5 (lsb:aplicAME): Started mdvha1
vsftpd_6 (lsb:vsftpd): Started mdvha1
mdvha1:/ # crm_resource -W -r group_1 -t group
resource group_1 is running on: mdvha1
Intervención en los Nodos que forman el cluster de forma secuencial
Situación: Tareas de mantemiento en uno de los nodos que impliquen la parada del mismos o alguna situación en la que no pueden mantener un Servicio activo
Primero deberemos comprobar qué servicios forman el Cluster y dónde están levantados actualmente:
mdvha2:~ # crm_resource -L | grep Group
Resource Group: group_1
mdvha1:~ # crm_mon -i5
Refresh in 5s...
============
3 de 5 20/11/2009 11:22
4. Guía de Operaciones con HeartBeat - AMEInfra - Confluence https://ame.endesa.es/confluence/pages/viewpage.action?pageId=19393
Last updated: Mon Dec 10 18:47:44 2007
Current DC: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171)
2 Nodes configured.
1 Resources configured.
============
Node: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): online
Node: mdvha2 (05d6cab0-018a-4450-bdb4-8500352f6171): online
Resource Group: group_1
IPaddr_192_168_215_44 (heartbeat::ocf:IPaddr): Started mdvha1
Filesystem_2 (heartbeat::ocf:Filesystem): Started mdvha1
Filesystem_3 (heartbeat::ocf:Filesystem): Started mdvha1
Filesystem_4 (heartbeat::ocf:Filesystem): Started mdvha1
aplicAME_5 (lsb:aplicAME): Started mdvha1
vsftpd_6 (lsb:vsftpd): Started mdvha1
Si el nodo donde vamos a intervenir es dónde está ubicado el Servicio (Nodo Master) deberemos migrar el servicio al otro nodo ejecutando esto: mdvha1:/ #
crm_resource -M -r group_1 -t group -H mdvha2
Comprobamos que el servicio se ha migrado al nodo esclavo ejecutando:
mdvha1:/ # crm_resource -W -r group_1 -t group
resource group_1 is running on: mdvha2
Por último dejaremos el HeartBeat del Nodo en estado standby para aseguranos que un posible reboot de la máquina no hace que el servicio vuelva situarse en esto
nodo
crm_standby -U mdvha1 -v on
Si el nodo donde queramos intervenir no fuera donde están situado el servicio podemos saltarnos el paso de migrar este a otro nodo y ejecutar directamente el
comando de stanby. Para verificar que el nodo ha cambiado su estado a stadby ejecutaremos crm_mon:
Refresh in 13s...
============
Last updated: Tue Dec 11 09:04:27 2007
Current DC: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771)
2 Nodes configured.
1 Resources configured.
============
Node: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): standby
Node: mdvha2 (05d6cab0-018a-4450-bdb4-8500352f6171): online
Resource Group: group_1
IPaddr_192_168_215_44 (heartbeat::ocf:IPaddr): Started mdvha2
Filesystem_2 (heartbeat::ocf:Filesystem): Started mdvha2
Filesystem_3 (heartbeat::ocf:Filesystem): Started mdvha2
Filesystem_4 (heartbeat::ocf:Filesystem): Started mdvha2
aplicAME_5 (lsb:aplicAME): Started mdvha2
vsftpd_6 (lsb:vsftpd): Started mdvha2
Una vez que el Nodo pueda volver a estar operativo simplemente lo tendremos que poner es estado online ejecutando este comando:
mdvha2:~ # crm_standby -U mdvha1 -v off
Y comprobar su estado actual con crm_mon
Refresh in 13s...
============
Last updated: Tue Dec 11 09:06:57 2007
Current DC: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771)
2 Nodes configured.
1 Resources configured.
============
Node: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): online
Node: mdvha2 (05d6cab0-018a-4450-bdb4-8500352f6171): online
Resource Group: group_1
4 de 5 20/11/2009 11:22
5. Guía de Operaciones con HeartBeat - AMEInfra - Confluence https://ame.endesa.es/confluence/pages/viewpage.action?pageId=19393
IPaddr_192_168_215_44 (heartbeat::ocf:IPaddr): Started mdvha2
Filesystem_2 (heartbeat::ocf:Filesystem): Started mdvha2
Filesystem_3 (heartbeat::ocf:Filesystem): Started mdvha2
Filesystem_4 (heartbeat::ocf:Filesystem): Started mdvha2
aplicAME_5 (lsb:aplicAME): Started mdvha2
vsftpd_6 (lsb:vsftpd): Started mdvha2
Y por último para volver a pasar el servicio al Nodo primario (si es ese sobre el que hemos intervenido) ejecutar este comando:
mdvha2:~ # crm_resource -U -r group_1 -t group
Y comprobar que el cambio se ha producido satisfactoriamente:
mdvha1:/ # crm_resource -W -r group_1 -t group
resource group_1 is running on: mdvha1
DETERMINAR LA CAUSA DE UN FAILOVER O PARADA DEL SERVICIO
Las causas más comunes de un failover o de que un servicio se llegue a parar en todos los Nodos que forman el Cluster es la propia parada o reboot del Nodo donde se
está ejecutando el Servicio, un fallo en la red o un fallo a la hora de levantar uno de los recursos del Servicio.
Por ello cuando se detecte un failover se deberá seguir el siguiente procedimiento:
Comprobar que el Nodo Master está arriba, si lo está comprobar cuándo fue la última vez que se reinició con el comando:
mdvha1:~ # who -r
run-level 3 Oct 29 09:16 last=S
mdvha1:~ #
Si el reboot se ha producido hace poco monitorizar el Cluster con crm_mon para ver si el Servicio se está migrando en esos momento al Nodo Master. Si no se migrará o
la máquina no se hubiera reiniciado recientemente buscar en el log de HeartBeat si ha habido algún fallo de conectividad con el Nodo:
mdvha1:~ # grep dead /var/log/heartbeat/ha-log crmd[6015]: 2007/12/10_16:56:02 info: crmd_ha_status_callback: Ping node 172.29.87.1 is dead
Si se ha producido un error de conectividad recientemente comprobar que este error ha desaparecido y monitorizar el Cluster para verificar que el Servicio vuelve a
realocarse en el Nodo Master. Si no es así o no se ha producido un error de conectividad recientemente habrá que comprobar que ninguno de los recursos del Servicio
han fallado al iniciarse. Para ello ejecutar lo siguiente:
mdvha1:~ # grep FAILED /var/log/heartbeat/ha-log
pengine[25459]: 2007/11/09_09:08:39 info: native_print: aplicAME_5 (lsb:aplicAME): Started mdvha1 FAILED
Si se hubiera producido algún error comprobar en los logs de ese agente, si los hubiera, cuál ha sido el fallo y verificar que vuelve a funcionar correctamente. Una vez
solucionado reiniciar HeartBeat y monitorizar el Cluster para comprobar que el Servicio vuelve a realocarse en el Nodo Master.
Powered by Atlassian Confluence, the Enterprise Wiki. (Version: 2.2 Build:#512 Apr 26, 2006) - Bug/feature request - Contact Administrators
5 de 5 20/11/2009 11:22