Cluster suse bueno

Guía de Operaciones con HeartBeat - AMEInfra - Confluence https://ame.endesa.es/confluence/pages/viewpage.action?pageId=19393

AMEInfra
FRAMEWORK AME Guía de Operaciones con HeartBeat

Dashboard > AMEInfra > ... > Manual de Operaciones > Guía de Operaciones con HeartBeat

Home Log In

View

Added by Fernando Parrilla, last edited by Fernando Parrilla on Dec 11, 2007 (view change)
Labels: (None)

Introducción
Ésta guía presupone que se dispone de un Cluster HeartBeat configurado con dos Nodos y formado por un Servicio Activo - Pasivo. Si dispone de otra configuración y no
está seguro de que estos procedimientos sean compatibles con ella consúltenos y le asesoraremos para adaptar estos procedimientos a su escenario.

Todos los comandos se podrán ejecutar desde un terminal remoto y se tendrá que estar logado como root

Arranque de HeartBeat en ambos nodos simultáneamente después de una parada no controlada
Situación: HeartBeat debe pararse siempre de forma controlada, pero si por cualquier motivo no se hubiera realizado así, este es el procedimiento que se debe seguir
para volver a arrancar el Cluster

Si HeartBeat está parado en ambos nodos y queremos levantarlo en los dos junto con su servicio tendremos que hacer lo siguiente:

Desde el nodo Master ejecutaremos el script de arranque de HeartBeat:

mdvha1:~ # rcheartbeat start
Starting High-Availability services2007/12/10_18:07:33 INFO: Resource is stopped
heartbeat[14959]: 2007/12/10_18:07:33 info: Version 2 support: on
heartbeat[14959]: 2007/12/10_18:07:34 info: **************************
heartbeat[14959]: 2007/12/10_18:07:34 info: Configuration validated. Starting heartbeat 2.0.8
done
mdvha1:~ #

Una vez nos devuelva el promt ejecutaremos el script de monitorización del Cluster para ver el progreso de arranque:

mdvha1:~ # crm_mon -i5

Esto nos actualizará el estado del Cluster cada 5 segundos, de modo que iremos viendo las siguientes pantallas

Refresh in 3s...
no connect

Refresh in 2s...
============
Last updated: Mon Dec 10 18:10:10 2007
Current DC:
2 Nodes configured.
1 Resources configured.
============

Node: mdvha2 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): offline
Node: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171): offline

Refresh in 5s...

============
Current DC: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171)
2 Nodes configured.
============

Node: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): online
Node: mdvha2 (05d6cab0-018a-4450-bdb4-8500352f6171): offline
Resource Group: group_1
IPaddr_192_168_215_44 (heartbeat::ocf:IPaddr): Started mdvha1
Filesystem_2 (heartbeat::ocf:Filesystem): Started mdvha1
aplicAME_5 (lsb:aplicAME): Started mdvha1
vsftpd_6 (lsb:vsftpd): Started mdvha1

Una vez que veamos que los recursos se han levantado correctamente en el Nodo Master podemos ejecutar el script de arranque de HeartBeat en el nodo Esclavo

heartbeat[14959]: 2007/12/10_18:07:33 info: Version 2 support: on
heartbeat[14959]: 2007/12/10_18:07:34 info: **************************
heartbeat[14959]: 2007/12/10_18:07:34 info: Configuration validated. Starting heartbeat 2.0.8
done
mdvha2:~ #

Y volvemos al terminal donde se está ejecutando el script de monitorización hasta que veamos que el Nodo Esclavo aparece como online:

Refresh in 5s...

============
2 Nodes configured.
============

1 de 5 20/11/2009 11:22


Node: mdvha2 (05d6cab0-018a-4450-bdb4-8500352f6171): online

Para salir de esta pantalla basta con pulsar Ctrl+c

Parada controlada de HeartBeat ambos Nodos
Situación: Labores de mantemiento en ambos nodos simultaneamente, incidencia que obligue a la parada de HeartBeat, etc Para realizar una parada controlada de
HeartBeat en ambos nodos se tendrán que ralizar los siguientes pasos: Primero habrá que ver el estado en que se encuentra el cluster antes de realizar la parada. Para
ello ejecutaremos el script de monitorización de HeartBeat


que nos mostrará lo siguiente

Refresh in 5s...

============
2 Nodes configured.
============


Si no tenemos claro cuántos servicios están configurados en el Cluster prodemos ejecutar esto:

mdvha2:~ # crm_resource -L | grep Group

Una vez comprobados que el servicio está activo en el nodo Master y los servidores están online pararemos el servicio ejecutando lo siguiente desde cualquiera de los
dos nodos:

mdvha2:~ # crm_resource -r group_1 -t group -p target_role -v stopped

Después volveremos a ejecutar crm_mon para comprobar que el servicio ya no se está ejecutando:

Refresh in 3s...

============



2 Nodes configured.


============



También se podría ejecutar este otro comando para asegurarnos de que el servicio está en estado de parada:

mdvha2:~ # crm_resource -W -r group_1 -t group

resource group_1 is NOT running

Una vez que el servicio está parado ya podemos ejecutar los script de parada de heartbeat en ambos nodos:

mdvha1:~ # rcheartbeat stop

Stopping High-Availability services done

mdvha2:~ # rcheartbeat stop

Stopping High-Availability services done

Arranque de HeartBeat en ambos nodos simultáneamente después de una parada controlada
Situación: Reanudación del servicio después de alguna situación que obligue una parada controlada. Arranqueremos en ambos nodos HeartBeat con su script de
arranque:


2 de 5 20/11/2009 11:22



heartbeat15939: 2007/12/10_18:07:33 info: Version 2 support: on

heartbeat15939: 2007/12/10_18:07:34 info: **************************

heartbeat15939: 2007/12/10_18:07:34 info: Configuration validated. Starting heartbeat 2.0.8

done

mdvha1:~ #



heartbeat14322: 2007/12/10_18:46:53 info: Version 2 support: on

heartbeat14322: 2007/12/10_18:46:54 info: **************************

heartbeat14322: 2007/12/10_18:46:54 info: Configuration validated. Starting heartbeat 2.0.8

done

mdvha2:~ #

Monitorizar con crm_mon hasta que el aparezcan los dos nodos online


Refresh in 5s...

============
2 Nodes configured.
============


Una vez verificado que los nodos están online arrancar el servicio con el siguiente comando:

mdvha2:~ # crm_resource -r group_1-t group -p target_role -v started

Después comprobar con crm_mon y crm_resource que el servició arranco correctamente:

Refresh in 5s...

============



2 Nodes configured.


============










mdvha1:/ # crm_resource -W -r group_1 -t group

resource group_1 is running on: mdvha1

Intervención en los Nodos que forman el cluster de forma secuencial
Situación: Tareas de mantemiento en uno de los nodos que impliquen la parada del mismos o alguna situación en la que no pueden mantener un Servicio activo

Primero deberemos comprobar qué servicios forman el Cluster y dónde están levantados actualmente:

mdvha2:~ # crm_resource -L | grep Group



Refresh in 5s...
============

3 de 5 20/11/2009 11:22




2 Nodes configured.


============









Si el nodo donde vamos a intervenir es dónde está ubicado el Servicio (Nodo Master) deberemos migrar el servicio al otro nodo ejecutando esto: mdvha1:/ #

crm_resource -M -r group_1 -t group -H mdvha2

Comprobamos que el servicio se ha migrado al nodo esclavo ejecutando:



Por último dejaremos el HeartBeat del Nodo en estado standby para aseguranos que un posible reboot de la máquina no hace que el servicio vuelva situarse en esto
nodo

crm_standby -U mdvha1 -v on

Si el nodo donde queramos intervenir no fuera donde están situado el servicio podemos saltarnos el paso de migrar este a otro nodo y ejecutar directamente el
comando de stanby. Para verificar que el nodo ha cambiado su estado a stadby ejecutaremos crm_mon:

Refresh in 13s...

============
Last updated: Tue Dec 11 09:04:27 2007
Current DC: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771)
2 Nodes configured.
============

Node: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): standby


Una vez que el Nodo pueda volver a estar operativo simplemente lo tendremos que poner es estado online ejecutando este comando:

mdvha2:~ # crm_standby -U mdvha1 -v off

Y comprobar su estado actual con crm_mon

Refresh in 13s...

============

Last updated: Tue Dec 11 09:06:57 2007

Current DC: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771)

2 Nodes configured.


============




4 de 5 20/11/2009 11:22








Y por último para volver a pasar el servicio al Nodo primario (si es ese sobre el que hemos intervenido) ejecutar este comando:

mdvha2:~ # crm_resource -U -r group_1 -t group

Y comprobar que el cambio se ha producido satisfactoriamente:



DETERMINAR LA CAUSA DE UN FAILOVER O PARADA DEL SERVICIO

Las causas más comunes de un failover o de que un servicio se llegue a parar en todos los Nodos que forman el Cluster es la propia parada o reboot del Nodo donde se
está ejecutando el Servicio, un fallo en la red o un fallo a la hora de levantar uno de los recursos del Servicio.

Por ello cuando se detecte un failover se deberá seguir el siguiente procedimiento:

Comprobar que el Nodo Master está arriba, si lo está comprobar cuándo fue la última vez que se reinició con el comando:

mdvha1:~ # who -r
run-level 3 Oct 29 09:16 last=S
mdvha1:~ #

Si el reboot se ha producido hace poco monitorizar el Cluster con crm_mon para ver si el Servicio se está migrando en esos momento al Nodo Master. Si no se migrará o
la máquina no se hubiera reiniciado recientemente buscar en el log de HeartBeat si ha habido algún fallo de conectividad con el Nodo:

mdvha1:~ # grep dead /var/log/heartbeat/ha-log crmd[6015]: 2007/12/10_16:56:02 info: crmd_ha_status_callback: Ping node 172.29.87.1 is dead

Si se ha producido un error de conectividad recientemente comprobar que este error ha desaparecido y monitorizar el Cluster para verificar que el Servicio vuelve a
realocarse en el Nodo Master. Si no es así o no se ha producido un error de conectividad recientemente habrá que comprobar que ninguno de los recursos del Servicio
han fallado al iniciarse. Para ello ejecutar lo siguiente:

mdvha1:~ # grep FAILED /var/log/heartbeat/ha-log
pengine[25459]: 2007/11/09_09:08:39 info: native_print: aplicAME_5 (lsb:aplicAME): Started mdvha1 FAILED

Si se hubiera producido algún error comprobar en los logs de ese agente, si los hubiera, cuál ha sido el fallo y verificar que vuelve a funcionar correctamente. Una vez
solucionado reiniciar HeartBeat y monitorizar el Cluster para comprobar que el Servicio vuelve a realocarse en el Nodo Master.

Powered by Atlassian Confluence, the Enterprise Wiki. (Version: 2.2 Build:#512 Apr 26, 2006) - Bug/feature request - Contact Administrators

5 de 5 20/11/2009 11:22

Cluster suse bueno

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie Cluster suse bueno

Ähnlich wie Cluster suse bueno (20)

Mehr von JOSE MANUEL SANCHEZ REQUENA

Mehr von JOSE MANUEL SANCHEZ REQUENA (13)

Cluster suse bueno