SlideShare ist ein Scribd-Unternehmen logo
1 von 5
Downloaden Sie, um offline zu lesen
Guía de Operaciones con HeartBeat - AMEInfra - Confluence                                                   https://ame.endesa.es/confluence/pages/viewpage.action?pageId=19393



                                                                                                                                                                        AMEInfra
                     FRAMEWORK AME                                                                                                               Guía de Operaciones con HeartBeat


         Dashboard > AMEInfra > ... > Manual de Operaciones > Guía de Operaciones con HeartBeat

             Home       Log In


              View

           Added by Fernando Parrilla, last edited by Fernando Parrilla on Dec 11, 2007 (view change)
           Labels: (None)

          Introducción
           Ésta guía presupone que se dispone de un Cluster HeartBeat configurado con dos Nodos y formado por un Servicio Activo - Pasivo. Si dispone de otra configuración y no
           está seguro de que estos procedimientos sean compatibles con ella consúltenos y le asesoraremos para adaptar estos procedimientos a su escenario.

           Todos los comandos se podrán ejecutar desde un terminal remoto y se tendrá que estar logado como root

          Arranque de HeartBeat en ambos nodos simultáneamente después de una parada no controlada
           Situación: HeartBeat debe pararse siempre de forma controlada, pero si por cualquier motivo no se hubiera realizado así, este es el procedimiento que se debe seguir
           para volver a arrancar el Cluster

           Si HeartBeat está parado en ambos nodos y queremos levantarlo en los dos junto con su servicio tendremos que hacer lo siguiente:

            Desde el nodo Master ejecutaremos el script de arranque de HeartBeat:


              mdvha1:~ # rcheartbeat start
              Starting High-Availability services2007/12/10_18:07:33 INFO: Resource is stopped
              heartbeat[14959]: 2007/12/10_18:07:33 info: Version 2 support: on
              heartbeat[14959]: 2007/12/10_18:07:34 info: **************************
              heartbeat[14959]: 2007/12/10_18:07:34 info: Configuration validated. Starting heartbeat 2.0.8
                                                                                    done
              mdvha1:~ #


           Una vez nos devuelva el promt ejecutaremos el script de monitorización del Cluster para ver el progreso de arranque:


              mdvha1:~ # crm_mon -i5


           Esto nos actualizará el estado del Cluster cada 5 segundos, de modo que iremos viendo las siguientes pantallas


              Refresh in 3s...
              no connect



              Refresh in 2s...
              ============
              Last updated: Mon Dec 10 18:10:10 2007
              Current DC:
              2 Nodes configured.
              1 Resources configured.
              ============

              Node: mdvha2 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): offline
              Node: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171): offline



              Refresh in 5s...

              ============
              Last updated: Mon Dec 10 18:11:36 2007
              Current DC: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171)
              2 Nodes configured.
              1 Resources configured.
              ============

              Node: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): online
              Node: mdvha2 (05d6cab0-018a-4450-bdb4-8500352f6171): offline
              Resource Group: group_1
                  IPaddr_192_168_215_44       (heartbeat::ocf:IPaddr):                             Started mdvha1
                  Filesystem_2        (heartbeat::ocf:Filesystem):    Started                      mdvha1
                  Filesystem_3        (heartbeat::ocf:Filesystem):    Started                      mdvha1
                  Filesystem_4        (heartbeat::ocf:Filesystem):    Started                      mdvha1
                  aplicAME_5 (lsb:aplicAME): Started mdvha1
                  vsftpd_6    (lsb:vsftpd):   Started mdvha1


           Una vez que veamos que los recursos se han levantado correctamente en el Nodo Master podemos ejecutar el script de arranque de HeartBeat en el nodo Esclavo


              mdvha2:~ # rcheartbeat start
              Starting High-Availability services2007/12/10_18:07:33 INFO: Resource is stopped
              heartbeat[14959]: 2007/12/10_18:07:33 info: Version 2 support: on
              heartbeat[14959]: 2007/12/10_18:07:34 info: **************************
              heartbeat[14959]: 2007/12/10_18:07:34 info: Configuration validated. Starting heartbeat 2.0.8
                                                                                    done
              mdvha2:~ #


           Y volvemos al terminal donde se está ejecutando el script de monitorización hasta que veamos que el Nodo Esclavo aparece como online:


              Refresh in 5s...

              ============
              Last updated: Mon Dec 10 18:11:36 2007
              Current DC: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171)
              2 Nodes configured.
              1 Resources configured.
              ============




1 de 5                                                                                                                                                                  20/11/2009 11:22
Guía de Operaciones con HeartBeat - AMEInfra - Confluence                                         https://ame.endesa.es/confluence/pages/viewpage.action?pageId=19393


             Node: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): online
             Node: mdvha2 (05d6cab0-018a-4450-bdb4-8500352f6171): online
             Resource Group: group_1
                 IPaddr_192_168_215_44       (heartbeat::ocf:IPaddr):                  Started mdvha1
                 Filesystem_2        (heartbeat::ocf:Filesystem):    Started           mdvha1
                 Filesystem_3        (heartbeat::ocf:Filesystem):    Started           mdvha1
                 Filesystem_4        (heartbeat::ocf:Filesystem):    Started           mdvha1
                 aplicAME_5 (lsb:aplicAME): Started mdvha1
                 vsftpd_6    (lsb:vsftpd):   Started mdvha1


           Para salir de esta pantalla basta con pulsar Ctrl+c

          Parada controlada de HeartBeat ambos Nodos
          Situación: Labores de mantemiento en ambos nodos simultaneamente, incidencia que obligue a la parada de HeartBeat, etc Para realizar una parada controlada de
          HeartBeat en ambos nodos se tendrán que ralizar los siguientes pasos: Primero habrá que ver el estado en que se encuentra el cluster antes de realizar la parada. Para
          ello ejecutaremos el script de monitorización de HeartBeat


             mdvha1:~ # crm_mon -i5


          que nos mostrará lo siguiente


             Refresh in 5s...

             ============
             Last updated: Mon Dec 10 18:11:36 2007
             Current DC: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171)
             2 Nodes configured.
             1 Resources configured.
             ============

             Node: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): online
             Node: mdvha2 (05d6cab0-018a-4450-bdb4-8500352f6171): online
             Resource Group: group_1
                 IPaddr_192_168_215_44       (heartbeat::ocf:IPaddr):                  Started mdvha1
                 Filesystem_2        (heartbeat::ocf:Filesystem):    Started           mdvha1
                 Filesystem_3        (heartbeat::ocf:Filesystem):    Started           mdvha1
                 Filesystem_4        (heartbeat::ocf:Filesystem):    Started           mdvha1
                 aplicAME_5 (lsb:aplicAME): Started mdvha1
                 vsftpd_6    (lsb:vsftpd):   Started mdvha1


          Si no tenemos claro cuántos servicios están configurados en el Cluster prodemos ejecutar esto:


             mdvha2:~ # crm_resource -L | grep Group
             Resource Group: group_1


          Una vez comprobados que el servicio está activo en el nodo Master y los servidores están online pararemos el servicio ejecutando lo siguiente desde cualquiera de los
          dos nodos:


             mdvha2:~ # crm_resource -r group_1 -t group -p target_role -v stopped


          Después volveremos a ejecutar crm_mon para comprobar que el servicio ya no se está ejecutando:


             Refresh in 3s...

             ============

             Last updated: Mon Dec 10 18:24:45 2007

             Current DC: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171)

             2 Nodes configured.

             1 Resources configured.

             ============

             Node: mdvha2 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): online

             Node: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171): online


          También se podría ejecutar este otro comando para asegurarnos de que el servicio está en estado de parada:


             mdvha2:~ # crm_resource -W -r group_1 -t group

             resource group_1 is NOT running


          Una vez que el servicio está parado ya podemos ejecutar los script de parada de heartbeat en ambos nodos:


             mdvha1:~ # rcheartbeat stop

             Stopping High-Availability services                                             done

             mdvha2:~ # rcheartbeat stop

             Stopping High-Availability services                                             done


          Arranque de HeartBeat en ambos nodos simultáneamente después de una parada controlada
          Situación: Reanudación del servicio después de alguna situación que obligue una parada controlada. Arranqueremos en ambos nodos HeartBeat con su script de
          arranque:


             mdvha1:~ # rcheartbeat start




2 de 5                                                                                                                                                                   20/11/2009 11:22
Guía de Operaciones con HeartBeat - AMEInfra - Confluence                                         https://ame.endesa.es/confluence/pages/viewpage.action?pageId=19393


             Starting High-Availability services2007/12/10_18:45:45 INFO:            Resource is stopped

             heartbeat15939: 2007/12/10_18:07:33 info: Version 2 support: on

             heartbeat15939: 2007/12/10_18:07:34 info: **************************

             heartbeat15939: 2007/12/10_18:07:34 info: Configuration validated. Starting heartbeat 2.0.8

              done

             mdvha1:~ #



             mdvha2:~ # rcheartbeat start

             Starting High-Availability services2007/12/10_18:53:45 INFO:            Resource is stopped

             heartbeat14322: 2007/12/10_18:46:53 info: Version 2 support: on

             heartbeat14322: 2007/12/10_18:46:54 info: **************************

             heartbeat14322: 2007/12/10_18:46:54 info: Configuration validated. Starting heartbeat 2.0.8

              done

             mdvha2:~ #


          Monitorizar con crm_mon hasta que el aparezcan los dos nodos online


             mdvha1:~ # crm_mon -i5

             Refresh in 5s...

             ============
             Last updated: Mon Dec 10 18:47:44 2007
             Current DC: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171)
             2 Nodes configured.
             1 Resources configured.
             ============

             Node: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): online
             Node: mdvha2 (05d6cab0-018a-4450-bdb4-8500352f6171): online


          Una vez verificado que los nodos están online arrancar el servicio con el siguiente comando:


             mdvha2:~ # crm_resource -r group_1-t group -p target_role -v started


          Después comprobar con crm_mon y crm_resource que el servició arranco correctamente:


             Refresh in 5s...

             ============

             Last updated: Mon Dec 10 18:11:36 2007

             Current DC: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171)

             2 Nodes configured.

             1 Resources configured.

             ============

             Node: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): online

             Node: mdvha2 (05d6cab0-018a-4450-bdb4-8500352f6171): online

             Resource Group: group_1

              IPaddr_192_168_215_44           (heartbeat::ocf:IPaddr):             Started mdvha1

              Filesystem_2           (heartbeat::ocf:Filesystem):         Started mdvha1

              Filesystem_3           (heartbeat::ocf:Filesystem):         Started mdvha1

              Filesystem_4           (heartbeat::ocf:Filesystem):         Started mdvha1

              aplicAME_5    (lsb:aplicAME): Started mdvha1

              vsftpd_6      (lsb:vsftpd):     Started mdvha1



             mdvha1:/ # crm_resource -W -r group_1 -t group

             resource group_1 is running on: mdvha1


          Intervención en los Nodos que forman el cluster de forma secuencial
          Situación: Tareas de mantemiento en uno de los nodos que impliquen la parada del mismos o alguna situación en la que no pueden mantener un Servicio activo

          Primero deberemos comprobar qué servicios forman el Cluster y dónde están levantados actualmente:


             mdvha2:~ # crm_resource -L | grep Group

             Resource Group: group_1



             mdvha1:~ # crm_mon -i5

             Refresh in 5s...
             ============




3 de 5                                                                                                                                                             20/11/2009 11:22
Guía de Operaciones con HeartBeat - AMEInfra - Confluence                                        https://ame.endesa.es/confluence/pages/viewpage.action?pageId=19393



             Last updated: Mon Dec 10 18:47:44 2007

             Current DC: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171)

             2 Nodes configured.

             1 Resources configured.

             ============

             Node: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): online

             Node: mdvha2 (05d6cab0-018a-4450-bdb4-8500352f6171): online
             Resource Group: group_1

                 IPaddr_192_168_215_44           (heartbeat::ocf:IPaddr):            Started mdvha1

                 Filesystem_2           (heartbeat::ocf:Filesystem):        Started mdvha1

                 Filesystem_3           (heartbeat::ocf:Filesystem):        Started mdvha1

                 Filesystem_4           (heartbeat::ocf:Filesystem):        Started mdvha1

                 aplicAME_5    (lsb:aplicAME): Started mdvha1

                 vsftpd_6      (lsb:vsftpd):     Started mdvha1


          Si el nodo donde vamos a intervenir es dónde está ubicado el Servicio (Nodo Master) deberemos migrar el servicio al otro nodo ejecutando esto: mdvha1:/ #


             crm_resource -M -r group_1 -t group -H mdvha2


          Comprobamos que el servicio se ha migrado al nodo esclavo ejecutando:


             mdvha1:/ # crm_resource -W -r group_1 -t group

             resource group_1 is running on: mdvha2


          Por último dejaremos el HeartBeat del Nodo en estado standby para aseguranos que un posible reboot de la máquina no hace que el servicio vuelva situarse en esto
          nodo


              crm_standby -U mdvha1 -v on


          Si el nodo donde queramos intervenir no fuera donde están situado el servicio podemos saltarnos el paso de migrar este a otro nodo y ejecutar directamente el
          comando de stanby. Para verificar que el nodo ha cambiado su estado a stadby ejecutaremos crm_mon:


             Refresh in 13s...

             ============
             Last updated: Tue Dec 11 09:04:27 2007
             Current DC: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771)
             2 Nodes configured.
             1 Resources configured.
             ============

             Node: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): standby
             Node: mdvha2 (05d6cab0-018a-4450-bdb4-8500352f6171): online

             Resource Group: group_1
                 IPaddr_192_168_215_44       (heartbeat::ocf:IPaddr):                Started mdvha2
                 Filesystem_2        (heartbeat::ocf:Filesystem):    Started         mdvha2
                 Filesystem_3        (heartbeat::ocf:Filesystem):    Started         mdvha2
                 Filesystem_4        (heartbeat::ocf:Filesystem):    Started         mdvha2
                 aplicAME_5 (lsb:aplicAME): Started mdvha2
                 vsftpd_6    (lsb:vsftpd):   Started mdvha2



          Una vez que el Nodo pueda volver a estar operativo simplemente lo tendremos que poner es estado online ejecutando este comando:


              mdvha2:~ # crm_standby -U mdvha1 -v off


          Y comprobar su estado actual con crm_mon


              Refresh in 13s...



             ============

             Last updated: Tue Dec 11 09:06:57 2007

             Current DC: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771)

             2 Nodes configured.

             1 Resources configured.

             ============



             Node: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): online

             Node: mdvha2 (05d6cab0-018a-4450-bdb4-8500352f6171): online



             Resource Group: group_1




4 de 5                                                                                                                                                                    20/11/2009 11:22
Guía de Operaciones con HeartBeat - AMEInfra - Confluence                                                  https://ame.endesa.es/confluence/pages/viewpage.action?pageId=19393


                  IPaddr_192_168_215_44             (heartbeat::ocf:IPaddr):                  Started mdvha2

                  Filesystem_2           (heartbeat::ocf:Filesystem):              Started mdvha2

                  Filesystem_3           (heartbeat::ocf:Filesystem):              Started mdvha2

                  Filesystem_4           (heartbeat::ocf:Filesystem):              Started mdvha2

                  aplicAME_5    (lsb:aplicAME): Started mdvha2

                  vsftpd_6      (lsb:vsftpd):       Started mdvha2


          Y por último para volver a pasar el servicio al Nodo primario (si es ese sobre el que hemos intervenido) ejecutar este comando:


             mdvha2:~ # crm_resource -U -r group_1 -t group


          Y comprobar que el cambio se ha producido satisfactoriamente:


             mdvha1:/ # crm_resource -W -r group_1 -t group

             resource group_1 is running on: mdvha1


          DETERMINAR LA CAUSA DE UN FAILOVER O PARADA DEL SERVICIO

          Las causas más comunes de un failover o de que un servicio se llegue a parar en todos los Nodos que forman el Cluster es la propia parada o reboot del Nodo donde se
          está ejecutando el Servicio, un fallo en la red o un fallo a la hora de levantar uno de los recursos del Servicio.

          Por ello cuando se detecte un failover se deberá seguir el siguiente procedimiento:

          Comprobar que el Nodo Master está arriba, si lo está comprobar cuándo fue la última vez que se reinició con el comando:


             mdvha1:~ # who -r
                      run-level 3      Oct 29 09:16                            last=S
             mdvha1:~ #


          Si el reboot se ha producido hace poco monitorizar el Cluster con crm_mon para ver si el Servicio se está migrando en esos momento al Nodo Master. Si no se migrará o
          la máquina no se hubiera reiniciado recientemente buscar en el log de HeartBeat si ha habido algún fallo de conectividad con el Nodo:


              mdvha1:~ # grep dead /var/log/heartbeat/ha-log crmd[6015]: 2007/12/10_16:56:02 info: crmd_ha_status_callback: Ping node 172.29.87.1 is dead


           Si se ha producido un error de conectividad recientemente comprobar que este error ha desaparecido y monitorizar el Cluster para verificar que el Servicio vuelve a
          realocarse en el Nodo Master. Si no es así o no se ha producido un error de conectividad recientemente habrá que comprobar que ninguno de los recursos del Servicio
          han fallado al iniciarse. Para ello ejecutar lo siguiente:


             mdvha1:~ # grep FAILED /var/log/heartbeat/ha-log
             pengine[25459]: 2007/11/09_09:08:39 info: native_print:                     aplicAME_5     (lsb:aplicAME): Started mdvha1 FAILED


          Si se hubiera producido algún error comprobar en los logs de ese agente, si los hubiera, cuál ha sido el fallo y verificar que vuelve a funcionar correctamente. Una vez
          solucionado reiniciar HeartBeat y monitorizar el Cluster para comprobar que el Servicio vuelve a realocarse en el Nodo Master.




                                 Powered by Atlassian Confluence, the Enterprise Wiki. (Version: 2.2 Build:#512 Apr 26, 2006) - Bug/feature request - Contact Administrators




5 de 5                                                                                                                                                                         20/11/2009 11:22

Weitere ähnliche Inhalte

Ähnlich wie Cluster suse bueno

Alta disponibilidad y balanceo de carga en Linux
Alta disponibilidad y balanceo de carga en LinuxAlta disponibilidad y balanceo de carga en Linux
Alta disponibilidad y balanceo de carga en LinuxJavier Turégano Molina
 
pdf-capacitacion switching.pdf
pdf-capacitacion switching.pdfpdf-capacitacion switching.pdf
pdf-capacitacion switching.pdfHectorMasos1
 
MANUALES DE INSTALACIÓN DE SERVICIOS EN RED HAT LINUX ENTERPRISE 6.2
MANUALES DE INSTALACIÓN DE SERVICIOS EN RED HAT LINUX ENTERPRISE 6.2MANUALES DE INSTALACIÓN DE SERVICIOS EN RED HAT LINUX ENTERPRISE 6.2
MANUALES DE INSTALACIÓN DE SERVICIOS EN RED HAT LINUX ENTERPRISE 6.2Facebook
 
Rails Against The Machine
Rails Against The MachineRails Against The Machine
Rails Against The Machineguestae6a05
 
Policyd: Instalacion y configuracion
Policyd: Instalacion y configuracionPolicyd: Instalacion y configuracion
Policyd: Instalacion y configuracioncriscega
 
Sistemas operativos deber
Sistemas operativos deberSistemas operativos deber
Sistemas operativos debertay021
 
Por qué Symfony2 es tan rápido
Por qué Symfony2 es tan rápidoPor qué Symfony2 es tan rápido
Por qué Symfony2 es tan rápidoCarlos Granados
 
6sos instalacion ipv6_windows_v4_0
6sos instalacion ipv6_windows_v4_06sos instalacion ipv6_windows_v4_0
6sos instalacion ipv6_windows_v4_0Victor Garcia Vara
 
Ajustes posteriores a la instalación de cent os 6
Ajustes posteriores a la instalación de cent os 6Ajustes posteriores a la instalación de cent os 6
Ajustes posteriores a la instalación de cent os 6Isaac Gómez M
 
Observatorio de Medios
Observatorio de MediosObservatorio de Medios
Observatorio de MediosSvet Ivantchev
 
Cisco CCNA v5 Lab
Cisco CCNA v5 LabCisco CCNA v5 Lab
Cisco CCNA v5 Labant09_sain
 
Cluster MySQL en Windows
Cluster MySQL en WindowsCluster MySQL en Windows
Cluster MySQL en WindowsErick Cruz
 

Ähnlich wie Cluster suse bueno (20)

Cganen1 6 c luster
Cganen1 6 c lusterCganen1 6 c luster
Cganen1 6 c luster
 
Alta disponibilidad y balanceo de carga en Linux
Alta disponibilidad y balanceo de carga en LinuxAlta disponibilidad y balanceo de carga en Linux
Alta disponibilidad y balanceo de carga en Linux
 
Guia postfix
Guia postfixGuia postfix
Guia postfix
 
Dhcp vlans
Dhcp vlansDhcp vlans
Dhcp vlans
 
pdf-capacitacion switching.pdf
pdf-capacitacion switching.pdfpdf-capacitacion switching.pdf
pdf-capacitacion switching.pdf
 
MANUALES DE INSTALACIÓN DE SERVICIOS EN RED HAT LINUX ENTERPRISE 6.2
MANUALES DE INSTALACIÓN DE SERVICIOS EN RED HAT LINUX ENTERPRISE 6.2MANUALES DE INSTALACIÓN DE SERVICIOS EN RED HAT LINUX ENTERPRISE 6.2
MANUALES DE INSTALACIÓN DE SERVICIOS EN RED HAT LINUX ENTERPRISE 6.2
 
Manual redhat
Manual redhatManual redhat
Manual redhat
 
Rails Against The Machine
Rails Against The MachineRails Against The Machine
Rails Against The Machine
 
Policyd: Instalacion y configuracion
Policyd: Instalacion y configuracionPolicyd: Instalacion y configuracion
Policyd: Instalacion y configuracion
 
Sistemas operativos deber
Sistemas operativos deberSistemas operativos deber
Sistemas operativos deber
 
Memorias
MemoriasMemorias
Memorias
 
Por qué Symfony2 es tan rápido
Por qué Symfony2 es tan rápidoPor qué Symfony2 es tan rápido
Por qué Symfony2 es tan rápido
 
7 curso
7 curso7 curso
7 curso
 
6sos instalacion ipv6_windows_v4_0
6sos instalacion ipv6_windows_v4_06sos instalacion ipv6_windows_v4_0
6sos instalacion ipv6_windows_v4_0
 
Ajustes posteriores a la instalación de cent os 6
Ajustes posteriores a la instalación de cent os 6Ajustes posteriores a la instalación de cent os 6
Ajustes posteriores a la instalación de cent os 6
 
Observatorio de Medios
Observatorio de MediosObservatorio de Medios
Observatorio de Medios
 
File
FileFile
File
 
Guía instalación koha por paquetes
Guía instalación koha por paquetesGuía instalación koha por paquetes
Guía instalación koha por paquetes
 
Cisco CCNA v5 Lab
Cisco CCNA v5 LabCisco CCNA v5 Lab
Cisco CCNA v5 Lab
 
Cluster MySQL en Windows
Cluster MySQL en WindowsCluster MySQL en Windows
Cluster MySQL en Windows
 

Mehr von JOSE MANUEL SANCHEZ REQUENA (13)

X creacion de lun
X creacion de lunX creacion de lun
X creacion de lun
 
Error en el tsm debido a falta de espacio en la base de datos
Error en el tsm debido a falta de espacio en la base de datosError en el tsm debido a falta de espacio en la base de datos
Error en el tsm debido a falta de espacio en la base de datos
 
Creacion de lun
Creacion de lunCreacion de lun
Creacion de lun
 
Creacion de maquinas virtuales
Creacion de maquinas virtualesCreacion de maquinas virtuales
Creacion de maquinas virtuales
 
Creacion de lun
Creacion de lunCreacion de lun
Creacion de lun
 
Actualizacion cabinas ds4700
Actualizacion cabinas ds4700Actualizacion cabinas ds4700
Actualizacion cabinas ds4700
 
1.subida de nivel del aix 6
1.subida de nivel del aix 61.subida de nivel del aix 6
1.subida de nivel del aix 6
 
Romper mirro rs y crearlos
Romper mirro rs y crearlosRomper mirro rs y crearlos
Romper mirro rs y crearlos
 
Cluster administration rh
Cluster administration rhCluster administration rh
Cluster administration rh
 
How to compile a kernel suse 1
How to compile a kernel   suse 1How to compile a kernel   suse 1
How to compile a kernel suse 1
 
How to compile a kernel suse 3
How to compile a kernel   suse 3How to compile a kernel   suse 3
How to compile a kernel suse 3
 
How to compile a kernel suse 2
How to compile a kernel   suse 2How to compile a kernel   suse 2
How to compile a kernel suse 2
 
Curso linux operación
Curso linux operaciónCurso linux operación
Curso linux operación
 

Cluster suse bueno

  • 1. Guía de Operaciones con HeartBeat - AMEInfra - Confluence https://ame.endesa.es/confluence/pages/viewpage.action?pageId=19393 AMEInfra FRAMEWORK AME Guía de Operaciones con HeartBeat Dashboard > AMEInfra > ... > Manual de Operaciones > Guía de Operaciones con HeartBeat Home Log In View Added by Fernando Parrilla, last edited by Fernando Parrilla on Dec 11, 2007 (view change) Labels: (None) Introducción Ésta guía presupone que se dispone de un Cluster HeartBeat configurado con dos Nodos y formado por un Servicio Activo - Pasivo. Si dispone de otra configuración y no está seguro de que estos procedimientos sean compatibles con ella consúltenos y le asesoraremos para adaptar estos procedimientos a su escenario. Todos los comandos se podrán ejecutar desde un terminal remoto y se tendrá que estar logado como root Arranque de HeartBeat en ambos nodos simultáneamente después de una parada no controlada Situación: HeartBeat debe pararse siempre de forma controlada, pero si por cualquier motivo no se hubiera realizado así, este es el procedimiento que se debe seguir para volver a arrancar el Cluster Si HeartBeat está parado en ambos nodos y queremos levantarlo en los dos junto con su servicio tendremos que hacer lo siguiente: Desde el nodo Master ejecutaremos el script de arranque de HeartBeat: mdvha1:~ # rcheartbeat start Starting High-Availability services2007/12/10_18:07:33 INFO: Resource is stopped heartbeat[14959]: 2007/12/10_18:07:33 info: Version 2 support: on heartbeat[14959]: 2007/12/10_18:07:34 info: ************************** heartbeat[14959]: 2007/12/10_18:07:34 info: Configuration validated. Starting heartbeat 2.0.8 done mdvha1:~ # Una vez nos devuelva el promt ejecutaremos el script de monitorización del Cluster para ver el progreso de arranque: mdvha1:~ # crm_mon -i5 Esto nos actualizará el estado del Cluster cada 5 segundos, de modo que iremos viendo las siguientes pantallas Refresh in 3s... no connect Refresh in 2s... ============ Last updated: Mon Dec 10 18:10:10 2007 Current DC: 2 Nodes configured. 1 Resources configured. ============ Node: mdvha2 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): offline Node: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171): offline Refresh in 5s... ============ Last updated: Mon Dec 10 18:11:36 2007 Current DC: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171) 2 Nodes configured. 1 Resources configured. ============ Node: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): online Node: mdvha2 (05d6cab0-018a-4450-bdb4-8500352f6171): offline Resource Group: group_1 IPaddr_192_168_215_44 (heartbeat::ocf:IPaddr): Started mdvha1 Filesystem_2 (heartbeat::ocf:Filesystem): Started mdvha1 Filesystem_3 (heartbeat::ocf:Filesystem): Started mdvha1 Filesystem_4 (heartbeat::ocf:Filesystem): Started mdvha1 aplicAME_5 (lsb:aplicAME): Started mdvha1 vsftpd_6 (lsb:vsftpd): Started mdvha1 Una vez que veamos que los recursos se han levantado correctamente en el Nodo Master podemos ejecutar el script de arranque de HeartBeat en el nodo Esclavo mdvha2:~ # rcheartbeat start Starting High-Availability services2007/12/10_18:07:33 INFO: Resource is stopped heartbeat[14959]: 2007/12/10_18:07:33 info: Version 2 support: on heartbeat[14959]: 2007/12/10_18:07:34 info: ************************** heartbeat[14959]: 2007/12/10_18:07:34 info: Configuration validated. Starting heartbeat 2.0.8 done mdvha2:~ # Y volvemos al terminal donde se está ejecutando el script de monitorización hasta que veamos que el Nodo Esclavo aparece como online: Refresh in 5s... ============ Last updated: Mon Dec 10 18:11:36 2007 Current DC: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171) 2 Nodes configured. 1 Resources configured. ============ 1 de 5 20/11/2009 11:22
  • 2. Guía de Operaciones con HeartBeat - AMEInfra - Confluence https://ame.endesa.es/confluence/pages/viewpage.action?pageId=19393 Node: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): online Node: mdvha2 (05d6cab0-018a-4450-bdb4-8500352f6171): online Resource Group: group_1 IPaddr_192_168_215_44 (heartbeat::ocf:IPaddr): Started mdvha1 Filesystem_2 (heartbeat::ocf:Filesystem): Started mdvha1 Filesystem_3 (heartbeat::ocf:Filesystem): Started mdvha1 Filesystem_4 (heartbeat::ocf:Filesystem): Started mdvha1 aplicAME_5 (lsb:aplicAME): Started mdvha1 vsftpd_6 (lsb:vsftpd): Started mdvha1 Para salir de esta pantalla basta con pulsar Ctrl+c Parada controlada de HeartBeat ambos Nodos Situación: Labores de mantemiento en ambos nodos simultaneamente, incidencia que obligue a la parada de HeartBeat, etc Para realizar una parada controlada de HeartBeat en ambos nodos se tendrán que ralizar los siguientes pasos: Primero habrá que ver el estado en que se encuentra el cluster antes de realizar la parada. Para ello ejecutaremos el script de monitorización de HeartBeat mdvha1:~ # crm_mon -i5 que nos mostrará lo siguiente Refresh in 5s... ============ Last updated: Mon Dec 10 18:11:36 2007 Current DC: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171) 2 Nodes configured. 1 Resources configured. ============ Node: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): online Node: mdvha2 (05d6cab0-018a-4450-bdb4-8500352f6171): online Resource Group: group_1 IPaddr_192_168_215_44 (heartbeat::ocf:IPaddr): Started mdvha1 Filesystem_2 (heartbeat::ocf:Filesystem): Started mdvha1 Filesystem_3 (heartbeat::ocf:Filesystem): Started mdvha1 Filesystem_4 (heartbeat::ocf:Filesystem): Started mdvha1 aplicAME_5 (lsb:aplicAME): Started mdvha1 vsftpd_6 (lsb:vsftpd): Started mdvha1 Si no tenemos claro cuántos servicios están configurados en el Cluster prodemos ejecutar esto: mdvha2:~ # crm_resource -L | grep Group Resource Group: group_1 Una vez comprobados que el servicio está activo en el nodo Master y los servidores están online pararemos el servicio ejecutando lo siguiente desde cualquiera de los dos nodos: mdvha2:~ # crm_resource -r group_1 -t group -p target_role -v stopped Después volveremos a ejecutar crm_mon para comprobar que el servicio ya no se está ejecutando: Refresh in 3s... ============ Last updated: Mon Dec 10 18:24:45 2007 Current DC: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171) 2 Nodes configured. 1 Resources configured. ============ Node: mdvha2 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): online Node: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171): online También se podría ejecutar este otro comando para asegurarnos de que el servicio está en estado de parada: mdvha2:~ # crm_resource -W -r group_1 -t group resource group_1 is NOT running Una vez que el servicio está parado ya podemos ejecutar los script de parada de heartbeat en ambos nodos: mdvha1:~ # rcheartbeat stop Stopping High-Availability services done mdvha2:~ # rcheartbeat stop Stopping High-Availability services done Arranque de HeartBeat en ambos nodos simultáneamente después de una parada controlada Situación: Reanudación del servicio después de alguna situación que obligue una parada controlada. Arranqueremos en ambos nodos HeartBeat con su script de arranque: mdvha1:~ # rcheartbeat start 2 de 5 20/11/2009 11:22
  • 3. Guía de Operaciones con HeartBeat - AMEInfra - Confluence https://ame.endesa.es/confluence/pages/viewpage.action?pageId=19393 Starting High-Availability services2007/12/10_18:45:45 INFO: Resource is stopped heartbeat15939: 2007/12/10_18:07:33 info: Version 2 support: on heartbeat15939: 2007/12/10_18:07:34 info: ************************** heartbeat15939: 2007/12/10_18:07:34 info: Configuration validated. Starting heartbeat 2.0.8 done mdvha1:~ # mdvha2:~ # rcheartbeat start Starting High-Availability services2007/12/10_18:53:45 INFO: Resource is stopped heartbeat14322: 2007/12/10_18:46:53 info: Version 2 support: on heartbeat14322: 2007/12/10_18:46:54 info: ************************** heartbeat14322: 2007/12/10_18:46:54 info: Configuration validated. Starting heartbeat 2.0.8 done mdvha2:~ # Monitorizar con crm_mon hasta que el aparezcan los dos nodos online mdvha1:~ # crm_mon -i5 Refresh in 5s... ============ Last updated: Mon Dec 10 18:47:44 2007 Current DC: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171) 2 Nodes configured. 1 Resources configured. ============ Node: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): online Node: mdvha2 (05d6cab0-018a-4450-bdb4-8500352f6171): online Una vez verificado que los nodos están online arrancar el servicio con el siguiente comando: mdvha2:~ # crm_resource -r group_1-t group -p target_role -v started Después comprobar con crm_mon y crm_resource que el servició arranco correctamente: Refresh in 5s... ============ Last updated: Mon Dec 10 18:11:36 2007 Current DC: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171) 2 Nodes configured. 1 Resources configured. ============ Node: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): online Node: mdvha2 (05d6cab0-018a-4450-bdb4-8500352f6171): online Resource Group: group_1 IPaddr_192_168_215_44 (heartbeat::ocf:IPaddr): Started mdvha1 Filesystem_2 (heartbeat::ocf:Filesystem): Started mdvha1 Filesystem_3 (heartbeat::ocf:Filesystem): Started mdvha1 Filesystem_4 (heartbeat::ocf:Filesystem): Started mdvha1 aplicAME_5 (lsb:aplicAME): Started mdvha1 vsftpd_6 (lsb:vsftpd): Started mdvha1 mdvha1:/ # crm_resource -W -r group_1 -t group resource group_1 is running on: mdvha1 Intervención en los Nodos que forman el cluster de forma secuencial Situación: Tareas de mantemiento en uno de los nodos que impliquen la parada del mismos o alguna situación en la que no pueden mantener un Servicio activo Primero deberemos comprobar qué servicios forman el Cluster y dónde están levantados actualmente: mdvha2:~ # crm_resource -L | grep Group Resource Group: group_1 mdvha1:~ # crm_mon -i5 Refresh in 5s... ============ 3 de 5 20/11/2009 11:22
  • 4. Guía de Operaciones con HeartBeat - AMEInfra - Confluence https://ame.endesa.es/confluence/pages/viewpage.action?pageId=19393 Last updated: Mon Dec 10 18:47:44 2007 Current DC: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171) 2 Nodes configured. 1 Resources configured. ============ Node: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): online Node: mdvha2 (05d6cab0-018a-4450-bdb4-8500352f6171): online Resource Group: group_1 IPaddr_192_168_215_44 (heartbeat::ocf:IPaddr): Started mdvha1 Filesystem_2 (heartbeat::ocf:Filesystem): Started mdvha1 Filesystem_3 (heartbeat::ocf:Filesystem): Started mdvha1 Filesystem_4 (heartbeat::ocf:Filesystem): Started mdvha1 aplicAME_5 (lsb:aplicAME): Started mdvha1 vsftpd_6 (lsb:vsftpd): Started mdvha1 Si el nodo donde vamos a intervenir es dónde está ubicado el Servicio (Nodo Master) deberemos migrar el servicio al otro nodo ejecutando esto: mdvha1:/ # crm_resource -M -r group_1 -t group -H mdvha2 Comprobamos que el servicio se ha migrado al nodo esclavo ejecutando: mdvha1:/ # crm_resource -W -r group_1 -t group resource group_1 is running on: mdvha2 Por último dejaremos el HeartBeat del Nodo en estado standby para aseguranos que un posible reboot de la máquina no hace que el servicio vuelva situarse en esto nodo crm_standby -U mdvha1 -v on Si el nodo donde queramos intervenir no fuera donde están situado el servicio podemos saltarnos el paso de migrar este a otro nodo y ejecutar directamente el comando de stanby. Para verificar que el nodo ha cambiado su estado a stadby ejecutaremos crm_mon: Refresh in 13s... ============ Last updated: Tue Dec 11 09:04:27 2007 Current DC: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771) 2 Nodes configured. 1 Resources configured. ============ Node: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): standby Node: mdvha2 (05d6cab0-018a-4450-bdb4-8500352f6171): online Resource Group: group_1 IPaddr_192_168_215_44 (heartbeat::ocf:IPaddr): Started mdvha2 Filesystem_2 (heartbeat::ocf:Filesystem): Started mdvha2 Filesystem_3 (heartbeat::ocf:Filesystem): Started mdvha2 Filesystem_4 (heartbeat::ocf:Filesystem): Started mdvha2 aplicAME_5 (lsb:aplicAME): Started mdvha2 vsftpd_6 (lsb:vsftpd): Started mdvha2 Una vez que el Nodo pueda volver a estar operativo simplemente lo tendremos que poner es estado online ejecutando este comando: mdvha2:~ # crm_standby -U mdvha1 -v off Y comprobar su estado actual con crm_mon Refresh in 13s... ============ Last updated: Tue Dec 11 09:06:57 2007 Current DC: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771) 2 Nodes configured. 1 Resources configured. ============ Node: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): online Node: mdvha2 (05d6cab0-018a-4450-bdb4-8500352f6171): online Resource Group: group_1 4 de 5 20/11/2009 11:22
  • 5. Guía de Operaciones con HeartBeat - AMEInfra - Confluence https://ame.endesa.es/confluence/pages/viewpage.action?pageId=19393 IPaddr_192_168_215_44 (heartbeat::ocf:IPaddr): Started mdvha2 Filesystem_2 (heartbeat::ocf:Filesystem): Started mdvha2 Filesystem_3 (heartbeat::ocf:Filesystem): Started mdvha2 Filesystem_4 (heartbeat::ocf:Filesystem): Started mdvha2 aplicAME_5 (lsb:aplicAME): Started mdvha2 vsftpd_6 (lsb:vsftpd): Started mdvha2 Y por último para volver a pasar el servicio al Nodo primario (si es ese sobre el que hemos intervenido) ejecutar este comando: mdvha2:~ # crm_resource -U -r group_1 -t group Y comprobar que el cambio se ha producido satisfactoriamente: mdvha1:/ # crm_resource -W -r group_1 -t group resource group_1 is running on: mdvha1 DETERMINAR LA CAUSA DE UN FAILOVER O PARADA DEL SERVICIO Las causas más comunes de un failover o de que un servicio se llegue a parar en todos los Nodos que forman el Cluster es la propia parada o reboot del Nodo donde se está ejecutando el Servicio, un fallo en la red o un fallo a la hora de levantar uno de los recursos del Servicio. Por ello cuando se detecte un failover se deberá seguir el siguiente procedimiento: Comprobar que el Nodo Master está arriba, si lo está comprobar cuándo fue la última vez que se reinició con el comando: mdvha1:~ # who -r run-level 3 Oct 29 09:16 last=S mdvha1:~ # Si el reboot se ha producido hace poco monitorizar el Cluster con crm_mon para ver si el Servicio se está migrando en esos momento al Nodo Master. Si no se migrará o la máquina no se hubiera reiniciado recientemente buscar en el log de HeartBeat si ha habido algún fallo de conectividad con el Nodo: mdvha1:~ # grep dead /var/log/heartbeat/ha-log crmd[6015]: 2007/12/10_16:56:02 info: crmd_ha_status_callback: Ping node 172.29.87.1 is dead Si se ha producido un error de conectividad recientemente comprobar que este error ha desaparecido y monitorizar el Cluster para verificar que el Servicio vuelve a realocarse en el Nodo Master. Si no es así o no se ha producido un error de conectividad recientemente habrá que comprobar que ninguno de los recursos del Servicio han fallado al iniciarse. Para ello ejecutar lo siguiente: mdvha1:~ # grep FAILED /var/log/heartbeat/ha-log pengine[25459]: 2007/11/09_09:08:39 info: native_print: aplicAME_5 (lsb:aplicAME): Started mdvha1 FAILED Si se hubiera producido algún error comprobar en los logs de ese agente, si los hubiera, cuál ha sido el fallo y verificar que vuelve a funcionar correctamente. Una vez solucionado reiniciar HeartBeat y monitorizar el Cluster para comprobar que el Servicio vuelve a realocarse en el Nodo Master. Powered by Atlassian Confluence, the Enterprise Wiki. (Version: 2.2 Build:#512 Apr 26, 2006) - Bug/feature request - Contact Administrators 5 de 5 20/11/2009 11:22