All paths down (APD), misterio resuelto
Hola soy Jose Maria Gris y de nuevo estoy aquí con vosotros. Últimamente esta sección parece un poco como cuarto milenio :). Lo que os comentaré hoy no es que sea cosa de brujas pero si es cierto que me ha traído de cabeza en 2 instalaciones estos días y la verdad es que no acababa de verlo claro. Tras investigación y pruebas de laboratorio, ha quedado bastante claro.
Bien, todo empieza cuando llego a una instalación que “se ha vuelto loca”. Sencillamente es ingobernable, no contesta ni responde correctamente ni al VI client ni a vCenter…. No se comporta correctamente con SSH. Vamos, un potro desbocado. Eso sí, las VM continúan dando servicio sin problema.
Nos ponemos en contacto con soporte y nos comentan que lo que tenemos es un “All paths Down” o APD. Solución: Hay que entrar en las vms por RDP, pararlas y posteriormente hacer caer el ESX/i con un Cold Reset. Cuando se levante, todo estará en su sitio. Soporte “dixit”
Bien, vamos a ver como ocurre esto. El KB 1016626 nos empieza a dar luz sobre el tema. El resumen es “si se efectúa un rescan cuando una lun esta con todos los enlaces caídos puede generar o bien que otra vm deje de responder o como me ocurrió a mi, que los hosts se vuelvan locos.” Las razones pueden ser múltiples, error de hardware, sacar una lun de golpe, etc. Lo cierto es que con diversos levels de ESX he visto comportamientos muy parecidos, pero distintos.
Por lo que he estado investigando, es un bug de vSphere. Con 3.5 no pasaba. Básicamente si en un rescan el sistema detecta que no encuentra una Lun, se vuelca con el proceso hotsd a buscarla, tanto, que llega a bloquear nics, etc….
Si estás leyendo esto y estas en 4.0. U1, tienes que pensar en instalar el parche que se indica mas abajo en referencias, el cual minimiza el tiempo de “no respuesta”. Con 4.0 U2 y 4.1 ya viene instalado.
La buena noticia es que ya leí en un KB que en versión 4.1 U1 el tema se solventaba. La tengo instalada en mi laboratorio y efectivamente entre las features comenta que “ya no deberá pasar mas”, aunque hay un comentario sobre “si ocurre, contacta con soporte técnico.”
No contento con ello he cogido una instalación grande en preproducción, con SANs y con Datacore importante y simplemente he sacado una lun para posteriormente hacer un rescan manual desde el cluster. Lo cierto es que no le ha gustado nada, ha “tosido” se ha molestado, se ha recorcobecado, pero al cabo de un par de minutos estaba todo bien y continuaba en su sitio. Nada que no se pueda mitigar.
Lo reconozco, no me he quedado contento. Lo he probado en mi pobre labo. Los resultados han sido los mismos.
No os voy a decir que el APD ha quedado eliminado, esto lo debe decir el fabricante, pero en mis pruebas, al menos, no ha aparecido….
No obstante, la próxima semana os presentaré como hacer correctamente un “masking” desde ESXi para despresentar una LUN en vSphere 4.x (esté o no solventado el APD, por si las moscas).
Hasta la semana que viene.
Referencias
KB Article: 1016626 Virtual machines stop responding when any LUN on the host is in an all-paths-down condition (APD)
VMware ESX 4.0, Patch ESX400-200912401-BG: Updates vmkernel, vmklinux, tools, CIM, and perftools (1016291)
VMware ESXi 4.0, Patch ESXi400-200912401-BG: Updates Firmware (1016295)