Hoy detectamos una situación en donde el fallo en un servidor de base de datos, algo que debió afectar momentáneamente sólo a un grupo reducido de usuarios, generó una reacción en cadena que causó que todos los servidores de aplicaciones se detuvieran de manera simultánea y no pudieran volver a reiniciar.
Lamentamos el tiempo de interrupción que esto pudo ocasionar en la operación diaria de nuestros usuarios.
Cuando falló el servidor de base de datos, el mismo se reinició como procedimiento estándar en estos casos. Sin embargo, al hacerlo perdió parte de su configuración e inició de manera parcial, lo que causó que nuestros sistemas de monitoreo y alarmas no detectaran que el servidor tenía problemas. Este tipo particular de fallo en este único servidor causó que todos los servidores de aplicaciones empezaran a tener problemas al conectarse a este servidor, se reiniciaran ellos mismos de manera automática como acción preventiva, pero que no pudieran volver a reiniciar. Como todos nuestros sistemas indicaban que todos los servidores de estaban operando normalmente, no nos fue posible detectar rápidamente que ese servidor de bases de datos no había podido leer bien la configuración y por lo tanto, estaba con problemas.
Una vez detectado el fallo, configuramos correctamente el servidor de bases de datos y se empezaron a restablecer todos los servicios de aplicaciones. Este proceso tomó algún tiempo ya que todos los servicios estaban detenidos.
En la investigación, detectamos que si falla uno de los servidores de bases de datos, un cambio realizado hace algunos meses en los servicios de aplicaciones causa que estos servicios no puedan iniciar aún cuando todos los demás servidores de bases de datos estén funcionando bien. Vamos a proceder a cambiar esto de manera que si falla un servidor de base de datos, los servicios de aplicaciones puedan iniciar y dar servicio a los usuarios que no deberían verse afectados. De esta manera, podemos evitar que un fallo en un servidor impacte de manera severa al 100% de los usuarios de FinanzaPro.