Se está presentando un problema de acceso a los servidores de aplicaciones
Incident Report for FinanzaPro
Postmortem

Hoy detectamos una situación en donde el fallo en un servidor de base de datos, algo que debió afectar momentáneamente sólo a un grupo reducido de usuarios, generó una reacción en cadena que causó que todos los servidores de aplicaciones se detuvieran de manera simultánea y no pudieran volver a reiniciar.

Lamentamos el tiempo de interrupción que esto pudo ocasionar en la operación diaria de nuestros usuarios.

Situación

Cuando falló el servidor de base de datos, el mismo se reinició como procedimiento estándar en estos casos. Sin embargo, al hacerlo perdió parte de su configuración e inició de manera parcial, lo que causó que nuestros sistemas de monitoreo y alarmas no detectaran que el servidor tenía problemas. Este tipo particular de fallo en este único servidor causó que todos los servidores de aplicaciones empezaran a tener problemas al conectarse a este servidor, se reiniciaran ellos mismos de manera automática como acción preventiva, pero que no pudieran volver a reiniciar. Como todos nuestros sistemas indicaban que todos los servidores de estaban operando normalmente, no nos fue posible detectar rápidamente que ese servidor de bases de datos no había podido leer bien la configuración y por lo tanto, estaba con problemas.

Una vez detectado el fallo, configuramos correctamente el servidor de bases de datos y se empezaron a restablecer todos los servicios de aplicaciones. Este proceso tomó algún tiempo ya que todos los servicios estaban detenidos.

Plan de remediación

En la investigación, detectamos que si falla uno de los servidores de bases de datos, un cambio realizado hace algunos meses en los servicios de aplicaciones causa que estos servicios no puedan iniciar aún cuando todos los demás servidores de bases de datos estén funcionando bien. Vamos a proceder a cambiar esto de manera que si falla un servidor de base de datos, los servicios de aplicaciones puedan iniciar y dar servicio a los usuarios que no deberían verse afectados. De esta manera, podemos evitar que un fallo en un servidor impacte de manera severa al 100% de los usuarios de FinanzaPro.

Posted Sep 15, 2020 - 15:20 CST

Resolved
Este incidente ha sido resuelto.
Posted Sep 15, 2020 - 14:18 CST
Monitoring
Estamos monitoreando los servicios para asegurarnos que ya están todos operando normalmente.
Posted Sep 15, 2020 - 14:07 CST
Update
Los servicios de aplicaciones ya están en su mayoría restablecidos. Ya los usuarios deben poder ingresar y empezar a trabajar normalmente.
Posted Sep 15, 2020 - 14:07 CST
Update
Ya implementamos una solución para el problema y los servicios se están restableciendo lentamente. Continuamos trabajando en resolver esta situación lo más pronto posible.
Posted Sep 15, 2020 - 14:02 CST
Identified
El problema ha sido identificado y estamos trabajando en una solución.
Posted Sep 15, 2020 - 13:53 CST
Update
Continuamos investigando y haciendo todos los esfuerzos posibles para resolver este incidente.
Posted Sep 15, 2020 - 13:49 CST
Investigating
Estamos investigando el problema.
Posted Sep 15, 2020 - 13:32 CST
This incident affected: Servicios de Aplicaciones.