Se está presentando un error al actualizar productos, lo que está generando errores en otros procesos que también actualizan datos de productos.
Incident Report for FinanzaPro
Postmortem

Resumen del Incidente:

El día 15 de diciembre de 2023, nuestros usuarios experimentaron problemas al actualizar productos dentro de nuestra plataforma FinanzaPro. Este inconveniente desencadenó errores en otros procesos vinculados a la actualización de datos de productos.

Cronología del Evento:

  • 08:34 CST: Recibimos reportes de errores de usuarios y se inició la investigación del problema.
  • 08:57 CST: Identificamos el problema y comenzamos a elaborar una corrección.
  • 09:21 CST: Anunciamos la necesidad de detener todos los servidores para implementar la solución, anticipando una interrupción del servicio de aproximadamente 10 minuto (el proceso de recuperación eventualmente tomó más tiempo del esperado).
  • 09:25 CST: Procedimos a detener los servidores de la plataforma para trabajar en la solución.
  • 09:42 CST: Iniciamos el proceso de restablecimiento de los servicios.
  • 10:01 CST: Logramos levantar todos los servicios de la plataforma, esperando que la capacidad se estabilizara en los minutos siguientes.
  • 10:12 CST: La plataforma se encontraba operativa y comenzamos la fase de monitoreo.
  • 10:25 CST: Confirmamos la resolución del incidente.

Origen de la Falla:

La raíz del problema se originó a partir de una corrección de código que se realizó de último momento y sin las pruebas apropiadas. Dado que nuestra plataforma legacy requiere que nadie esté utilizando las bases de datos para realizar actualizaciones en nuestras bases de datos, fue necesario detener el servicio completo. Esta acción implicó la suspensión temporal de decenas de servidores para garantizar que la corrección pudiera aplicarse sin interferencias y luego restablecer el servicio de manera gradual y segura.

Disculpas y Compromiso:

En FinanzaPro, somos conscientes de la importancia crítica que tiene nuestra plataforma para la operación diaria de su negocio. Lamentamos profundamente los inconvenientes que este incidente pudo haber causado y estamos comprometidos a aprender de experiencias como esta. Tomaremos medidas para evitar que una situación similar ocurra en el futuro, incluyendo la implementación de protocolos más estrictos para el manejo de actualizaciones en la plataforma legacy, especialmente en cambios o correcciones de último minuto.

Reconocemos que cada minuto de operatividad es valioso para nuestros usuarios, y por eso queremos extender nuestras más sinceras disculpas a todos los usuarios de FinanzaPro por las molestias que este incidente pudo generar. Agradecemos su comprensión y la confianza que continúan depositando en nosotros.

Medidas Correctivas:

  • Reforzaremos nuestro ciclo de pruebas antes de cualquier actualización en el entorno de producción de la plataforma legacy, especialmente para correcciones de último minuto.
  • Continuaremos con la migración y mejoramiento de la arquitectura de nuestra plataforma, ya que en la nueva arquitectura, las actualizaciones no son intrusivas y pueden realizarse de una manera más ágil y localizada.

Agradecimiento:

Gracias por su paciencia y comprensión durante este tiempo. Nos esforzamos por mejorar continuamente y mantener la calidad y la confiabilidad que usted espera de FinanzaPro.

Atentamente,

Arturo Monge
Director Ejecutivo de FinanzaPro

Posted Dec 15, 2023 - 10:49 CST

Resolved
Este incidente ha sido resuelto.
Posted Dec 15, 2023 - 10:25 CST
Monitoring
Ya la plataforma se encuentra totalmente operacional. Estamos monitoreando que todos los usuarios puedan ya ingresar sin problemas.
Posted Dec 15, 2023 - 10:12 CST
Update
Ya se completó el proceso de levantar todos los servicios de la plataforma. La plataforma está todavía en proceso de alcanzar la capacidad ideal, lo cual va a tomar algunos minutos más.
Posted Dec 15, 2023 - 10:01 CST
Update
Estamos empezando a restablecer los servicios de la plataforma.
Posted Dec 15, 2023 - 09:42 CST
Update
Hemos empezado el proceso de detener los servidores de la plataforma. Les vamos a avisar cuando se restablezca el servicio.
Posted Dec 15, 2023 - 09:25 CST
Update
Estamos preparando la implementación de la corrección. Esto va a requerir detener por unos 10 minutos todos los servidores de la plataforma, por lo que vamos a tener durante este tiempo la plataforma sin servicio. Les estaremos comunicando cuando empecemos este proceso.
Posted Dec 15, 2023 - 09:21 CST
Identified
El problema ha sido identificado y en este momento están preparando una corrección.
Posted Dec 15, 2023 - 08:57 CST
Investigating
Estamos actualmente investigando el problema.
Posted Dec 15, 2023 - 08:54 CST
This incident affected: Servicios de Datos (Servicios de Datos Zona 1, Servicios de Datos Zona 2, Servicios de Datos Zona 3, Servicios de Datos Zona 4) and Servicios de Aplicaciones.