Write-up published
Read our write-up of this incident at https://docs.google.com/document/d/1RIqvwyNrxzA9XKJuO-avew3OXgnZtFbB/edit?usp=sharing&ouid=112787557392731380328&rtpof=true&sd=true
Resolved
Con base en los hallazgos identificados y las acciones correctivas implementadas, el servicio de biometría se encuentra actualmente estable.
Se logró mitigar la causa de las intermitencias, restableciendo el comportamiento esperado del servicio. Continuaremos con monitoreo activo para validar la estabilidad en el tiempo.
Se compartirá el análisis post-mortem con las partes interesadas a la brevedad.
Monitoring
Entre las 10:00 AM y 10:20 AM se detectó un comportamiento cíclico que generó intermitencia en el servicio biométrico.
Se identificó que la causa estaba relacionada con la JVM del servidor, la cual no estaba ejecutando correctamente el proceso de Garbage Collection, provocando que alcanzara el límite de memoria.
Como acción correctiva, se ajustó la configuración del GC y se dejó un margen adicional de memoria para reducir el riesgo de colapso del servicio.
El servicio se encuentra estable y en monitoreo desde las 10:30 AM.
Monitoring
Se realizó mantenimiento y actualización en el servidor biométrico la medianoche del día de ayer, aplicando ajustes para prevenir problemas a futuro.
El servicio se mantiene en monitoreo.
Monitoring
El servicio biométrico ha sido recuperado de forma exitosa y actualmente opera con normalidad. Se mantiene un monitoreo continuo para asegurar su estabilidad, mientras se da seguimiento con el proveedor para la identificación y remediación de la causa raíz del incidente.
Identified
Se detectó una degradación al rededor de la 1:10 PM en el servicio biométrico, generando posibles respuestas de error y/o latencia elevada en las solicitudes. El equipo se encuentra recuperando y monitoreando el servicio.
Monitoring
Aplicamos ajustes adicionales y por ahora ya no estamos viendo errores. Vamos a seguir monitoreando el servicio.
Adicionalmente, esta noche estaremos realizando algunos ajustes de infraestructura en el servicio biométrico; esto no interrumpirá la operación.
Monitoring
Ya aplicamos algunos ajustes al escalamiento y estamos viendo respuestas exitosas. El problema venía de un conflicto en el almacenamiento del servidor al momento de escribir logs, lo que estaba generando errores internos. Aun así, continuaremos trabajando en el transcurso de la tarde para evitar que vuelva a pasar.
Identified
Se detectó un conflicto en los logs del servidor derivado del escalamiento vertical automático. Actualmente se están aplicando ajustes para resolver la incidencia.
Investigating
Logramos recuperar el servicio por lo que en este momento deberia responder de forma adecuada, continuaremos monitoreando e investigando la raiz del problema.
Investigating
Se detectaron errores en el servidor biometrico, nos encontramos analizando la situacion.