En Nubank, el equipo de confiabilidad busca continuamente mejorar nuestro procedimiento de gestión de incidentes proporcionando herramientas, mejores procesos y mucho más. Nuestro objetivo es apoyar a nuestros ingenieros en el viaje para mitigar los problemas operativos en un entorno saludable, basado en una cultura intachable y cumpliendo con todas las normas regulatorias relativas a las empresas financieras.

Cualquier tipo de problema que afecte a nuestros sistemas y que, de alguna manera, impacte a nuestros clientes puede considerarse un incidente técnico; nuestros sistemas de monitoreo lo identifican y nuestro equipo de ingeniería debe solucionarlo lo antes posible.

Un incidente se puede dividir en dos partes: la primera es el manejo del incidente en sí y la segunda las acciones tomadas después de un incidente, como planes de acción. Hagamos un recorrido y veamos cómo afrontamos estas situaciones que evitamos, pero que ocasionalmente pueden suceder.

Tan importante como evitar incidentes, es necesario estar preparados para una recuperación rápida y segura, mitigar impactos y brindar la mejor experiencia para hacer felices a nuestros clientes.

Identificar un Incidente

Nuestro sistema de alertas es tema para otra publicación pero, en resumen, los escuadrones pueden crear alertas personalizadas para sus servicios y cada servicio también tiene un conjunto de alertas predeterminadas, como servicio inactivo. Se les notifica en su canal de slack y OpsGenie llama al ingeniero de guardia del equipo responsable del sistema. Si se identifica un incidente, deben comenzar a trabajar en él de inmediato.

Descubre las oportunidades

Abriendo un Error

Seguimos un marco simple en el que el primer paso es abrir un error. Esto significa notificar a toda la empresa que nos enfrentamos a un incidente y que los Nubankers ya lo están solucionando.

Las incidencias identificadas se reportan mediante un bot a través de Slack (principal herramienta de comunicación interna), esta automatización centraliza toda la gestión de la incidencia: las personas la utilizan para crear, editar y cerrar. El principal beneficio de usarlo es organizar la situación, activar a otras partes interesadas (como el equipo de riesgo y cumplimiento) y brindar la visibilidad adecuada a la empresa. Además de eso, también podemos obtener datos sobre incidentes para extraer métricas clave, como nuestro MTTR (una de las métricas de Accelerate).

Antes de abrir un error, primero, el ingeniero involucrado debe comprender el nivel de gravedad, clasificándolo entre 1 (incidente crítico) y 5 (problema cosmético). Estas clasificaciones incluyen criterios sobre disponibilidad, cantidad de clientes afectados, producto afectado, cuestiones regulatorias y otros.

La información principal necesaria para abrir un error es:

  • Gravedad: La gravedad del incidente, siguiendo el patrón descrito anteriormente.
  • Breve descripción: Una breve descripción del problema.
  • Países afectados: Países donde tenemos operaciones afectados.
  • Punto: El ingeniero actúa como punto focal del error y coordina todos los esfuerzos para solucionarlo.
  • Comunicaciones: El ingeniero responsable de informar el estado del accidente a la empresa y dar suficiente información sobre el mismo para quien quiera.

Después del envío, se publicará un resumen del incidente en Slack notificando a los equipos correspondientes sobre el accidente mientras los ingenieros trabajan para solucionarlo.

Abrir mensaje de incidente en Slack

Trabajando en ello

En este paso, como podrás imaginar, puede pasar cualquier cosa. Las personas generalmente abren una llamada de voz y comienzan a trabajar en depurar y solucionar el problema, los equipos de operaciones comienzan a preparar explicaciones comprensibles para nuestros clientes y el enfoque del equipo de ingeniería es mitigar el impacto y recuperar el sistema a su estado adecuado.

En este punto, es importante que todos los que puedan ayudar con algo se involucren (especialmente en incidentes de alto nivel de gravedad), y el Nubanker a cargo de las comunicaciones sigue actualizando el hilo del incidente con noticias al respecto – para que todos en la empresa puedan estar al tanto en tiempo real.

Una vez que el error se haya solucionado por completo y no ocurra nada inusual, el fallo se puede cerrar usando nuestro bot y ¡todo volverá a estar bien!

Mensaje de incidente cerrado en Slack

Cultura irreprochable y Post mortem

El Post mortem es esencial en la gestión de incidentes. Su principal objetivo es garantizar que las empresas aprendan de los accidentes, los registren y aseguren el intercambio de conocimientos sobre ellos.

“Los objetivos principales de redactar una autopsia son garantizar que el incidente esté documentado, que todas las causas fundamentales que contribuyen se comprendan bien, y, especialmente, que se implementen acciones preventivas efectivas para reducir la probabilidad y/o el impacto de su recurrencia”.

Libro de Google SRE

En Nubank escribimos una autopsia para todos los accidentes de alta gravedad, pero la recomendamos para todas las gravedades. Una vez cerrado el fallo, los ingenieros deben escribir un documento al respecto, siguiendo una plantilla específica, con estos temas:

  • Resumen: Un breve resumen del fallo que contiene el nivel de gravedad, el punto, las comunicaciones, el tiempo de detección, el tiempo de resolución y una descripción.
  • Cronología de los accidentes: Una cronología de todos los elementos relevantes que involucraron el accidente.
  • Acciones realizadas para solucionar el problema: Una lista de todas las acciones tomadas para solucionarlo.
  • Impacto en el Cliente y el Negocio: Breve descripción del impacto del incidente en el negocio y en los clientes.
  • Causa raíz y factores Contribuyentes:: Descripción después de un análisis profundo y comprensión de las causas fundamentales y los factores que contribuyeron al accidente. En este punto, animamos a las personas a utilizar 5 porqués para ayudar a comprender en profundidad la causa raíz.
  • Notas de la Reunión: Cualquier nota sobre el incidente que pueda ser de utilidad.
  • Elementos de Acción: Una lista de acciones que se deben tomar para evitar que el accidente vuelva a ocurrir y ayudarnos a recuperarnos rápidamente de incidentes futuros.
  • Regulatoria: Alguna información regulatoria que necesitamos para informar al banco central sobre las crisis.
  • Referencias: Cualquier referencia necesaria, como enlaces útiles, artículos, etc.

Una vez publicado este documento, estará disponible para que toda la empresa lo lea y aprenda de él, y los ingenieros comienzan a trabajar en el plan de acción para evitar que esto vuelva a suceder.

No tendríamos un entorno saludable para afrontar accidentes y autopsias si no viviéramos en una cultura libre de culpa: no tratamos de encontrar un culpable, sino más bien tratamos de entender qué pasó y qué hay que hacer para que no vuelva a suceder.

““Es necesario que exista una cultura sin culpa, y no como regla, sino como cultura de toda la empresa, la gente no debe señalar a nadie, sino encontrar la causa raíz, tomar medidas para que no vuelva a suceder y aprender mucho de ello”.

Como celebración de nuestra cultura post mortem e irreprochable, tenemos una reunión mensual con toda la empresa, donde las personas involucradas en algunos accidentes del mes en curso comparten las lecciones aprendidas y las acciones a tomar.

Una forma común de reaccionar ante los incidentes en Nubank es decir “fascinante” mientras se ponen las manos sobre la cabeza (siendo una reacción de Slack ahora que trabajamos desde casa), esto realmente simboliza la forma en que abordamos los incidentes aquí, algunas cosas pueden suceder, pero cuando suceden lo consideramos fascinante y nos encanta aprender de ello.

Esta es una imagen de este encuentro antes de la pandemia en el que todos reaccionaban con “fascinante”:

Pensamiento final

Nuestro proceso de gestión de incidencias está en constante actualización, para trabajar siempre de la mejor manera, eficaz y sencilla. Se producirán cambios futuros (siempre están ocurriendo), pero más importante que el proceso es la cultura: personas actuando sin culpa, ayudándose entre sí y siempre tratando de mejorar y brindar a nuestros clientes la mejor experiencia posible.

La cultura libre de culpas es el aspecto más importante de nuestra gestión de incidentes.

Descubre las oportunidades