Excelencia operativa en ingeniería, un caso de mejora continua

Escrito por: Tiago Fabre y Fredy Gadotti

Las operaciones comerciales pueden diferir mucho de una empresa a otra. Nubank, por su parte, requiere procesos operativos con altos estándares, porque cualquier problema menor puede impactar la vida financiera de miles de clientes.

La empresa tiene una pila tecnológica homogénea, con miles de servicios que utilizan Clojure, Kafka, Datomic y DynamoDB, una aplicación que utiliza Dart/Flutter y un canal de datos que utiliza Scala. Los ingenieros de producto de Nubank tienen necesidades operativas específicas a diario, incluido el desarrollo de nuevas funciones; trabajos en segundo plano asíncronos; integración con socios; soporte al cliente con casos de esquina; depuración; infraestructura de monitoreo; ahorro de costes; etcétera.

¡Sigue leyendo este artículo y aprende más sobre la excelencia operativa de ingeniería en NuSeguros!

En nuestra unidad de negocios, NuSeguros, la búsqueda de la excelencia operativa es una aventura emocionante. A medida que recorremos este emocionante viaje, buscamos constantemente resolver el enigma de cómo implementar procesos que minimicen los problemas y prevengan incidentes. No solo nos esforzamos por crear la mejor experiencia posible para el cliente, sino que también nos esforzamos por cultivar un entorno de apoyo para nuestros ingenieros capacitados.

En su búsqueda de la excelencia operativa, las empresas pueden enfrentar muchos desafíos. Los más desconcertantes son los principales obstáculos que enfrentan los equipos en general, quienes a menudo lidian con los extremos de tener procesos demasiado rigurosos o una falta total de procedimientos para manejar las operaciones.

A medida que profundizamos en el ámbito de los procesos operativos, a menudo descubrimos problemas y errores comunes en la fase de descubrimiento antes de que los planes de acción se pongan en marcha. Los problemas más insidiosos surgen cuando los procesos operativos no están bien definidos, lo que lleva a causas fundamentales no identificadas y problemas reales no resueltos. Esto, a su vez, puede crear un efecto de bola de nieve que amenaza con perturbar la misión de excelencia operativa.

La creación de un entorno de excelencia operativa en NuSeguros, por ejemplo, comienza con el patrocinio del liderazgo, una ventaja clave que a veces se descuida en el mercado. No tuvimos que convencerlos ni intentar hacer un gran cambio desde abajo: ellos ya conocían la importancia de las operaciones y las apoyaron desde el principio. Aquí desempeñan un papel importante en la creación de un entorno innovador, a través de:

Cultura irreprochable;
Apoyando la mejora continua;
Priorizando las causas fundamentales;
Reforzando los altos estándares de terceros;
Y teniendo un equilibrio entre iniciativas a corto plazo y a largo plazo.

Además de ese apoyo, se establecen métricas y objetivos para dejar claras las expectativas a todos y ayudar a la evolución del equipo a lo largo del proceso. Esto es esencial para evitar la paradoja de Abilene: un estado en el que la gente, a menudo temerosa del conflicto, no confronta el status quo, estancando todo el proceso.

A continuación se muestran algunos ejemplos de objetivos que tenemos aquí en Nubank:

Aprender de los errores: nuestro objetivo es abordar los incidentes de forma metódica, investigando sus causas fundamentales, abordándolos y evitando que vuelvan a ocurrir;
Tener más tiempo para agregar valor al negocio: esto está muy relacionado con el anterior, porque cuando abordamos las causas raíces y evitamos tareas repetitivas que normalmente solo abordan síntomas, podemos centrarnos en tareas que aportan valor a nuestros clientes;
Ofrecer la mejor experiencia al cliente: al resolver las causas fundamentales y tener más tiempo para agregar valor comercial, podemos centrarnos en las necesidades del cliente para brindar la mejor experiencia.

No hay forma de asegurarnos de que estamos alcanzando nuestros objetivos sin métricas, por lo que cada objetivo debe tener al menos una métrica adjunta. Y para los objetivos anteriores tenemos las siguientes métricas:

Causas raíz creadas versus resueltas: esto puede mostrar si estamos enfrentando nuevos problemas o resolviendo los conocidos;
Tickets de gravedad baja/alta: esta métrica puede darnos una idea de cuánto tiempo se dedica a problemas operativos. Si el volumen es alto y la gravedad es baja, es posible que nos enfrentemos a un escenario en el que necesitemos priorizar más deudas tecnológicas o iniciativas que puedan manejar múltiples problemas al mismo tiempo;
Tasa de error y tiempo de respuesta: estas métricas pueden ser un indicador para identificar cualquier tipo de malas experiencias desde el punto de vista del cliente.

Al seguir estos objetivos, también contamos con procesos para asegurarnos de que se cumplan las expectativas y que podamos dividirlas en fases de planificación, operación y evolución.

Planificación

Durante la fase de diseño de nuevas funcionalidades, es necesario revisar algunos temas para tener la definición de la tarea. Primero, cada característica necesita métricas y objetivos, conocidos como SLIs y SLOs. Esto definirá si una característica está funcionando incorrectamente o no. También debemos pensar en formas de manejar los problemas cuando ocurren; para garantizar que podamos tener manuales y paneles de control para identificar los problemas y establecer formas estándar de resolverlos.

Esto puede parecer un proceso oneroso, pero ya tenemos muchas métricas exportadas y paneles de control predeterminados, sin mencionar buenas herramientas para configurar alertas y métricas personalizadas.

Descubre las oportunidades

Operando

Después de las etapas de creación y prueba, debemos lanzar las nuevas funciones a nuestros clientes. Las cosas que asumimos durante el desarrollo podrían estar mal: la cantidad de accesos podría ser mayor de lo esperado y las piezas de infraestructura fuera de nuestro control pueden fallar, como proveedores de nube o terceros.

La cantidad de cosas que pueden salir mal son innumerables. Es por eso que siempre necesitamos ingenieros listos para reaccionar ante estos eventos no deseados y mitigar los problemas lo antes posible.

Ingeniero de guardia 24/7

Los ingenieros de Nubank tienen rotaciones que trabajan como de costumbre durante el horario comercial, para asegurarse de que todo funcione correctamente. Después de su horario laboral habitual, se les asignan tickets de alta gravedad definidos en la fase de Diseño. En el grupo de Seguros, cada ingeniero guarda este sombrero durante una semana entera. Cuando termina el turno, el traspaso se realiza con el siguiente ingeniero de guardia para tomar los tickets restantes de la semana, ya que a veces no es posible resolver todo durante la rotación.

Plataforma de seguimiento de tickets

Para lograr la excelencia operativa, debemos contar con las herramientas adecuadas que ayuden a controlar lo que sucedió durante la semana de guardia. Como dice Peter Drucker, ″no se puede mejorar lo que no se mide”, es por eso que todos los incidentes que violen los umbrales definidos en los SLO abrirán automáticamente un ticket con una gravedad que será verificada por el ingeniero de guardia. No sólo las violaciones a SLO abren tickets. De hecho, el equipo de soporte puede abrir tickets siempre que el cliente necesite ayuda. No importa cuál sea la fuente, todos los tickets se centralizarán en una plataforma de seguimiento que utiliza Nubank. De esta forma, el equipo puede priorizar las tareas más importantes.

Para dar visibilidad se enviará un mensaje en un canal de seguimiento de Slack. Y, dependiendo de la gravedad del incidente, se activará una alarma que le indicará al ingeniero que intervenga en el incidente dentro del tiempo acordado.

Tener este tipo de seguimiento nos da material para centrarnos en los objetivos iniciales siempre y cuando se hayan solucionado en el pasado, por ejemplo cuántos clientes se vieron afectados o cuál fue la causa raíz.

Manuales

¡Esta es una de las cosas más importantes en las que puede confiar el ingeniero de guardia! Después de identificar un problema, los ingenieros deben verificar si se conoce el problema o no. Cuando aparece un problema conocido, el ingeniero puede realizar un Procedimiento Operativo Estándar (SOP) para mitigar el problema más rápido y garantizar que todo funcionará sin problemas cuando los clientes utilicen el seguro.

Como parte de la semana de guardia, el ingeniero debe crear nuevos manuales para nuevos errores y actualizar los manuales anteriores con nueva información relevante, ya que el entorno es un ser vivo y cambia de vez en cuando a medida que se implementan nuevas funciones.

El principal objetivo de los manuales es aplicar algún procedimiento estándar para mitigar el problema causado por un incidente. Por lo general, la solución se prioriza entre otras tareas durante el sprint de desarrollo regular. Tenerlos podría ser útil para los nuevos ingenieros durante las rotaciones de guardia, o incluso para el mismo ingeniero que creó el manual en el pasado, ya que reduce la carga cognitiva y garantiza un enfoque estándar del problema.

Evolucionando

El proceso de guardia es un viaje sin fin y siempre intentamos reflexionar sobre lo que pasó durante la rotación y cómo podemos mejorar para suavizarlo en el futuro y recuperarnos cada vez más rápido. Estos son algunos de los rituales que realizamos:

Reunión de revisión semanal

Los turnos se rotan todos los miércoles al mediodía, por lo que antes de que termine hacemos una reunión para mostrar cuántos tickets tuvimos, su gravedad e impacto, entre otros. Durante estas reuniones analizamos todas las métricas y las discutimos: esto podría ayudar a otros ingenieros a aprender cómo reaccionar ante nuevos posibles problemas.

Para cada incidente, tenemos que analizar y descubrir la causa raíz porque queremos evitar que el problema se repita durante las rotaciones. Entonces, en cada reunión, verificamos las nuevas causas raíz creadas y cuáles de ellas se resolvieron definitivamente.

En esta reunión es donde revisamos nuestros objetivos iniciales y tratamos de mejorar el proceso general discutiendo lo que sucedió durante la rotación.

Postmortem

Realizar una autopsia es una de las herramientas más importantes que puede utilizar una empresa. Las personas cometemos errores, pero podemos evitarlos con procesos consolidados. Una de las formas más efectivas de mejorar el proceso es realizar un seguimiento de todo lo que sucede durante una interrupción. Es necesario recopilar los eventos y ver qué podríamos haber hecho mejor para evitar que ocurra cualquier problema.

Habitualmente, crear mecanismos es la forma más segura de garantizar el buen comportamiento del sistema. Para lograrlo, necesitamos crear alarmas, barreras de protección, controles de verificación y cualquier otra medida que podamos tomar para evitar buenas intenciones. Hay un buen hilo en Twitter sobre cómo Amazon se basa en mecanismos.

Realizar un postmortem con una técnica de los cinco porqués es un punto de partida sorprendente y puedes empezar a mejorarla tan pronto como empieces a descubrir cuál es la verdadera causa raíz del problema.

Elementos de acción

Cada reunión debe generar uno o más elementos de acción, y estos elementos deben tener un responsable y una fecha límite, que suele ser la siguiente reunión semanal. Estos elementos pueden ser correcciones de errores, creación de nuevas alarmas, mejoras del libro de jugadas o hablar con terceros, por ejemplo. Lo más importante es tener un responsable y una fecha de vencimiento, de lo contrario puedes estar seguro de que el problema volverá a aparecer. Resolver pequeños problemas, al principio, no parece tan agradable, pero la mejora continua es lo que hace que el proceso sea grandioso.

Conclusión

Al concluir nuestra exploración de la excelencia operativa en NuSeguros, por ejemplo, es esencial comprender que este viaje está lejos de terminar. La excelencia operativa no es un objetivo único, sino más bien un proceso continuo de mejora y adaptación, dejando siempre espacio para un mayor crecimiento.

La clave para lograrlo radica en crear un entorno en el que tanto los ingenieros experimentados como los recién llegados se sientan cómodos desafiando las soluciones existentes. Esta atmósfera dinámica no solo beneficia a nuestros clientes, que disfrutan de soluciones excepcionales, sino que también permite a nuestros ingenieros centrar su tiempo y energía en iniciativas impactantes que impulsen el progreso.

Para terminar, la búsqueda de la excelencia operativa es un compromiso continuo. Juntos, continuaremos aprendiendo, innovando y mejorando, asegurándonos de brindar constantemente excelencia en todo lo que hacemos.

Descubre las oportunidades

Excelencia operativa en ingeniería, un caso de mejora continua

Planificación

Operando

Ingeniero de guardia 24/7

Plataforma de seguimiento de tickets

Manuales

Evolucionando

Reunión de revisión semanal

Postmortem

Elementos de acción

Conclusión

Mas leido

Carreras

Quick Navigation

Quick Navigation

Outros temas

Carreras

Mas leido

Trabajando en Nu

Excelencia operativa en ingeniería, un caso de mejora continua

Planificación

Operando

Ingeniero de guardia 24/7

Plataforma de seguimiento de tickets

Manuales

Evolucionando

Reunión de revisión semanal

Postmortem

Elementos de acción

Conclusión

.typography-9154 { color: #000; background-color: transparent; margin-bottom: 0px } @media (min-width: 768px) { .typography-9154 { margin-bottom: 0px } } Mas leido

.typography-6399 { color: #FFF; background-color: transparent; margin-bottom: 16px } @media (min-width: 768px) { .typography-6399 { margin-bottom: 32px } } Carreras

.typography-5069 { color: #000000; background-color: #FFFFFF; margin-bottom: 0px } @media (min-width: 768px) { .typography-5069 { margin-bottom: 0px } } Quick Navigation

.typography-5069 { color: #000000; background-color: #FFFFFF; margin-bottom: 0px } @media (min-width: 768px) { .typography-5069 { margin-bottom: 0px } } Quick Navigation

.typography-2999 { color: #000000; background-color: transparent; margin-bottom: 48px } @media (min-width: 768px) { .typography-2999 { margin-bottom: 48px } } Outros temas

.typography-3432 { color: #FFF; background-color: transparent; margin-bottom: 16px } @media (min-width: 768px) { .typography-3432 { margin-bottom: 32px } } Carreras

.typography-928 { color: #000; background-color: transparent; margin-bottom: 0px } @media (min-width: 768px) { .typography-928 { margin-bottom: 0px } } Mas leido

.typography-8009 { color: linear-gradient(0deg, #00A851 0%, #00A851 10%,#1832D7 100%); background-color: transparent; margin-bottom: 0px } @media (min-width: 768px) { .typography-8009 { margin-bottom: 0px } } Trabajando en Nu

Descubre más desde Building Nubank

Mas leido

Carreras

Quick Navigation

Quick Navigation

Outros temas

Carreras

Mas leido

Trabajando en Nu