mais lidos
Life at Nu
Conheça a sede do Nubank em Pinheiros, São Paulo/Brasil jan 11
Design
A nova aparência do Nubank: conheça nossa nova logo maio 17
Culture & Values
Como os valores e a cultura da Nu moldam os produtos que criamos ago 7
Carreiras
Reunimos grandes mentes de diversas origens que permitem a discussão e o debate e melhoram a resolução de problemas.
Saiba mais sobre nossas carreiras



Escrito por: Tiago Fabre e Fredy Gadotti
Operações de negócio podem variar bastante entre empresas. No caso do Nubank, é necessário ter processos operacionais com elevados padrões, já que qualquer problema pode impactar as vidas financeiras de milhares de clientes.
A empresa possui uma pilha de tecnologia homogênea, com milhares de serviços usando Clojure, Kafka, Datomic e DynamoDB, um aplicativo que usa Dart/Flutter e um pipeline de dados usando Scala. Engenheiros de produto no Nubank têm necessidades operacionais específicas diariamente, incluindo o desenvolvimento de novos recursos, tarefas assíncronas em segundo plano, integração com parceiros, apoio ao cliente em casos específicos, depuração, infraestrutura de monitoração, economia de gastos e mais.
Continue lendo este artigo e saiba mais sobre a excelência operacional em engenharia no NuSeguros!
Em uma de nossas unidades de negócios, NuSeguros, a busca pela excelência operacional é uma aventura emocionante. Durante esta jornada incrível, estamos sempre procurando solucionar o enigma de como implementar processos que minimizam problemas e previnem incidentes. Não só queremos criar a melhor experiência para clientes possível, mas também desejamos cultivar um ambiente de apoio para nossos engenheiros talentosos.
Na missão em busca da excelência operacional, as empresas podem encontrar diversos desafios. Os mais intrigantes são os principais gargalos encontrados pelas equipes de forma geral, que frequentemente estão nos extremos e têm que lidar com processos desnecessariamente rigorosos ou uma total falta de procedimentos para lidar com as operações.
Ao mergulharmos mais fundo nos processos operacionais, normalmente descobrimos problemas e erros comuns antes que os planos de ação comecem a ser executados. Os mais insidiosos acontecem quando os processos operacionais não são bem definidos, levando a causas principais não identificadas e problemas reais não solucionados. Então, isto pode criar uma bola de neve que pode prejudicar a busca pela excelência operacional.
A criação de um ambiente de excelência operacional no caso da NuSeguros começa com o apoio da liderança, uma vantagem importante que, às vezes, é ignorada no mercado. Não tivemos que convencê-la ou tentar mudar de baixo para cima. Ela já sabia sobre a importância das operações e apoiou desde o começo. Aqui ela é uma peça-chave na criação de um ambiente inovador por meio de:
Além desse apoio, métricas e objetivos são definidos para que as expectativas sejam claras para todo mundo e ajudar a evolução da equipe ao longo do processo. Isto é essencial para evitar o Paradoxo de Abilene, um estado em que as pessoas, normalmente com receio de conflito, não enfrentam o status quo, estagnando todo o processo.
Aqui estão alguns exemplos de objetivos que temos no Nubank:
Não há forma de garantir que possamos alcançar nossos objetivos sem métricas. Por isso, cada objetivo deve ter pelo menos uma métrica relacionada a ele. E para os objetivos acima, temos as seguintes métricas:
Ao seguirmos estes objetivos, também temos processos para garantir que as expectativas sejam atendidas e possamos transformá-las em etapas de planejamento, operações e evoluções.
Planejamento
Durante a etapa de design dos novos recursos, alguns tópicos precisam ser revisados para definir a tarefa. Primeiramente, cada recurso precisa de métricas e objetivos-alvo, conhecidos como SLIs e SLOs. Isto vai definir se um recurso está com mau funcionamento ou não. Também precisamos pensar em como lidar com problemas quando eles acontecem. Para garantir isto, podemos ter manuais e painéis para identificar problemas e padronizar formas de resolvê-los.
Isto pode ser um processo oneroso, mas já temos diversas métricas sendo exportadas e painéis por padrão, sem falar de um bom uso de ferramentas para definir métricas e alertas personalizados.
Conheça nossas oportunidades
Operação
Após as etapas de criação e testes, precisamos lançar os novos recursos para os clientes. Coisas que presumimos durante o desenvolvimento podem estar incorretas: a quantidade de acessos pode ser maior do que o esperado, e as partes da infraestrutura que fogem do nosso controle podem falhar, como provedores da nuvem e terceiros.
A quantidade de coisas que pode dar errado é infinita. É por isso que sempre precisamos ter engenheiros em alerta para reagir a estes eventos indesejados e resolver problemas assim que possível.
Engenharia sempre em alerta
Os engenheiros no Nubank possuem rotações que funcionam normalmente durante o horário de trabalho, para garantir que tudo funcione corretamente. Após o horário de trabalho normal, são transferidos para chamadas de gravidade alta definidas na etapa de Design. No grupo de Seguros, cada engenheiro mantém este papel durante uma semana. Quando o plantão acaba, a carga remanescente é transferida para o próximo engenheiro disponível para lidar com as chamadas restantes da semana, já que nem sempre é possível resolver tudo durante a rotação.
Plataforma de rastreamento de chamadas
Para obter excelência operacional, devemos ter as ferramentas apropriadas para ajudar a controlar o que aconteceu na semana. Como diz Peter Drucker: “Não é possível aprimorar o que não é medido”. É por isso que incidentes que violam os limites estabelecidos nos SLOs vão abrir automaticamente uma chamada com gravidade que será verificada pelo engenheiro disponível. Não são só violações nos SLOs que abrem chamadas. Na verdade, a equipe de suporte pode abrir chamadas sempre que o cliente precisar de ajuda. Não importa a fonte. Todas as chamadas serão centralizadas em uma plataforma de rastreio que o Nubank utiliza. Desta forma, a equipe pode priorizar as tarefas mais importantes.
Para dar visibilidade, uma mensagem será enviada em um canal de monitoração do Slack. E, dependendo da gravidade, um alarme também será ativado para avisar o engenheiro para lidar com o incidente no tempo acordado.
Ter este tipo de rastreio nos dá materiais para focar nos objetivos iniciais, desde que tenham sido resolvidos anteriormente. Por exemplo: quantos clientes foram afetados ou qual foi a causa principal.
Manuais
Isto é uma das coisas mais importantes que o engenheiro de plantão pode utilizar! Após a identificação do problemas, os engenheiros devem verificar se o problema é conhecido ou não. Quando um problema conhecido aparece, o engenheiro pode fazer um Procedimento Operacional Padrão (POP) para resolver o problema mais rápido e garantir que tudo esteja funcionando normalmente quando os clientes usarem o seguro.
Como parte da semana de plantão, o engenheiro deve criar novos manuais para novos erros e atualizar os já existentes com as informações relevantes, já que o ambiente está em constante atualização, de acordo com os novos recursos sendo implementados.
O principal objetivo dos manuais é aplicar algum tipo de procedimento padrão para resolver o problema causado por um incidente. Normalmente, a correção é priorizada entre outras tarefas durante o desenvolvimento ágil normal. Tê-los pode ser importante para novos engenheiros de plantão em outras rotações, ou até para o mesmo engenheiro que criou o manual antes, já que reduz a carga cognitiva e garante um procedimento padrão em relação ao problema.
Em evolução
O processo de plantão é uma jornada sem fim, e sempre tentamos refletir sobre o que aconteceu durante a rotação e como podemos melhorar no futuro e recuperar mais rapidamente. Aqui estão alguns dos nossos processos:
Reunião semanal de análise
Os turnos sofrem rotação toda quarta-feira, ao meio-dia. Então, antes que termine, fazemos uma reunião para mostrar quantas chamadas tivemos, quais foram as gravidades, os impactos e mais. Durante estas reuniões, analisamos todas as métricas e as discutimos. Isto pode ajudar outros engenheiros a entender como reagir a novos problemas possíveis.
Para cada incidente, temos que analisar e descobrir a causa principal, já que queremos evitar repetição de problemas durante rotações. Por isso, em cada reunião, checamos as causas principais criadas e quais foram definitivamente solucionadas.
É nesta reunião que analisamos nossos objetivos principais e tentamos melhorar o processo geral discutindo o que aconteceu durante a rotação.
“Pós-mortem”
Fazer uma análise “pós-mortem” é uma das ferramentas mais importantes que podem ser usadas por uma empresa. As pessoas cometem erros, mas podemos evitá-los com processos consolidados. Uma das formas mais eficazes de aprimorar o processo é rastrear tudo que acontece durante uma falha. É necessário reunir os eventos e analisar o que podia ter sido feito melhor para evitar que qualquer problema aconteça.
Normalmente, a criação de mecanismos é a forma mais segura de garantir um bom comportamento do sistema. Para que isto aconteça, precisamos criar alarmes, proteções, controles de verificação e tudo que for possível para evitar problemas. No Twitter, há um ótimo fio sobre como a Amazon depende de mecanismos.
Fazer uma análise “pós-mortem” com a técnica dos cinco motivos é um ótimo começo, e é possível aprimorar assim que você descobre qual é a causa principal do problema.
Itens de ação
Cada reunião deve gerar um ou mais itens de ação, e estes itens devem ter um proprietário e um prazo, que normalmente é a próxima reunião semanal. Estes itens podem ser correções de bugs, criação de alarmes novos, melhorias em manuais ou falar com terceiros, por exemplo. A parte mais importante é ter um proprietário e um prazo. Caso contrário, o problema com certeza aparecerá novamente. No começo, resolver pequenos problemas não é tão legal, mas melhorias contínuas tornam o processo ótimo.
Conclusão
Ao concluirmos a exploração da excelência operacional no NuSeguros, por exemplo, é importante entender que esta jornada está longe do fim. Excelência operacional não é um objetivo único, mas sim um processo contínuo de melhorias e adaptações, sempre deixando espaço para mais crescimento.
A chave para conquistar isto é criar um ambiente onde engenheiros experientes e novatos se sintam confortáveis desafiando soluções existentes. Esta atmosfera dinâmica não beneficia apenas nossos clientes, que adoram soluções fantásticas, mas também empodera nossa equipe de engenharia para focar tempo e energia em iniciativas impactantes que nos levam ao progresso.
Para concluir, a busca pela excelência operacional é um compromisso contínuo. Juntos, vamos continuar a aprender, inovar e melhorar, garantindo sempre a entrega da excelência em tudo que fizermos.
Conheça nossas oportunidades