No Engineering Meetup #13, uma plateia lotada se reuniu para conhecer um dos sistemas mais críticos na proteção do Nubank e de seus clientes: a Defense Platform.

A sessão foi conduzida por três especialistas profundamente envolvidos na construção e sustentação dessa tecnologia: Alessandro Bottmann, Staff Software Engineer com mais de 30 anos de experiência em tecnologia, conhecido por liderar times de engenharia e entregar soluções de alto impacto; Jairo Júnior, Senior Software Engineer apaixonado por arquitetura e sistemas escaláveis; e Rafael Rodrigues, Solutions Architect na AWS com mais de 15 anos de experiência em computação em nuvem.

Juntos, eles apresentaram a arquitetura, a evolução e os próximos passos do sistema que sustenta a prevenção a fraudes em todos os produtos e regiões do Nubank.

Uma plataforma que nasceu da complexidade

Nos primeiros anos, a detecção de fraudes no Nubank era descentralizada. Cada time de produto precisava se integrar a sistemas e serviços distintos para identificar e reagir a atividades suspeitas. Funcionava, mas não escalava. Havia ineficiências, inconsistências e atrasos longos para colocar uma nova defesa em produção.

Foi aí que surgiu a ideia da Defense Platform. Em vez de continuar colando soluções fragmentadas, o time imaginou um sistema unificado, capaz de lidar com milhões de eventos por dia, fácil de integrar com novos produtos e operando de forma confiável em múltiplas regiões. Ao longo dos últimos cinco anos, essa visão se tornou realidade.

Hoje, a plataforma processa centenas de milhões de eventos diariamente com mais de 99,98% de disponibilidade. Está em operação no Brasil, México e Colômbia — e pronta para ir ainda mais longe. Tudo isso é possível graças a um design focado em confiabilidade, escalabilidade, execução de baixa latência e eficiência de custo: um sistema feito para evoluir a longo prazo.

Conheça nossas oportunidades

O que acontece quando uma transação chega à plataforma?

Imagine que uma transação via PIX é realizada. A Defense Platform recebe o evento com todo o seu contexto: origem, destino, valor e mais. A partir daí, entra em ação um componente chamado Flow Orchestrator. Ele sabe exatamente quais processos esse tipo de evento deve seguir: no caso do PIX, mais de 40 processos diferentes podem ser executados em paralelo, incluindo regras de negócio e modelos de machine learning.

Esses componentes consultam dados a partir do que o Nubank chama de features, um sistema flexível que acessa bases internas, provedores externos e outros serviços. Depois que as regras e modelos avaliam o risco, o orquestrador toma uma decisão: a transação é segura ou deve acionar uma ação?

Essas ações podem ser em tempo real, como bloquear a transação ou exibir um aviso no app, ou assíncronas, como abrir um caso interno para investigação. Em todos os casos, o evento é registrado e processado pelo sistema distribuído de ETL do Nubank — que agrega mais de 100 terabytes de logs por dia — para análise contínua e melhorias futuras.

Feita para milhões, pensada para se adaptar

Os números da plataforma são expressivos. Ela processa cerca de 450 milhões de eventos por dia, gerando aproximadamente 5 milhões de requisições internas por minuto. Isso porque um único evento, como uma transação PIX, pode acionar dezenas de processos subsequentes.

Para suportar essa carga, o Nubank conta com uma arquitetura altamente distribuída, com 20 shards só no Brasil — réplicas completas do sistema que ajudam a distribuir o tráfego e manter a baixa latência para milhões de usuários.

Essa arquitetura é sustentada por uma stack tecnológica baseada em Clojure, Datomic (sobre DynamoDB) e Kafka. Os modelos de machine learning são desenvolvidos em Python, e a observabilidade está presente em todas as camadas por meio de logs, traces e métricas em tempo real.

Otimizando a detecção de riscos

No centro da plataforma está uma estrutura dual: detecção e ação. A detecção pode acontecer via regras escritas manualmente ou por modelos de machine learning. Como os modelos tendem a ser mais lentos, a plataforma adota uma estratégia inteligente: se uma regra já consegue indicar com segurança que a transação é de alto risco, o modelo nem é executado — economizando tempo e recursos.

Todas as defesas passam por uma fase de shadow testing antes de serem liberadas. Nesta fase, novas regras e modelos rodam em paralelo ao ambiente de produção, com dados reais, mas sem impactar os usuários. Isso permite validar a acurácia e a performance em condições reais, sem risco.

O orquestrador, repensado

A primeira versão do orquestrador era simples, mas ineficiente. Ele executava os componentes em camadas, o que obrigava até processos de baixa latência a esperar os demais. Recentemente, o time refez esse componente com base em um modelo DAG (Directed Acyclic Graph), usando uma biblioteca open source desenvolvida no Nubank chamada Nodely.

No novo modelo, cada componente espera apenas pelos dados dos quais depende — e nada mais. Com isso, o tempo de processamento em fluxos complexos caiu de 550 para cerca de 350 milissegundos, uma melhoria significativa em um sistema que lida com milhões de transações todos os dias.

Tornando a defesa mais acessível

Hoje, escrever regras ainda exige trabalho de engenharia. Mas o time está trabalhando para mudar isso. Ao mover mais partes da plataforma para um modelo declarativo, baseado em configuração, o objetivo é permitir que analistas de fraude e outros perfis não técnicos contribuam diretamente. Isso significa mais agilidade, mais autonomia e melhor resposta a ameaças emergentes.

A plataforma também está evoluindo para dar mais visibilidade aos times de produto sobre o custo operacional de cada defesa. Com isso, será possível tomar decisões mais inteligentes não só sobre risco, mas sobre eficiência também.

Insights da AWS: ampliando a detecção de fraudes

Depois do mergulho na plataforma do Nubank, Rafael Rodrigues, da AWS, trouxe uma visão prática de como instituições financeiras estão usando ferramentas em nuvem para combater fraudes. Ele mostrou como o Amazon Rekognition pode realizar verificação de documentos e reconhecimento facial, incluindo detecção de vivacidade (liveness detection).

Também demonstrou o Textract, que extrai dados de documentos de identidade, e o SageMaker, usado para treinar modelos de detecção de fraudes — seja com aprendizado supervisionado tradicional ou técnicas mais avançadas, como detecção de anomalias e modelagem com grafos.

Um destaque foi o AWS CleanRooms, que permite a colaboração segura entre empresas em conjuntos de dados compartilhados, sem expor informações sensíveis — abrindo caminho para esforços conjuntos de combate à fraude entre instituições.

Por que grafos mudam o jogo

A modelagem por grafos foi um dos pontos altos. Diferente da detecção tradicional, que analisa cada transação isoladamente, os modelos baseados em grafos revelam conexões entre usuários, dispositivos, IPs e muito mais.

Rafael mostrou como mapear essas conexões permite identificar rapidamente quadrilhas de fraude, reconhecer identidades roubadas reutilizadas em várias contas e detectar comportamentos suspeitos que seriam difíceis de enxergar de outra forma. Com o Amazon Neptune como base de dados de grafos e o SageMaker para treinamento, o potencial para defesas mais poderosas e contextuais é evidente.

Considerações finais

A fraude está sempre evoluindo e a nossa plataforma também. Com uma arquitetura que combina desempenho, flexibilidade e observabilidade, a Defense Platform está em constante aprimoramento. Seja adotando novos modelos, repensando a orquestração ou ampliando quem pode construir defesas, a missão continua a mesma: proteger nossos clientes, em escala.

E ao unir a expertise interna com colaborações externas (como as ferramentas e serviços da AWS) estamos construindo um ecossistema de segurança que se fortalece a cada nova transação.

Conheça nossas oportunidades