mais lidos
Life at Nu
Conheça a sede do Nubank em Pinheiros, São Paulo/Brasil jan 11
Design
A nova aparência do Nubank: conheça nossa nova logo maio 17
Culture & Values
Como os valores e a cultura da Nu moldam os produtos que criamos ago 7
Carreiras
Reunimos grandes mentes de diversas origens que permitem a discussão e o debate e melhoram a resolução de problemas.
Saiba mais sobre nossas carreiras



Written by: Aman Gupta, Daniel Braithwaite
No universo de alto risco das finanças globais, a margem para erro é zero. No Nu, atendemos 131 milhões de clientes no Brasil, México e Colômbia. Para um neobank dessa escala, a era do “chatbot” já ficou para trás. Nosso desafio agora é ir além da simples recuperação de respostas de FAQ e construir sistemas autônomos capazes de lidar com renegociação de dívidas, logística de cartões e prevenção a fraudes, sempre mantendo a confiança absoluta de uma base de clientes que espera suporte imediato, empático e factualmente correto.
Minha perspectiva vem de mais de uma década trabalhando em empresas como Apple, Amazon e LinkedIn, além de uma forte conexão com a comunidade de pesquisa, com publicações em conferências como NeurIPS, ICML e ICLR. Como criador do Quant Ease, o primeiro algoritmo de quantização em larga escala baseado em coordinate descent, e pesquisador em alinhamento de preferências para LLMs, aprendi que a “mágica” dos agentes de IA é, na verdade, um problema de infraestrutura. Para construir agentes que funcionem para centenas de milhões de usuários, é preciso abandonar a “bruxaria de prompts” e adotar o rigor arquitetural.
Estas são cinco das lições mais difíceis que aprendemos construindo agentes de IA em produção.
1. A abordagem “Evals-First”: de NPS para TNPS
Métricas tradicionais podem ser uma armadilha no desenvolvimento de IA. Muitas organizações usam o Net Promoter Score (NPS) para medir sucesso, mas em ambientes de suporte de alto volume o NPS funciona mal. A taxa de resposta costuma ser baixa, o feedback chega com dias de atraso e a amostra não tem poder estatístico suficiente para ciclos rápidos de testes A/B.
Para escalar, é preciso migrar para TNPS (Transactional Net Promoter Score), avaliando a interação específica com a IA imediatamente, e complementar isso com um framework de “LLM-as-a-judge”. Ao invés de esperar por uma pesquisa que talvez nunca seja respondida, usamos um segundo LLM, atuando como auditor, para avaliar 100% das conversas com base em critérios binários:
Ao sair de uma pequena amostra de pesquisas para uma auditoria completa das interações, conseguimos iterar diariamente sobre diferentes variantes. Como diz o princípio básico: se você não mede, não consegue melhorar.
Conheça nossas oportunidades
2. Redefinindo o que é um agente: o paradigma ReAct
A palavra “agente” hoje está cercada de muito ruído. Em produção, um agente não é apenas um gerador de texto, é um sistema autônomo que segue o paradigma ReAct (Reasoning and Acting). Ou seja, um “cérebro” que raciocina e um conjunto de ferramentas que executam ações para resolver tarefas de ponta a ponta.
Arquiteturalmente, definimos o agente em três camadas:
Se o seu sistema não consegue executar uma ação no mundo real (como reenviar um cartão perdido ou atualizar um limite de crédito) então ele não é um agente. É apenas uma interface de busca.
3. Pare de escrever prompts: a era da otimização de prompts
Uma das conclusões mais contraintuitivas que encontramos é que humanos são ruins em escrever prompts para produção. Prompts escritos manualmente tendem a ser frágeis e altamente dependentes do modelo.
Já observamos situações em que migrar para modelos de nova geração (por exemplo, sair do GPT-4 para modelos mais avançados de raciocínio) quebra agentes existentes. Isso acontece porque modelos mais inteligentes fazem menos suposições implícitas, eliminando “ajudas invisíveis” das quais o prompt dependia.
Para lidar com isso, usamos Prompt Optimization e Semantic Versioning. Tratamos prompts como código, dividindo-os em módulos (por exemplo: Tone, Tooling, Safety) que evoluem de forma independente.
Utilizamos frameworks como DSPy e o otimizador Japa, desenvolvido em Berkeley. Nesse fluxo, o papel humano muda:
Se você está escrevendo prompts de cinco páginas manualmente, está construindo um sistema que vai quebrar assim que o provedor do modelo atualizar os pesos.
4. Não faça fine-tuning antes da hora
Existe uma tendência comum de correr direto para Supervised Fine-Tuning (SFT) ou Reinforcement Learning (RL). Apesar de minha pesquisa se concentrar em alinhamento de preferências, meu conselho estratégico costuma ser o oposto: não faça fine-tuning até extrair tudo o que os modelos de ponta já conseguem fazer.
Seu verdadeiro diferencial competitivo raramente está nos pesos do modelo. Ele está nas camadas de dados e ação. Fine-tuning também traz riscos arquiteturais relevantes:
A menos que você esteja perseguindo os últimos 5% de precisão ou requisitos específicos de latência em tarefas muito especializadas e de alto volume, o tempo de engenharia costuma ser melhor investido em ferramentas robustas.
5. Tire lógica do LLM e coloque nas ferramentas
Alucinações muitas vezes são resultado de pedir que o LLM execute trabalho determinístico. Se um processo tem uma sequência fixa, não peça ao modelo para “raciocinar” sobre ele.
Um exemplo foi nosso caso de entrega de cartão. Inicialmente deixamos o LLM encadear três ferramentas:
check status → verify address → trigger re-order
Com frequência, o modelo alucinava a sequência ou falhava no meio do fluxo. Percebemos que estávamos pedindo ao LLM para fazer o trabalho de um script.
A solução foi criar uma Composite Tool: uma única API determinística que executa internamente toda a lógica de três etapas. O LLM só precisa decidir: “Fix Card Delivery”.
A regra é simples:
Se é determinístico, não deixe o LLM fazer o trabalho.
Ao mover a lógica de negócio para as ferramentas, reduzimos drasticamente alucinações e mantemos o agente como uma interface confiável para os serviços de backend.
O blueprint: simulação automatizada e bug-bashing
Antes que qualquer variante de agente chegue a um único cliente, ela passa por um ambiente de Bug Bashing. Saímos de um modelo de QA manual para um sistema de simulação automatizada e red teaming. Usando nossos dashboards internos e sistemas de rastreamento, simulamos milhares de conversas para “atacar” o agente.
Monitoramos os traces, que representam toda a cadeia de interações entre mensagens do LLM, entradas do cliente e chamadas de ferramentas. Também usamos parceiros de simulação para testar cenários extremos que um testador humano talvez não antecipasse, garantindo que o agente não exponha PII ou desvie de suas responsabilidades financeiras antes de ir para produção.
O futuro das finanças autônomas
Agentes de IA não existem para substituir nossos X-Peers, mas para ampliar seu impacto.
Ao resolver casos previsíveis e de alto volume, como consultas frequentes ou acompanhamento de entrega de cartão, os agentes permitem que nossos especialistas se dediquem aos problemas mais complexos, que exigem empatia financeira real e julgamento humano.
Essa transição, porém, exige mais do que modelos melhores. Ela exige uma mudança de mentalidade.
No setor financeiro, onde a confiança leva anos para ser construída e segundos para ser perdida, a “mágica” da autonomia precisa estar apoiada em rigor arquitetural. No fim das contas, quem vai prosperar nessa nova era são as organizações que tratam a confiança do cliente como seu ativo mais valioso, garantindo que cada interação automatizada seja guiada por uma medição obsessiva e sistemática de qualidade.
Conheça nossas oportunidades