Mas leido
Building Stories
Modo Rua: Redefiniendo el desarrollo de aplicaciones mediante iteración centrada en el usuario Ago 23
Building Stories
NuStories: Adaptación de productos para clientes fanáticos en varios países Oct 30
Culture & Values
Cómo los valores y la cultura de Nu dan forma a los productos que creamos Ago 7
Carreras
Reunimos a grandes mentes de diversos orígenes que permiten la discusión y el debate y mejoran la resolución de problemas.
Conoce más sobre nuestras carreras



Written by: Aman Gupta, Daniel Braithwaite
En el entorno de alto riesgo de las finanzas globales, el margen de error es cero. En Nu, atendemos a 131 millones de clientes en Brasil, México y Colombia. Para un neobanco de esta escala, la era del “chatbot” ya quedó atrás. Nuestro desafío ahora es ir más allá de la simple recuperación de respuestas de FAQ y construir sistemas autónomos capaces de manejar renegociación de deudas, logística de tarjetas y prevención de fraudes, manteniendo siempre la confianza absoluta de una base de clientes que espera soporte inmediato, empático y factualmente correcto.
Mi perspectiva se basa en más de una década trabajando en empresas como Apple, Amazon y LinkedIn, además de una estrecha relación con la comunidad de investigación, con publicaciones en conferencias como NeurIPS, ICML e ICLR. Como creador de Quant Ease —el primer algoritmo de cuantización a gran escala basado en coordinate descent— y como investigador en alineación de preferencias para LLMs, he aprendido que la “magia” de los agentes de IA es, en realidad, un problema de infraestructura. Para construir agentes que funcionen para cientos de millones de usuarios, es necesario abandonar la “brujería de prompts” y adoptar rigor arquitectónico.
Estas son cinco de las lecciones más difíciles que aprendimos al construir agentes de IA en producción.
1. Evals-first: de NPS a TNPS
Las métricas tradicionales pueden convertirse en una trampa en el desarrollo de IA. Muchas organizaciones utilizan el Net Promoter Score (NPS) para medir el éxito, pero en entornos de soporte de alto volumen el NPS funciona mal. Las tasas de respuesta suelen ser bajas, el feedback llega con días de retraso y la muestra carece del poder estadístico necesario para ciclos rápidos de pruebas A/B.
Para escalar, es necesario migrar a TNPS (Transactional Net Promoter Score) —evaluando la interacción específica con la IA de forma inmediata— y complementarlo con un framework de “LLM-as-a-judge”. En lugar de esperar una encuesta que quizá nunca llegue, utilizamos un segundo LLM, actuando como auditor, para evaluar el 100% de las conversaciones con base en criterios binarios:
Al pasar de una pequeña muestra de encuestas a una auditoría completa de las interacciones, podemos iterar diariamente sobre diferentes variantes. Como dice el principio básico: si no puedes medirlo, no puedes mejorarlo.
Descubre las oportunidades
2. Redefiniendo qué es un agente: el paradigma ReAct
La palabra “agente” hoy está rodeada de mucho ruido. En producción, un agente no es simplemente un generador de texto: es un sistema autónomo que sigue el paradigma ReAct (Reasoning and Acting). Es decir, un “cerebro” que razona y un conjunto de herramientas que ejecutan acciones para resolver tareas de principio a fin.
Arquitectónicamente, definimos el agente en tres capas:
Si tu sistema no puede ejecutar una acción en el mundo real —como reenviar una tarjeta perdida o actualizar un límite de crédito— entonces no es un agente. Es solo una interfaz de búsqueda.
3. Deja de escribir prompts: la era de la optimización de prompts
Uno de los hallazgos más contraintuitivos que encontramos es que los humanos son malos escribiendo prompts para producción. Los prompts escritos manualmente suelen ser frágiles y altamente dependientes del modelo.
Ya hemos observado situaciones en las que migrar a modelos de nueva generación —por ejemplo, pasar de GPT-4 a modelos más avanzados de razonamiento— rompe agentes existentes. Esto ocurre porque los modelos más inteligentes hacen menos suposiciones implícitas, eliminando “ayudas invisibles” de las que dependía el prompt.
Para resolver esto utilizamos Prompt Optimization y Semantic Versioning. Tratamos los prompts como código, dividiéndolos en módulos (por ejemplo: Tone, Tooling, Safety) que evolucionan de forma independiente.
Utilizamos frameworks como DSPy y el optimizador Japa, desarrollado en Berkeley. En este flujo, el rol humano cambia:
Si estás escribiendo prompts de cinco páginas a mano, estás construyendo un sistema que se romperá en el momento en que el proveedor del modelo actualice sus pesos.
4. No hagas fine-tuning antes de tiempo
Existe una tendencia común de correr directamente hacia Supervised Fine-Tuning (SFT) o Reinforcement Learning (RL). Aunque mi investigación se centra en la alineación de preferencias, mi consejo estratégico suele ser el contrario: no hagas fine-tuning hasta haber agotado las capacidades de los modelos de frontera.
Tu verdadera ventaja competitiva rara vez está en los pesos del modelo. Está en tus capas de datos y acción. Además, el fine-tuning introduce riesgos arquitectónicos importantes:
A menos que estés optimizando el último 5% de precisión o requisitos específicos de latencia en tareas muy especializadas y de alto volumen, tu tiempo de ingeniería suele estar mejor invertido en construir herramientas robustas.
5. Mueve la lógica a las herramientas
Las alucinaciones a menudo son el resultado de pedirle al LLM que realice trabajo determinístico. Si un proceso tiene una secuencia fija, no le pidas al modelo que “razone” sobre él. Un ejemplo fue nuestro caso de entrega de tarjetas. Inicialmente dejamos que el LLM encadenara tres herramientas:
check status → verify address → trigger re-order
Con frecuencia el modelo alucinaba la secuencia o fallaba a mitad del flujo. Nos dimos cuenta de que estábamos pidiéndole al LLM que hiciera el trabajo de un script. La solución fue construir una Composite Tool: una única API determinística que maneja internamente toda la lógica de tres pasos. El LLM solo necesita decidir: “Fix Card Delivery”.
La regla es simple:
Si es determinístico, no hagas que el LLM haga el trabajo.
Al mover la lógica de negocio a las herramientas, reducimos significativamente las alucinaciones y mantenemos al agente como una interfaz confiable para nuestros servicios de backend.
El blueprint: simulación automatizada y bug-bashing
Antes de que una variante de agente llegue a un solo cliente, pasa por un entorno de Bug Bashing. Hemos dejado atrás el QA manual y adoptado un sistema de simulación automatizada y red teaming. Usando nuestros dashboards internos y sistemas de trazabilidad, simulamos miles de conversaciones para “atacar” al agente.
Monitoreamos los traces —toda la cadena de interacciones entre mensajes del LLM, entradas del cliente y llamadas a herramientas. También trabajamos con socios de simulación para probar escenarios extremos que un tester humano quizá no anticiparía, asegurando que el agente no exponga PII ni se desvíe de sus responsabilidades financieras antes de entrar en producción.
El futuro de las finanzas autónomas
Los agentes de IA no están aquí para reemplazar a nuestros X-Peers, sino para potenciar su impacto. Al resolver casos previsibles y de alto volumen —como consultas frecuentes o seguimiento de envíos de tarjetas— los agentes permiten que nuestros especialistas dediquen su experiencia a los desafíos más complejos, aquellos que requieren empatía financiera real y juicio humano.
Esta transición, sin embargo, exige algo más que mejores modelos. Requiere un cambio de mentalidad. En el sector financiero, donde la confianza tarda años en construirse y segundos en perderse, la “magia” de la autonomía debe estar respaldada por rigor arquitectónico. Al final, quienes prosperen en esta nueva era serán las organizaciones que traten la confianza del cliente como su activo más valioso, asegurando que cada interacción automatizada esté guiada por una medición obsesiva y sistemática de la excelencia.
Descubre las oportunidades