Incorporando Modelos Fundacionales en la Plataforma de IA de Nubank

Autor: Hiroto Udagawa

El trabajo descrito aquí es un esfuerzo colaborativo de varios ingenieros de Nubank (en orden alfabético): Abhishek Shivanna, Cassiano Abreu, Daniel Seerig, Denis Reis, Guilherme Peixoto, Gustavo Millen, Helder Dias, Henrique Lopes, Ivanildo Santos, José Mora, Juliana Forlin, Louise Farias, Lucas Ikeda, Luiz Coelho, Matias Roqueta, and Rick Slangen. También agradecemos a Rohan Ramanath, Daniel Silva y Guilherme Tanure por su apoyo.

Traducciones: Cinthia Tanaka y Kevin Rossell

Nubank adquirió Hyperplane en julio de 2024 para integrar la tecnología de Modelos Fundacionales de nuestro pequeño equipo en uno de los bancos digitales más grandes del mundo de manera rápida y efectiva. Mientras que nuestra startup tiene experiencia en el desarrollo de grandes modelos para entender el comportamiento financiero, Nubank ha construido una cultura de una década superando las complejidades de llevar innovaciones tecnológicas a la producción en la industria financiera. Con nuestros esfuerzos combinados, había una oportunidad para acelerar el avance de Nubank hacia un banco centrado en IA.

Este post del blog describe cómo los equipos de plataforma y producto trabajaron juntos durante los primeros ocho meses de este esfuerzo para entrenar y desplegar modelos con miles de millones de parámetros en varios casos de uso de modelado predictivo. Desglosamos nuestro viaje en tres secciones:

Diseño del Proyecto de Modelos Fundacionales: Cómo llevamos a producción los Modelos Fundacionales usando la Plataforma de IA existente de Nubank y ejecutamos proyectos para medir el impacto en comparación con los modelos tabulares de referencia.
Tecnologías y Arquitectura del Sistema: Las tecnologías y herramientas que desarrollamos para impulsar estos proyectos de Modelos Fundacionales.
Progreso en los Primeros Ocho Meses: Nuestro progreso en el despliegue de Modelos Fundacionales en Nubank durante los primeros ocho meses de este esfuerzo.

Después de estos éxitos iniciales, nuestro enfoque sigue siendo el mismo:

Ingerir y validar más fuentes de datos no estructurados
Entrenar Modelos Fundacionales más avanzados
Desplegarlos en casos de uso más críticos

Para más detalles sobre nuestro enfoque de modelado, consulta nuestra serie de blogs anterior.

Diseño del Proyecto de Modelos Fundacionales

Basamos nuestro enfoque de Modelos Fundacionales en líderes de Big Tech en IA, construyendo grandes modelos generalizables que entienden mejor los comportamientos de los clientes y luego desplegando estos modelos en motores de decisiones críticos. El negocio de Nubank presenta oportunidades increíbles con IA. Su enfoque digital, multisectorial y multinacional genera grandes cantidades de datos transaccionales ricos, lo que puede impulsar mejores experiencias financieras para clientes diversos en todo el mundo. Además, como muchas grandes tecnológicas, el modelado predictivo sustenta los productos de Nubank, y las mejoras incrementales en los modelos generan un valor descomunal para el negocio.

Nubank, como la mayoría de las instituciones financieras, tradicionalmente se basa en modelos lineales, modelos basados en árboles y características tabulares agregadas como columnas vertebrales para sus decisiones predictivas de IA. Para introducir los Modelos Fundacionales en Nubank de manera eficiente, tomamos algunas decisiones iniciales clave:

Los componentes donde Nubank tiene experiencia no serían modificados. Los años de experiencia de Nubank en infraestructura de datos, gobernanza de modelos y despliegue de modelos son salvaguardas esenciales para llevar a producción estos modelos complejos en un entorno altamente regulado.
Identificamos los componentes mínimos necesarios para construir y desplegar Modelos Fundacionales. Además, estableceríamos una interfaz clara entre estos nuevos componentes y los existentes a lo largo de las capas de la Plataforma de IA.
Una vez decididas estas interfaces, los componentes requeridos se desarrollarían libremente desde cero utilizando un tech stack renovado.

Centramos nuestro enfoque de desarrollo en tres componentes:

Preprocesamiento de Datos Secuenciales: Los actuales pipelines ETL de características fueron construidos para convertir datos secuenciales brutos en características tabulares. Construimos nuevos flujos de trabajo para transformar, validar y monitorear los datos secuenciales para que estén disponibles para el modelado.
GPU/Clústeres Heterogéneos: Los modelos lineales a gran escala y los modelos basados en árboles pueden ejecutarse en clústeres de CPU. Sin embargo, entrenar y desplegar arquitecturas basadas en transformadores requiere de grandes clústeres heterogéneos. A medida que se alcanzan las leyes de escalamiento, optimizar estos pipelines es crítico para controlar los costos.
Transformadores y DNNs: Los transformadores y las redes neuronales profundas a gran escala son los pilares de nuestras nuevas arquitecturas propuestas de Modelos Fundacionales.

A continuación resaltamos una visión general de cómo la Plataforma de IA de Nubank ahora funciona para apoyar tanto proyectos de Modelos Tabulares como de Modelos Fundacionales:

Con esta estructura en su lugar, incorporamos casos de uso de productos y entrenamos modelos desafiantes basados en Modelos Fundacionales frente a modelos de referencia de ML tabular. Construir un ciclo de iteración de experimentos estrecho y confiable es fundamental cuando se introducen cambios significativos de modelado en un producto existente. Estos proyectos requieren un gran cuidado en la ingestión de datos, la ejecución de evaluaciones y el despliegue de modelos de la misma manera que cada incumbente. Al cambiar la menor cantidad de factores posible, replicamos equitativamente los resultados de los modelos de referencia y medimos las mejoras de rendimiento en delta. Para aislar aún más el impacto, estos compromisos comienzan aprovechando solo las mismas fuentes de datos secuenciales brutos que en el modelo de referencia (representadas como características tabulares agregadas). Esto asegura que todas las entradas de los modelos ya estén validadas y monitoreadas en producción.

A medida que los modelos se hacen más grandes y los datos menos estructurados, es fácil perderse en la nueva complejidad. Nuestro enfoque mencionado nos permite construir y medir el progreso de manera incremental y con buenas bases. Además, al confiar en años de experiencia de Nubank en la gobernanza y la producción de innovaciones de modelos, estos nuevos proyectos pueden centrarse en optimizar las métricas con un alcance de modelado restringido pero ambicioso.

Descubre las oportunidades

Tecnologías y Arquitectura del Sistema

Con esta interfaz y diseño de experimentos establecidos, desarrollamos nuestro Sistema de Modelos Fundacionales con un tech stack renovado. A continuación, se presenta una visión general de nuestra arquitectura del sistema:

Cada Proyecto de Modelo de Fundación aprovecha tecnologías desarrolladas en las siguientes áreas:

Investigación en IA

Estamos construyendo una organización de investigación de clase mundial para estudiar cómo la IA puede ser desplegada de manera única para mejorar las experiencias en Nubank. Si bien nos inspira la investigación aplicada en IA en las grandes empresas tecnológicas (por ejemplo, Recomendadores Generativos), las instituciones financieras tienen un papel único en impulsar áreas de investigación como Modelado del Comportamiento del Usuario y Modelado Causal. Nuestros primeros esfuerzos de investigación se centran principalmente en alimentar fuentes de datos secuenciales brutos a arquitecturas de modelos de transformadores a gran escala para capturar señales de comportamiento que son imposibles de detectar usando métodos tradicionales de características agregadas.

Procesamiento de Datos Secuenciales

Al igual que con todas las innovaciones en ML, se requiere un esfuerzo inmenso detrás de escena para asegurar que los datos introducidos en nuestros modelos sean de alta calidad y estén libres de filtraciones. Formamos un equipo dedicado para ingerir, validar y enriquecer el enorme tesoro de fuentes de datos transaccionales (y no transaccionales) de Nubank. Si bien ya existe un monitoreo en Nubank, este equipo también trabaja para construir herramientas adicionales para garantizar que los datos secuenciales puedan ser desplegados de manera segura en producción.

Pipelines Núcleo y Personalizadas

Estamos construyendo herramientas de procesamiento de datos y modelos para manejar estas nuevas cargas de trabajo de datos y modelos. Aprovechamos Ray para permitir que nuestro pequeño equipo de infraestructura escale clústeres heterogéneos y permita a los Ingenieros de ML entrenar modelos con miles de millones de parámetros en los más de 100 millones de clientes de Nubank y sus historiales de transacciones. Muchas decisiones en Nubank se toman a nivel de todos los usuarios mensualmente, por lo que nuestros modelos ingieren O(billones) de etiquetas y O(miles) de transacciones por etiqueta. Como resultado, nuestros Modelos Fundacionales finales procesan O(trillones) de tokens durante el entrenamiento.

Envolvemos pipelines reutilizables de preparación de datos, entrenamiento e inferencia en componentes principales que cualquier Ingeniero de ML en Nubank puede usar de inmediato. Además, añadimos la capacidad de conectar componentes personalizados a lo largo del tooling de modelado para que los modeladores puedan construir pipelines específicos para su problema.

Herramientas Internas

Tradicionalmente, el desarrollo de modelos puede estar aislado dentro de iniciativas más pequeñas donde uno o unos pocos ingenieros de ML entrenan modelos relativamente ligeros para su problema específico. Sin embargo, construir Modelos Fundacionales grandes y desplegables horizontalmente requiere una estrecha coordinación entre docenas de investigadores e ingenieros. Estamos desarrollando herramientas adicionales para el seguimiento, catalogación y reporte de modelos para asegurar que los datos y los modelos avancen en una dirección unificada. A continuación, destacamos algunos ejemplos de las herramientas que hemos desarrollado:

El Catálogo de Modelos permite visualizar todos los modelos entrenados en la plataforma de AI Core, comparar resultados y filtrarlos según criterios específicos.

En la Vista de Modelo (Model View), el modelador puede ver todos los artefactos de un modelo y analizar sus datos de entrada, salidas de inferencia y cualquier parámetro utilizado durante su entrenamiento.

La herramienta de reportes permite arrastrar y soltar visualizaciones analíticas comunes, lo que facilita y acelera la evaluación y comparación de modelos

Progreso en los Primeros Ocho Meses

Durante los primeros ocho meses, hemos avanzado de manera constante en todos los componentes de la Arquitectura del Sistema y en nuestra misión de introducir Modelos Fundacionales en las áreas de producto.

Al inicio de este post, delineamos el siguiente enfoque para nuestro esfuerzo:

Ingerir y validar más fuentes de datos no estructurados
Entrenar Modelos Fundacionales más avanzados
Desplegarlos en casos de uso más críticos

Destacamos nuestro progreso en estas tres áreas.

Ingerir y validar Fuentes de Datos No Estructurados

Mostramos el progreso de nuestro equipo de datos en la ingestión de fuentes de datos secuenciales y en la prueba de su impacto en nuestros modelos. Seguimos el progreso en las siguientes tres métricas:

Ingerido: La fuente de datos ha sido ingresada y está lista para que los modelos la consuman
Modelado: La fuente de datos ha pasado las verificaciones de calidad y su impacto ha sido evaluado en al menos una tarea
Producido: La fuente de datos tiene todo el monitoreo requerido para la producción de modelos

Aunque las fuentes de datos actualmente en producción incluyen únicamente fuentes transaccionales, planeamos experimentar pronto con la incorporación de señales de eventos de aplicaciones y del uso de productos en nuestros modelos de transformadores.

2. Entrenar Modelos Fundacionales más Avanzados

Medimos el rendimiento incremental de los modelos a lo largo del tiempo en diversos casos de uso. Estas mejoras provienen de tres esfuerzos principales: más fuentes de datos, arquitecturas de modelo mejoradas y escala del modelo. A continuación, mostramos el aumento promedio de AUC de nuestros modelos en cuatro tareas de referencia durante los primeros meses.

Cabe destacar que un aumento de +1.20% en AUC es de 2 a 3 veces el aumento típico que se espera en la liberación anual de un modelo maduro. Además, logramos este incremento sin añadir ninguna nueva fuente de datos, confiando únicamente en señales ya presentes en los modelos base pero representadas como características tabulares.

3. Desplegarlos en Casos de Uso más Críticos

Medimos la adopción en base a cuatro métricas:

Problemas Incorporados: Ingerir características y etiquetas, y alinear evaluaciones y métricas clave para el compromiso.
Bases Replicadas: Replicar métricas base usando las mismas etiquetas y características tabulares que los modelos de producción para garantizar que todos los datos sean correctos y las evaluaciones sean justas.
Retadores Construidos: Entrenar modelos candidatos alimentando datos secuenciales en nuestras arquitecturas de modelos para producir suficiente mejora en métricas y lanzar un nuevo modelo.
Modelos en Producción: Obtener aprobación del modelo y desplegarlo en las canalizaciones de producción para atender a los clientes.

En este blog post, compartimos nuestro progreso durante los primeros ocho meses de la introducción de Modelos Fundacionales Predictivos en la Plataforma de IA de Nubank. Este trabajo ha permitido el despliegue de modelos de secuencia basados en transformadores a gran escala en varios motores de decisión clave. Lograr la visión de Nubank centrada en IA requerirá un cambio radical en tecnología, cultura y mentalidad de producto. La inversión e impacto de estos Modelos Fundacionales marcan nuestros primeros esfuerzos para acelerar esta transformación.

Descubre las oportunidades

Incorporando Modelos Fundacionales en la Plataforma de IA de Nubank

Diseño del Proyecto de Modelos Fundacionales