Autor: Daniel Braithwaite y Hiroto Udagawa

El trabajo descrito aquí es un esfuerzo colaborativo de muchos ingenieros de Nubank (en orden alfabético): Abhishek Shivanna, Arissa Yoshida, Austin McEver, Cristiano Breuel, Brian Zanfelice, Evan Wingert, Fabio Souza, Felipe Meneses, Helder Dias, Henrique Fernandes, Liam O’Neill, Marcelo Buga, Matheus Ramos y Misael Cavalcanti. También agradecemos a Rohan Ramanath, Daniel Silva y Guilherme Tanure por su apoyo.

Revisores de Traduccións: Felipe Almeida y Kevin Rossell


Los modelos predictivos son la base de muchos sistemas críticos dentro de las instituciones financieras, como la predicción de riesgos, la detección de fraudes y las recomendaciones de productos. Para impulsar estas predicciones, la mayoría de las plataformas de banca digital tienen acceso a grandes cantidades de datos de los usuarios, desde transacciones bancarias y eventos en la aplicación hasta registros de chats con el servicio al cliente. Combinadas, estas fuentes pueden darnos información valiosa sobre lo que nuestros clientes necesitan de su institución financiera de confianza. Históricamente, sin embargo, estas fuentes de datos se han utilizado para extraer características útiles pero relativamente simples para resolver las tareas predictivas mencionadas. En este post, proponemos desarrollar modelos fundacionales para datos financieros, específicamente transacciones. Estos modelos fundacionales facilitan el descubrimiento automatizado de características generales a partir de las transacciones. Además, estas características generales son útiles para resolver diversas tareas en toda Nubank.

Los modelos tradicionales de aprendizaje automático (ML) se han construido para características tabulares (por ejemplo, numéricas, categóricas), que se han convertido en la norma para los sistemas de aprendizaje automático en la industria debido a su simplicidad, interpretabilidad y robustez. Aunque estos enfoques funcionan bien en la práctica, diseñar las características tabulares es engorroso y requiere mucha prueba y error. En otros campos, sin embargo, el ML ha avanzado hacia el aprendizaje de representaciones directamente a partir de los datos brutos para tareas de aprendizaje supervisado. Un ejemplo común es que las redes neuronales convolucionales aprenden automáticamente características como bordes, texturas y formas a partir de imágenes brutas [1, 2]. Esta configuración facilita el aprendizaje automático de características que resuelven la tarea de aprendizaje supervisado, evitando así la necesidad de ingeniería manual de características. A pesar de que estas técnicas de modelado más avanzadas existen en otros dominios (lenguaje, visión, sistemas de recomendación secuencial, etc.), la mayoría de las aplicaciones de ML en la industria financiera se han quedado atrás.

Una de las tendencias más significativas recientes en el aprendizaje automático es la noción de modelos fundacionales, que aprenden representaciones genéricas de embeddings a partir de datos brutos, como texto [3], imágenes [4] y eventos [5]. Estos modelos se entrenan con grandes cantidades de datos no etiquetados y aprovechan el aprendizaje auto-supervisado (SSL, por sus siglas en inglés self-supervised learning), que implica la construcción implícita de etiquetas pseudo-supervisadas a partir de los datos, por ejemplo, predecir las siguientes palabras en una oración. El uso de SSL permite que los modelos fundacionales aprendan representaciones informativas de las entradas sin etiquetas explícitas. Estas representaciones pueden luego usarse para resolver diversas tareas posteriores con mayor precisión, todas dependiendo del mismo modelo fundacional. Esto contrasta con las características creadas manualmente o aprendidas con técnicas supervisadas, ambas a menudo dependientes del problema.

Curiosamente, la escalabilidad de los modelos fundacionales también puede resultar en propiedades emergentes. Por ejemplo, los grandes modelos de lenguaje aprenden a realizar tareas como responder preguntas o resumir textos simplemente al observar el lenguaje natural [6]. Como resultado, planteamos la hipótesis de que, al construir modelos fundacionales a partir de transacciones bancarias y otras fuentes de datos dentro de una institución financiera, podemos entender a nuestros clientes más allá de las capacidades de los métodos existentes.

En Nubank, estamos desarrollando modelos fundacionales desde cero para permitir que los equipos desbloqueen las señales de los vastos volúmenes de datos financieros que los clientes producen diariamente. Además, hemos desarrollado una plataforma de IA interna para extender estos modelos más allá de las transacciones, considerando todas las interacciones del usuario (por ejemplo, eventos en la aplicación) y nuevos flujos de transacciones. Los equipos de Nubank pueden aprovechar un repositorio central de modelos fundacionales y pipelines de ajuste fino para resolver sus tareas específicas.

En este post, exploramos modelos fundacionales, específicamente en el contexto de datos de transacciones. A pesar del éxito de los modelos fundacionales en otros campos, hemos encontrado trabajos públicamente disponibles limitados en nuestro dominio de interés. Además, en la literatura disponible [7, 8], la escala no se acerca al volumen de datos que tenemos disponible en Nubank. Por ejemplo, [8] usa miles de millones de transacciones, mientras que tenemos acceso a billones de transacciones y eventos entre los más de 100 millones de clientes de Nubank. Como se mencionó, esto es importante porque el volumen de datos es esencial para descubrir las propiedades emergentes de los grandes modelos fundacionales.

Nuestro objetivo es ingerir las transacciones ordenadas en el tiempo de un cliente y representar su comportamiento financiero como un embedding. Cada transacción está representada por texto, junto con atributos numéricos y categóricos. Como es común en otros dominios, como el lenguaje natural, las imágenes y el audio, descubrimos que es posible resumir eficientemente el comportamiento del cliente aprendiendo a predecir sus transacciones futuras. La estructura general de nuestro modelo de base se muestra en la figura a continuación. En el resto de este post, presentamos algunos componentes clave de este modelo, cuyos detalles se abordarán en posts futuros.

El núcleo del transformer [9] opera en secuencias de embeddings. Por lo tanto, debemos definir una interfaz entre la transacción y estos modelos de secuencia a secuencia. Esto nos permite construir nuestros propios modelos fundacionales de transformers mediante pre-entrenamiento (desde cero) en el corpus de transacciones de usuarios de Nubank. Como se discutió, una ventaja clave de estos modelos de embedding de usuarios es que eliminan la necesidad de ingeniería manual de características a partir de estos datos. Además, observamos prometedoras leyes de escalabilidad, donde estas representaciones de usuarios se vuelven más poderosas en varias tareas a medida que aumentamos los datos, la capacidad de computación y el tamaño del modelo.

Sin embargo, para muchas tareas posteriores, los equipos tienen soluciones existentes basadas en características tabulares derivadas de fuentes de transacciones y no transacciones. Es importante que cualquier solución basada en modelos fundacionales pueda combinar sus embeddings con estas características tabulares existentes. Esto acelera la adopción, ya que podemos demostrar rápidamente mejoras sobre cualquier modelo existente. Para facilitar la combinación de embeddings y características, desarrollamos un proceso de ajuste fino de extremo a extremo, que entrena una red neuronal profunda (DNN) para combinar embeddings y características tabulares mientras ajusta conjuntamente el modelo de base. Este enfoque optimiza los modelos fundacionales para cualquier tarea posterior específica y alcanza un rendimiento de vanguardia. También planteamos la hipótesis de que la fusión conjunta facilita el aprendizaje de un embedding que contiene señales ortogonales a lo que ya capturan las características tabulares.

Este post de blog presentó una introducción de alto nivel al enfoque de Nubank para aprovechar modelos fundacionales para datos financieros, transformando transacciones brutas en insights accionables. Aunque estos modelos fundacionales se basan en fuentes de datos estándar utilizadas en toda la industria, facilitan el aprendizaje automático de características informativas que pueden no ser obvias para los científicos de datos. Por último, y más importante, las características generadas por estos modelos fundacionales mejoran la capacidad de Nubank para entender a sus consumidores, para que podamos ayudarlos a satisfacer sus necesidades financieras en el momento adecuado. En posts futuros, explicaremos con más detalle los aspectos clave de este modelo.

Resumen de la serie

Si llegaste hasta aquí, te invitamos a revisar el resto de la serie de blogs para obtener más contexto y profundidad técnica sobre este enfoque.

  • En el primer blog post, evaluamos el potencial de los foundation models aplicados a datos transaccionales, demostrando cómo el aprendizaje auto-supervisado puede generar embeddings generales que capturan el comportamiento del cliente sin depender de datos etiquetados.
  • En el segundo blog post, profundizamos en la formulación técnica de nuestros foundation models, detallando la arquitectura basada en transformadores causales y cómo estos embeddings pueden aplicarse a distintas tareas downstream.
  • En el tercer blog post, exploramos cómo mejorar el rendimiento en tareas específicas mediante supervised fine-tuning e introdujimos el concepto de joint fusion, un enfoque que combina datos secuenciales y tabulares en un único proceso de entrenamiento de extremo a extremo.

Descubre las oportunidades

Referencias

[1] Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. Advances in neural information processing systems, 25.

[2] Simonyan, K., & Zisserman, A. (2014). Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556.

[3] Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., … & Sutskever, I. (2021, July). Learning transferable visual models from natural language supervision. In International conference on machine learning (pp. 8748-8763). PmLR.

[4] Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). Improving language understanding by generative pre-training.

[5] Pancha, N., Zhai, A., Leskovec, J., & Rosenberg, C. (2022, August). Pinnerformer: Sequence modeling for user representation at pinterest. In Proceedings of the 28th ACM SIGKDD conference on knowledge discovery and data mining (pp. 3702-3712).

[6] Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., … & Amodei, D. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877-1901.

[7] Babaev, D., Ovsov, N., Kireev, I., Ivanova, M., Gusev, G., Nazarov, I., & Tuzhilin, A. (2022, June). Coles: Contrastive learning for event sequences with self-supervision. In Proceedings of the 2022 International Conference on Management of Data (pp. 1190-1199).

[8] Skalski, P., Sutton, D., Burrell, S., Perez, I., & Wong, J. (2023, November). Towards a Foundation Purchasing Model: Pretrained Generative Autoregression on Transaction Sequences. In Proceedings of the Fourth ACM International Conference on AI in Finance (pp. 141-149).

[9] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.

Descubre las oportunidades