Al pensar en machine learning, comprender y predecir el comportamiento de los clientes a lo largo del tiempo es esencial para diversas aplicaciones, como detección de fraudes, recomendación de productos y análisis de riesgo crediticio. Tradicionalmente, se han utilizado modelos tabulares para esta tarea, agregando información de comportamiento en características estáticas. 

Sin embargo, este enfoque presenta limitaciones significativas al capturar la dinámica temporal y el orden de los eventos. En este artículo, exploraremos cómo las arquitecturas secuenciales, especialmente las redes neuronales LSTM (Long Short-Term Memory), pueden superar estas limitaciones y ofrecer insights más profundos y precisos.

La importancia del comportamiento en modelos de machine learning

El comportamiento se refiere a información que depende de acciones realizadas a lo largo del tiempo y que pueden caracterizar algo o a alguien. Algunos ejemplos incluyen:

  • Frecuencia y valor de las compras con tarjeta de crédito.
  • Interacciones con aplicaciones o plataformas digitales.
  • Visitas a establecimientos físicos.
  • Llamadas a centros de atención al cliente.

A diferencia de características estáticas como la edad o el género, los comportamientos son dinámicos y pueden variar significativamente entre individuos, ofreciendo una rica fuente de datos para análisis predictivos.

Descubre las oportunidades

Limitaciones de los modelos tabulares en el modelado del comportamiento

Los modelos tabulares clásicos dependen de características agregadas que resumen el comportamiento en períodos específicos, por ejemplo, calcular la suma o el promedio de las compras realizadas en las últimas 24 horas. Aunque este enfoque es funcional, presenta problemas:

Pérdida del orden de los eventos

Al agregar datos, los modelos tabulares ignoran la secuencia temporal de las acciones. Dos clientes que realizaron las mismas transacciones, pero en órdenes diferentes, serían tratados de forma idéntica por el modelo, a pesar de que sus comportamientos son distintos.

Ignorar interacciones temporales

Los modelos tabulares no capturan cómo diferentes eventos interactúan a lo largo del tiempo. Por ejemplo, si un cliente hace una compra grande y luego realiza un retiro inusual, el orden de estos eventos puede ser significativo para detectar actividades sospechosas.

Predicciones independientes

Cada predicción en modelos tabulares es independiente de las anteriores. El modelo no considera eventos pasados al hacer una nueva predicción, perdiendo la oportunidad de captar patrones de comportamiento que se desarrollan con el tiempo.

Arquitecturas secuenciales como alternativa

Para superar estas limitaciones, las arquitecturas secuenciales, como las redes neuronales LSTM, ofrecen una solución eficaz. Estas redes están diseñadas para procesar datos secuenciales, teniendo en cuenta el orden y el intervalo entre eventos.

Cómo funcionan las LSTM

Las LSTM poseen componentes llamados células de memoria que retienen información a lo largo del tiempo. Procesan secuencias de eventos paso a paso, permitiendo que la información de eventos anteriores influya en las predicciones futuras.

  • Procesamiento secuencial: Cada evento se procesa en orden temporal, preservando la secuencia de los datos.
  • Memoria a corto y largo plazo: Las LSTM mantienen estados internos que acumulan información relevante, permitiendo capturar patrones a largo plazo.
  • Actualización dinámica: La red decide qué información mantener o descartar en cada paso, adaptándose al comportamiento observado.

Implementación práctica de LSTM en el modelado del comportamiento

Preparación de los datos

En lugar de agregar datos, los eventos se mantienen en su forma secuencial original. Cada evento puede contener sus características relevantes, como valor de la transacción, tipo de evento (compra, retiro, depósito) y marca de tiempo, por ejemplo.

Construcción del modelo

  • Entrada secuencial: Los datos se estructuran como secuencias para ser alimentados en la LSTM.
  • Normalización: Las características se normalizan para facilitar el entrenamiento.
  • Definición de parámetros: Se ajustan hiperparámetros como tamaño de la secuencia, número de neuronas y tasas de aprendizaje.

Entrenamiento y predicción

La LSTM se entrena para aprender patrones en la secuencia de eventos que llevan a un determinado resultado, como un fraude o incumplimiento. Durante la predicción, la red procesa nuevos eventos, actualizando sus memorias internas y ajustando las predicciones de acuerdo con el comportamiento observado.

Ventajas de las arquitecturas secuenciales

Captura de patrones temporales

Al preservar el orden y el intervalo entre eventos, las LSTM pueden identificar patrones que se perderían en modelos tabulares. Por ejemplo, una serie de pequeñas transacciones en un corto período puede indicar un comportamiento sospechoso que un modelo tabular no detectaría.

Flexibilidad en la inclusión de características

Además de las características secuenciales, es posible incorporar características estáticas o agregadas al modelo, enriqueciendo el análisis sin perder la capacidad de captar la dinámica temporal.

Reducción en la necesidad de ingeniería de características

El modelado secuencial disminuye la necesidad de crear múltiples características agregadas para diferentes ventanas de tiempo, ya que la LSTM aprende automáticamente qué patrones temporales son relevantes.

Desafíos y consideraciones

Complejidad computacional

Las redes neuronales secuenciales requieren más recursos computacionales y tiempo de entrenamiento. El uso de GPUs puede acelerar el proceso, pero aumenta los costos.

Optimización de hiperparámetros

Encontrar los parámetros ideales, como el número de secuencias a considerar o la dirección del procesamiento (del evento más reciente al más antiguo o viceversa), es crucial para el rendimiento del modelo.

Evaluación de la necesidad

Es importante evaluar si la complejidad adicional está justificada. Si el orden de los eventos o la temporalidad no son significativos para el problema en cuestión, los modelos tabulares pueden ser más adecuados.

Casos de estudio y resultados prácticos

Durante la implementación de LSTM para detección de fraudes, se observaron los siguientes resultados:

  • Mejora en la precisión: El modelo secuencial logró identificar patrones de comportamiento asociados a fraudes que el modelo tabular no detectaba.
  • Reducción de falsos positivos: Al considerar la secuencia de eventos, el modelo redujo la cantidad de alertas indebidas, enfocándose en casos realmente sospechosos.
  • Insights sobre comportamiento: El análisis de las importancias de las características a lo largo de las secuencias reveló qué eventos y patrones temporales eran más relevantes para la predicción.

Integración con características tradicionales

Incluso al utilizar arquitecturas secuenciales, es posible y, a menudo, recomendable combinar características tradicionales al modelo. Por ejemplo:

  • Datos demográficos: Edad, género y ubicación pueden incorporarse como entradas adicionales.
  • Historial agregado: Estadísticas como ingreso mensual promedio o puntaje crediticio pueden complementar las secuencias.

Esta integración permite que el modelo aproveche lo mejor de ambos mundos: la capacidad de capturar patrones temporales y el valor de características estáticas comprobadas como útiles.

Preguntas frecuentes y aclaraciones

¿Cómo manejar clientes nuevos o con pocos eventos?

Para clientes con pocos o ningún evento, el modelo puede completar las secuencias con valores nulos o ceros, y la red se entrena para manejar estas situaciones. Además, las características estáticas pueden ganar más peso en estas circunstancias.

¿Las LSTM son siempre la mejor opción?

No necesariamente. Si el orden de los eventos no es crucial para el problema, o si los recursos computacionales son limitados, los modelos tradicionales pueden ser más eficientes.

¿Cómo optimizar el rendimiento de las LSTM?

  • Ajuste de hiperparámetros: Ajustar el número de capas, neuronas y tasa de aprendizaje.
  • Regularización: Aplicar técnicas como dropout para evitar el sobreajuste.
  • Normalización por lotes: Facilita el entrenamiento y puede acelerar la convergencia.

Conclusión

Las arquitecturas secuenciales, como las LSTM, representan un avance significativo en el modelado del comportamiento en machine learning. Al capturar la dinámica temporal y el orden de los eventos, ofrecen predicciones más precisas e insights profundos sobre patrones de comportamiento. 

A pesar de los desafíos, especialmente en términos de recursos computacionales y complejidad, los beneficios pueden ser sustanciales en aplicaciones donde el tiempo y la secuencia de los eventos son críticos.

Para más información como esta, mira la grabación del meetup de Data Science & Machine Learning:

Descubre las oportunidades