La primera edición de 2025 del Nubank Engineering Meetup comenzó con un tema fundamental para quienes trabajan con arquitecturas distribuidas, microservicios y confiabilidad de sistemas: la observabilidad. 

El evento, realizado en febrero, inauguró el calendario de encuentros técnicos del año con la participación de Guto (ingeniero en Nu y anfitrión de la noche), AWS Solution Architects Lucas Vieira Souza da Silva and Luis Tiani, as well as Nubank’s engineering team. Our representatives, Caio (Engineering Manager) and Otávio (Lead Engineer), shared the behind-the-scenes evolution of our log stack and the creation of the Observability Stream and Alexandria platforms.

El enfoque de la presentación fue discutir cómo integrar herramientas Open Source con servicios administrados de AWS para crear pipelines de observabilidad escalables y eficientes. La sesión abarcó desde los fundamentos de los tres pilares de la observabilidad—métricas, logs y traces—hasta demostraciones prácticas usando OpenTelemetry, Prometheus, Grafana y OpenSearch.

¿Qué es la observabilidad, realmente?

La pregunta que abrió la discusión fue tan sencilla como clave: ¿qué significa hacer que un sistema sea observable? La respuesta tiene que ver con la capacidad de responder, con datos concretos, a preguntas sobre el comportamiento interno de las aplicaciones en producción. Para eso usamos tres tipos de señales:

  • Métricas: series temporales numéricas que permiten evaluar latencias, uso de recursos y tasas de error.
  • Logs: registros textuales estructurados que ayudan a entender eventos y flujos con más detalle.
  • Traces: rastreos distribuidos que muestran cómo interactúan los servicios durante una solicitud, permitiendo detectar cuellos de botella y dependencias.

Estas señales se complementan entre sí y forman la base para construir dashboards, configurar alertas y realizar análisis profundos del sistema.

Descubre las oportunidades

El papel de OpenTelemetry

Una de las herramientas open source más relevantes hoy en día es OpenTelemetry, un proyecto mantenido por la CNCF que proporciona:

  • Librerías de instrumentación para múltiples lenguajes, con opciones automáticas o manuales;
  • Collectors que actúan como agentes, recibiendo, enriqueciendo y exportando señales de observabilidad;
  • Protocolo OTLP, que se ha convertido en estándar de la industria para la transmisión de datos.

Con OpenTelemetry, es posible instrumentar aplicaciones, recolectar señales en distintos formatos (incluso Prometheus) y enviarlas a distintos destinos como OpenSearch, Prometheus y más.

Open source es libertad, pero también complejidad

La CNCF mantiene un ecosistema completo de herramientas open source para observabilidad, desde la ingesta de datos hasta la visualización. Pero montar y operar una stack 100% open source requiere tiempo, conocimientos técnicos y responsabilidad sobre la infraestructura, actualizaciones, escalabilidad y seguridad.

Aquí es donde entran los servicios administrados. La propuesta de AWS es simplificar la operación sin renunciar a la apertura tecnológica. En lugar de gestionar tu propia instancia de Prometheus o Grafana, puedes utilizar sus versiones administradas, con integración más simple y escalabilidad automática.

OpenSearch: de Elastic Search a vector search

Uno de los grandes protagonistas fue OpenSearch, un fork de Elastic Search creado en 2021 y ahora mantenido por la Linux Foundation. Es ampliamente utilizado para:

  • Análisis de logs y series temporales;
  • Sistemas de búsqueda para e-commerce y plataformas complejas;
  • Búsqueda vectorial para aplicaciones de IA generativa.

AWS ofrece OpenSearch en dos modalidades:

  • Provisionado: con instancias, integración con VPC y dimensionamiento configurable.
  • Serverless: escalabilidad automática desacoplando cómputo y almacenamiento.

OpenSearch también incluye OpenSearch Ingestion, basado en Data Prepper, para transformar y enviar datos en formato JSON al clúster.

Construyendo una stack de observabilidad administrada

La presentación también mostró cómo integrar distintos servicios de AWS para formar una stack de observabilidad sólida:

  • Amazon Managed Prometheus: recolecta y almacena métricas, con alert manager y modelo de cobro serverless.
  • Amazon Managed Grafana: visualiza datos desde múltiples fuentes (como CloudWatch, RDS, OpenSearch), con autenticación vía AWS Identity Center.
  • AWS Distro for OpenTelemetry (ADOT): distribución de AWS con integración sencilla en EKS, ECS y Lambda.

Demo práctica: OpenTelemetry en un clúster EKS

Para llevar los conceptos a la práctica, Lucas presentó una demo en vivo de la aplicación “OpenTelemetry Demo” corriendo en un clúster EKS. La app, con un generador de tráfico, emitía señales procesadas por un Collector de OpenTelemetry y enviadas a Prometheus y OpenSearch.

Desde allí, Grafana reunía métricas, logs y traces en dashboards unificados, permitiendo:

  • Seleccionar un microservicio y ver su historial de latencia y errores;
    Explorar un trace específico con vista tipo waterfall y logs asociados;
  • Usar datalinks para navegar entre dashboards o abrir directamente OpenSearch desde Grafana.

Todo esto usando variables en Grafana que combinaban datos de Prometheus y OpenSearch, facilitando la investigación de incidentes y la correlación de información.

Reconstruyendo el stack de logs de Nubank: desafíos de escala y eficiencia

En la segunda mitad del meetup, Caio y Otávio compartieron detalles sobre la evolución de la plataforma interna de observabilidad de logs de Nubank — una trayectoria marcada por un crecimiento acelerado, limitaciones con proveedores externos y decisiones estratégicas para garantizar eficiencia en costos y control sobre los datos.

El problema: crecimiento del volumen de logs y costos con proveedores externos

Con más de 3.000 microservicios y una base de clientes en constante expansión, Nubank llegó a manejar volúmenes diarios de hasta medio petabyte de logs. La estrategia original — basada en un proveedor SaaS — empezó a mostrar limitaciones en dos frentes clave:

  • Costo: la observabilidad a gran escala se convirtió en uno de los mayores gastos de infraestructura.
  • Confiabilidad: fallas en la ingestión y falta de visibilidad de datos críticos impactaban directamente en la resolución de incidentes.

La solución fue construir una plataforma completamente interna, altamente escalable, resiliente y mucho más eficiente.

Observability Stream: una nueva plataforma para ingestión de datos

El primer paso en esta reestructuración fue crear Observability Stream, nuestra plataforma interna para recolectar y procesar datos de telemetría — comenzando por logs y luego expandiéndose a traces.

Requisitos técnicos

El equipo definió cuatro pilares fundamentales:

  • Baja latencia en la ingestión (los datos deben estar disponibles en menos de 3 minutos).
  • Escalabilidad y elasticidad para soportar picos de tráfico como el Black Friday.
  • Tolerancia a fallas, sin pérdida de datos.
  • Eficiencia de costos, en línea con la cultura de responsabilidad financiera de Nubank.

Arquitectura basada en micro-batching

Para equilibrar performance y viabilidad técnica, se adoptó un modelo de micro-batching, con etapas de procesamiento desacopladas a través de colas (SQS). El flujo incluye:

  • Recolección de logs con Fluent Bit.
  • Acumulación y transformación a través de servicios internos.
  • Almacenamiento en Amazon S3.
  • Escalamiento automático según el tamaño de las colas.

Esta arquitectura trajo robustez y modularidad, preparando el camino para la siguiente etapa: la búsqueda.

Alexandria: nuestra plataforma interna de búsqueda de logs

Con todos los datos estructurados y almacenados, el siguiente paso fue construir Alexandria — la plataforma interna de búsqueda de logs utilizada por las y los ingenieros de Nubank.

Búsqueda escalable con Trino y Parquet

La arquitectura se basa en:

  • Datos de logs almacenados en formato Parquet en S3, con una compresión de hasta 95%.
  • Un motor de consultas basado en Trino, optimizado para grandes volúmenes y alta concurrencia.
  • Un servicio de compactación continua que agrupa millones de archivos pequeños para mejorar la performance y la eficiencia del almacenamiento.

Resultados alcanzados

  • 0,7 billones de líneas de logs procesadas cada día.
  • Más de 600 TB ingeridos diariamente.
  • 14.000 búsquedas por día escaneando 150 TB de datos.
  • Reducción de costos de 50% en comparación con proveedores SaaS.
  • Toda la plataforma es mantenida por un equipo reducido de cinco ingenieros.

Observabilidad eficiente con open source y la nube

El Nubank Engineering Meetup #11 ofreció una inmersión profunda y práctica en el universo de la observabilidad con Open Source y AWS. Además de reforzar la importancia de las métricas, los logs y los traces, mostró cómo construir una stack moderna combinando herramientas de código abierto con la eficiencia de los servicios administrados.

Con ejemplos reales, arquitectura detallada y demostraciones visuales, el encuentro fue un recurso valioso para ingenieras, ingenieros y equipos de plataforma que buscan mejorar la visibilidad y confiabilidad de sus sistemas.

Sigue atento a las próximas ediciones del Nubank Engineering Meetup para más contenido técnico sobre los desafíos y soluciones al construir productos financieros simples, seguros e innovadores.

Descubre las oportunidades