¿Qué hace exactamente un Analista de Datos?

Esta es una pregunta común para nosotros y nuestra respuesta frecuentemente sorprende a la gente. En algunas empresas, los Analistas de Datos crean paneles de Inteligencia Empresarial (BI). En otras empresas, los analistas de datos extraen datos y ejecutan consultas para otros. Eso no es lo que hacemos. 

Somos el capítulo de analistas de datos de Nubank y nos hemos dado cuenta de que nuestro nombre comunica mal lo que hacemos. Tanto interna como externamente. Nuestro objetivo es hacer que toda la empresa sea más productiva con los datos mediante la aplicación de principios establecidos de ingeniería de software y técnicas de modelado de datos a todos los dominios comerciales de Nubank. 

Para Nubank, los datos son cruciales. Como era de esperar, para una empresa fintech moderna, utilizamos datos en todas partes. Por ejemplo, un caso de uso importante es la toma automática de decisiones para la suscripción y los límites de crédito utilizando modelos de aprendizaje automático (ML). 

No sólo utilizamos datos para la toma de decisiones. También tenemos obligaciones regulatorias de presentación de informes a autoridades como bancos centrales y entidades contra el lavado de dinero — todo ello respetando las leyes de protección de datos en todos los mercados en los que operamos. 

Nosotros, como Analistas de Datos, estamos todos asignados en escuadrones, que son equipos autónomos y multidisciplinarios de Nubank. En abril de 2020, tenemos casi cien equipos, como Adquisición, Facturación, Préstamos, etc. Un analista de datos trabaja para que otros miembros de su equipo sean más productivos con los datos. 

Además de eso, liberamos al resto del equipo de trabajar en tareas pesadas de ingeniería de datos para que puedan concentrarse en sus especialidades. Además del trabajo con el equipo, todos los analistas de datos pasan los viernes juntos para trabajar en proyectos horizontales, un ejemplo de los cuales es permitir la integración de datos entre empresas. 

En Nubank, siempre nos esforzamos por capacitar a cada empleado para que utilice cualquier información que considere necesaria para su trabajo, siempre que esté en línea con nuestra política de privacidad de datos. 

Para comprender mejor cómo lo hacemos, primero explicaremos el capítulo previo al análisis de datos sobre el panorama de datos. En segundo lugar, presentaremos el capítulo Analista de Datos y mostraremos el enfoque y alcances del capítulo, comparándolo con capítulos que ya existían. Por último, evaluaremos la idoneidad del nombre de nuestro capítulo tanto dentro como fuera de Nubank, y consideraremos alternativas. 

Edificio H1 de Nubank en São Paulo, Brasil; En el muro, uno de los dinosaurios (instituciones financieras tradicionales) contra los que luchamos. 
Consulte nuestras oportunidades laborales

Panorama de datos en Nubank antes de 2019 

La base de datos backend que normalmente encontrarás en Nubank se llama Datomic, una tecnología bastante poco común. Nubank eligió utilizar Datomic desde el principio porque creemos que esta base de datos tiene superpoderes. Uno de estos superpoderes es particularmente valioso para fines analíticos: el hecho de que Datomic solo se acumula. Eso significa que, en condiciones normales, la base de datos solo acumula datos nuevos y no olvida (elimina o modifica) los datos antiguos. 

Esto es diferente de cómo la gente usa generalmente las bases de datos SQL. La diferencia es que en Datomic solo INSERTA filas nuevas, no puede ACTUALIZAR ni ELIMINAR. Como resultado, los analistas y los modelos de ML de Nubank tienen acceso a una gran cantidad de datos históricos. 

Durante mucho tiempo, desde sus inicios en 2014, Nubank logró funcionar bien sin un sistema analítico separado ni un equipo de datos especializado. En otras palabras, los analistas de negocios, los científicos de datos y otros consumidores de datos obtuvieron ellos mismos los datos que necesitaban. Consultaron a Datomic directamente y ejecutaron el análisis en su propia máquina. 

Además de los murmullos ocasionales sobre el lenguaje de consulta extraño de Datomic, Datalog (la mayoría de la gente está acostumbrada al lenguaje de uso muy común llamado SQL), este canal de análisis (o la falta de él) funcionó bien inicialmente. Lo que cada vez no funcionó bien fue la disminución del rendimiento de las consultas causada por una base de clientes en rápido crecimiento. 

Además, el aumento de la plantilla ávida de datos añadió más leña al fuego. Los analistas recurrieron a trucos ingeniosos como dividir sus consultas en pedazos y concatenar los resultados en sus máquinas. Eso funciona, pero no por mucho tiempo. 

Es seguro decir que las consultas a nuestras bases de datos más grandes realmente comenzaron a detenerse en 2016. Nos dimos cuenta de que no podíamos continuar de esta manera y necesitábamos que nuestros datos estuvieran disponibles en una base de datos que atendiera específicamente cargas de trabajo analíticas. 

Al mismo tiempo, no nos gustaba la idea de construir una gran cantidad de canales de datos personalizados y dotar de personal a equipos de ingeniería de datos para mantenerlos, necesidades comunes para atacar este tipo de problemas de acceso a datos. Sin embargo, no necesitábamos eso, ya que el uso universal de Datomic por parte de Nubank nos permitió implementar solo un tipo genérico de canal de extracción de datos. En un mes, todos los servicios se conectaron mediante este canal y los datos de origen comenzaron a fluir hacia nuestra plataforma de datos. 

Decidimos construir una plataforma de datos de autoservicio. En Nubank nos gusta invertir en plataformas y abstracciones desarrolladas y mantenidas por especialistas en equipos horizontales, de modo que los generalistas en equipos verticales puedan iterar rápidamente en un alto nivel de abstracción. 

Ingenieros y otros capítulos en el trabajo. Vista interior del edificio H1.

Por ejemplo, los ingenieros pueden implementar su propio software. No contamos con un equipo de DevOps que se encargue de este tipo de trabajo. De manera similar, nuestra plataforma de datos de autoservicio permitió a las personas crear sus propios conjuntos de datos (vistas materializadas) sobre los datos de origen, y otros pueden crear nuevos conjuntos de datos sobre esos, y así sucesivamente. Realmente solo necesitábamos un pequeño equipo de infraestructura especializado para encargarnos de la plataforma que procesa las crecientes cantidades de datos. 

La plataforma de datos de autoservicio tiene una arquitectura ETL moderna típica. Extraemos todos los datos de Datomic y los guardamos en nuestro lago de datos en un servicio de almacenamiento en bloques en la nube. Luego, lo transformamos de un registro de Datomic a una tabla relacional (usando lo que llamamos “contratos” — consulte “Extracción de datos y toma de decisiones” en este artículo). Finalmente, lo cargamos en una base de datos analítica a la que todos en la empresa pueden acceder, desde la excelencia del cliente hasta los ejecutivos.  

La plataforma fue un éxito, al menos en términos de rápida adopción. La gente estaba contenta de poder acceder a todos los datos (nuevamente) y comenzó a contribuir conjuntos de datos a la plataforma (consulte nuestra charla en la reunión de DS&ML de São Paulo para obtener más detalles). También mejoramos claramente en términos de rendimiento de las consultas. 

Pero con el tiempo, a medida que se aportaban más y más conjuntos de datos nuevos, el lago de datos se estaba volviendo confuso. Los analistas se sintieron confundidos por la gran cantidad de conjuntos de datos con diferencias sutiles y sin una indicación clara de cuál usar para su trabajo. Al mismo tiempo, no había ningún incentivo para que los usuarios de plataformas de datos invirtieran en modelado y reutilización, lo que organizaría el desorden. Lamentablemente, pero como era de esperar, los datos de nuestra plataforma de datos se estaban convirtiendo en una gran bola de barro

La empresa empezó a sufrir definiciones de datos cada vez más conflictivo o ambiguas. Al mismo tiempo, no sabíamos quién debería asumir la responsabilidad de centrarse en estos problemas. No se espera que los analistas estudien las mejores prácticas de modelado y los ingenieros generalmente se centran en el lado transaccional, no en el analítico. Encontramos una brecha: nadie se concentraba en gobernar los datos de Nubank

En el siguiente gráfico, modelamos aproximadamente las diferencias relativas de cómo cuatro capítulos relacionados con datos (analistas de negocios, científicos de datos, ingenieros de aprendizaje automático e ingenieros de software) invirtieron su energía en cinco ámbitos seleccionados relacionados con datos antes de 2019. Entonces, cuanto más se extiende el polígono coloreado desde el centro, más energía gastaron en ese alcance. 

Finalmente, este gráfico muestra que ningún capítulo tomó como enfoque principal los Canales de Datos de Análisis e Informes y la Gobernanza de Datos y Modelado Dimensional. Ésta es la brecha.

Antes de 2019, Nubank tenía propietarios poco claros de las áreas de análisis e informes de canales de datos y de gobernanza de datos.

Introducción de una función de datos especializada 

En un intento por abordar la brecha anterior, decidimos introducir una nueva función de datos especializados en Nubank. 

A ese rol lo llamamos Analista de Datos, dado que ciertos ingenieros que ya estaban trabajando en nuestra infraestructura de datos se identificaron como ingenieros de datos. Además, encontramos ofertas de trabajo de analista de datos en algunas empresas similares a las que estábamos buscando. Los primeros miembros de este nuevo capítulo se unieron a Nubank en octubre de 2018

A medida que escalamos el rol y aprendimos cómo agregar mejor valor de manera estratégica, la identidad de este nuevo capítulo evolucionó. Nuestros analistas de datos actúan como multiplicadores, ayudando a su equipo a mejorar su alfabetización en datos y el diseño de flujos de trabajo de datos. Promueven las mejores prácticas en ingeniería de datos, modelado de datos y gobernanza de datos. 

Los analistas de datos también dedican el 20% de su tiempo a trabajar juntos en proyectos de datos estratégicos que impactan a toda la empresa. Este tiempo recurrente asignado fuera del equipo es poco común en Nubank, pero es esencial para nosotros, los analistas de datos, dado que uno de nuestros objetivos es lograr la integración de datos horizontal (entre equipos) en toda la empresa. 

A continuación describimos algunos ejemplos de iniciativas en las que los analistas de datos de Nubank han estado involucrados hasta ahora. Los dos primeros tratan sobre proyectos específicos de escuadrón y el tercero sobre la integración de datos horizontal antes mencionada, a través de una iniciativa que llamamos ‘Conjuntos de Datos Principales’.  

Conciliación automática de datos 

Como se indica en “Microservicios en Nubank, Descripción General”, uno de nuestros problemas es detectar y responder a los cambios en el valor de los datos de manera oportuna. Además, al unir datos distribuidos de diferentes microservicios, puede resultar complicado notar que los valores son divergentes o inconsistentes. 

Como parte de un equipo estrechamente relacionado con la Contraloría, algunos Analistas de Datos crearon un sistema de conciliación automática para resolver estos problemas. El equipo se inspiró en las pruebas de software tradicionales, que se clasifican en pruebas unitarias y pruebas de integración. El sistema de conciliación verifica el lago de datos todos los días y garantiza invariantes para nuestro sistema distribuido. 

Auditoría continua 

De manera similar a nuestro proyecto de conciliación automática anterior, algunos analistas de datos del equipo de Auditoría Interna de Nubank crearon un sistema futurista de Auditoría Continua. Actuando como una última línea de defensa automatizada, está lleno de consultas automáticas que se ejecutan todos los días. Cuando se activa, el sistema envía sus resultados a otro sistema que ayuda a los auditores a realizar el seguimiento de las alertas activadas. 

Esta automatización elimina la necesidad de contratar un gran equipo de auditores, lo que suele ser inevitable en las grandes empresas. Recientemente, los analistas de datos lograron enseñar a otros auditores no técnicos a contribuir con su plataforma de verificación automática sin ayuda. 

Gobernanza de datos/Conjuntos de datos básicos 

Una de las principales iniciativas de gobernanza de datos que el capítulo inició a principios de 2020 es el diseño de conjuntos de datos básicos. Los conjuntos de datos centrales ofrecerán una mejor experiencia a los usuarios de datos en Nubank, una alternativa al desordenado lago de datos que tenemos hoy. El núcleo es como un sello de aprobación, reduce la sobrecarga cognitiva de los analistas cuando buscan los datos para utilizar. 

El sello garantiza cuatro cosas: 

  1. Significa que es el conjunto de datos canónico que se utilizará para ese nivel de detalle (lo que representa una fila), hecho posible mediante la alineación de las partes interesadas relevantes para esos datos en toda la empresa. 
  2. Hay un equipo que garantiza la estabilidad a largo plazo del conjunto de datos (por ejemplo, para evitar roturas cuando se refactorizan los sistemas de origen—esto sucede con frecuencia y podría interrumpir el análisis si no se responde con cuidado). 
  3. Estamos monitoreando activamente las anomalías y advertimos al usuario si hay algún problema con el conjunto de datos principal — antes de que el usuario se dé cuenta. 
  4. Somos meticulosos a la hora de tener nombres y lógica coherentes para los nombres de las columnas en todos los conjuntos de datos principales. Confiamos en técnicas de Modelado Dimensional y estamos desarrollando activamente herramientas (principalmente relacionadas con dimensiones conformadas) para ayudarnos en este sentido. Profundizaremos en nuestros esquemas de estrellas en una publicación posterior (los desnormalizamos). 

La siguiente cita del excelente artículo “La Caída del Ingeniero de Datos”, de Maxime Beauchemin, capta muy bien el contexto: 

“El almacén de datos debe reflejar el negocio, y éste debe tener claridad sobre cómo piensa acerca de la analítica. Las nomenclaturas conflictivas y los datos inconsistentes en diferentes espacios de nombres, o mercados de datos, son problemáticos. Si desea generar confianza de una manera que respalde la toma de decisiones, necesita un mínimo de coherencia y alineación.” 

Reunión para alinear perspectivas en las oficinas de Nubank

Reconocemos el enorme desafío de alinear a la empresa en el tema de definiciones. Especialmente teniendo en cuenta que antes se había hecho poco de ese esfuerzo en Nubank. Sin embargo, tuvimos la suerte de encontrar la aceptación de los consumidores de datos de otros capítulos de la empresa desde que anunciamos nuestros planes. Después de todo, la gente está cada vez más abrumada por el caos en nuestro lago de datos y comienza a reconocer el valor de la estandarización. 

Como resultado del arduo trabajo de los analistas de datos y las partes interesadas, ahora estamos enviando los primeros conjuntos de datos básicos. Están dejando el estado ‘alfa’ y están disponibles para las partes interesadas de la empresa — reemplazando las implementaciones heredadas. 

Para ser claros, lo que hoy se conoce como ‘conjuntos de datos básicos’ era solo una vaga ambición cuando comenzamos este capítulo. A finales de marzo de 2020, la ambición se hizo realidad: enviamos nuestro primer conjunto de datos central y creamos un plan para el próximo trimestre. En ese plan, nuestro capítulo es el conductor que busca el consenso y organiza la propiedad de conjuntos de datos básicos para las partes interesadas informadas. 

Con el tiempo, descubrimos cómo queremos abordar la brecha en la gobernanza de datos en Nubank. Además de los conjuntos de datos básicos, también nos centramos en la clasificación de datos y la minimización de datos personales. Creemos que nuestro nombre actual no refleja esos alcances. 

Como muestra el siguiente gráfico, Nubank llenó el vacío con los esfuerzos de sus analistas de datos. El rol de Analista de Datos cubre la responsabilidad de los ámbitos descubiertos anteriormente (que son canales de datos de análisis e informes y gobierno de datos y modelado dimensional).

Ingresa el rol de Ingeniero Analítico en Nubank 

A lo largo de 2019, el capítulo de Analistas de Datos creció de 5 a 25 miembros. Ahora hay analistas de datos trabajando en varios equipos en todo Nubank, colaborando con analistas de negocios, ingenieros, científicos de datos, ingenieros de aprendizaje automático, etc. El capítulo alcanzó una escala y una cobertura lo suficientemente grandes como para que podamos abordar iniciativas de datos en toda la empresa. Pero con la escala, aumentó la necesidad de una mayor claridad de roles al interactuar con otras funciones. 

Dado el nombre, es perfectamente normal que alguien asuma que se supone que los analistas de datos deben centrarse en… bueno, ¡analizar datos! Excepto que analizar datos no es una expectativa central de este rol. Como se describió anteriormente, el rol se centra mucho más en análisis más productivos a través de la gobernanza de datos que es posible gracias a la ingeniería. Entonces decidimos buscar un nuevo nombre para describir mejor este rol. 

Desde el principio, el puesto de analista de datos en Nubank tuvo una fuerte conexión con la ingeniería. Para utilizar un concepto de desarrollo de software, básicamente “bifurcamos” el marco de desarrollo profesional de ingeniería de Nubank, adaptando algunas de las expectativas y manteniendo la mayoría de ellas iguales. Se consideró apropiado que el nombre del rol reflejara su enfoque de ingeniería. 

Al observar cómo la industria ha estado describiendo los roles de datos especializados últimamente, terminamos con dos contendientes principales: Ingeniero de Datos e Ingeniero Analítico. Hay publicaciones recientes que describen roles muy similares en espíritu al rol descrito aquí utilizando ingeniero de datos o ingeniero analítico. 

Un ejemplo interesante de una empresa que ha definido ambos roles es Spotify, donde los ingenieros de datos parecen centrarse más en desafíos de ingeniería de nivel inferior, mientras que los ingenieros de análisis están más cerca de los dominios comerciales en línea con el rol descrito aquí. 

Una ventaja del término ingeniero de datos es que se utiliza y reconoce más ampliamente en la industria. Sin embargo, la definición de lo que hace un ingeniero de datos varía ampliamente en diferentes empresas. El término reciente de ingeniero analítico, por otro lado, se ha utilizado de manera mucho menos ambigua. Optamos por optimizar para mayor claridad: 

Los Analistas de Datos de Nubank ahora se denominan Ingenieros Analíticos. 

El capítulo coincide unánimemente en que el nombre se adapta mejor al trabajo que realizamos. Al mismo tiempo, es un poco arriesgado cambiar nuestro nombre. Especialmente considerando la contratación. Tuvimos la suerte de contratar un increíble equipo de Ingenieros Analíticos con nuestra oferta de trabajo para Analistas de Datos. 

En otras palabras, ¿habríamos encontrado a las mismas personas si hubiésemos usado el nombre de Ingeniero Analítico en el pasado? Como siempre, examinaremos de cerca nuestro proceso de contratación para asegurarnos de seguir atrayendo a las personas adecuadas con nuestro nuevo nombre. 

También tendremos que trabajar duro en la comunicación interna y externa, asegurándonos de que todos en Nubank sepan lo que hace un Ingeniero Analítico. Hasta ahora, no hemos invertido mucho en difundir la claridad de las funciones porque queríamos descubrir cómo debería ser nuestro alcance ideal. Hoy tenemos mucha más confianza en eso y estamos listos para comenzar a correr la voz.

Descubre las oportunidades