Revisado por Felipe Yukio

O que é o autosserviço de dados

Imagine um local de trabalho onde todos os funcionários, de qualquer departamento, podem acessar e analisar os dados necessários sempre que precisarem. Isso é exatamente o significado de autosserviço de dados. Ele democratiza os dados, permitindo um fluxo contínuo de informações entre vários departamentos e promovendo uma cultura de tomada de decisão orientada por dados.

Benefícios do autosserviço de dados

  1. Empoderamento e velocidade: com os dados sempre à disposição, as equipes podem solucionar problemas rapidamente, gerar novos conjuntos de dados e executar tarefas analíticas sem depender de uma equipe de dados centralizada.
  2. Solução de problemas aprimorada: o acesso imediato aos dados acelera a identificação e a solução de problemas, possibilitando uma abordagem proativa.

No entanto, essa ferramenta poderosa também apresenta alguns desafios.

Desafios

  1. Reprocessamento: normalmente, cada departamento tem uma perspectiva única acerca do comportamento dos dados em suas determinadas áreas. Assim, equipes diferentes podem acabar criando conjuntos de dados similares. Em vez de ter conjuntos de dados repetidos, é primordial reaproveitá-los e reutilizá-los. Uma falha nesse processo pode acarretar processamentos repetitivos de dados por departamentos diferentes e gerar custos desnecessários.
  2. Interdependência: quando diversas equipes dependem de um único conjunto de dados, as alterações feitas para uma equipe podem impactar as outras inadvertidamente. Portanto, existe a necessidade de uma “fonte de confiança” unificada para lidar com esses problemas de Core Datasets .

Conheça nossas oportunidades

O Core Datasets  do Nubank em Ação

O Core Datasets  é a base da melhor e mais confiável administração de dados orientada pela prática. Ele reduz problemas comuns como reprocessamentos e abre o caminho para fluxos de dados consistentes e confiáveis. Esses conjuntos de dados funcionam como um ponto de referência, garantindo a uniformidade e reduzindo discrepâncias.

Para entender o verdadeiro valor do Core Datasets , vamos explorar dois casos de uso das operações do Nubank:

Desafios de dados de clientes

Antigamente, as unidades de negócios diferentes dentro do Nubank precisavam enfrentar regras de negócios especializadas, tornando as análises consolidadas de clientes muito mais complexas. Ao reconhecer as complicações que isso poderia gerar, o Nubank viu a solução no Core Datasets .

Usando esses conjuntos de dados, conseguimos apresentar uma visão abrangente dos nossos clientes. Além de um processo de análise de clientes harmonizada, também ganhamos uma fonte de confiança centralizada. Essa mudança simplificou a manutenção e a evolução dos dados de clientes, promovendo mais eficiência e clareza nas nossas operações.

Discrepância de dados nos produtos de cartão de crédito

Com uma ampla diversidade de produtos de cartão de crédito no portfólio do Nubank, nos vimos perdidos em um labirinto de métricas, cada uma com regras de negócios específicas. A amplitude das fontes de dados fazia da reconciliação uma tarefa meticulosa.

Para solucionar o caso, começamos a unificar as regras de negócios para indicadores corporativos. Esse processo exigiu uma forte colaboração entre as partes interessadas e as unidades de negócios. Após definirmos claramente os controles, tanto funcional quanto tecnicamente, alcançamos uma visão corporativa coesa. Essa nova perspectiva respeitava as visões especializadas, garantindo que as nuances específicas de cada unidade não fossem perdidas, mesmo com nossa visão geral abrangente. 

Além disso, essa mudança impulsionou os nossos processos de governança, principalmente nas áreas de qualidade de dados, usabilidade e integridade.

Referência do Core Datasets 

Na prática, o Core Datasets  tem documentações mais restritas, chamadas de especificações de projeto. A equipe de Engenharia de Análise do Nubank referencia o seguinte link:

Qualidade de Dados no Airbnb 

Dinâmicas operacionais

Dois problemas nunca são idênticos. Portanto, suas soluções podem variar. O ponto principal ao se trabalhar com Core Datasets  é alcançar as propriedades listadas abaixo, garantindo que o conjunto de dados final seja:

  • a fonte definitiva para casos de uso específicos.
  • Escalável com o crescimento orgânico da empresa.
  • Caracterizado por regras de negócios claras, seja por código ou documentação.
  • Minuciosamente documentado.

No Nubank, implementamos duas abordagens diferentes para conseguirmos isso: o Modelo Tabular e o Modelo EAVT. Vamos explorá-los e entender a motivação teórica por trás dessas metodologias.

Conceitos de Modelo Dimensional de Kimball

Imagine uma tabela representando transações. Uma chave primária, a “semente”, define a sua essência. A partir daqui, várias características ou “tabelas dimensionais” são anexadas para descrever esses eventos, resultando no que chamamos de “esquema Estrela”. Seguindo esses princípios, o Nubank garante a eficiência operacional.

Isso inclui mapear os processos de negócios, definir a semente, identificar dimensões e detalhar o verdadeiro evento, levando a uma base de dados estruturada com propriedades flexíveis e escaláveis.

Porém, os avanços tecnológicos e as mudanças de paradigmas redirecionaram o foco do armazenamento para preocupações de processamento.

A abordagem EAVT

Devido à natureza do alto custo de se implementar mais informações a uma tabela, faz-se necessário a adição de um conjunto de dados mais detalhado. Assim surgiu o modelo EAVT (Entidade, Atributo, Valor, Tempo). O EAVT pode ser visualizado como uma tabela onde as colunas estão empilhadas, prontas para serem direcionadas para o formato tabular desejado quando necessário.

O modelo EAVT, com sua ênfase na Entidade, Atributo, Valor e Tempo, apresenta uma perspectiva original na área de administração de dados. Uma de suas principais vantagens é a redução de modificações de esquemas. Isso promove mais modularidade e facilita as iterações mais simples. Esse modelo é inestimável quando trabalhamos com conjuntos de dados maiores, pois permite que os administradores de dados se adaptem rapidamente às mudanças.

No entanto, nem tudo é perfeito. Embora o modelo EAVT seja revolucionário em vários aspectos, ele nem sempre é ideal para todas as situações. Por exemplo, quando lidamos com tabelas menores, a implementação do modelo EAVT pode ser vista como um exagero, ou talvez inconveniente. Outro desafio surge quando lidamos com lógicas complexas de negócios. Em tais situações, o modelo exige uma manipulação complexa, que pode ser intimidante para quem não conhece bem os seus detalhes.

O Nubank desenvolveu uma estrutura robusta para o uso do EAVT, equipada com ferramentas de monitoramento, sistemas de alerta e rastreadores de regras de negócios.

Para concluir, nossa jornada no complicado mundo dos dados foi tanto desafiadora quanto esclarecedora. Apesar dos marcos alcançados, é como se estivéssemos apenas começando, ansiosos pelas infinitas possibilidades futuras!

Conheça nossas oportunidades