Alerting for real-time Models

Escrito por Felipe Almeida
Com contribuições de Caique Lima e Luiz Felix

Aprendizado de Máquina em tempo real refere-se à integração de Aprendizado de Máquina em sistemas que operam continuamente: isso costuma significar modelos que produzem pontuações e previsões sob demanda, quando solicitado.

Como qualquer software, as coisas podem e costumam dar errado de diversas maneiras. É uma máquina bem lubrificada onde uma peça com defeito costuma ter impactos negativos nos estágios posteriores, como:

problemas de tempo de resposta devido ao aumento súbito de carga
travamentos devido a problemas nos estágios iniciais
travamentos devido a instalações malfeitas

Além do supracitado, há muitos outros tipos de falhas que se aplicam especificamente para modelos de aprendizado de máquina (ML):

Recursos ausentes/defeituosos causando previsões errôneas
Mudanças súbitas na distribuição de população causando previsões errôneas

A principal diferença entre softwares regulares e habilitados por aprendizado de máquina (ML) é que modelos de ML podem ter defeitos silenciosos.

Isso quer dizer que sistemas de aprendizado de máquina (ML) podem estar produzindo previsões errôneas mesmo sem haver exceções explícitas ou mensagens de erro.

Nas próximas sessões, analisamos as lições aprendidas e melhores práticas reunidas em anos de aplicação de Aprendizado de Máquina (ML) a problemas da vida real no Nubank.

Alertas x Monitoramento

Monitoramento de modelo refere-se a entender e abordar um comportamento latente, enquanto os alertas normalmente referem-se à detecção de problemas urgentes que devem ser resolvidos urgentemente.

Desta forma, o foco do monitoramento normalmente é detectar problemas para entender e investigar o que está acontecendo.

No entanto, há uma relação próxima entre alertas e monitoramento: a primeira ação realizada por alguém abordando um alerta pode ser precisamente abrir painéis de monitoramento para comparar dados de curto prazo com dados de médio prazo.

O foco dos alertas é deixar o sistema funcionando normalmente o mais rápido possível.

Alertas	Monitoramento
Foco em ações rápidas	Foco em entendimento e investigação meticulosos
Curto prazo (horas e minutos)	Médio prazo (dias, semanas e meses)
Consumo passivo (você recebe alertas)	Consumo ativo (você escolhe olhar os painéis)

Conheça nossas oportunidades

Monitoramento operacional ainda se aplica

Sistemas habilitados por aprendizado de máquina (ML) também são softwares! Isso significa que todos os problemas comuns e que podem acontecer com qualquer outro sistema também podem e devem acontecer com sistemas movidos a aprendizado de máquina (ML).

Aqui estão alguns pontos do monitoramento de software regular que também se aplicam a sistemas de ML:

Integridade do sistema operacional

Como qualquer outro software de produção em tempo real, você pode querer alertas para métricas regulares e verificações de integridade:

Erros do Sistema
Tempos de resposta
Problemas de dimensionamento (CPU, RAM etc.)

Registros em Log/Rastreamento

Você precisará das ferramentas de rastreamento distribuído e registro em log de sempre para centralizar e habilitar a análise de dados de log.

Isso é essencial para alertas porque a maioria dos alertas verdadeiros geralmente ativarão algum tipo de investigação. É aqui que uma infraestrutura de registro em log consistente é útil.

Algumas ferramentas comuns nesse espaço são Splunk, Datadog e New Relic.

Escalas de plantão

É prática padrão em equipes de engenharia gerais ter escalas de plantão para que sempre tenha alguém disponível para abordar questões urgentes.

Alertas devem ser padronizados quando possível

A padronização ajuda a melhorar a eficiência e a dimensionar seus processos.

Isso também possibilita que você veja uma coleção de coisas como versões diferentes da mesma coisa, reduzindo a carga cognitiva quando interagir com sistemas grandes.

Alertas não são diferentes. Aqui estão alguns exemplos do que pode/deve ser padronizado em relação a isso:

Todos os alertas devem ser comunicados através das mesmas ferramentas quando possível (Opsgenie, Slack, e-mails ad-hoc etc.)
Todos os alertas devem (quando possível) ser formatados da mesma forma: texto padronizado, cores padronizadas e estilos padronizados
Todos os alertas devem usar métricas similares para transmitir informações (por exemplo, médias, percentuais, mínimos, máximos, contagens etc.)

Inclua comportamentos esperados

Quando escrever o texto para o alerta, não diga simplesmente o que está errado, diga o que era esperado, e sempre inclua o período avaliado.

Isso ajuda as pessoas a entender a importância do alerta e a urgência da reação, aumentando a eficiência e reduzindo a chance de falsos positivos.

Bom	Ruim
“Alerta: a métrica X esperada deve estar entre 100 e 150. Estava em 250 nos últimos 30 minutos”	“Alerta: o valor atual para a métrica X é 250“
“Alerta: o valor para a métrica X era 500 na última hora. Esperava-se 100 (stddev=25) com base em dados de histórico.”	“Alerta: o valor para a métrica X está acima do valor esperado: 500“

Alertas devem ser práticos

Sempre que possível, adicione um link ou curso de ação claro para ajudar na reação aos alertas.

Isso é útil tanto para engenheiros experientes quanto novatos que podem nunca ter enfrentado um problema específico antes.

Um jeito ainda melhor de fazer isso é ter manuais padronizados com guias sobre como abordar os problemas mais comuns, onde encontrar ajuda etc. Isso garante processos padronizados e reduz os riscos de erro humano.

Pergunte-se quando criar um alerta: “Qual a primeira informação que o atendente precisará procurar quando abordar o alerta? Como posso facilitar para ele?”

Bom	Ruim
“Alerta: nenhuma mensagem morta esperada nos últimos 30 minutos. Obteve 1.000. Clique aqui para abrir a Fila de Mensagens Mortas (DLQ) e tentar configurações novamente”	“Alerta: 1.000 mensagens mortas na DLQ”
“Alerta: o modelo X não respondeu às verificações de integridade por 5 minutos. Clique aqui para procurar problemas e soluções comuns no manual.”	“Alerta: o modelo X não responde”
“Alerta: o tempo de resposta médio para o modelo X nos últimos 30 minutos é 500ms (esperava-se 300ms). Clique aqui para editar as configurações de dimensionamento”	“Alerta: o tempo de resposta médio para o modelo X é 500ms”
“Alerta: 50% dos eventos pontuados pelo modelo X receberam pontuações altas nos últimos 30 minutos (esperava-se 1%). Clique aqui para editar esse feature flag ou entre em contato com engenheiros no canal do Slack #qualquer para obter ajuda.”	“Alerta: 50% dos eventos pontuados pelo modelo X receberam pontuações altas nos últimos 30 minutos”

Alertas devem ser fáceis de configurar

Os alertas para modelos de aprendizado de máquina eventualmente ficam obsoletos.

Isso pode acontecer por vários motivos: a distribuição subjacente de dados trocados ao longo do tempo, mudança nos requisitos do negócio ou da engenharia ou até mesmo outro alerta que já englobe o atual foi lançado.

Alertas param de funcionar de uma de duas maneiras:

Excesso de sensibilidade: ficam sensíveis demais e param de funcionar com frequência (isso normalmente é chamado de fadiga de alerta)
Falta de sensibilidade: ficam grosseiros demais e nunca mais disparam

Em outras palavras, a troca entre precisão/reiteração pode precisar de mudanças.

Faça com que todos possam facilmente:

editar a configuração do alerta (mudar os limites para calibrar a razão sinal/ruído etc.)
deixar o alerta cochilar por algum tempo
desabilitar completamente o alerta
confirmar o alerta (mais disso depois).

Bom	Ruim
“Alerta: <…texto de alerta…> Clique aqui para editar a configuração do alerta”	“Alerta: <…texto de alerta…>”
“Alerta: <…texto de alerta…> Clique aqui para editar a configuração do alerta Clique aqui para adiar este alerta por 6 horas.”	“Alerta: <…texto de alerta…>”

Leve seu público em consideração

Os alertas devem ser escritos com o público desejado em mente. Isso garantirá que a mensagem que você transmitir seja recebida pelo outro lado.

Pessoas diferentes exercem uma função na entrega de um sistema habilitado por aprendizado de máquina (ML) para produção. Elas incluem, por exemplo, equipes de engenharia, profissionais de Ciência de Dados/Aprendizado de Máquina e equipes de produto/negócios.

Dependendo do público, pode ser bom adaptar:

A linguagem usada
As métricas usadas (métricas de engenharia para engenheiros, métricas estatísticas para equipes de Ciência de Dados/Aprendizado de Máquina, métricas de negócios para produto/negócios)
A ação a ser realizada (equipes de engenharia precisam ver métricas do sistema de baixo nível, equipes de negócios só estão interessadas de fato nos efeitos ao negócio)

Público de Engenheiros	Público de Profissionais de Ciência de Dados/Aprendizado de Máquina	Público de Produto/Negócios
“Alerta: a taxa de esgotamento de tempo para o modelo Y em tempo real está em 50% pelos últimos 5 minutos (esperava-se entre 1 e 5%) clique aqui para visualizar a integridade de pod e as configurações de dimensionamento.”	“Alerta: o recurso X usado pelo modelo Y está com uma média de 500ms a ser recuperada nos últimos 5 minutos (esperava-se 50 a 100ms) clique aqui para visualizar o painel de recuperação de recursos”	“Alerta: menos clientes que de costume estão recebendo empréstimos nos últimos 5 minutos (esperava-se 100, atualmente é 1) clique aqui para visualizar o painel de negócios. Para mais informações, vá para o canal #qualquer no Slack”

Exemplo: o mesmo alerta sendo visualizado por 3 perspectivas diferentes, dependendo do público-alvo

Alertas devem ser confirmáveis e rastreáveis

Alertas, por definição, devem ser “raros”, e a ativação de um alerta, por necessidade, é um evento meio caótico.

Você precisa, no mínimo, de um jeito sólido de sinalizar que um alerta está sendo abordado.

Poder confirmar (ou dar “ACK” para os antigos) ajuda sua equipe a garantir que haja ao menos uma pessoa investigando ativamente o alerta atual. Isso também previne que diversas pessoas interfiram umas com as outras. A maioria das ferramentas de alerta suporta isso (por exemplo, OpsGenie).

Além de serem confirmáveis, os alertas idealmente devem ser rastreáveis. Ou seja, deve haver um log do período do alerta, por exemplo.

Quando o alerta foi disparado?
Quem estava envolvido na abordagem do alerta?
Como verificamos que o alerta era real?
Era um falso positivo?
Como foi mitigado?
O que foi feito para evitar problemas similares no futuro?

Esses logs ajudam engenheiros a encontrar informações no futuro, e provavelmente facilitam e agilizam a abordagem de futuros incidentes.

Eles também possibilitam que você analise dados de alerta e descubra, por exemplo, culpados comuns no sistema e padrões de alerta.

Outras Dicas

Alertas para a ausência de eventos

Normalmente usamos contagens, médias e somas para detectar comportamentos anormais.

No entanto, se um serviço em particular tiver parado de funcionar completamente, talvez não haja logs, o que significa que não haverá médias, contagens e nem somas.

Um jeito de resolver isso é ter alertas de pulsação, pelos quais você deve executar ping em algum API externo para sinalizar que seu serviço/sistema está operando com integridade.

Esses alertas de pulsação normalmente são configurados com um período, e se seu serviço/sistema não enviar um ping nesse período, isso ativará um alerta.

Teste seus alertas antecipadamente

Como qualquer parte de código, você deve testar que o alerta será ativado quando deve.

Um jeito de testar os alertas é deixar os limites de ativação artificialmente baixos, para que o alerta seja mais sensível e fácil de testar:

Os cálculos estão corretos?
As pessoas certas estão sendo notificadas (opsgenie, slack etc.)?
Os recursos de apoio (confirmação, rastreamento etc.) estão funcionando como esperado?

Esteja ciente da sazonalidade

Dados de recurso para sistemas em tempo real normalmente representam dados do cliente. Desta forma, eles são propensos a ciclos naturais, como dia/noite, dia útil/fim de semana etc.

Isso pode atrapalhar os fluxos de alerta porque a definição de “comportamento normal” costuma depender do horário, do dia da semana etc.

Um jeito de abordar isso é incluir um limite de tamanho de amostragem mínimo para garantir que alguns alertas (por exemplo, taxa de ações) só sejam disparados se houver dados suficientes.

Por exemplo: ativar alerta se a taxa de pontuações acima de 0,9 estiver acima de 20%, mas apenas se o tamanho de amostragem for ao menos 10.000

Em dimensão, os custos serão um problema

Quando operar em dimensões suficientemente grandes (pense em milhões de solicitações a um modelo em tempo real por dia), os custos serão um problema

Os alertas normalmente precisam ser feitos em tempo real (apesar de também haver usos para alertas em lote), então você precisa de ferramentas e infraestrutura robustas e caras para lidar com todos esses eventos.

Um jeito simples de cuidar disso é usar dados de amostragem para alertar, em vez de dados completos.

Em outras palavras, você poderia selecionar uma amostra aleatória de 10% dos seus dados e calcular alertas sobre eles, em vez de usar os dados completos. A maioria das métricas estatísticas será igual, a uma fração do custo. Entretanto, lembre-se que a amostragem dos dados só gera resultados seguros se a distribuição subjacente for grande o suficiente.

Conheça nossas oportunidades

Melhores Práticas para Aprendizado de Máquina em Tempo Real: Alertas

Alertas x Monitoramento

Monitoramento operacional ainda se aplica

Integridade do sistema operacional

Registros em Log/Rastreamento

Escalas de plantão

Alertas devem ser padronizados quando possível

Inclua comportamentos esperados

Alertas devem ser práticos

Alertas devem ser fáceis de configurar

Leve seu público em consideração

Alertas devem ser confirmáveis e rastreáveis

Outras Dicas

Alertas para a ausência de eventos

Teste seus alertas antecipadamente

Esteja ciente da sazonalidade

Em dimensão, os custos serão um problema

Deixe o seu comentário a seguir

0

mais lidos

Carreiras

Quick Navigation

Quick Navigation

Outros tópicos

Carreiras

most read

Trabalhando no Nu

Melhores Práticas para Aprendizado de Máquina em Tempo Real: Alertas

Alertas x Monitoramento

Monitoramento operacional ainda se aplica

Integridade do sistema operacional

Registros em Log/Rastreamento

Escalas de plantão

Alertas devem ser padronizados quando possível

Inclua comportamentos esperados

Alertas devem ser práticos

Alertas devem ser fáceis de configurar

Leve seu público em consideração

Alertas devem ser confirmáveis e rastreáveis

Outras Dicas

Alertas para a ausência de eventos

Teste seus alertas antecipadamente

Esteja ciente da sazonalidade

Em dimensão, os custos serão um problema

Deixe o seu comentário a seguir

0

.typography-4443 { color: #000; background-color: transparent; margin-bottom: 0px } @media (min-width: 768px) { .typography-4443 { margin-bottom: 0px } } mais lidos

.typography-5091 { color: #FFF; background-color: transparent; margin-bottom: 16px } @media (min-width: 768px) { .typography-5091 { margin-bottom: 32px } } Carreiras

.typography-7513 { color: #000000; background-color: #FFFFFF; margin-bottom: 0px } @media (min-width: 768px) { .typography-7513 { margin-bottom: 0px } } Quick Navigation

.typography-7513 { color: #000000; background-color: #FFFFFF; margin-bottom: 0px } @media (min-width: 768px) { .typography-7513 { margin-bottom: 0px } } Quick Navigation

.typography-5359 { color: #000000; background-color: transparent; margin-bottom: 48px } @media (min-width: 768px) { .typography-5359 { margin-bottom: 48px } } Outros tópicos

.typography-4514 { color: #FFF; background-color: transparent; margin-bottom: 16px } @media (min-width: 768px) { .typography-4514 { margin-bottom: 32px } } Carreiras

.typography-3123 { color: #000; background-color: transparent; margin-bottom: 0px } @media (min-width: 768px) { .typography-3123 { margin-bottom: 0px } } most read

.typography-6208 { color: linear-gradient(0deg, #00A851 0%, #00A851 10%,#1832D7 100%); background-color: transparent; margin-bottom: 0px } @media (min-width: 768px) { .typography-6208 { margin-bottom: 0px } } Trabalhando no Nu

Descubra mais sobre Building Nubank

mais lidos

Carreiras

Quick Navigation

Quick Navigation

Outros tópicos

Carreiras

most read

Trabalhando no Nu