Vamos colocar o drift em contexto através de dois estudos de caso. Se estiver chegando agora, comece por aqui.

Estudo de Caso 1: Deteção de Fraude e a Corrida Armamentista com os Fraudadores

Os modelos de deteção de fraude são um exemplo clássico de um ambiente com Concept Drift contínuo e adversário. Neste domínio, o drift não é apenas uma consequência passiva da mudança do mundo; é uma adaptação ativa e inteligente de um adversário que procura explorar as fraquezas do sistema.

Contexto e Cenário de Drift: Um banco implementa um modelo de Machine Learning de última geração treinado para identificar padrões de transações fraudulentas com base em dados históricos. Inicialmente, o modelo é altamente eficaz para bloquear transações de alto valor suspeitas, que eram a tática predominante. No entanto, os fraudadores são adversários adaptativos. Eles rapidamente percebem que o modelo está visando transações de alto valor e mudam a sua estratégia para um novo esquema conhecido como “carding” ou “testing”, onde realizam um grande volume de transações de muito baixo valor em múltiplos cartões roubados para verificar a sua validade antes de os venderem na dark web.

Impacto: O modelo, treinado para associar “fraude” a “transações de alto valor”, falha em reconhecer este novo padrão. As transações de baixo valor passam despercebidas. Pior ainda, o modelo pode começar a sinalizar incorretamente transações legítimas de clientes que adotam novos comportamentos de compra online (ex: microtransações em jogos, subscrições digitais), tratando-os como suspeitos. Isto resulta em uma dupla falha: o banco sofre perdas com a nova fraude não detectada e, ao mesmo tempo, aliena clientes legítimos com falsos positivos, causando uma péssima experiência do cliente e potencial abandono. Este caso ilustra como o Concept Drift, especialmente num contexto adversário, exige monitoramento e retreinamento contínuos para se manter um passo à frente.

Estudo de Caso 2: O Grande Reset da COVID-19

A pandemia de COVID-19 serviu como um teste de stress global para os sistemas de Machine Learning, desencadeando um evento de “Sudden Concept and Data Drift” em escala massiva que quebrou inúmeros modelos em múltiplos setores.

Contexto e Cenário de Drift em Sistemas de Recomendação: Os modelos de recomendação de e-commerce, meticulosamente treinados em anos de dados de comportamento de compra sazonal e tendências estáveis, tornaram-se subitamente irrelevantes. Com os lockdowns globais, os padrões de consumo mudaram da noite para o dia. As pessoas pararam de comprar roupas de escritório, malas de viagem e cosméticos, e começaram a comprar em massa equipamento de ginástica em casa, material de escritório, puzzles e fermento. A matriz de “proximidade” de produtos, que define que “clientes que compraram X também compraram Y”, foi completamente reescrita. Os modelos continuaram a recomendar produtos baseados em padrões pré-pandêmicos, resultando em recomendações irrelevantes e perda de oportunidades de venda.

Contexto e Cenário de Drift em Previsão de Demanda: Talvez o impacto mais visível tenha sido na cadeia de abastecimento. Os modelos de previsão de demanda, que são a espinha dorsal do planeamento de inventário e logística, falharam catastroficamente. A demanda por papel higiênico, desinfetante para as mãos e computadores portáteis disparou de forma imprevisível, enquanto a demanda por combustível de aviação, quartos de hotel e refeições em restaurantes evaporou. Os modelos, baseados em dados históricos que não continham nenhum evento análogo, eram fundamentalmente incapazes de prever estas mudanças sem precedentes. Isto levou a prateleiras vazias para alguns produtos e a um excesso de estoque dispendioso para outros, causando disrupções massivas e perdas financeiras em toda a economia global.

Estes casos demonstram como eventos externos de grande escala podem invalidar completamente as premissas sobre as quais os modelos foram construídos, sublinhando a necessidade crítica de sistemas de monitoramento robustos, planos de contingência e a capacidade de adaptar ou mesmo desativar modelos rapidamente quando o mundo muda de forma imprevisível.

Continuaremos na Parte 5.

Drift é estudado em detalhes no curso MLOps e Ciclo de Vida de Modelos de Machine Learning aqui na DSA.

Equipe DSA

Referências:

What is data drift in ML, and how to detect and handle it

Data Drift: What It Is, Why It Matters, and How to Tackle It