Guia Definitivo Para o Tratamento de Valores Ausentes em Data Science – Os Três Mecanismos de Ausência de Dados

Este guia definitivo foi elaborado para ser seu recurso completo sobre o tratamento de valores ausentes. Iremos além das soluções rápidas e mergulharemos fundo na teoria estatística que governa a ausência de dados. Em seguida, traduziremos essa teoria em estratégias práticas. Ao final deste guia, você estará equipado não apenas para aplicar técnicas de tratamento, mas para justificar suas escolhas, compreendendo os trade-offs e tomando decisões informadas que fortalecem a robustez e a confiabilidade de seus projetos. Por ser uma guia realmente definitivo dividimos o guia em 6 partes. E se precisar de ajuda para aplicar a teoria em projetos práticos orientados às necessidades do mercado de trabalho, recomendamos a Formação Cientista de Dados 4.0 ou a Formação Analista de Dados 4.0.
Aproveite esse incrível material agora com a Parte 2. A Parte 1 você encontra aqui.
A decisão mais importante no tratamento de dados ausentes não é qual algoritmo ou técnica usar, mas sim qual suposição fazer sobre por que os dados estão faltando. A teoria estatística classifica a ausência de dados em três mecanismos. Entender essa taxonomia é a base para qualquer abordagem metodologicamente sólida. É importante notar que essa classificação é uma suposição baseada no conhecimento de domínio e no processo de coleta de dados, não uma propriedade que pode ser matematicamente provada a partir dos dados em si.
Missing Completely at Random (MCAR): A Verdadeira Aleatoriedade
Definição: A probabilidade de um valor estar ausente é completamente independente de qualquer outra variável no dataset e do próprio valor que estaria presente. Em outras palavras, a ausência é um evento puramente estocástico.
Exemplo: Um pesquisador deixa cair acidentalmente alguns tubos de ensaio, perdendo as medições daquelas amostras. A perda não tem relação com as características das amostras. Outro exemplo é um participante de uma pesquisa que pula uma pergunta por distração.
Implicação: Este é o cenário mais benigno e o mais fácil de tratar. Se os dados são MCAR, o subconjunto de dados completos ainda é uma amostra representativa da população total. Portanto, técnicas como a exclusão de casos completos (listwise deletion) podem produzir estimativas não enviesadas, embora com menor poder estatístico devido à redução do tamanho da amostra. Infelizmente, a suposição de MCAR é frequentemente irrealista em problemas do mundo real.
Missing at Random (MAR): A Ausência Preditiva
Definição: A probabilidade de um valor estar ausente não depende do valor ausente em si, mas pode ser explicada por outras variáveis observadas no conjunto de dados. O termo “ao acaso” aqui é um tanto enganador; a ausência não é puramente aleatória, mas é aleatória após levar em conta as outras variáveis.
Exemplo: Em uma pesquisa clínica, homens podem ser menos propensos a preencher um questionário sobre saúde mental do que mulheres. A ausência na variável “pontuação de saúde mental” está sistematicamente relacionada à variável observada “gênero”. No entanto, dentro do grupo de homens (e dentro do grupo de mulheres), a ausência não está relacionada ao nível real de saúde mental da pessoa.
Implicação: A exclusão de dados sob a condição MAR introduzirá um viés de seleção. Se simplesmente removermos todas as observações com pontuação de saúde mental ausente, nossa amostra final terá uma proporção maior de mulheres do que a população original, distorcendo qualquer análise subsequente. Este é o cenário onde métodos de imputação que utilizam a informação das outras variáveis (como gênero) para prever os valores ausentes são mais apropriados e eficazes.
Missing Not at Random (MNAR): O Cenário Mais Complexo
Definição: A probabilidade de um valor estar ausente está diretamente relacionada ao valor que estaria presente. A ausência é sistemática e informativa, dependendo de fatores não observados.
Exemplo: Pessoas com rendas muito altas podem se sentir desconfortáveis em revelar seus ganhos e, portanto, são mais propensas a deixar a pergunta sobre renda em branco. Neste caso, a ausência de dados de renda está diretamente correlacionada com o próprio nível de renda. Outro exemplo clássico é em estudos médicos, onde pacientes que estão se sentindo pior (com mais efeitos adversos) são mais propensos a abandonar o estudo, resultando em dados de acompanhamento ausentes.
Implicação: MNAR é o mecanismo mais problemático e desafiador. Tanto a exclusão quanto os métodos de imputação padrão (que assumem MAR ou MCAR) produzirão estimativas severamente enviesadas. Se ignorarmos o mecanismo MNAR no exemplo da renda, calcularemos uma renda média subestimada, pois os mais ricos estão sistematicamente ausentes da amostra. O tratamento de dados MNAR muitas vezes requer técnicas avançadas, como a modelagem explícita do processo de ausência ou o uso de estratégias que capturam a informação contida na própria ausência.
A falha em raciocinar sobre esses mecanismos leva à aplicação cega de técnicas e a resultados potencialmente inválidos. Um Cientista de Dados eficaz não apenas executa o código para preencher NaNs, mas primeiro formula uma hipótese sobre por que esses NaNs existem, e essa hipótese dita a estratégia técnica a ser seguida.
Seguiremos com o guia na Parte 3.
Equipe DSA
Referências: