Guia Definitivo Para o Tratamento de Valores Ausentes em Data Science – Estratégias Fundamentais

Este guia definitivo foi elaborado para ser seu recurso completo sobre o tratamento de valores ausentes. Iremos além das soluções rápidas e mergulharemos fundo na teoria estatística que governa a ausência de dados. Em seguida, traduziremos essa teoria em estratégias práticas. Ao final deste guia, você estará equipado não apenas para aplicar técnicas de tratamento, mas para justificar suas escolhas, compreendendo os trade-offs e tomando decisões informadas que fortalecem a robustez e a confiabilidade de seus projetos. Por ser uma guia realmente definitivo dividimos o guia em 6 partes. E se precisar de ajuda para aplicar a teoria em projetos práticos orientados às necessidades do mercado de trabalho, recomendamos a Formação Cientista de Dados 4.0 ou a Formação Analista de Dados 4.0.

Aproveite este incrível guia agora com a Parte 3. A Parte 2 você encontra aqui.

As Estratégias Fundamentais são as abordagens mais diretas e comuns para lidar com valores ausentes. Embora sua simplicidade seja atraente, elas vêm com suposições fortes e desvantagens significativas que devem ser cuidadosamente consideradas.

1- A Opção “Mais Radical”: Exclusão de Dados

A abordagem mais radical é simplesmente remover os registros com valores ausentes do dataset. Se isso representar a remoção de alguns poucos registros não há problema, mas se a remoção representar um percentual significativo dos dados, a perda de dados pode prejudicar o trabalho de análise. Aqui temos duas estratégias principais:

1.1- Listwise Deletion (Análise de Caso Completo)

Esta técnica envolve a exclusão de qualquer linha (observação) que contenha um ou mais valores ausentes.

Vantagens: É extremamente simples de implementar. Em pandas, basta uma linha: df.dropna().

Desvantagens: Seu principal defeito é o potencial de perda massiva de dados. Uma única célula ausente em uma linha pode levar à exclusão de dezenas de outras colunas com informações valiosas. Isso não apenas reduz o poder estatístico do modelo, mas também só é estatisticamente válido sob a forte e rara suposição de MCAR. Se os dados forem MAR ou MNAR, a exclusão listwise introduzirá um viés sistemático. Geralmente, só é aconselhável se a proporção de linhas afetadas for insignificante (por exemplo, menos de 5%).

1.2- Pairwise Deletion

Em vez de excluir linhas inteiras, esta técnica utiliza o máximo de dados disponíveis para cada cálculo específico. Por exemplo, ao calcular a matriz de correlação, a correlação entre as colunas A e B usará todas as linhas onde A e B estão completas, enquanto a correlação entre A e C usará todas as linhas onde A e C estão completas, que pode ser um subconjunto diferente de dados.

Vantagens: Preserva mais dados do que a exclusão listwise.

Desvantagens: Pode levar a problemas matemáticos e resultados inconsistentes, como matrizes de correlação que não são positivas-definidas, pois cada estatística é calculada com base em um tamanho de amostra diferente.

2- Preenchimentos Estatísticos: Imputação Univariada com Média, Mediana e Moda

A imputação univariada consiste em substituir os valores ausentes usando apenas a informação da própria coluna.

Descrição: Para variáveis numéricas, os valores ausentes são substituídos pela média ou pela mediana da coluna. Para variáveis categóricas, utiliza-se a moda (o valor mais frequente).

Vantagens: Estas técnicas são extremamente rápidas, computacionalmente baratas e muito fáceis de implementar.

Desvantagens Críticas:

Distorção da Distribuição: A principal desvantagem é que isso reduz artificialmente a variância da variável. Ao adicionar um conjunto de valores idênticos (a média, mediana ou moda), a dispersão dos dados diminui, o que pode levar a erros padrão subestimados, intervalos de confiança mais estreitos do que o real e um aumento na probabilidade de erros do Tipo I (falsos positivos) em testes de significância.
Sensibilidade a Outliers (Média): A média é muito sensível a valores extremos. Em uma distribuição de dados assimétrica (como a renda), a mediana é uma medida de tendência central muito mais robusta e geralmente uma escolha melhor para imputação.
Ignora Relações entre Variáveis: O problema mais fundamental é que esta abordagem ignora completamente as correlações com outras variáveis. Ela trata cada coluna de forma isolada, o que pode resultar em combinações de dados implausíveis e enfraquecer as relações que um modelo de Machine Learning deveria aprender.

3- Imputação com Valor Constante/Arbitrário

Esta técnica substitui todos os valores ausentes em uma coluna por um valor fixo e arbitrário, como 0, -1 ou 999.

Quando Usar: Esta abordagem é paradoxalmente útil em cenários MNAR. A lógica é que, se a ausência é informativa, não se deve tentar “adivinhar” o valor real. Em vez disso, o valor constante atua como um sinalizador, criando uma categoria distinta que permite ao modelo de Machine Learning aprender se o fato de um valor estar ausente tem poder preditivo.

Vantagens: Simples de implementar e captura a informação contida na “ausência”.

Desvantagens: A escolha do valor arbitrário é essencial. Se o valor escolhido estiver dentro do intervalo normal da distribuição da variável, ele pode ser confundido com um valor real. Se estiver muito fora, pode ser tratado como um outlier, distorcendo a escala e a distribuição da variável.

Implementação Prática

Idealmente é importante realizar a imputação após a divisão dos dados em conjuntos de treino e teste. A estatística para a imputação (média, mediana, etc.) deve ser calculada apenas no conjunto de treino e depois aplicada aos conjuntos de treino e teste. Fazer o contrário pode resultar em vazamento de dados (data leakage), onde a informação do conjunto de teste “vaza” para o processo de treinamento, levando a uma avaliação de performance excessivamente otimista.

Na Parte 4 traremos as estratégias avançadas.

Equipe DSA

Referências:

Business Analytics e Machine Learning Para Projetos de Data Science