Este guia definitivo foi elaborado para ser seu recurso completo sobre o tratamento de valores ausentes. Iremos além das soluções rápidas e mergulharemos fundo na teoria estatística que governa a ausência de dados. Em seguida, traduziremos essa teoria em estratégias práticas. Ao final deste guia, você estará equipado não apenas para aplicar técnicas de tratamento, mas para justificar suas escolhas, compreendendo os trade-offs e tomando decisões informadas que fortalecem a robustez e a confiabilidade de seus projetos. Por ser uma guia realmente definitivo dividimos o guia em 6 partes. E se precisar de ajuda para aplicar a teoria em projetos práticos orientados às necessidades do mercado de trabalho, recomendamos a Formação Cientista de Dados 4.0 ou a Formação Analista de Dados 4.0.

Aproveite este incrível guia agora com a Parte 5. A Parte 4 você encontra aqui.


Nem todos os dados são tabulares e independentes. Estruturas de dados específicas, como séries temporais e variáveis categóricas, exigem abordagens de imputação que respeitem sua natureza intrínseca.

Navegando por Lacunas no Tempo: Tratamento de Valores Ausentes em Séries Temporais

Em dados de séries temporais, a ordem das observações é fundamental. Uma medição em um ponto no tempo está frequentemente correlacionada com as medições anteriores. Portanto, métodos de imputação genéricos que embaralham ou ignoram a ordem temporal (como a média de toda a série) são geralmente inadequados.

Técnicas Comuns para Séries Temporais

  • Forward Fill (ffill) / Last Observation Carried Forward (LOCF): Esta técnica preenche um valor ausente com a última observação válida conhecida. A suposição é que o valor da medição permanece constante até que uma nova medição seja registrada. É muito comum em dados financeiros ou de sensores.
  • Backward Fill (bfill) / Next Observation Carried Backward (NOCB): O oposto do ffill, esta técnica preenche um valor ausente com a próxima observação válida conhecida.
  • Interpolação: Este método “conecta os pontos”, estimando os valores ausentes com base nos valores conhecidos antes e depois da lacuna.
  • Linear: Assume uma tendência linear constante entre os dois pontos conhecidos mais próximos.
  • Time-based: Uma forma mais inteligente de interpolação linear para séries temporais com índices de data/hora irregulares. Ela leva em conta a duração real do intervalo de tempo entre os pontos, em vez de apenas sua posição ordinal.
  • Spline/Polynomial: Usa curvas mais complexas (polinômios) para preencher as lacunas, o que pode capturar tendências não-lineares de forma mais eficaz.

Tratando Dados Categóricos: Uma Nova Categoria Para a Ausência

Para variáveis categóricas, a imputação pela moda (most_frequent) é uma opção, mas sofre de problemas semelhantes à imputação pela média: pode distorcer a distribuição de frequência das categorias, super-representando a categoria mais comum.

Uma alternativa poderosa, especialmente em cenários que podem ser MNAR, é tratar a ausência como uma categoria em si mesma.

Técnica: Em vez de tentar adivinhar a categoria correta, os valores ausentes são substituídos por uma nova categoria, como “Missing”, “Unknown” ou “Não Informado”.

Vantagens:

  • Preserva a Informação: A principal vantagem é que ela não descarta a informação de que o dado estava ausente. O modelo de Machine Learning pode então aprender se existe uma relação entre o fato de uma categoria estar “Ausente” e a variável alvo. Em muitos casos, a ausência é um forte preditor.
  • Evita Suposições Falsas: Não se faz nenhuma suposição sobre qual deveria ser o valor “correto”, o que evita a introdução de viés por imputação incorreta.
  • Simplicidade: É muito fácil de implementar.

Desvantagens:

  • Aumento da Cardinalidade: Adiciona uma nova categoria, o que pode ser um problema para alguns modelos se a variável já tiver muitas categorias.
  • Potencial de Overfitting: Se a nova categoria “Missing” for muito rara, o modelo pode ter dificuldade em generalizar a partir dela.

Seguiremos com o guia na Parte 6.

Equipe DSA

Referências:

Business Analytics e Machine Learning Para Projetos de Data Science

Projetos de Análise de Dados com Linguagem Python