Quais são as falhas de imputar valores omissos com média?

Quais são as falhas de imputar valores omissos com média?
Quais são as falhas de imputar valores omissos com média?
Anonim

Atribuição média distorce relacionamentos entre variáveis Mas a imputação média também distorce relacionamentos multivariados e afeta estatísticas como correlação. Por exemplo, a seguinte chamada para PROC CORR calcula a correlação entre a variável Orig_Height e as variáveis Weight e Age.

Por que usar uma média para dados ausentes é uma má ideia?

Média reduz uma variância dos dados Indo mais fundo na matemática, uma variância menor leva a um intervalo de confiança mais estreito na distribuição de probabilidade[3]. Isso não leva a nada além de introduzir um viés em nosso modelo.

Por que os valores ausentes são um problema?

Os dados ausentes apresentam vários problemas. Primeiro, a ausência de dados reduz o poder estatístico, que se refere à probabilidade de o teste rejeitar a hipótese nula quando ela for falsa. Em segundo lugar, os dados perdidos podem causar viés na estimativa dos parâmetros. Terceiro, pode reduzir a representatividade das amostras.

Por que a imputação média é ruim?

Problema 1: A média imputação não preserva as relações entre as variáveis. É verdade que a imputação da média preserva a média dos dados observados. Portanto, se os dados estiverem ausentes completamente ao acaso, a estimativa da média permanece imparcial.

Você deve substituir os dados ausentes pela média?

Pontos de dados atípicos terão um impacto significativo na média e, portanto, nesses casos, não é recomendável usar a média para substituir os valores ausentes. Usar valores médios para substituir valores ausentes pode não criar um ótimo modelo e, portanto, é descartado.

Recomendado: