in

¿Es posible y qué significa si los residuos del modelo tuvieran una media de cero en los datos de entrenamiento pero una media distinta de cero en los residuos de los datos de prueba?

¿Es posible y qué significa si modela residuos con una media de cero en los datos de entrenamiento pero residuos medios distintos de cero en los datos de prueba?

Supongo que el modelo produce estimaciones sesgadas.

1 respuesta
1

Los estimadores de sesgo cero tienen residuos medios cero en los datos de entrenamiento, pero los residuos tendrán alguna desviación estándar distinta de cero. Entonces podemos esperar que la media de los residuos en los datos de prueba sea del orden de esa desviación estándar, dividida por la raíz cuadrada del tamaño de la muestra de los datos de prueba. Si la media es significativamente menor que eso, eso implica que los datos de prueba fueron inusualmente similares a los datos de entrenamiento en este aspecto. Esto puede deberse a la casualidad, pero también puede deberse a cosas como la fuga de datos, por lo que es posible que desee investigar más a fondo en tal caso. Si el residuo medio de los datos de prueba es significativamente mayor que esto, esto implica que los datos de prueba eran diferentes de los datos de prueba. De nuevo, esto puede ser por casualidad, pero cuanto mayor sea la discrepancia, menos probable será. Otra posibilidad es que los datos de entrenamiento no sean representativos de los datos de prueba, y debe buscar datos de entrenamiento que sean más representativos. Si divide los datos de entrenamiento y prueba del mismo conjunto de datos, esto sugiere que algo salió mal en su proceso de división.

¿Te ayudó la respuesta?

Subscribirse
Notificar por
guest

0 Comentarios
Inline Feedbacks
Ver todas las Respuestas

¿Es $V_\text{RMS}$ un desafortunado abuso del operador?

En Messa Di Voce, solo puedo hacer un poco de ruido, no mucho. ¿Qué tengo que hacer?