in

¿Es realmente tan efectivo el muestreo ascendente o descendente de datos desequilibrados? ¿Por qué?

Con frecuencia escucho sobre el muestreo ascendente o descendente de datos discutidos como una forma de lidiar con la clasificación de datos desequilibrados.

Entiendo que esto podría ser útil si está trabajando con un clasificador binario (a diferencia de probabilístico o basado en puntaje) y lo trata como una caja negra, por lo que los esquemas de muestreo son su única forma de modificar su posición en la «curva ROC». » (entre comillas porque si su clasificador es intrínsecamente binario, supongo que no tiene una curva ROC real, pero aún se aplica el mismo concepto de intercambiar falsos positivos y falsos negativos).

Pero parece que la misma justificación no es válida si realmente tiene acceso a algún tipo de puntaje que luego está evaluando para tomar una decisión. En este caso, ¿no es el muestreo ascendente solo una forma ad-hoc de expresar una opinión sobre el equilibrio deseado entre falsos positivos y falsos negativos cuando tiene herramientas mucho mejores disponibles, como el análisis ROC real? Parece que sería extraño en este caso esperar que el muestreo ascendente o descendente haga otra cosa que no sea cambiar el «anterior» de su clasificador en cada clase (es decir, la probabilidad incondicional de ser esa clase, la predicción de referencia) – Yo no No espere que cambie la «odds ratio» del clasificador (cuánto ajusta el clasificador su predicción de referencia en función de las covariables).

Entonces, mi pregunta es: si tiene un clasificador que no es una caja negra binaria, ¿hay alguna razón para esperar que el muestreo ascendente o descendente tenga un efecto mucho mejor que ajustar el umbral a su gusto? De lo contrario, ¿existen estudios empíricos que muestren efectos razonablemente grandes para el muestreo ascendente o descendente en métricas de rendimiento razonables (por ejemplo, no precisión)?

2 respuestas
2

La respuesta corta parece ser Sí: existe cierta evidencia de que el muestreo ascendente de la clase minoritaria y/o el muestreo descendente de la clase mayoritaria en un conjunto de entrenamiento pueden mejorar un poco el AUC fuera de la muestra (área bajo la curva ROC, un umbral independiente). métrico) incluso en la distribución de datos inalterada y desequilibrada.

Si primero desea recopilar una muestra para hacer una clasificación basada en estos resultados, entonces podría ser necesario submuestrear incluso desde la perspectiva del costo.

Pero en este caso, sus métodos de estimación generalmente no arrojan probabilidades a nivel de población, sino que están condicionados al esquema de muestreo que se utilizó.

Aquí hay un ejemplo:

https://stats.stackexchange.com/questions/127476/inference-possibilities-for-matched-case-control-study

¿Te ayudó la respuesta?

Subscribirse
Notificar por
guest

0 Comentarios
Inline Feedbacks
Ver todas las Respuestas

Integral doble en coordenadas polares, área bajo una espiral

¿Por qué el cliente bitcoin envía el txid y wtxid de la transacción en el proceso ‘inv’?