Tengo un diseño desequilibrado con factores anidados. En particular, el factor anidado es la obesidad, con niveles: de obesos y no obesos. El otro factor es el grupo: mujeres con síndrome, mujeres control y hombres control. La respuesta, digamos, es un metabolito.
Lo que he hecho, es establecer un modelo lineal, con los siguientes contrastes, debido a la naturaleza del problema: los coeficientes de las variables suman cero.
Entonces, en R uno puede lograr esto con:
mdl <- lm(Y ~ obesity*group,
contrasts=list(obesity=contr. sum,
group=contr.sum)
car::Anova(mdl, type=3)
Entonces la salida es
Anova Table (Type III tests)
Response: Y
Sum Sq Df F value Pr(>F)
(Intercept) 549.02 1 1117.2302 < 2e-16 ***
obesity 0.19 1 0.3927 0.53446
group 2.09 2 2.1311 0.13199
obesity:group 3.21 2 3.2632 0.04866 *
Residuals 19.66 40
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Probé los supuestos de normalidad de los residuos y homogeneidad, el modelo logra esto.
Ahora, como puede ver, la interacción es significativa, sin embargo, ejecutar la prueba TukeyHSD no es adecuado porque, desde la ayuda en R, dice:
» Esta es una función genérica: la descripción aquí se aplica al método para ataques de clase «aov» «
Por lo tanto, las funciones aov son el envoltorio de anova(lm), pero no tiene en cuenta los contrastes, y solo hace la suma secuencial de los cuadrados.
Entonces creo que el problema podría resolverse con «medios marginales»
El problema: no tengo idea de cómo insertar la fórmula con el término de error.
Probé:
mdl2 <- aov_car(Y ~ obesity*group +
Error(patients)
Donde los pacientes son los sujetos. Sé que el término de error es el efecto mixto aleatorio, (creo …)
Entonces puedo correr
emmeans(mdl2)
con la misma salida,
Pero no puedo descifrar cuál es el grupo significativo de interacción que dicen los resultados anteriores.
Entonces, la pregunta es ¿por qué es significativo el ANOVA pero no la interacción? ¿Debo ejecutar la prueba t por pares con interacción? Quiero decir, interacción (obesidad, grupo) y luego ejecutar t.test por pares?
He visto varias publicaciones sobre este tema, en particular, creo que la pregunta ya está respondida en este paquete: https://cran.r-project.org/web/packages/emmeans/index.html
Más que los datos en sí, es una cuestión de estadísticas
1 respuesta
Ya sea que insista en mantener la «obesidad» como un marcador de todo o nada o, como sugiere acertadamente Frank Harrell, la trate como uno o más predictores continuos (p. ej., incluyendo tanto la altura como el peso de alguna manera), tiene varios fuentes de confusión en la forma en que está abordando este problema.