in

Pruebas de correlación multivariante (desgaste)

He investigado mucho, pero es difícil orientarse sin una formación específica en estadísticas, por lo que agradecería cualquier ayuda. Dado que soy el profesional residente de bases de datos/métricas/análisis, he sido elegido para ayudar a responder algunas preguntas que ha presentado el liderazgo de recursos humanos. Una de esas preguntas es tratar de probar o cuantificar una correlación entre el salario base, la posición salarial en el rango y la antigüedad y la rotación.

Tengo dos conjuntos de datos que son idénticos, excepto que uno es para empleados que abandonaron voluntariamente la empresa y el otro es para empleados actuales en los mismos puestos. las columnas son Antigüedad (EN Meses) / Salario Anual / PIR (En %)

gráfico2

Con un poco de SQL simple, pude derivar algunos números agregados bastante obvios que se muestran a continuación (todos los números son promedios):

Cuadro

Como puede ver, a las personas que se van (fuera de los primeros 2 niveles) generalmente se les paga mucho más bajo en su rango de salario y no tienen tanta antigüedad. Recientemente comencé una incursión en R, pero no estoy seguro de qué modelos/paquetes usar para las pruebas multivariadas.

La Pregunta: ¿Cómo puedo visualizar y/o modelar una correlación estadística entre estas variables de tal manera que pueda decir con bastante confianza que están relacionadas?

También tengo acceso a casi todos los datos imaginables de recursos humanos o compensación, por lo que eventualmente haría una prueba de estrés de estos resultados contra otras variables, pero para comenzar, esto sería increíble.

¿Alguien tiene algún consejo sobre qué paquetes o modelos debería comenzar a investigar cuál funcionaría mejor con el formato de mis datos? O sugerencias sobre una mejor manera de organizar o estructurar los datos junto con diferentes paquetes (p. ej., combinar todos los datos en 1 tabla con un indicador de terminación). No necesariamente le estoy pidiendo a alguien que me guíe paso a paso, pero una dirección inicial sería extremadamente útil. Ya he utilizado R con éxito para hacer algunas pruebas de regresión simples con ggscatter, por lo que soy capaz de usar el programa, solo que necesito un consejo importante aquí.

1 respuesta
1

Tu estás en el camino correcto. Tiene códigos de identificación, Trabajos, con observaciones en cuatro variables. La mejor manera de comenzar es hacer una matriz de diagrama de dispersión. Cada uno de los seis emparejamientos posibles se mostrará como un diagrama de dispersión con un punto para cada uno de los trabajos. La función r gráfico en base R y tramamatriz en el paquete ggplot2 puede generar estos gráficos. También el software GUI estadístico comercial como JMP y SPSS admite este tipo de gráficos.

¿Te ayudó la respuesta?

Subscribirse
Notificar por
guest
0 Comentarios
Inline Feedbacks
Ver todas las Respuestas

Hallar $\lim \limits _{x\to 1}\frac{3^\frac{x-1}{4}-1}{\sin (5(x-1))}$, sin la regla de l’Hôpital .

No se puede escribir una consulta SQL. te agradeceria mucho si me ayudas [closed]