Cómo evaluar si la correlación es significativa: pruebas de hipótesis para la correlación

Cómo evaluar si la correlación es significativa: pruebas de hipótesis para la correlación

jul´20 Patricia Merayo 3 comentarios

Descubre cómo evaluar si una correlación es significativa, es decir, si es significativamente distinta de cero y si podemos decir que existe una correlación significativa entre las variables analizadas.

Para ello desarrollaremos la prueba de hipótesis para el coeficiente de correlación, qué supuestos requiere, cómo realizar la prueba en R y cómo interpretar los resultados.

Relación o tendencia significativa en los datos

A menudo nos interesa probar si existe una relación o tendencia significativa en los datos, esto es, si la correlación es significativamente distinta de cero.

Utilizaremos las siguientes hipótesis:

  • H0 : ? = 0 (no existe relación)
  • H1 : ? != 0 (sí existe relación)

Si utilizamos un nivel de confianza del 95% y obtenemos que p < .05, rechazamos la H0 y decimos que existe una correlación significativa (H1). En caso contrario, no podemos rechazar la hipótesis nula, y no podemos afirmar que la correlación difiera significativamente de 0.

Regla de decisión: En la prueba de hipótesis para la correlación, si p< 5% (para un nivel de confianza del 95%), nos indica que la correlación entre las dos variables numéricas es significativa y que podremos interpretar su signo y magnitud. (Aunque recuerda: ¡siempre complementa con gráficos para no equivocarte en la interpretación y sé crítico con el número mágico 0.05!).

Esta prueba se puede aplicar cuando se cumplen ciertos supuestos:

  • La relación entre las dos variables numéricas debe ser lineal (en el caso de la correlación de Pearson) o monótona (en el caso de la correlación de Spearman).
  • No existen valores atípicos (outliers, en el caso de Pearson; recuerda que la versión de Spearman es algo más robusta porque trabaja con rangos en lugar de los valores originales).
  • Tenemos suficientes datos para realizar la prueba (principalmente en el caso de Pearson).
  • Los datos siguen una distribución normal (en el caso de la correlación de Pearson). Para asegurarnos que cumpla esta condición, utilizaremos la prueba de normalidad de Shapiro-Wilk cuya hipótesis nula es que los datos se distribuyen normalmente. También se puede utilizar el gráfico de normalidad Q-Q.

Estos los vamos a evaluar mediante un diagrama de dispersión.

Cómo probar la correlación con R

Con la función cor.test() podemos especificar un contraste de hipótesis para el coeficiente de correlación. Por defecto, utiliza un contraste bilateral aunque esto se puede cambiar con el argumento ”alternative”. También, por defecto, se utiliza la correlación lineal de Pearson, aunque podemos calcular la correlación de Spearman si indicamos method = ”spearman”. Consulta la ayuda de la función con ?cor.test para más información.

Utilizaremos el conjunto de datos stackloss del paquete MASS (Brownlee, 1965) que corresponde a datos de una fábrica de oxidación de amonio (NH3) a ácido nítrico (HNO3). Son 21 observaciones de 4 variables: -   flujo del aire (representa la tasa de operación en la fábrica; AirFlow),

  • temperatura del agua (WaterT emp),
  • concentración de ácido (por 1000 menos 500, es decir, un valor de 89 corresponde a 58.9%; AcidConc.) y
  • pérdida de ácido a través de la pila (es una medida de la ineficiencia de la planta; stack.loss).

Vamos a observar cómo se relaciona la producción de la fábrica con su eficiencia (stack.loss y Air.Flow). Como ambas son variables numéricas, vamos a estudiar su asociación mediante el coeficiente de correlación.

Hemos trabajado con estos datos en el post anterior sobre la correlación y su interpretación, puedes leerlo para comprender mejor estos conceptos antes de continuar con las pruebas de hipótesis de la correlación en este post.

Aquí queremos realizar una prueba de hipótesis para la correlación entre la medida de la producción de la fábrica (el flujo del aire; AirFlow) y la medida de su ineficiencia (la pérdida de ácido a través de la pila; stack.loss).

El primer paso será probar los supuestos mediante el diagrama de dispersión.

library(MASS)

library(ggplot2)

ggplot(data=stackloss, aes(x=Air.Flow, y=stack.loss)) +

geom_point()

Aquí vemos una tendencia lineal entre ambas variables y no detectamos datos atípicos de importancia.

Probamos además si las variables siguen una distribución normal (la hipótesis nula) mediante la función Shapiro-Wilks.

shapiro.test(Air.Flow)

## ## Shapiro-Wilk normality test

## ## data: Air.Flow

## W = 0.86115, p-value = 0.006651

shapiro.test(stack.loss)

## ## Shapiro-Wilk normality test

## ## data: stack.loss

## W = 0.82651, p-value = 0.001718

En este caso como el p-valor es < .05 rechazamos la normalidad en ambas variables. Lo ideal entonces sería utilizar la correlación de Spearman en lugar de la de Pearson.

Por motivos didácticos comenzaremos con la prueba de hipótesis para la correlación de Pearson, luego realizaremos la de Spearman.

Utilizamos la función cor.test() donde indicamos las dos variables que queremos analizar.

cor.test(x=Air.Flow, y=stack.loss)

##

## Pearson's product-moment correlation

##

## data: Air.Flow and stack.loss

## t = 10.208, df = 19, p-value = 3.774e-09

## alternative hypothesis: true correlation is not equal to 0

## 95 percent confidence interval:

## 0.8092570 0.9673185

## sample estimates:

## cor

## 0.9196635

En el resultado anterior podemos encontrar:

  • t es el valor estadístico de la prueba t.
  • df son los grados de libertad.
  • p-value es el nivel de significación de la prueba t.
  • 95 percent confidence interval es el intervalo de confianza del coeficiente de correlación al 95% (aunque se puede cambiar). Nos indica el valor probable para la correlación en la población.
  • cor es la estimación muestral del coeficiente de correlación.

El valor del estadístico t de Student y sus grados de libertad, no tienen una interpretación per se. Será con el p-valor asociado con el cual decidiremos si la correlación es significativa. Aquí podemos decir que la correlación lineal entre la producción de la fábrica y su ineficiencia es estadísticamente significativa, positiva y alta (t(19)=10.208, p<0.001, r=.92). El intervalo de confianza al 95% es [.81, .97].

NOTA: La notación se indica con t(df)=valor del estadístico, donde df corresponde a los grados de libertad del estadístico (equivale al número de datos menos 2). Cuando el p-valor es muy pequeño, se debe indicar como p<.001.

Si queremos realizar la prueba para la correlación de Spearman debemos indicarlo mediante el argumento method.

cor.test(x=Air.Flow, y=stack.loss, method="spearman")

## Warning in cor.test.default(x = Air.Flow, y = stack.loss, method =

## "spearman"): Cannot compute exact p-value with ties

##

## Spearman's rank correlation rho

##

## data: Air.Flow and stack.loss

## S = 126.24, p-value = 4.543e-09

## alternative hypothesis: true rho is not equal to 0

## sample estimates:

## rho

## 0.9180247

La regla de decisión es la misma que para el caso de la correlación de Pearson.

La correlación entre el flujo de aire y la concentración de ácido es estadísticamente significativa, positiva y alta (S=126.24, p<.001, r=.92).

Para la correlación de Spearman no tenemos grados de libertad en el estadístico, y no se calcula el intervalo de confianza porque para ello se utiliza el estadístico t de Student.

NOTA: En algunos casos podemos obtener un mensaje de aviso indicando que debido a la presencia de empates en los valores, el p-valor será aproximado en lugar de exacto. No es un problema, simplemente un aviso.

¿Qué te ha parecido el post? Espero que pronto puedas aplicar lo aprendido a tus propios datos. ¡Espero tus comentarios! 

3 comentarios

Acepto la política de privacidad

¹ Todos los campos son obligatorios.
² Tu correo electrónico no será publicado.

  • muy bueno, gracias!!!

    Responder

    Claudia 27 de noviembre de 2020, 21:17

  • En caso de p>0.05 como se interpretaría la correlación?

    Responder

    Rom 13 de febrero de 2021, 17:45

    • Una correlación (lineal?) no significativa para un nivel de confianza del 95%. Esto quiere decir que no tienes suficiente evidencia en los datos para rechazar la afirmación de que la relación entre las variables no dista de lo que esperaríamos al azar, una correlación de 0.
      Saludos

      Responder

      Rosana Ferrero 17 de febrero de 2021, 11:22

En Máxima Formación utilizamos cookies propias y de terceros con finalidad analítica y publicitaria. En nuestra política de cookies te contamos cuáles usamos y cómo desactivarlas si quieres. Aceptar todas Configurar/Rechazar

Diseño web: Albin Soft.