Cómo evaluar si la correlación es significativa: prueba de hipótesis paso a paso

Cómo evaluar si la correlación es significativa: prueba de hipótesis paso a paso

jul´20 Rosana Ferrero 4 comentarios

¿Qué significa que una correlación sea significativa?

Cuando decimos que una correlación es "significativa", nos referimos a que es estadísticamente distinta de cero. Es decir, que hay suficiente evidencia para concluir que existe una relación entre las variables en la población, y que esta no se debe al azar.

Esto es clave en investigación, ya que una correlación alta en tu muestra puede ser irrelevante si no es estadísticamente significativa.

¿Cuál es el objetivo de la prueba de hipótesis para la correlación?

El objetivo es determinar si el coeficiente de correlación que obtuviste en tu muestra (por ejemplo, r = 0.45) refleja una verdadera relación en la población. Para ello, formulamos dos hipótesis:

  • Hipótesis nula (H₀): no hay correlación real → ρ = 0
  • Hipótesis alternativa (H₁): sí hay correlación → ρ ≠ 0

Luego calculamos el valor p, que nos indica la probabilidad de obtener una correlación como la observada si en realidad no existiera ninguna correlación en la población.

¿Cómo tomar la decisión? Reglas para interpretar el valor p

Usamos un umbral común:

  • Si p < 0.05 (nivel de significación del 5%), rechazamos la hipótesis nula → la correlación es significativa
  • Si p ≥ 0.05, no podemos rechazar H₀ → la evidencia no es suficiente para afirmar una relación

Consejo: El valor p no te dice si la relación es importante, solo si es estadísticamente detectable. La interpretación debe incluir el contexto y el tamaño del efecto.

Supuestos necesarios para aplicar correctamente la prueba

La validez del test depende de que se cumplan ciertos supuestos, que varían según el tipo de correlación:

📈 Supuestos para la correlación de Pearson:

  • Relación lineal entre las variables (no curvilínea)
  • Sin valores atípicos, que podrían distorsionar el coeficiente
  • Distribución normal de ambas variables (usa test de Shapiro-Wilk o gráfico Q-Q)
  • Suficiente tamaño muestral (n > 25 recomendado)

🔁 Supuestos para la correlación de Spearman:

  • La relación debe ser monótona (creciente o decreciente, pero no necesariamente lineal)
  • Más robusta ante outliers o datos no normales
  • No requiere normalidad, ya que se basa en rangos

Revisa siempre un gráfico de dispersión antes de decidir qué prueba aplicar.

Cómo probar la correlación con R

Con la función cor.test() podemos especificar un contraste de hipótesis para el coeficiente de correlación. Por defecto, utiliza un contraste bilateral aunque esto se puede cambiar con el argumento ”alternative”. También, por defecto, se utiliza la correlación lineal de Pearson, aunque podemos calcular la correlación de Spearman si indicamos method = ”spearman”. Consulta la ayuda de la función con ?cor.test para más información.

Utilizaremos el conjunto de datos stackloss del paquete MASS (Brownlee, 1965) que corresponde a datos de una fábrica de oxidación de amonio (NH3) a ácido nítrico (HNO3). Son 21 observaciones de 4 variables: -   flujo del aire (representa la tasa de operación en la fábrica; AirFlow),

  • temperatura del agua (WaterT emp),
  • concentración de ácido (por 1000 menos 500, es decir, un valor de 89 corresponde a 58.9%; AcidConc.) y
  • pérdida de ácido a través de la pila (es una medida de la ineficiencia de la planta; stack.loss).

Vamos a observar cómo se relaciona la producción de la fábrica con su eficiencia (stack.loss y Air.Flow). Como ambas son variables numéricas, vamos a estudiar su asociación mediante el coeficiente de correlación.

Hemos trabajado con estos datos en el post anterior sobre la correlación y su interpretación, puedes leerlo para comprender mejor estos conceptos antes de continuar con las pruebas de hipótesis de la correlación en este post.

Aquí queremos realizar una prueba de hipótesis para la correlación entre la medida de la producción de la fábrica (el flujo del aire; AirFlow) y la medida de su ineficiencia (la pérdida de ácido a través de la pila; stack.loss).

El primer paso será probar los supuestos mediante el diagrama de dispersión.

library(MASS)

library(ggplot2)

ggplot(data=stackloss, aes(x=Air.Flow, y=stack.loss)) +

geom_point()

Aquí vemos una tendencia lineal entre ambas variables y no detectamos datos atípicos de importancia.

Probamos además si las variables siguen una distribución normal (la hipótesis nula) mediante la función Shapiro-Wilks.

shapiro.test(Air.Flow)

## ## Shapiro-Wilk normality test

## ## data: Air.Flow

## W = 0.86115, p-value = 0.006651

shapiro.test(stack.loss)

## ## Shapiro-Wilk normality test

## ## data: stack.loss

## W = 0.82651, p-value = 0.001718

En este caso como el p-valor es < .05 rechazamos la normalidad en ambas variables. Lo ideal entonces sería utilizar la correlación de Spearman en lugar de la de Pearson.

Por motivos didácticos comenzaremos con la prueba de hipótesis para la correlación de Pearson, luego realizaremos la de Spearman.

Utilizamos la función cor.test() donde indicamos las dos variables que queremos analizar.

cor.test(x=Air.Flow, y=stack.loss)

##

## Pearson's product-moment correlation

##

## data: Air.Flow and stack.loss

## t = 10.208, df = 19, p-value = 3.774e-09

## alternative hypothesis: true correlation is not equal to 0

## 95 percent confidence interval:

## 0.8092570 0.9673185

## sample estimates:

## cor

## 0.9196635

En el resultado anterior podemos encontrar:

  • t es el valor estadístico de la prueba t.
  • df son los grados de libertad.
  • p-value es el nivel de significación de la prueba t.
  • 95 percent confidence interval es el intervalo de confianza del coeficiente de correlación al 95% (aunque se puede cambiar). Nos indica el valor probable para la correlación en la población.
  • cor es la estimación muestral del coeficiente de correlación.

El valor del estadístico t de Student y sus grados de libertad, no tienen una interpretación per se. Será con el p-valor asociado con el cual decidiremos si la correlación es significativa. Aquí podemos decir que la correlación lineal entre la producción de la fábrica y su ineficiencia es estadísticamente significativa, positiva y alta (t(19)=10.208, p<0.001, r=.92). El intervalo de confianza al 95% es [.81, .97].

NOTA: La notación se indica con t(df)=valor del estadístico, donde df corresponde a los grados de libertad del estadístico (equivale al número de datos menos 2). Cuando el p-valor es muy pequeño, se debe indicar como p<.001.

Si queremos realizar la prueba para la correlación de Spearman debemos indicarlo mediante el argumento method.

cor.test(x=Air.Flow, y=stack.loss, method="spearman")

## Warning in cor.test.default(x = Air.Flow, y = stack.loss, method =

## "spearman"): Cannot compute exact p-value with ties

##

## Spearman's rank correlation rho

##

## data: Air.Flow and stack.loss

## S = 126.24, p-value = 4.543e-09

## alternative hypothesis: true rho is not equal to 0

## sample estimates:

## rho

## 0.9180247

La regla de decisión es la misma que para el caso de la correlación de Pearson.

La correlación entre el flujo de aire y la concentración de ácido es estadísticamente significativa, positiva y alta (S=126.24, p<.001, r=.92).

Para la correlación de Spearman no tenemos grados de libertad en el estadístico, y no se calcula el intervalo de confianza porque para ello se utiliza el estadístico t de Student.

NOTA: En algunos casos podemos obtener un mensaje de aviso indicando que debido a la presencia de empates en los valores, el p-valor será aproximado en lugar de exacto. No es un problema, simplemente un aviso.

¿Qué te ha parecido el post? Espero que pronto puedas aplicar lo aprendido a tus propios datos. ¡Espero tus comentarios! 

4 comentarios

Información Básica sobre Protección de datos. Responsable: Máxima Formación, S.L. Finalidad: Enviar la información solicitada. Legitimación: Consentimiento del interesado. Destinatarios: No se comunicarán datos a terceros. Derechos: Acceso, rectificación o supresión, oposición, así como otros derechos. Más información: política de privacidad.

¹ Todos los campos son obligatorios.
² Tu correo electrónico no será publicado.

  • muy bueno, gracias!!!

    Responder

    Claudia 27 de noviembre de 2020, 21:17

  • En caso de p>0.05 como se interpretaría la correlación?

    Responder

    Rom 13 de febrero de 2021, 17:45

    • Una correlación (lineal?) no significativa para un nivel de confianza del 95%. Esto quiere decir que no tienes suficiente evidencia en los datos para rechazar la afirmación de que la relación entre las variables no dista de lo que esperaríamos al azar, una correlación de 0.
      Saludos

      Responder

      Rosana Ferrero 17 de febrero de 2021, 11:22

  • Muchas gracias! Me sirvió demasiado

    Responder

    Alison 26 de febrero de 2023, 22:36

Te llamamos

Introduce los siguientes datos y nos pondremos en contacto contigo para atender tus dudas sin compromiso.

Responsable: Máxima Formación, S.L.U., finalidad: Dar respuesta a las solicitudes de información legitimación: consentimiento del interesado, destinatarios: no se comunicarán datos a terceros, derechos: Acceder, rectificar y suprimir los datos, así como otros derechos, como se explica en la información adicional. Política de privacidad

Te llamamos

Muchas gracias por solicitar información.
Te contactaremos lo antes posible.

Diseño web: Albin Soft.