Cómo evaluar si la correlación es significativa: pruebas de hipótesis para la correlación

Cómo evaluar si la correlación es significativa: pruebas de hipótesis para la correlación

jul´20 Patricia Merayo 0 comentarios

Descubre cómo evaluar si una correlación es significativa, es decir, si es significativamente distinta de cero y si podemos decir que existe una correlación significativa entre las variables analizadas.

Para ello desarrollaremos la prueba de hipótesis para el coeficiente de correlación, qué supuestos requiere, cómo realizar la prueba en R y cómo interpretar los resultados.

Relación o tendencia significativa en los datos

A menudo nos interesa probar si existe una relación o tendencia significativa en los datos, esto es, si la correlación es significativamente distinta de cero.

Utilizaremos las siguientes hipótesis:

  • H0 : ? = 0 (no existe relación)
  • H1 : ? != 0 (sí existe relación)

Si utilizamos un nivel de confianza del 95% y obtenemos que p < .05, rechazamos la H0 y decimos que existe una correlación significativa (H1). En caso contrario, no podemos rechazar la hipótesis nula, y no podemos afirmar que la correlación difiera significativamente de 0.

Regla de decisión: En la prueba de hipótesis para la correlación, si p< 5% (para un nivel de confianza del 95%), nos indica que la correlación entre las dos variables numéricas es significativa y que podremos interpretar su signo y magnitud. (Aunque recuerda: ¡siempre complementa con gráficos para no equivocarte en la interpretación y sé crítico con el número mágico 0.05!).

Esta prueba se puede aplicar cuando se cumplen ciertos supuestos:

  • La relación entre las dos variables numéricas debe ser lineal (en el caso de la correlación de Pearson) o monótona (en el caso de la correlación de Spearman).
  • No existen valores atípicos (outliers, en el caso de Pearson; recuerda que la versión de Spearman es algo más robusta porque trabaja con rangos en lugar de los valores originales).
  • Tenemos suficientes datos para realizar la prueba (principalmente en el caso de Pearson).
  • Los datos siguen una distribución normal (en el caso de la correlación de Pearson). Para asegurarnos que cumpla esta condición, utilizaremos la prueba de normalidad de Shapiro-Wilk cuya hipótesis nula es que los datos se distribuyen normalmente. También se puede utilizar el gráfico de normalidad Q-Q.

Estos los vamos a evaluar mediante un diagrama de dispersión.

Cómo probar la correlación con R

Con la función cor.test() podemos especificar un contraste de hipótesis para el coeficiente de correlación. Por defecto, utiliza un contraste bilateral aunque esto se puede cambiar con el argumento ”alternative”. También, por defecto, se utiliza la correlación lineal de Pearson, aunque podemos calcular la correlación de Spearman si indicamos method = ”spearman”. Consulta la ayuda de la función con ?cor.test para más información.

Utilizaremos el conjunto de datos stackloss del paquete MASS (Brownlee, 1965) que corresponde a datos de una fábrica de oxidación de amonio (NH3) a ácido nítrico (HNO3). Son 21 observaciones de 4 variables: -   flujo del aire (representa la tasa de operación en la fábrica; AirFlow),

  • temperatura del agua (WaterT emp),
  • concentración de ácido (por 1000 menos 500, es decir, un valor de 89 corresponde a 58.9%; AcidConc.) y
  • pérdida de ácido a través de la pila (es una medida de la ineficiencia de la planta; stack.loss).

Vamos a observar cómo se relaciona la producción de la fábrica con su eficiencia (stack.loss y Air.Flow). Como ambas son variables numéricas, vamos a estudiar su asociación mediante el coeficiente de correlación.

Hemos trabajado con estos datos en el post anterior sobre la correlación y su interpretación, puedes leerlo para comprender mejor estos conceptos antes de continuar con las pruebas de hipótesis de la correlación en este post.

Aquí queremos realizar una prueba de hipótesis para la correlación entre la medida de la producción de la fábrica (el flujo del aire; AirFlow) y la medida de su ineficiencia (la pérdida de ácido a través de la pila; stack.loss).

El primer paso será probar los supuestos mediante el diagrama de dispersión.

library(MASS)

library(ggplot2)

ggplot(data=stackloss, aes(x=Air.Flow, y=stack.loss)) +

geom_point()

Aquí vemos una tendencia lineal entre ambas variables y no detectamos datos atípicos de importancia.

Probamos además si las variables siguen una distribución normal (la hipótesis nula) mediante la función Shapiro-Wilks.

shapiro.test(Air.Flow)

## ## Shapiro-Wilk normality test

## ## data: Air.Flow

## W = 0.86115, p-value = 0.006651

shapiro.test(stack.loss)

## ## Shapiro-Wilk normality test

## ## data: stack.loss

## W = 0.82651, p-value = 0.001718

En este caso como el p-valor es < .05 rechazamos la normalidad en ambas variables. Lo ideal entonces sería utilizar la correlación de Spearman en lugar de la de Pearson.

Por motivos didácticos comenzaremos con la prueba de hipótesis para la correlación de Pearson, luego realizaremos la de Spearman.

Utilizamos la función cor.test() donde indicamos las dos variables que queremos analizar.

cor.test(x=Air.Flow, y=stack.loss)

##

## Pearson's product-moment correlation

##

## data: Air.Flow and stack.loss

## t = 10.208, df = 19, p-value = 3.774e-09

## alternative hypothesis: true correlation is not equal to 0

## 95 percent confidence interval:

## 0.8092570 0.9673185

## sample estimates:

## cor

## 0.9196635

En el resultado anterior podemos encontrar:

  • t es el valor estadístico de la prueba t.
  • df son los grados de libertad.
  • p-value es el nivel de significación de la prueba t.
  • 95 percent confidence interval es el intervalo de confianza del coeficiente de correlación al 95% (aunque se puede cambiar). Nos indica el valor probable para la correlación en la población.
  • cor es la estimación muestral del coeficiente de correlación.

El valor del estadístico t de Student y sus grados de libertad, no tienen una interpretación per se. Será con el p-valor asociado con el cual decidiremos si la correlación es significativa. Aquí podemos decir que la correlación lineal entre la producción de la fábrica y su ineficiencia es estadísticamente significativa, positiva y alta (t(19)=10.208, p<0.001, r=.92). El intervalo de confianza al 95% es [.81, .97].

NOTA: La notación se indica con t(df)=valor del estadístico, donde df corresponde a los grados de libertad del estadístico (equivale al número de datos menos 2). Cuando el p-valor es muy pequeño, se debe indicar como p<.001.

Si queremos realizar la prueba para la correlación de Spearman debemos indicarlo mediante el argumento method.

cor.test(x=Air.Flow, y=stack.loss, method="spearman")

## Warning in cor.test.default(x = Air.Flow, y = stack.loss, method =

## "spearman"): Cannot compute exact p-value with ties

##

## Spearman's rank correlation rho

##

## data: Air.Flow and stack.loss

## S = 126.24, p-value = 4.543e-09

## alternative hypothesis: true rho is not equal to 0

## sample estimates:

## rho

## 0.9180247

La regla de decisión es la misma que para el caso de la correlación de Pearson.

La correlación entre el flujo de aire y la concentración de ácido es estadísticamente significativa, positiva y alta (S=126.24, p<.001, r=.92).

Para la correlación de Spearman no tenemos grados de libertad en el estadístico, y no se calcula el intervalo de confianza porque para ello se utiliza el estadístico t de Student.

NOTA: En algunos casos podemos obtener un mensaje de aviso indicando que debido a la presencia de empates en los valores, el p-valor será aproximado en lugar de exacto. No es un problema, simplemente un aviso.

¿Qué te ha parecido el post? Espero que pronto puedas aplicar lo aprendido a tus propios datos. ¡Espero tus comentarios! 

0 comentarios

  • Excelente explicación, gracias

    Responder

    MARIA URBELINA 7 de julio de 2020, 20:38

  • Agradezco mucho esta explicación.
    Está muy clara.

    Responder

    Luz 8 de julio de 2020, 19:18

  • Excelente. Gracias

    Responder

    JOHN ROBERT MARIN B. 9 de julio de 2020, 00:49

  • El artículo creo,si lo leí bien, no explica que no debe confundirse la relación de dos variables cuando son independientes (sentido común) que si puede medirse la correlación y dos variables que una es independiente y la otra dependiente, donde debe medirse el coeficiente de determinación (r cuadrado). Son dos conceptos muy distintos

    Responder

    Alfredo Coniglio 24 de julio de 2020, 02:02

    • Hola Alfredo. Puedes calcular la correlación (r) entre dos variables cualesquiera. El coeficiente de determinación (R2) se presenta en el contexto de la regresión, y es la proporción de la varianza total de una variable que es explicada por la regresión. Si estás utilizando un modelo de regresión lineal simple el coeficiente de determinación R2 equivaldría al coeficiente de correlación r elevado al cuadrado. El concepto de variable independiente y dependiente tiene sentido en el contexto de la regresión, ya que la variable dependiente es el evento que se espera que cambie cuando se manipula la variable independiente (manipulada por un experimentador).
      Saludos y gracias por participar!

      Responder

      Rosana Ferrero 31 de julio de 2020, 10:00

  • Todavia no entiendo bien alguien me puede explica el coeficiente correlacion entre estress y presion alta es .73. Como se interpreta en palabras esta relacion entre estas dos variables. Gracias si alquien me ayuda

    Responder

    Anaili 4 de octubre de 2020, 23:57

    • Hola Anaili,
      los coeficientes de correlación miden el grado de asociación (lineal para el coeficiente de Pearson) entre dos variables. Toma un valor entre -1 (correlación negativa perfecta) a 1 (correlación positiva perfecta), y donde el 0 indica ausencia de correlación. (Esto siempre y cuando no tengas datos atípicos o relaciones no lineales que estén perturbando el resultado). Por lo tanto, si tienes una correlación de 0.73 puedes decir que es una correlación positiva (al aumentar la presión aumenta el estrés) y alta (es un valor cercano al límite 1).
      Saludos

      Responder

      Rosana Ferrero 7 de octubre de 2020, 09:44

  • Muy buen artículo, gracias por compartirlo pero me quedé picado queriendo aprender más de la correlación ¿Dónde puedo encontrar el siguiente post?

    «En el siguiente post «Cómo evaluar si la correlación es significativa: pruebas de hipótesis para la correlación» aprenderemos a evaluar la significación de la correlación mediante pruebas de hipótesis, ¡te espero!»

    Les agradecería mucho que nos envíen el link de ese nuevo post…

    Responder

    Pedro 26 de octubre de 2020, 01:31

  • Es un buen artículo pero… aún sigo sin enternder, ¿que son las variables correlacionadas?
    ¿Que tipo de proporcionalidad se puede presentar entre dos variables?
    ¿Como se saca el valor constante de la proporcionalidad?

    Si me pueden hacer el favor de ayudarme
    Gracias

    Responder

    Hanne carreño 13 de noviembre de 2020, 17:49

    • Hola Hanne,
      se dice que dos variables están correlacionadas cuando existe una asociación entre ellas. Si en particular hablas de correlación lineal, implica que la asociación o relación entre las variables es de tipo lineal. Lineal significa que la relación es proporcional, a un mismo aumento de la variable «x» aumenta una misma cantidad en «y», y esa proporción te la da la pendiente de la recta que mejor se ajusta a la nube de puntos. Si la asociación no fuera lineal, no sería proporcional.
      Saludos

      Responder

      Rosana Ferrero 19 de noviembre de 2020, 12:31

  • impecable la explicación.
    Muchas Gracias

    Responder

    Claudia 27 de noviembre de 2020, 20:59

  • SE ENTENDIO LA EXPLICACION, GRACIAS

    Responder

    PAULO VICENTE 1 de abril de 2021, 03:07

  • podrían darme un ejemplo de ¿Cómo aplicar la correlación estadística en un investigación?

    Responder

    MONSE SOLIS 10 de abril de 2021, 20:06

  • Necesito que me ayuden con esta p erre pregunta por favor ¿Cuándo se deben de aplicar las medidas de correlación?

    Responder

    Alexis López 17 de mayo de 2021, 18:45

    • Hola Alexis, la medida de correlación la calculamos para obtener una medida de asociación entre variables cuantitativas. Por ejemplo, si quieres evaluar la asociación entre lo que gastas en publicidad y el número de productos que vendes puedes utilizar la correlación de Pearson (o la de Spearman según el caso) y obtendrás un valor entre -1 y 1. Cuánto más cercana a 0 más débil la relación y cuánto más cercano a los límites -1 o 1 más fuerte. No obstante, Y ESTO ES MUY IMPROTANTE, grafica siempre los datos para evitar malos entendidos.
      Saludos

      Responder

      Rosana Ferrero 18 de mayo de 2021, 17:31

Acepto la política de privacidad

¹ Todos los campos son obligatorios.
² Tu correo electrónico no será publicado.

En Máxima Formación utilizamos cookies propias y de terceros con finalidad analítica y publicitaria. En nuestra política de cookies te contamos cuáles usamos y cómo desactivarlas si quieres. Aceptar todas Configurar/Rechazar

Diseño web: Albin Soft.