¿Qué es el ANOVA de una vía?

¿Qué es el ANOVA de una vía?

ago´17 Rosana Ferrero 40 comentarios

Esta guía es una breve introducción al ANOVA de una vía o de un factor entre-grupos, veremos cuáles son los supuestos de la prueba y cuándo debes usarla. Te mostraremos cómo realizar el ANOVA, cómo interpretar los resultados y cómo informar de ellos en formato científico.

Esta guía es una breve introducción al ANOVA de una vía o de un factor entre-grupos, veremos cuáles son los supuestos de la prueba y cuándo debes usarla. Te mostraremos cómo realizar el ANOVA, cómo interpretar los resultados y cómo informar de ellos en formato científico.

¿Para qué sirve el análisis de varianza (ANOVA)?

El análisis de varianza (ANOVA) de una vía se utiliza para determinar si existen diferencias estadísticamente significativas entre las medias de tres o más grupos.En este caso utilizaremos grupos independientes (no relacionados) por lo que lo llamaremos ANOVA de un factor entre-grupos.Luego de realizar el ANOVA, si los grupos presentan un comportamiento distinto, podremos determinar entre qué grupos específicos existen diferencias estadísticamente significativas mediante pruebas de comparación múltiple post hoc. Resumiendo, vamos a responder a las siguientes preguntas:¿Los grupos (3 o más) son diferentes -para una cierta variable respuesta-?Si la respuesta es afirmativa, ¿qué grupos son diferentes?

Algunos ejemplos

  • Un grupo de pacientes psiquiátricos se encuentra bajo tres diferentes terapias: asesoramiento, medicamentos y deporte, y queremos ver si una terapia es mejor que las otras.
  • Un fabricante tiene varios procesos diferentes para fabricar bombillas y quiere saber si un proceso es mejor que el otro.
  • Los estudiantes de diferentes colegios toman el mismo examen y deseamos ver si una universidad supera a la otra en la puntuación.

¿Por qué se llama ANOVA?

El nombre Analysis oVariance (ANOVA), análisis de varianza, se basa en el enfoque en el que el procedimiento utiliza varianzas para determinar si las medias son diferentes. El procedimiento funciona comparando la varianza entre las medias de grupo (entre-grupos) versus la varianza dentro de los grupos (intra-sujetos) como una forma de determinar si los grupos son más distintos entre sí que dentro de sí.

ÚLTIMAS PLAZAS EN MASTERS

Máster Data Science

CONVOCATORIA ABIERTA I Logra la máxima precisión y rigor en tus proyectos de Ciencia de Datos.

Ver convocatorias 2022

MAster en MAchine learning

CONVOCATORIA ABIERTA | Automatiza procesos y crea tus propios algoritmos de Machine Learning.

Ver convocatorias 2022

¿Por qué hablamos de "una vía”? Y ¿Qué son los grupos o niveles?

Una vía significa que tenemos una única variable explicativa o predictor, también llamada variable independiente. Esta variable debe tener tres o más niveles o categorías.Por ejemplo, si queremos analizar el pH de distintas muestras de jabón de bebé, la marca del jabón es nuestra variable independiente cuyos niveles podrían ser Baño Dulces Sueños de Johnson’s Baby, Champú-Gel de Weleda, Gel Champú de Suavinex y Babygel de Mustela Beb.

¿Quién creó esta prueba? 

El ANOVA, desarrollado por Ronald Fisher en 1918, extiende la prueba t y la prueba z que compara tan solo 2 grupos. Este británico (1890 – 1962) fue un estadístico y biólogo que usó la matemática para combinar las leyes de Mendel con la selección natural, de manera que ayudó así a crear una nueva síntesis del Darwinismo conocida como la síntesis evolutiva moderna.

Hipótesis nula y alternativa

  • Hipótesis nula, H0: las medias de los grupos son iguales. ?1 = ?2 = … = ?k
  • Hipótesis alternativa, H1: alguna de las medias es distinta. ?i ? ?j para algún i y j

Donde ? es la media del grupo y k el número de grupos.

Regla de decisión

Elegimos el nivel alfa de significación que vamos a utilizar, usualmente alfa=5% o 0,05. 

  • Cuando el p-valor del estadístico de la prueba ANOVA es inferior al nivel alfa de significación que hemos elegido, entonces rechazamos la hipótesis nula y nos quedamos con la alternativa. Es decir, hay al menos dos medias grupales que son diferentes entre sí.
  • En caso contrario, no podemos rechazar la hipótesis nula y concluimos que no existen diferencias significativas entre los grupos evaluados.

Es importante recordar que la prueba ANOVA no nos dice nada acerca de qué grupos específicos son diferentes. Para ello debemos realizar pruebas de comparación múltiple post hoc, que veremos más adelante.

¿Cuándo necesitarás usar el análisis ANOVA?

  • Situación 1: Cuando tenemos un grupo de individuos divididos aleatoriamente en grupos más pequeños bajo distinto tratamiento. Por ejemplo, usted podría estar estudiando los efectos del té en la pérdida de peso y formar tres grupos: el té verde, té negro, y sin té.
  • Situación 2: Similar a la situación 1, pero en este caso los individuos se dividen en grupos basados en un atributo que poseen. Por ejemplo, usted podría estar estudiando la fuerza de las piernas de las personas de acuerdo al peso. Podría dividir a los participantes en categorías de peso (obesidad, sobrepeso y normal) y medir la fuerza de sus piernas en una máquina de peso.

¿Por qué no comparar grupos con múltiples pruebas t?

Cada vez que realizas una prueba t, existe la posibilidad de que obtengas un error de tipo I (o falso positivo, es el error que se comete cuando no aceptamos la hipótesis nula siendo esta realmente verdadera). Este error suele ser del 5% (nivel alfa de significación del que hablamos antes). Al ejecutar dos pruebas t sobre los mismos datos, habrá aumentado la probabilidad de "cometer un error" al 10%. La fórmula para determinar la nueva tasa de error para múltiples pruebas t no es tan simple como multiplicar el 5% por el número de pruebas. Sin embargo, si usted está haciendo solamente algunas comparaciones múltiples, los resultados son muy similares. Como tal, tres pruebas t serían el 15% (en realidad, el 14,3%) y así sucesivamente. Estos son errores inaceptables. Un ANOVA controla estos errores para que el tipo de error I permanezca en 5% y así podamos estar más seguros de nuestros resultados.

¿Qué supuestos tiene el test ANOVA?

  • La variable dependiente o respuesta debe ser continua. Por ejemplo, el tiempo de revisión (medido en horas), inteligencia (medida mediante la puntuación de CI), desempeño del examen (medido de 0 a 100), peso (medido en kg), etc.
  • La variable independiente o explicativa debe estar formada por tres o más grupos categóricos e independientes. Por ejemplo, la etnicidad (caucásico, afroamericano e hispano), el nivel de actividad física (sedentario, bajo, moderado y alto), la profesión (doctor, enfermera, dentista, terapeuta), etc.
  • La variable dependiente se distribuye normalmente en cada grupo que se compara en el ANOVA de una vía (técnicamente, son los residuos los que necesitan ser distribuidos normalmente, pero los resultados serán los mismos). Puedes probar la normalidad usando la prueba de normalidad de Shapiro-Wilk.
  • Hay homogeneidad de varianzas. Esto significa que las varianzas de la respuesta en cada grupo son iguales. Puedes probar esta suposición usando la prueba de Levene para la homogeneidad de las varianzas.
  • Las observaciones son independientes. Esto es principalmente un tema del diseño del estudio y, como tal, necesitará determinar si cree que es posible que sus observaciones no sean independientes en función del diseño del estudio (por ejemplo, si los valores han sido tomados diariamente las muestras más cercanas en el tiempo serán más similares entre sí respecto al resto de muestras -correlación temporal-).
  • No debemos tener valores atípicos (outliers) influyentes. Los valores atípicos son simplemente valores dentro de sus datos que no siguen el patrón habitual (por ejemplo, en un estudio de 100 puntajes de IQ de los estudiantes, donde la puntuación media fue de 108 con sólo una pequeña variación entre los estudiantes; pero un sujeto obtuvo un valor de 156, que es muy inusual incluso en la bibliografía). El problema con los valores atípicos es que pueden afectar el resultado del ANOVA, reduciendo la validez de sus resultados. Puedes leer [aquí] cómo detectar valores atípicos usando R y ver algunas opciones para tratarlos.

¿Qué sucede si mis datos no cumplen estos supuestos?

En primer lugar, no te asustes.Esto no es raro cuando se trabaja con datos del mundo real en lugar de ejemplos de libros de texto, que a menudo sólo le muestran cómo llevar a cabo un ANOVA de una vía cuando todo va bien. No te preocupes, incluso cuando sus datos fallan ciertas suposiciones, hay a menudo una solución para superar esto. El incumplimiento de los dos primeros de estos supuestos puede no ser tan grave y existen alternativas como las pruebas no paramétricas (que no requieren supuestos acerca de la distribución de los datos).

  • El ANOVA de una vía se considera una prueba robusta frente a la falta de normalidad. Esto significa que tolera las violaciones a su supuesto de normalidad bastante bien siempre que no sea demasiada. Puede tolerar datos que no son normales (distribuciones sesgadas o empinadas) con sólo un pequeño efecto sobre la tasa de error Tipo I. Sin embargo, las distribuciones aplanadas pueden tener un efecto profundo cuando los tamaños de grupo son pequeños. Esto nos deja con dos alternativas: (1) transformar los datos para que la forma de la distribución sea normal o (2) elegir una prueba no paramétrica que no supone normalidad.
  • En el caso de que no exista homogeneidad de variantes podemos aplicar el ANOVA de Welch y una prueba de Games-Howell en lugar de una prueba post hoc de Tukey. Otra alternativa es aplicar una prueba no paramétrica.
  • La falta de independencia de los casos es la más grave. Deberíamos pensar en otro tipo de prueba para hacer frente a este problema, por ejemplo un diseño de medidas repetidas.

Recuerda que si no consideras correctamente estos supuestos, los resultados obtenidos al ejecutar una ANOVA podrían no ser válidos.

¿Qué son las pruebas post hoc?

Recuerda que la prueba ANOVA nos indica si existen diferencias entre los grupos, pero no nos dice qué grupos específicos son diferentes, para ello debemos realizar pruebas post hoc o a posteriori. Su nombre indica que se ejecutan para confirmar donde ocurrieron las diferencias entre los grupos, por lo cual debes recordar que sólo se deben realizar cuando se detecta una diferencia estadísticamente significativa en las medias de los grupos (es decir, cuando un resultado del ANOVA de una vía es estadísticamente significativo). Las pruebas post hoc intentan controlar la tasa de errores experimentales (usualmente alfa = 0,05) de la misma manera que se usa el ANOVA de una vía en lugar de múltiples pruebas t.

¿Qué prueba post hoc debo usar?

Hay un gran número de diferentes pruebas post hoc que puedes utilizar luego del ANOVA de una vía. Si los datos cumplen con la hipótesis de homogeneidad de las varianzas, utilice la prueba post hoc de Tukey (HSD). Si sus datos no cumplen con la suposición de homogeneidad de varianzas, utilice la prueba post hoc de Games Howell.

¿Cómo puedo informar los resultados del ANOVA?

Los resultados de la prueba ANOVA de una vía se suelen disponer de la siguiente manera:

¿Qué debo informar?

Todo lo que necesitas escribir sobre el resultado del ANOVA es si encontraste o no diferencias significativas e informar del valor del estadístico F, sus grados de libertad (df), su valor, y el p-valor calculado (sig.).

  • Mi p-valor es mayor que 0.05, ¿qué hago ahora?

Informe el resultado del ANOVA de una vía aún si el resultado no es estadísticamente significativo. Por ejemplo, "No detectamos diferencias estadísticamente significativas entre las medias de los grupos como se determinó por ANOVA de una vía (F (2,27) = 1,397, p = 0,15)"). Eso sí, no será necesario realizar la prueba post hoc.

  • Mi p-valor es menor que 0.05, ¿qué hago ahora?

En el ejemplo que ponemos arriba deberíamos decir que: "Detectamos una diferencia estadísticamente significativa entre los grupos mediante el ANOVA de una vía (F (2,27) = 4,467, p = 0,021)". Sin embargo, es probable que también queramos informar del resultado de la prueba de comparaciones múltiple post hoc y del valor medio ± desviaciones estándar para los grupos.

¿Cómo debo presentar gráficamente mis resultados?

No es necesario que presentes tus resultados mediante un gráfico pero puede facilitar la interpretación de los resultados. En el caso de que lo desee, recomiendo utilizar un gráfico de medias con desviación estándar. Algunos investigadores suelen usar barras con desviación estándar pero recuerda que la media es un valor único, no acumulable, por lo cual la barra no tiene mucho sentido (aunque lo verá en un sin fin de artículos científicos, desgraciadamente).Es necesario presentar los intervalos de error para la media de cada grupo. Generalmente se utiliza la desviación estándar de cada grupo, pero también se pueden usar los errores estándar o los intervalos de confianza.

¿Cómo aplicar el ANOVA de una vía en R?

En la siguiente entrada "Cómo aplicar un ANOVA de una vía en R" te mostraré un ejemplo práctico para realizar esta prueba con el Software R. ¡Todo los pasos que necesitas hacer para obtener los resultados que buscas!¡No te olvides de dejarnos tu comentario.

Esta entrada es una adaptación de este blog de SPSS

40 comentarios

¹ Todos los campos son obligatorios.
² Tu correo electrónico no será publicado.

  • Me encantó el blog. La información es muy fácil de entender y de gran ayuda!

    Muchísimas gracias

    Responder

    Yenith Paola 31 de mayo de 2019, 21:39

    • ¡Muchas gracias por tu comentario Yenith! Saludos

      Responder

      Rosana Ferrero 31 de mayo de 2019, 22:07

  • Muchas gracias por compartir esta información me ha sido muy útil.
    Una pregunta tengo datos de 10 años cada año con 5 subdatos es correcto aplicar el ANOVA de una vía para ver si tienen diferencia significativa?
    los tengo que comparar año por año o puedo considerar cada año como un grupo diferente? y que prueba me recomiendan para post hoc.
    Espero sus comentarios.
    Saludos cordiales.

    Responder

    José Luis Fuziwara mendujano 30 de septiembre de 2019, 05:00

    • Hola José Luis,
      espero que el post te sea de ayuda. Para datos temporales, si no tienes patrones de tendencia o peridicidad, podrías utilizar el ANOVA de medidas repetidas. Revisa los siguientes post que hemos elaborado al respecto:
      https://www.maximaformacion.es/blog-dat/anova-de-medidas-repetidas-tutorial-en-rsoftware/
      https://www.maximaformacion.es/blog-dat/anova-de-medidas-repetidas-tutorial-en-rsoftware/
      Ahí mismo verás las técnicas de comparación múltiple post hoc.
      Sobre qué es lo que «debes» comparar, depende de tus objetivos. Si lo que quieres es evaluar las diferencias entre años, pues compara los años.
      Aprovecho para comentarte que 5 observaciones (datos) por año es muy poco, si puedes aumentar el número de datos mejor, sino intenta con pruebas no paramétricas o alguna otra solución (no sé si en tu caso podría tener sentido agrupar cada 2 o 5 años, no sé la problemática abordas).
      ¡Saludos!

      Responder

      Rosana Ferrero 30 de septiembre de 2019, 10:17

  • Buenas noches:
    Tengo una variable dependiente «COMPETITIVIDAD» y una independiente «INNOVACIÓN», esta última compuesta por varios elementos. Quisiera calcular el ANOVA pero no me queda clara la forma de interpretar los resultados. Agradecería algún tipo de colaboración académica.

    Responder

    José 25 de octubre de 2019, 00:41

  • Rosana, Juan

    podrían explicar por favor (para un inexperto como yo) como se calcula el valor de p en este ejemplo que nos comparten?

    de antemano muchas gracias

    miguel

    Responder

    miguel 19 de enero de 2020, 02:31

  • Hola
    Muy buena la información, muy didacticos los temas
    Muchas gracias

    Responder

    JUAN DE DIOS 5 de febrero de 2020, 04:33

    • ¡Gracias Juan por tu comentario!

      Responder

      Rosana Ferrero 5 de febrero de 2020, 14:15

  • Sus explicaciones me han sido ayudado a aclarar el problema. Muchas gracias.

    Responder

    gladys montañez 27 de febrero de 2020, 11:13

    • ¡Gracias a ti Gladys! Nos alegra conocer vuestras experiencias. 😉

      Responder

      Rosana Ferrero 27 de febrero de 2020, 11:39

      • Excelente información agradezco enormemente,

        Me surge una inquietud, este diseño de una vía es el mismo que se conoce como diseño completamente al azar?

        Responder

        Rodrigo Ayala 6 de marzo de 2020, 18:52

        • Gracias a ti Rodrigo, nos alegra conocer vuestras opiniones acerca del blog ;).
          El ANOVA de 1 vía o 1 factor es la herramienta estadística que se utiliza para analizar datos obtenidos por un diseño completamente al azar. Estos diseños sólo consideran dos fuentes de variación: los tratamientos y el error aleatorio.
          Saludos

          Responder

          Rosana Ferrero 6 de marzo de 2020, 20:25

  • Buenas tardes! tengo una duda sobre la posibilidad de introducir una ANOVA en un estudio en el que en principio estoy analizando la varianza sólo con la t de student, tanto para grupos relacionados (Grupo Experimental con pre y post tratamiento) y grupos separados para comparar grupo experimental de grupo control. Les explico las variables:
    Se trata de medir el efecto (VI) de un tratamiento multimodal de estilo de vida saludable (en principio considerado como un bloque -y por eso la t de student) pero que en realidad está compuesto de 1) ejercicios 2) alimentación sana y 3) meditación… sobre (VD) el afrontamiento de situaciones de confinamiento (COVID19), (para lo cual evaluaré también un conjunto de indicadores: estrés, ansiedad, depresión y calidad de vida relacionada con la salud…
    Mi duda son entonces:
    1.- Qué otra prueba estadística emplear si quisiera valorar el efecto del tratamiento (como bloque) sobre cada síntoma (ansiedad, depresión, estrés y calidad de vida), ya que la premisa para la ANOVA debe ser que la VI tenga más de tres valores, y no la VD… ¿qué pasa entonces cuando es la dependiente, la que posee más de 1 valor? tengo que usar otra cosa que no sea t?
    2.- ¿Pudo usar la ANOVA al desglosar el efecto de cada técnica de tratamiento multimodal sobre los efectos de cada síntoma del confinamiento ? es decir, ¿puedo desglosar ambas variables, VI y VD? no sé si para esto podría usar un multifactorial…
    De antemano muchísimas gracias por este post porque me ha aclarado ya varias dudas, son cosas que he visto hace ya mucho tiempo y siempre me generaron dudas… Gracias a todos también por sus dudas y a ustedes por tomare el tiempo en respondernos. Un saludo!

    Responder

    Elaisa 1 de abril de 2020, 20:15

  • Hola buenos días

    Que debo hacer cuando el valor de p es menor a 0.05 y aun así las comparaciones múltiples me indica que no hay diferencias, ¿Qué otra prueba puedo aplicar?

    Responder

    Germán Gónez 1 de abril de 2022, 16:09

    • Hola Germán,
      En general, las pruebas generales (e.g. ANOVA) y las pruebas de comparaciones múltiples post hoc (e.g. prueba por pares de Tukey) responden preguntas considerablemente diferentes. Por lo tanto, su observación no es desconcertante en absoluto. Incluso podría encontrar el caso contrario, una prueba global no significativa y pruebas de comparaciones múltiples significativas.

      La hipótesis nula en el ANOVA es que todas las medias son idénticas. Rechazar esta hipótesis nula indica que los datos no se ajustan bien a esa hipótesis, pero ¿cuáles son las medias que difieren lo suficiente en nuestras muestras para que estemos seguros de que también difieren en las poblaciones? Las comparaciones por pares intentan responder a esa pregunta, pero pueden ser más conservadoras que el ANOVA. Además, puede haber un contraste lineal que involucre las medias que sea significativo pero que no sea un contraste por pares.

      Sería mucho mejor examinar los tamaños del efecto. Estos tamaños de efectos no tienen el problema de ser inconsistentes, porque no varían.
      Por último, por las dudas, recuerde verificar los supuestos de ANOVA, seleccionar adecuadamente la prueba post hoc y su ajuste del nivel de significación.

      Algunas referencias más técnicas que puedes consultar:
      http://www.pmean.com/05/TukeyTest.html
      https://psycnet.apa.org/record/1960-03648-001
      https://www.amazon.com/dp/0412982811

      Saludos

      Responder

      Rosana Ferrero 4 de abril de 2022, 08:54

  • Excelente, breve y conciso, muchas gracias Rosana. Una duda es cual sería el equivalente de prueba No paramétrica?

    Responder

    Giovanni Guevara 12 de septiembre de 2022, 18:02

  • Muy didáctica la explicación del ANOVa

    Responder

    Carlos Parra Luque 13 de septiembre de 2022, 12:57

Te llamamos

Introduce los siguientes datos y nos pondremos en contacto contigo para atender tus dudas sin compromiso.

Te llamamos

Muchas gracias por solicitar información.
Te contactaremos lo antes posible.

Diseño web: Albin Soft.