¿Qué es el ANOVA de una vía?

¿Qué es el ANOVA de una vía?

ago´17 Patricia Merayo 0 comentarios

Esta guía es una breve introducción al ANOVA de una vía o de un factor entre-grupos, veremos cuáles son los supuestos de la prueba y cuándo debes usarla. Te mostraremos cómo realizar el ANOVA, cómo interpretar los resultados y cómo informar de ellos en formato científico.

Esta guía es una breve introducción al ANOVA de una vía o de un factor entre-grupos, veremos cuáles son los supuestos de la prueba y cuándo debes usarla. Te mostraremos cómo realizar el ANOVA, cómo interpretar los resultados y cómo informar de ellos en formato científico.

¿Para qué sirve el análisis de varianza (ANOVA)?

El análisis de varianza (ANOVA) de una vía se utiliza para determinar si existen diferencias estadísticamente significativas entre las medias de tres o más grupos.En este caso utilizaremos grupos independientes (no relacionados) por lo que lo llamaremos ANOVA de un factor entre-grupos.Luego de realizar el ANOVA, si los grupos presentan un comportamiento distinto, podremos determinar entre qué grupos específicos existen diferencias estadísticamente significativas mediante pruebas de comparación múltiple post hoc. Resumiendo, vamos a responder a las siguientes preguntas:¿Los grupos (3 o más) son diferentes -para una cierta variable respuesta-?Si la respuesta es afirmativa, ¿qué grupos son diferentes?

Algunos ejemplos

  • Un grupo de pacientes psiquiátricos se encuentra bajo tres diferentes terapias: asesoramiento, medicamentos y deporte, y queremos ver si una terapia es mejor que las otras.
  • Un fabricante tiene varios procesos diferentes para fabricar bombillas y quiere saber si un proceso es mejor que el otro.
  • Los estudiantes de diferentes colegios toman el mismo examen y deseamos ver si una universidad supera a la otra en la puntuación.

¿Por qué se llama ANOVA?

El nombre Analysis oVariance (ANOVA), análisis de varianza, se basa en el enfoque en el que el procedimiento utiliza varianzas para determinar si las medias son diferentes. El procedimiento funciona comparando la varianza entre las medias de grupo (entre-grupos) versus la varianza dentro de los grupos (intra-sujetos) como una forma de determinar si los grupos son más distintos entre sí que dentro de sí.

¿Por qué hablamos de "una vía”? Y ¿Qué son los grupos o niveles?

Una vía significa que tenemos una única variable explicativa o predictor, también llamada variable independiente. Esta variable debe tener tres o más niveles o categorías.Por ejemplo, si queremos analizar el pH de distintas muestras de jabón de bebé, la marca del jabón es nuestra variable independiente cuyos niveles podrían ser Baño Dulces Sueños de Johnson’s Baby, Champú-Gel de Weleda, Gel Champú de Suavinex y Babygel de Mustela Beb.

¿Quién creó esta prueba? 

El ANOVA, desarrollado por Ronald Fisher en 1918, extiende la prueba t y la prueba z que compara tan solo 2 grupos. Este británico (1890 – 1962) fue un estadístico y biólogo que usó la matemática para combinar las leyes de Mendel con la selección natural, de manera que ayudó así a crear una nueva síntesis del Darwinismo conocida como la síntesis evolutiva moderna.

Hipótesis nula y alternativa

  • Hipótesis nula, H0: las medias de los grupos son iguales. ?1 = ?2 = … = ?k
  • Hipótesis alternativa, H1: alguna de las medias es distinta. ?i ? ?j para algún i y j

Donde ? es la media del grupo y k el número de grupos.

Regla de decisión

Elegimos el nivel alfa de significación que vamos a utilizar, usualmente alfa=5% o 0,05. 

  • Cuando el p-valor del estadístico de la prueba ANOVA es inferior al nivel alfa de significación que hemos elegido, entonces rechazamos la hipótesis nula y nos quedamos con la alternativa. Es decir, hay al menos dos medias grupales que son diferentes entre sí.
  • En caso contrario, no podemos rechazar la hipótesis nula y concluimos que no existen diferencias significativas entre los grupos evaluados.

Es importante recordar que la prueba ANOVA no nos dice nada acerca de qué grupos específicos son diferentes. Para ello debemos realizar pruebas de comparación múltiple post hoc, que veremos más adelante.

¿Cuándo necesitarás usar el análisis ANOVA?

  • Situación 1: Cuando tenemos un grupo de individuos divididos aleatoriamente en grupos más pequeños bajo distinto tratamiento. Por ejemplo, usted podría estar estudiando los efectos del té en la pérdida de peso y formar tres grupos: el té verde, té negro, y sin té.
  • Situación 2: Similar a la situación 1, pero en este caso los individuos se dividen en grupos basados en un atributo que poseen. Por ejemplo, usted podría estar estudiando la fuerza de las piernas de las personas de acuerdo al peso. Podría dividir a los participantes en categorías de peso (obesidad, sobrepeso y normal) y medir la fuerza de sus piernas en una máquina de peso.

¿Por qué no comparar grupos con múltiples pruebas t?

Cada vez que realizas una prueba t, existe la posibilidad de que obtengas un error de tipo I (o falso positivo, es el error que se comete cuando no aceptamos la hipótesis nula siendo esta realmente verdadera). Este error suele ser del 5% (nivel alfa de significación del que hablamos antes). Al ejecutar dos pruebas t sobre los mismos datos, habrá aumentado la probabilidad de "cometer un error" al 10%. La fórmula para determinar la nueva tasa de error para múltiples pruebas t no es tan simple como multiplicar el 5% por el número de pruebas. Sin embargo, si usted está haciendo solamente algunas comparaciones múltiples, los resultados son muy similares. Como tal, tres pruebas t serían el 15% (en realidad, el 14,3%) y así sucesivamente. Estos son errores inaceptables. Un ANOVA controla estos errores para que el tipo de error I permanezca en 5% y así podamos estar más seguros de nuestros resultados.

¿Qué supuestos tiene el test ANOVA?

  • La variable dependiente o respuesta debe ser continua. Por ejemplo, el tiempo de revisión (medido en horas), inteligencia (medida mediante la puntuación de CI), desempeño del examen (medido de 0 a 100), peso (medido en kg), etc.
  • La variable independiente o explicativa debe estar formada por tres o más grupos categóricos e independientes. Por ejemplo, la etnicidad (caucásico, afroamericano e hispano), el nivel de actividad física (sedentario, bajo, moderado y alto), la profesión (doctor, enfermera, dentista, terapeuta), etc.
  • La variable dependiente se distribuye normalmente en cada grupo que se compara en el ANOVA de una vía (técnicamente, son los residuos los que necesitan ser distribuidos normalmente, pero los resultados serán los mismos). Puedes probar la normalidad usando la prueba de normalidad de Shapiro-Wilk.
  • Hay homogeneidad de varianzas. Esto significa que las varianzas de la respuesta en cada grupo son iguales. Puedes probar esta suposición usando la prueba de Levene para la homogeneidad de las varianzas.
  • Las observaciones son independientes. Esto es principalmente un tema del diseño del estudio y, como tal, necesitará determinar si cree que es posible que sus observaciones no sean independientes en función del diseño del estudio (por ejemplo, si los valores han sido tomados diariamente las muestras más cercanas en el tiempo serán más similares entre sí respecto al resto de muestras -correlación temporal-).
  • No debemos tener valores atípicos (outliers) influyentes. Los valores atípicos son simplemente valores dentro de sus datos que no siguen el patrón habitual (por ejemplo, en un estudio de 100 puntajes de IQ de los estudiantes, donde la puntuación media fue de 108 con sólo una pequeña variación entre los estudiantes; pero un sujeto obtuvo un valor de 156, que es muy inusual incluso en la bibliografía). El problema con los valores atípicos es que pueden afectar el resultado del ANOVA, reduciendo la validez de sus resultados. Puedes leer [aquí] cómo detectar valores atípicos usando R y ver algunas opciones para tratarlos.

¿Qué sucede si mis datos no cumplen estos supuestos?

En primer lugar, no te asustes.Esto no es raro cuando se trabaja con datos del mundo real en lugar de ejemplos de libros de texto, que a menudo sólo le muestran cómo llevar a cabo un ANOVA de una vía cuando todo va bien. No te preocupes, incluso cuando sus datos fallan ciertas suposiciones, hay a menudo una solución para superar esto. El incumplimiento de los dos primeros de estos supuestos puede no ser tan grave y existen alternativas como las pruebas no paramétricas (que no requieren supuestos acerca de la distribución de los datos).

  • El ANOVA de una vía se considera una prueba robusta frente a la falta de normalidad. Esto significa que tolera las violaciones a su supuesto de normalidad bastante bien siempre que no sea demasiada. Puede tolerar datos que no son normales (distribuciones sesgadas o empinadas) con sólo un pequeño efecto sobre la tasa de error Tipo I. Sin embargo, las distribuciones aplanadas pueden tener un efecto profundo cuando los tamaños de grupo son pequeños. Esto nos deja con dos alternativas: (1) transformar los datos para que la forma de la distribución sea normal o (2) elegir una prueba no paramétrica que no supone normalidad.
  • En el caso de que no exista homogeneidad de variantes podemos aplicar el ANOVA de Welch y una prueba de Games-Howell en lugar de una prueba post hoc de Tukey. Otra alternativa es aplicar una prueba no paramétrica.
  • La falta de independencia de los casos es la más grave. Deberíamos pensar en otro tipo de prueba para hacer frente a este problema, por ejemplo un diseño de medidas repetidas.

Recuerda que si no consideras correctamente estos supuestos, los resultados obtenidos al ejecutar una ANOVA podrían no ser válidos.

¿Qué son las pruebas post hoc?

Recuerda que la prueba ANOVA nos indica si existen diferencias entre los grupos, pero no nos dice qué grupos específicos son diferentes, para ello debemos realizar pruebas post hoc o a posteriori. Su nombre indica que se ejecutan para confirmar donde ocurrieron las diferencias entre los grupos, por lo cual debes recordar que sólo se deben realizar cuando se detecta una diferencia estadísticamente significativa en las medias de los grupos (es decir, cuando un resultado del ANOVA de una vía es estadísticamente significativo). Las pruebas post hoc intentan controlar la tasa de errores experimentales (usualmente alfa = 0,05) de la misma manera que se usa el ANOVA de una vía en lugar de múltiples pruebas t.

¿Qué prueba post hoc debo usar?

Hay un gran número de diferentes pruebas post hoc que puedes utilizar luego del ANOVA de una vía. Si los datos cumplen con la hipótesis de homogeneidad de las varianzas, utilice la prueba post hoc de Tukey (HSD). Si sus datos no cumplen con la suposición de homogeneidad de varianzas, utilice la prueba post hoc de Games Howell.

¿Cómo puedo informar los resultados del ANOVA?

Los resultados de la prueba ANOVA de una vía se suelen disponer de la siguiente manera:

¿Qué debo informar?

Todo lo que necesitas escribir sobre el resultado del ANOVA es si encontraste o no diferencias significativas e informar del valor del estadístico F, sus grados de libertad (df), su valor, y el p-valor calculado (sig.).

  • Mi p-valor es mayor que 0.05, ¿qué hago ahora?

Informe el resultado del ANOVA de una vía aún si el resultado no es estadísticamente significativo. Por ejemplo, "No detectamos diferencias estadísticamente significativas entre las medias de los grupos como se determinó por ANOVA de una vía (F (2,27) = 1,397, p = 0,15)"). Eso sí, no será necesario realizar la prueba post hoc.

  • Mi p-valor es menor que 0.05, ¿qué hago ahora?

En el ejemplo que ponemos arriba deberíamos decir que: "Detectamos una diferencia estadísticamente significativa entre los grupos mediante el ANOVA de una vía (F (2,27) = 4,467, p = 0,021)". Sin embargo, es probable que también queramos informar del resultado de la prueba de comparaciones múltiple post hoc y del valor medio ± desviaciones estándar para los grupos.

¿Cómo debo presentar gráficamente mis resultados?

No es necesario que presentes tus resultados mediante un gráfico pero puede facilitar la interpretación de los resultados. En el caso de que lo desee, recomiendo utilizar un gráfico de medias con desviación estándar. Algunos investigadores suelen usar barras con desviación estándar pero recuerda que la media es un valor único, no acumulable, por lo cual la barra no tiene mucho sentido (aunque lo verá en un sin fin de artículos científicos, desgraciadamente).Es necesario presentar los intervalos de error para la media de cada grupo. Generalmente se utiliza la desviación estándar de cada grupo, pero también se pueden usar los errores estándar o los intervalos de confianza.

¿Cómo aplicar el ANOVA de una vía en R?

En la siguiente entrada "Cómo aplicar un ANOVA de una vía en R" te mostraré un ejemplo práctico para realizar esta prueba con el Software R. ¡Todo los pasos que necesitas hacer para obtener los resultados que buscas!¡No te olvides de dejarnos tu comentario.

Esta entrada es una adaptación de este blog de SPSS

0 comentarios

Acepto la política de privacidad

¹ Todos los campos son obligatorios.
² Tu correo electrónico no será publicado.

  • Hola, está super bien explicado. Muchas gracias .
    Aun tengo una duda: tengo dos variables, la dependiente es la preferencia alimentaria de un grupo de alimentos y mi variable independiente son los genotipos de ghrelina (AA, AG, GG) ¿puedo utilizar esta prueba para correlacionarlas si la distribución de mis datos es normal? y si no lo es ¿kruskal-wallis me sirve?
    Gracias

    Responder

    Astrid 30 de marzo de 2019, 01:40

    • Hola Astrid, gracias por tu comentario. ¿Cómo está medida la variable respuesta «preferencia alimentaria de un grupo de alimentos? es decir, ¿los encuestados seleccionan una opción alimenticia de varias posibles? En ese caso sería una variable categórica, al igual que la variable explicativa «genotipos de ghrelina». Cuando quieres evaluar si existe una relación (o no) entre 2 variables categóricas, puedes utilizar la prueba de independencia Chi-cuadrado. Si la variable respuesta «preferencia alimentaria de un grupo de alimentos» está medida como número de veces que el sujeto consume un determinado alimento en el año, por ejemplo, en ese caso sí sería una variable numérica y deberías compararla entre los grupos de «genotipos» mediante pruebas paramétricas (si cumple con los supuestos), no paramétricas (si no cumple los supuestos) o robustas (si tienes valores atípicos). Saludos

      Responder

      Rosana Ferrero 1 de abril de 2019, 09:44

  • Hola. me quedo una duda… Al momento de ver si hay una diferencia significativa entre o dentro de los grupos, en que me debo fijar, entiendo que debo ver F pero no se más allá de eso? me debe dar algún resultado en especifico?

    Responder

    Tamara Andrea 5 de mayo de 2019, 17:43

    • Hola Tamara,
      la prueba F (tabla ANOVA) te indica si existe algún grupo donde la media de la respuesta (teniendo en cuenta la variación) es distinta al resto. Luego, para identificar exactamente entre qué grupos hay diferencias debes realizar las pruebas de comparaciones múltiples post hoc, y ayudarte con los estadísticos descriptivos para determinar qué grupo tiene mayor/menor media.
      Saludos

      Responder

      Rosana Ferrero 6 de mayo de 2019, 09:22

  • Muchas gracias por la explicación. Puedo obtener el PDF del documento?

    Responder

    Magally Marquez 6 de mayo de 2019, 17:50

  • Me encantó el blog. La información es muy fácil de entender y de gran ayuda!

    Muchísimas gracias

    Responder

    Yenith Paola 31 de mayo de 2019, 21:39

    • ¡Muchas gracias por tu comentario Yenith! Saludos

      Responder

      Rosana Ferrero 31 de mayo de 2019, 22:07

  • Muchas gracias por compartir esta información me ha sido muy útil.
    Una pregunta tengo datos de 10 años cada año con 5 subdatos es correcto aplicar el ANOVA de una vía para ver si tienen diferencia significativa?
    los tengo que comparar año por año o puedo considerar cada año como un grupo diferente? y que prueba me recomiendan para post hoc.
    Espero sus comentarios.
    Saludos cordiales.

    Responder

    José Luis Fuziwara mendujano 30 de septiembre de 2019, 05:00

    • Hola José Luis,
      espero que el post te sea de ayuda. Para datos temporales, si no tienes patrones de tendencia o peridicidad, podrías utilizar el ANOVA de medidas repetidas. Revisa los siguientes post que hemos elaborado al respecto:
      https://www.maximaformacion.es/blog-dat/anova-de-medidas-repetidas-tutorial-en-rsoftware/
      https://www.maximaformacion.es/blog-dat/anova-de-medidas-repetidas-tutorial-en-rsoftware/
      Ahí mismo verás las técnicas de comparación múltiple post hoc.
      Sobre qué es lo que «debes» comparar, depende de tus objetivos. Si lo que quieres es evaluar las diferencias entre años, pues compara los años.
      Aprovecho para comentarte que 5 observaciones (datos) por año es muy poco, si puedes aumentar el número de datos mejor, sino intenta con pruebas no paramétricas o alguna otra solución (no sé si en tu caso podría tener sentido agrupar cada 2 o 5 años, no sé la problemática abordas).
      ¡Saludos!

      Responder

      Rosana Ferrero 30 de septiembre de 2019, 10:17

  • Buenas noches:
    Tengo una variable dependiente «COMPETITIVIDAD» y una independiente «INNOVACIÓN», esta última compuesta por varios elementos. Quisiera calcular el ANOVA pero no me queda clara la forma de interpretar los resultados. Agradecería algún tipo de colaboración académica.

    Responder

    José 25 de octubre de 2019, 00:41

  • Rosana, Juan

    podrían explicar por favor (para un inexperto como yo) como se calcula el valor de p en este ejemplo que nos comparten?

    de antemano muchas gracias

    miguel

    Responder

    miguel 19 de enero de 2020, 02:31

  • Hola
    Muy buena la información, muy didacticos los temas
    Muchas gracias

    Responder

    JUAN DE DIOS 5 de febrero de 2020, 04:33

    • ¡Gracias Juan por tu comentario!

      Responder

      Rosana Ferrero 5 de febrero de 2020, 14:15

  • Sus explicaciones me han sido ayudado a aclarar el problema. Muchas gracias.

    Responder

    gladys montañez 27 de febrero de 2020, 11:13

    • ¡Gracias a ti Gladys! Nos alegra conocer vuestras experiencias. 😉

      Responder

      Rosana Ferrero 27 de febrero de 2020, 11:39

      • Excelente información agradezco enormemente,

        Me surge una inquietud, este diseño de una vía es el mismo que se conoce como diseño completamente al azar?

        Responder

        Rodrigo Ayala 6 de marzo de 2020, 18:52

        • Gracias a ti Rodrigo, nos alegra conocer vuestras opiniones acerca del blog ;).
          El ANOVA de 1 vía o 1 factor es la herramienta estadística que se utiliza para analizar datos obtenidos por un diseño completamente al azar. Estos diseños sólo consideran dos fuentes de variación: los tratamientos y el error aleatorio.
          Saludos

          Responder

          Rosana Ferrero 6 de marzo de 2020, 20:25

  • Buenas tardes! tengo una duda sobre la posibilidad de introducir una ANOVA en un estudio en el que en principio estoy analizando la varianza sólo con la t de student, tanto para grupos relacionados (Grupo Experimental con pre y post tratamiento) y grupos separados para comparar grupo experimental de grupo control. Les explico las variables:
    Se trata de medir el efecto (VI) de un tratamiento multimodal de estilo de vida saludable (en principio considerado como un bloque -y por eso la t de student) pero que en realidad está compuesto de 1) ejercicios 2) alimentación sana y 3) meditación… sobre (VD) el afrontamiento de situaciones de confinamiento (COVID19), (para lo cual evaluaré también un conjunto de indicadores: estrés, ansiedad, depresión y calidad de vida relacionada con la salud…
    Mi duda son entonces:
    1.- Qué otra prueba estadística emplear si quisiera valorar el efecto del tratamiento (como bloque) sobre cada síntoma (ansiedad, depresión, estrés y calidad de vida), ya que la premisa para la ANOVA debe ser que la VI tenga más de tres valores, y no la VD… ¿qué pasa entonces cuando es la dependiente, la que posee más de 1 valor? tengo que usar otra cosa que no sea t?
    2.- ¿Pudo usar la ANOVA al desglosar el efecto de cada técnica de tratamiento multimodal sobre los efectos de cada síntoma del confinamiento ? es decir, ¿puedo desglosar ambas variables, VI y VD? no sé si para esto podría usar un multifactorial…
    De antemano muchísimas gracias por este post porque me ha aclarado ya varias dudas, son cosas que he visto hace ya mucho tiempo y siempre me generaron dudas… Gracias a todos también por sus dudas y a ustedes por tomare el tiempo en respondernos. Un saludo!

    Responder

    Elaisa 1 de abril de 2020, 20:15

En Máxima Formación utilizamos cookies propias y de terceros con finalidad analítica y publicitaria. En nuestra política de cookies te contamos cuáles usamos y cómo desactivarlas si quieres. Aceptar todas Configurar/Rechazar

Diseño web: Albin Soft.