Guía definitiva para encontrar la prueba estadística que buscas

Guía definitiva para encontrar la prueba estadística que buscas

sep´17 Patricia Merayo 644 comentarios

Hoy te traigo la guía definitiva para que sepas elegir rápida y correctamente la prueba estadística que debes aplicar a tus datos.Las estadística inferencial son técnicas explicativas queutilizan muestras representativas de una población para comprobar la certeza de nuestras afirmaciones (llamadas hipótesis).  Esta certeza se expresa en términos de probabilidad.  Si la probabilidad es alta, entonces consideraremos que la afirmación "es correcta" (o al menos que no podemos rechazarla). En caso contrario, si la probabilidad de que nuestra afirmación sea cierta es baja, la rechazaremos por incorrecta. Es lógico, ¿verdad?El problema muchas veces viene en el momento en el que queremos seleccionar la prueba estadística correcta.

Pero para ponértelo fácil voy a resumírtelo en tan solo dos preguntas: ¿Cuál es tu objetivo? y ¿Qué tipo de datos tienes?.Y... ¡al final de este post te resumo las funciones que debes usar en R para llevar a cabo cada análisis!

El camino a seguir

 La siguiente figura indica a grosso modo el camino a seguir mediante un mapa de las técnicas usuales de asociación y comparación.

Veamos paso a paso qué decisiones tienes que tomar.

1. ¿Cuál es tu objetivo?

Asociar o comparar

Podemos distinguir entre dos objetivos principales para las técnicas explicativas: ASOCIAR O COMPARAR. Ambos buscan establecer relaciones (semejanzas o diferencias) entre elementos pero, a diferencia de las pruebas de asociación, las pruebas de comparación evalúan estas relaciones entre uno o varios grupos. Veamos un par de ejemplos para identificar el tipo de preguntas que intentan responder ambos tipos de técnicas: 

  • ASOCIACIÓN. ¿Existe algún tipo de relación significativa entre las variables?, ¿cómo es esta relación (positiva o negativa)?, ¿qué tan fuerte es la relación (magnitud)?, ¿la relación se mantiene si controlamos la influencia de terceras variables?.
  • COMPARACIÓN. ¿Cuál es el promedio/variabilidad de la variable de estudio en la población?, dado un conjunto de poblaciones ¿son similares?, ¿entre cuáles de ellas hay diferencias significativas?, ¿qué variables explican esas diferencias? y ¿existe interacción entre las variables explicativas?.

Si quieres profundizar aún más en la selección de las técnicas explicativas debes considerar cómo son tus muestras (independientes o relacionadas).  

¿Qué tipo de muestras tienes?

También debes saber distinguir cómo son tus muestras:

  • Muestras independientes: cada observación corresponde a un sujeto o caso distinto.
  • Muestras relacionadas (o pareadas): tenemos varias observaciones del mismo sujeto o caso. Las muestras relacionadas aparecen en experimentos del tipo antes-depués, como por ejemplo el estudio de pacientes donde se comparan los resultados antes y después de la aplicación de un tratamiento.

Ejemplo. Imaginemos que queremos estudiar el efecto de un fármaco que presuntamente reduce la presión arterial. El problema puede estar planteado de dos maneras distintas según se consideren muestras relacionadas o independientes:

  • Se toman 30 pacientes hipertensos al azar, se les suministra elfármaco a 15 de ellos y a los otros 15 se les aplica un placebo.Transcurrido un tiempo se miden las presiones sanguíneas deambos grupos y se contrasta si las medias son iguales o no.
    • variable respuesta: presión sanguínea (numérica)
    • variable explicativa: grupo (categórica: tratamiento y placebo). Las dos muestras están formadas por individuos distintos, sin relación entre sí: muestras independientes.
  • Se administra el fármaco a los 30 pacientes hipertensosdisponibles y se anota su presión sanguínea antes y despuésde la administración del mismo.
    • variable repuesta: presión sanguínea (numérica).
    • variable explicativa: tiempo (categórica: antes y después de aplicar el fármaco). En este caso los datos vienen dados por parejas (presión antes y después) por lo cual los datos están relacionados entre sí: muestras relacionadas.

2. ¿Qué tipo de datos tienes?

¿Cómo son tus variables?

Seguro que tienes claro cuáles son los tipos de variables, así comienzan el 99% de los cursos de estadística de grado, pero hagamos un pequeño repaso para desempolvar estos conceptos.

Tenemos variables categóricas, que son de dos tipos: las llamadasvariables nominales (que son categorías sin orden) como el sexo; ylas variables ordinales (que sí representan un orden), como el nivelde estudios.

Recuerda que las variables nominales pueden ser binarias o dicotómicas (e.g. fumador/no fumador, enfermo/sano).Por otra parte tenemos las variables numéricas, que pueden ser discretas si vienen dadas por números enteros, como el número de hijos, o continuas como el peso que se representa por números reales.  

¿Se cumplen los supuestos clásicos?

En segundo lugar debes corroborar si tus datos cumplen o no con los supuestos de las pruebas estadísticas clásicas (normalidad, homogeneidad, independencia). Esto te permitirá elegir entre pruebas PARAMÉTRICAS, pruebas NO PARAMÉTRICASy pruebas ROBUSTAS. Para ello tienes que responder a las siguientes preguntas: ¿las variables se distribuyen según la curva normal (gaussiana)?, ¿los son grupos tienen dispersión similar (son homogéneos)?, "All models are wrong, but some are useful ", Box (1979).Cuando trabajas con datos reales en la mayoría de las ocasiones no se cumplen los supuestos de la estadística clásica.En estos casos las técnicas paramétricas no nos demasiado útiles; pero como mencionamos en la entrada anterior (ver AQUÍ) tenemos 3 posibles soluciones

  • la transformación de los datos, cuando los datos no siguen una distribución normal o queremos disminuir su variabilidad.
  • utilizar las pruebas no paramétricas cuando los datos no siguen una distribución normal
  • utilizar las pruebas robustas cuando tienes datos atípicos.

Razones para utilizar pruebas paramétricas

  • Si la distribución se aparta poco de la normalidad, y las muestras no son muy pequeñas (n>30), pueden ser válidas teniendo ciertos cuidados.
  • Si la falta de homogeneidad de varianza en cada grupo no es muy grande, existen maneras en la prueba t o en el ANOVA de incluir esta condición. Sin embargo las no paramétricas no permiten solucionar este inconveniente.
  • Generalmente tienen mayor poder estadístico que laspruebas no paramétricas. Es decir, con ellas tenemos más probabilidad de detectar un efecto significativo cuando realmente existe.

Razones para utilizar pruebas no paramétricas

  • Si puedes utilizar contrastes que solo necesiten establecer supuestos poco exigentes (como simetría o continuidad) o quieres analizar las propiedades nominales u ordinales de losdatos.

Ten en cuenta que muchas de estas pruebas utilizan la mediana en lugar de la media para sus cálculos.Cuando la distribución de frecuencias de los datos es muyasimétrica, la media se ve muy afectadamientras que la mediana refleja mejor la centralidad de la distribución. 

  • Cuando tienes un tamaño muestral pequeño.

Cuando tenemos pocos datos las pruebas de normalidad pierden poder estadístico y no estamos seguros del tipo de distribución de losdatos. Sin embargo, para realizar pruebas no paramétricas el tamaño muestral tampoco debe ser muy pequeño. 

  • Cuando analizamos datos ordinales o de rango.

Las pruebas paramétricas sirven para analizar datos de escala y sus resultados se ven muy afectados por la presencia de outliers. Aunque a veces la interpretación de los rangos medios puede ser difícil.  

Razones para utilizar pruebas robustas

  • Son estables respecto a pequeñas desviaciones delmodelo paramétrico asumido (normalidad yhomocedasticidad).

A diferencia de los procedimientos no paramétricos, los procedimientos estadísticos robustos no tratan de comportarse necesariamente bien para una amplia clase de modelos, pero son de alguna manera óptimos en un entorno de cierta distribución de probabilidad, por ejemplo, normal.

  • Solucionan los problemas de influencia de los outliers.
  • Son más potentes que las pruebas paramétricas y noparamétricas cuando los datos no son normales y/o no sonhomocedásticos.
  • Los métodos robustos modernos son diseñados para obtener un buen desempeño cuando los supuestos clásicos se cumplen y también cuando se incumplen. Por lo tanto, haypoco que perder y mucho que ganar a la hora de utilizar estastécnicas en lugar de las clásicas.

Manos a la obra... aplicación en el Software R

Lo prometido es deuda, aquí tienes el resumen de las funciones que debes utilizar en R para realizar cada tipo de prueba.

Pasos finales

Potencia estadística

No te quedes solo con el resultado de la prueba estadística (p-valor), analiza si realmente puedes confiar en los resultados. Cuando mis resultados no son significativos, ¿realmente no existe un efecto o es que el estudio no fue capaz de detectarlo? O, por el contrario, cuando tengo resultados significativos ¿son realmente tan positivos o es que el experimento sobreestima los efectos del tratamiento?

Esto te lo dirá la potencia estadística.

Tamaño del efecto

Explica el significado real (práctico) de los resultados de tu investigación. Es esencial que interpretemos no sólo la significación estadística de los resultados (el ya archiconocido p-valor), sino también su significación práctica o real.

Revisa el post de tamaño de efecto para saber cómo actuar.

Gráficos

Resumiendo, que es gerundio

 Estos son los principales pasos a seguir en la selección de la técnica explicativa correcta:

  1. Escribir claramente el objetivo de análisis (asociación o comparación)
  2. ¿Qué tipo de variables tengo?
  3. ¿Son muestras independientes o relacionadas?
  4. ¿Se pueden aplicar técnicas paramétricas? Analizar los supuestos:
    • Normalidad.
    • Homogeneidad de varianza.
    • Linealidad (en caso de que sea necesario).
  5. ¿Qué prueba debo realizar? Seleccionar la prueba adecuada según el mapa que te he enseñado.
  6. ¿La asociación/comparación es estadísticamente significativa? Realizar la prueba de hipótesis.
  7. Interpretar y graficar los resultados.
    • Si estamos asociando nos preguntaremos ¿cómo es esta relación? ¿qué tan fuerte es?
    • Si estamos comparando nos preguntaremos ¿entre qué grupos/muestras?
      • Si son 2 grupos/muestras realizar estadísticos descriptivos y/o gráficos para decidir.
      • Si son más de 2 grupos/muestras realizar comparaciones múltiples pareadas post hoc y en aquellos pares de variables significativamente distintos realizar estadísticos descriptivos y/o gráficos para decidir.

  Espero que este post te sea útil ¡y ya no tengas dudas a la hora de elegir tus pruebas!Saludos.

644 comentarios

Acepto la política de privacidad

¹ Todos los campos son obligatorios.
² Tu correo electrónico no será publicado.

  • Hola, estoy trabajando con datos discretos(conteos de caracteres morfológicos) de una especie de pez en diferentes localidades.
    ¿que estadistico puedo utilizar, para comparar las poblaciones de peces de las diferentes localidades?

    Responder

    ELENA 6 de mayo de 2021, 18:06

    • Hola Elena,
      si asumes que las localidades son muestras independientes (porque están alejadas, por ejemplo) y tienes más de 2, puedes realizar la prueba de Kruskall-Wallis que es la alternativa no paramétrica al ANOVA de una vía para muestras independientes. Esta prueba no asume ningún tipo de distribución, por lo cual sirve para datos de conteo. No obstante, evalúa si la homogeneidad entre grupos se cumple y grafica los resultados para evaluar el comportamiento del modelo.
      Saludos

      Responder

      Rosana Ferrero 10 de mayo de 2021, 11:23

  • Hola Rosana,
    En primer lugar felicidades por el blog, este articulo ofrece una clara información sobre el análisis de los datos.
    Quería preguntar que pruebas me recomiendas, ya que cuanto más leo, más dudo….
    Pretendo valorar el nivel de alfabetización en salud clasificado( insuficiente, problemático y adecuado), a la vez , recoger datos socio-demográfico, de salud y hábitos, para describir el perfil de la población de un barrio (>de 65a) . Las pruebas descriptivas creo tenerlas claras, empiezo a dudar sobre que pruebas escoger si quiero valorar un análisis por género, quizá también por grupos de edad. Y como relacionar/ valorar diferentes variables mayoritariamente cualitativas. (pex: nivel alfabetización/ ingresos económicos o nivel estudios o profesión- ocupación, o percepción de la salud)

    muchas gracias por tu atención
    Gemma

    Responder

    Gemma 6 de mayo de 2021, 23:39

    • Hola Gemma, gracias por tu comentario ;).
      En la guía evaluamos pruebas de hipótesis para 2 variables, en el caso que planteas cuando tienes más predictores lo mejor es ajustar un modelo de regresión. Como tu variable respuesta es ordinal, podrías utilizar una regresión ordinal (que es una especie de extensión de la regresión logística para una respuesta binaria).
      Saludos

      Responder

      Rosana Ferrero 10 de mayo de 2021, 11:21

  • Hola, buenas. Desearía ser una consulta, mis variables de estudios son cualitativas y las respuestas son de tipo nominal, con una muestra de 60 personas. Realizee todo procedimiento en el programa y me sale como resultado que tengo que aplicar una prueba no para métrica, pero lo que no se que tipo de prueba si la chi cuadrado o la rho spearman. O tro tipo de prueba.

    Responder

    Ale 9 de mayo de 2021, 06:59

    • Hola Ale, si tienes 2 variables nominales y quieres evaluar si son independientes o si existe relación entre ellas, puedes utilizar la prueba de independencia Chi-cuadrado.Saludos

      Responder

      Rosana Ferrero 10 de mayo de 2021, 11:18

  • Hola!
    Tengo una pregunta, estoy haciendo una investigación sobre a quien afecta más , si a los hombres o a las mujeres, el llanto de bebés durante unas pruebas de destreza manual. Estas pruebas se miden por tiempo, entonces tengo resultados de segundos. Quiero comparar los resultados de hombres y mujeres en estas pruebas. Quiero saber que genero tardo más tiempo. Que prueba estadística podría utilizar?

    pd: A ambos grupos (hombres y mujeres) se les aplicó las mismas pruebas de destreza manual con el distractor (llanto de bebé). No hay grupo de control.

    Responder

    Daniela 12 de mayo de 2021, 05:49

    • Buenas tardes , en mi estudio de intervención tengo una variable independiente cualitativa dicotómica y dos variables dependientes cuantitativas. Realizo pruebas pretest y post-test. Qué estadísticos se utilizarían para comprobar su validez ? Muchas gracias.

      Responder

      Cristina 17 de mayo de 2021, 23:04

      • Hola Cristina, en tu caso deberías utilizar la regresión logística que te permite estudiar el efecto conjunto de ambos predictores sobre una respuesta binaria.
        Saludos

        Responder

        Rosana Ferrero 18 de mayo de 2021, 17:27

    • Hola Daniela,
      como tu respuesta es numérica y estás comparando 2 muestras independientes (hombres y mujeres), si se cumplen los supuestos de las pruebas paramétricas, podrías utilizar la prueba t para 2 muestras independientes.
      No obstante, sí creo que sería interesante haber utilizado un grupo control (sin llanto del bebé, y sobre los mismos sujetos) para no confundir las diferencias en el tiempo de reacción entre hombres y mujeres con las diferencias debidas al llanto del bebé. Es decir, en tu estudio estás asumiendo que no existen diferencias «de partida» entre el tiempo de reacción entre hombres y mujeres. Para que lo tengas en cuenta.

      Saludos

      Responder

      Rosana Ferrero 12 de mayo de 2021, 10:13

  • Buenas tardes , en mi estudio de intervención tengo una variable independiente cualitativa dicotómica y dos variables dependientes cuantitativas. Realizo pruebas pretest y post-test. Qué estadísticos se utilizarían para comprobar su validez ? Muchas gracias.

    Responder

    Cristina 17 de mayo de 2021, 16:25

  • Buenas tardes, tengo una pregunta porque estoy muy perdida con el análisis de mis datos.
    Tengo 8 sujetos a los que les he pasado tres tests antes y después de una formación para ver si hay cambios significativos en las variables que miden los tests.
    No tengo ni idea de por donde tengo que empezar, ya que no se si son muestras dependientes o relacionadas, y si al ser una muestra tan pequeña me merece la pena realizar pruebas paramétricas.
    Muchas gracias, un cordial saludo

    Responder

    Noelia 17 de mayo de 2021, 22:53

    • Hola Noelia, si quieres evaluar múltiples respuestas a la vez podrías utilizar técnicas multivariantes, como el análisis factorial.
      Saludos

      Responder

      Rosana Ferrero 18 de mayo de 2021, 17:29

  • Me ha parecido un curso fácil de seguir, la organización de la plataforma y el contenido es bueno. También me ha gustado mucho la agilidad en la que el tutor resuelve tus dudas y te ayuda en todo momento.

    Responder

    Nerea López - Máster en Profesorado (Pontevedra) 3 de agosto de 2021, 13:29

  • Buenas noches, tenga una duda y necesito una ayuda, estoy tratando de dar respuesta a un objetivo de mi trabajo de investigación. Necesito establecer la relación entre la escucha activa de los coordinador y el nivel de Burnout de los empleados de la empresa.
    Para resolverlo, pensaba usar la prueba del coeficiente de person pero cuando observo la muestra no son igual, tengo 10 coordinadores y 35 empleados. Qué prueba estadística debo usar?

    Es decir, correlacionar dos variables pero con distintas muestra.

    Responder

    Maria 10 de agosto de 2021, 00:05

  • Hola, el la matriz de decisión mostrada arriba no aparece el test de kolmogorov, no es aplicable a esos caso??

    Responder

    Jorge Riveros 23 de agosto de 2021, 20:40

  • Hola!!
    Muy útil la información.
    Tengo una duda, resulta que estoy haciendo un ECA con placebo. Establecí que uno de los análisis a usar para variables categóricas sería la prueba ji cuadrada. Pero uno de mis sinodales dice que la ji cuadrada NO ES UNA PRUEBA, es una distribución, y entonces aplicar otra, como Odds ratio, exacta de Fisher o prueba z. He buscado y no logro entender, todos lo consideran una prueba.
    Gracias

    Responder

    Karla 31 de agosto de 2021, 22:52

En Máxima Formación utilizamos cookies propias y de terceros con finalidad analítica y publicitaria. En nuestra política de cookies te contamos cuáles usamos y cómo desactivarlas si quieres. Aceptar todas Configurar/Rechazar

Diseño web: Albin Soft.