Guía definitiva para encontrar la prueba estadística que buscas

Guía definitiva para encontrar la prueba estadística que buscas

sep´17 Rosana Ferrero 671 comentarios

Hoy te traigo la guía definitiva para que sepas elegir rápida y correctamente la prueba estadística que debes aplicar a tus datos.Las estadística inferencial son técnicas explicativas queutilizan muestras representativas de una población para comprobar la certeza de nuestras afirmaciones (llamadas hipótesis).  Esta certeza se expresa en términos de probabilidad.  Si la probabilidad es alta, entonces consideraremos que la afirmación "es correcta" (o al menos que no podemos rechazarla). En caso contrario, si la probabilidad de que nuestra afirmación sea cierta es baja, la rechazaremos por incorrecta. Es lógico, ¿verdad?El problema muchas veces viene en el momento en el que queremos seleccionar la prueba estadística correcta.

Pero para ponértelo fácil voy a resumírtelo en tan solo dos preguntas: ¿Cuál es tu objetivo? y ¿Qué tipo de datos tienes?.Y... ¡al final de este post te resumo las funciones que debes usar en R para llevar a cabo cada análisis!

ÚLTIMAS PLAZAS EN MASTERS

Máster Data Science

CONVOCATORIA ABIERTA I Logra la máxima precisión y rigor en tus proyectos de Ciencia de Datos.

Ver convocatorias 2022

MAster en MAchine learning

CONVOCATORIA ABIERTA | Automatiza procesos y crea tus propios algoritmos de Machine Learning.

Ver convocatorias 2022

El camino a seguir

 La siguiente figura indica a grosso modo el camino a seguir mediante un mapa de las técnicas usuales de asociación y comparación.

Veamos paso a paso qué decisiones tienes que tomar.

¿Quieres llevar tus proyectos de Ciencia de Datos a otro nivel?

Máster de Estadística Aplicada para la Ciencia de Datos con R Software

Matrícula abierta hasta el 01/11/2021

1. ¿Cuál es tu objetivo?

Asociar o comparar

Podemos distinguir entre dos objetivos principales para las técnicas explicativas: ASOCIAR O COMPARAR. Ambos buscan establecer relaciones (semejanzas o diferencias) entre elementos pero, a diferencia de las pruebas de asociación, las pruebas de comparación evalúan estas relaciones entre uno o varios grupos. Veamos un par de ejemplos para identificar el tipo de preguntas que intentan responder ambos tipos de técnicas: 

  • ASOCIACIÓN. ¿Existe algún tipo de relación significativa entre las variables?, ¿cómo es esta relación (positiva o negativa)?, ¿qué tan fuerte es la relación (magnitud)?, ¿la relación se mantiene si controlamos la influencia de terceras variables?.
  • COMPARACIÓN. ¿Cuál es el promedio/variabilidad de la variable de estudio en la población?, dado un conjunto de poblaciones ¿son similares?, ¿entre cuáles de ellas hay diferencias significativas?, ¿qué variables explican esas diferencias? y ¿existe interacción entre las variables explicativas?.

Si quieres profundizar aún más en la selección de las técnicas explicativas debes considerar cómo son tus muestras (independientes o relacionadas).  

¿Qué tipo de muestras tienes?

También debes saber distinguir cómo son tus muestras:

  • Muestras independientes: cada observación corresponde a un sujeto o caso distinto.
  • Muestras relacionadas (o pareadas): tenemos varias observaciones del mismo sujeto o caso. Las muestras relacionadas aparecen en experimentos del tipo antes-depués, como por ejemplo el estudio de pacientes donde se comparan los resultados antes y después de la aplicación de un tratamiento.

Ejemplo. Imaginemos que queremos estudiar el efecto de un fármaco que presuntamente reduce la presión arterial. El problema puede estar planteado de dos maneras distintas según se consideren muestras relacionadas o independientes:

  • Se toman 30 pacientes hipertensos al azar, se les suministra elfármaco a 15 de ellos y a los otros 15 se les aplica un placebo.Transcurrido un tiempo se miden las presiones sanguíneas deambos grupos y se contrasta si las medias son iguales o no.
    • variable respuesta: presión sanguínea (numérica)
    • variable explicativa: grupo (categórica: tratamiento y placebo). Las dos muestras están formadas por individuos distintos, sin relación entre sí: muestras independientes.
  • Se administra el fármaco a los 30 pacientes hipertensosdisponibles y se anota su presión sanguínea antes y despuésde la administración del mismo.
    • variable repuesta: presión sanguínea (numérica).
    • variable explicativa: tiempo (categórica: antes y después de aplicar el fármaco). En este caso los datos vienen dados por parejas (presión antes y después) por lo cual los datos están relacionados entre sí: muestras relacionadas.

2. ¿Qué tipo de datos tienes?

¿Cómo son tus variables?

Seguro que tienes claro cuáles son los tipos de variables, así comienzan el 99% de los cursos de estadística de grado, pero hagamos un pequeño repaso para desempolvar estos conceptos.

Tenemos variables categóricas, que son de dos tipos: las llamadasvariables nominales (que son categorías sin orden) como el sexo; ylas variables ordinales (que sí representan un orden), como el nivelde estudios.

Recuerda que las variables nominales pueden ser binarias o dicotómicas (e.g. fumador/no fumador, enfermo/sano).Por otra parte tenemos las variables numéricas, que pueden ser discretas si vienen dadas por números enteros, como el número de hijos, o continuas como el peso que se representa por números reales.  

¿Se cumplen los supuestos clásicos?

En segundo lugar debes corroborar si tus datos cumplen o no con los supuestos de las pruebas estadísticas clásicas (normalidad, homogeneidad, independencia). Esto te permitirá elegir entre pruebas PARAMÉTRICAS, pruebas NO PARAMÉTRICASy pruebas ROBUSTAS. Para ello tienes que responder a las siguientes preguntas: ¿las variables se distribuyen según la curva normal (gaussiana)?, ¿los son grupos tienen dispersión similar (son homogéneos)?, "All models are wrong, but some are useful ", Box (1979).Cuando trabajas con datos reales en la mayoría de las ocasiones no se cumplen los supuestos de la estadística clásica.En estos casos las técnicas paramétricas no nos demasiado útiles; pero como mencionamos en la entrada anterior (ver AQUÍ) tenemos 3 posibles soluciones

  • la transformación de los datos, cuando los datos no siguen una distribución normal o queremos disminuir su variabilidad.
  • utilizar las pruebas no paramétricas cuando los datos no siguen una distribución normal
  • utilizar las pruebas robustas cuando tienes datos atípicos.

Razones para utilizar pruebas paramétricas

  • Si la distribución se aparta poco de la normalidad, y las muestras no son muy pequeñas (n>30), pueden ser válidas teniendo ciertos cuidados.
  • Si la falta de homogeneidad de varianza en cada grupo no es muy grande, existen maneras en la prueba t o en el ANOVA de incluir esta condición. Sin embargo las no paramétricas no permiten solucionar este inconveniente.
  • Generalmente tienen mayor poder estadístico que laspruebas no paramétricas. Es decir, con ellas tenemos más probabilidad de detectar un efecto significativo cuando realmente existe.

Razones para utilizar pruebas no paramétricas

  • Si puedes utilizar contrastes que solo necesiten establecer supuestos poco exigentes (como simetría o continuidad) o quieres analizar las propiedades nominales u ordinales de losdatos.

Ten en cuenta que muchas de estas pruebas utilizan la mediana en lugar de la media para sus cálculos.Cuando la distribución de frecuencias de los datos es muyasimétrica, la media se ve muy afectadamientras que la mediana refleja mejor la centralidad de la distribución. 

  • Cuando tienes un tamaño muestral pequeño.

Cuando tenemos pocos datos las pruebas de normalidad pierden poder estadístico y no estamos seguros del tipo de distribución de losdatos. Sin embargo, para realizar pruebas no paramétricas el tamaño muestral tampoco debe ser muy pequeño. 

  • Cuando analizamos datos ordinales o de rango.

Las pruebas paramétricas sirven para analizar datos de escala y sus resultados se ven muy afectados por la presencia de outliers. Aunque a veces la interpretación de los rangos medios puede ser difícil.  

Razones para utilizar pruebas robustas

  • Son estables respecto a pequeñas desviaciones delmodelo paramétrico asumido (normalidad yhomocedasticidad).

A diferencia de los procedimientos no paramétricos, los procedimientos estadísticos robustos no tratan de comportarse necesariamente bien para una amplia clase de modelos, pero son de alguna manera óptimos en un entorno de cierta distribución de probabilidad, por ejemplo, normal.

  • Solucionan los problemas de influencia de los outliers.
  • Son más potentes que las pruebas paramétricas y noparamétricas cuando los datos no son normales y/o no sonhomocedásticos.
  • Los métodos robustos modernos son diseñados para obtener un buen desempeño cuando los supuestos clásicos se cumplen y también cuando se incumplen. Por lo tanto, haypoco que perder y mucho que ganar a la hora de utilizar estastécnicas en lugar de las clásicas.

Manos a la obra... aplicación en el Software R

Lo prometido es deuda, aquí tienes el resumen de las funciones que debes utilizar en R para realizar cada tipo de prueba.

Pasos finales

Potencia estadística

No te quedes solo con el resultado de la prueba estadística (p-valor), analiza si realmente puedes confiar en los resultados. Cuando mis resultados no son significativos, ¿realmente no existe un efecto o es que el estudio no fue capaz de detectarlo? O, por el contrario, cuando tengo resultados significativos ¿son realmente tan positivos o es que el experimento sobreestima los efectos del tratamiento?

Esto te lo dirá la potencia estadística.

Tamaño del efecto

Explica el significado real (práctico) de los resultados de tu investigación. Es esencial que interpretemos no sólo la significación estadística de los resultados (el ya archiconocido p-valor), sino también su significación práctica o real.

Revisa el post de tamaño de efecto para saber cómo actuar.

Gráficos

Resumiendo, que es gerundio

 Estos son los principales pasos a seguir en la selección de la técnica explicativa correcta:

  1. Escribir claramente el objetivo de análisis (asociación o comparación)
  2. ¿Qué tipo de variables tengo?
  3. ¿Son muestras independientes o relacionadas?
  4. ¿Se pueden aplicar técnicas paramétricas? Analizar los supuestos:
    • Normalidad.
    • Homogeneidad de varianza.
    • Linealidad (en caso de que sea necesario).
  5. ¿Qué prueba debo realizar? Seleccionar la prueba adecuada según el mapa que te he enseñado.
  6. ¿La asociación/comparación es estadísticamente significativa? Realizar la prueba de hipótesis.
  7. Interpretar y graficar los resultados.
    • Si estamos asociando nos preguntaremos ¿cómo es esta relación? ¿qué tan fuerte es?
    • Si estamos comparando nos preguntaremos ¿entre qué grupos/muestras?
      • Si son 2 grupos/muestras realizar estadísticos descriptivos y/o gráficos para decidir.
      • Si son más de 2 grupos/muestras realizar comparaciones múltiples pareadas post hoc y en aquellos pares de variables significativamente distintos realizar estadísticos descriptivos y/o gráficos para decidir.

  Espero que este post te sea útil ¡y ya no tengas dudas a la hora de elegir tus pruebas!Saludos.

671 comentarios

¹ Todos los campos son obligatorios.
² Tu correo electrónico no será publicado.

  • Hola estoy haciendo un análisis comparando en 13 centros educativos como influye la adopción de una política educativa, tengo dos grupos uno con muestra de 37 personas y otro de docentes con 233 personas, quiero analizar las 3 categorías y su incidencia en cada centro educativo, por medio de un cuestionario con escala de likerth…. que tipo de estudio debería hacer

    Responder

    Nancy 2 de marzo de 2022, 14:39

  • Buenas tardes, quiero realizar un trabajo de investigación en el cual debo comparar los resultados de una variable de conteo en 2 años distintos. Por ejemplo, la variable son la cantidad de accidentes de tránsito en un año y la cantidad de accidentes de tránsito en otro año. Según leí de los apuntes son muestras independientes (no veo los mismos individuos). No logro entender como realizar la comparación. porque tengo totales por año ( año 2010 – 20.150 accidentes y año 2011 – 22.451 accidentes).
    mi pregunta es si existe una diferencia significativa entre lo registrado en un año en comparación con el otro. ¿Cómo puedo plantear esta comparación?

    Responder

    Manna Andre 4 de abril de 2022, 11:57

  • Buenas tardes. Por favor, necesito ayuda. Estoy realizando un proyecto de ECA para un trabajo fin de master y necesito saber qué test estadístico emplear para el análisis de los datos.
    Tengo dos grupos de pacientes. A un grupo se le aplicará fisioterapia respiratoria y a otro, el control, no. Quiero saber si existen diferencias con la intervención respecto a:
    Tiempo de estancia en UCI
    Necesidad de volver a ser intubado en las primeras 48h de ser extubado
    Muchas gracias por su ayuda
    Un saludo

    Responder

    Pilar 17 de abril de 2022, 13:49

    • Buenas Pilar,
      si quieres realizar los análisis por separado (uno por variable) ten en cuenta que tienes 2 muestras independientes (control vs tratamiento con fisioterapia respiratoria).
      Ahora lo que tienes que mirar son las características de cada variable respuesta:
      – el tiempo de estancia en UCI es una variable numérica de conteo, supongo que tomará pocos valores y será muy asimétrica, con lo cual las pruebas no paramétricas pueden ser una buena alternativa para su análisis. Si miras el cuadro del post verás que una opción es la prueba de Mann-Whitney.
      – la necesidad de volver a ser entubado en las primeras 48h supongo que es una variable nominal (sí o no), con lo cual puedes utilizar la prueba de Fisher.
      Y así continuaría con el resto de variables.
      De nada y un saludo

      Responder

      Rosana Ferrero 18 de abril de 2022, 07:07

  • Hola, me parece una información muy completa, pero tengo las siguientes dudas. En mi investigación que es prevalencia de Hongos en hombre y mujeres, busco asociar si la prevalencia de hongos va de acuerdo con el sexo, la edad u ocupación de la persona. yo tengo en mente usar la prueba de (X2) para comparar las medias de las variables (prevalencia de hongos vs el sexo y luego la prevalencia de hongos vs la ocupación) y la prueba de Mann whitney para las variables (prevalencia de hongos vs edad)…ahora para determinar si existe asociación entre la prevalencia de hongos y el sexo usaría la prueba xi cuadrado para las variables cualitativas. ¿Crees correcto el uso de estas pruebas para esas variables o crees que podría usar otros? Por ejemplo, en otros artículos veo que usan la prueba de wilconson para las variables cuantitativas, pero según lo que entendí de tu información yo no tengo variables dependientes. Si no que son variables independientes

    Responder

    Joel 20 de abril de 2022, 03:26

    • Buenas Joel, estaría bien tu planteo. Aunque te recomiendo pensar en un modelo de regresión logística donde puedas incluir todos los predictores con sus interacciones, te daría aún más información. Un saludo

      Responder

      Rosana Ferrero 20 de abril de 2022, 06:51

  • Hola. Muchas gracias por tan valiosa información. Tengo una pregunta. Estoy buscando una operación estadistica que me permita comparar dos momentos. Tengo una lista de proyectos de inversión por municipalidades y con ocho variables nominales que describen el tipo de proyectos para el 2016. Luego tengo la misma información por municipalidades por tipo de proyecto para el 2021. Es decir tengo información para ver cuales proyectos se propusieron el 2016 y cuales se están ejecutando en el 2021. Qué prueba estadistica puedo hacer? Agradezco mucho tu recomendación de antemano

    Responder

    Luis Pena 24 de abril de 2022, 15:03

    • Buenas Luis, de nada, me alegro de que te sea útil.
      Tal vez (no sé si estoy entendiendo bien tus datos) podrías utilizar regresión logística, donde la respuesta sea «ejecutado/no ejecutado» en función de todas las variables que comentas, incluido el año.
      Saludos

      Responder

      Rosana Ferrero 25 de abril de 2022, 07:37

  • Hola Rosana
    Excelente y muy profesional este artículo

    Quisieras plantearte una duda. Estoy realizando unas pruebas para el análisis estadístico del mercado bursátil. Y en este caso lo que quiero es encontrar una correlación múltiple entre varios indicadores y el precio. Para este análisis extraje los datos de los indicadores como datos binarios (1-0) donde 1 es positivo y 0 negativo, es decir en el caso de de un histograma con una línea central los valores por encima son 1 y por debajo 0. El grupo de indicadores tienen la misma característica(1>,0 ^ ) y X=0 (Y)] y [90%(nX=0),(Y<)]. La mayoría de los resultados se dan como variables independientes y lo que necesito saber cuál es el grupo de variables que se correlacionan porque de ese grupo depende los valores que se le deben dar a los indicadores por eso escribí (nX) o número de variables predictivas. Espero haber explicado bien el problema. Me he centrado en las técnicas de correlación múltiple y la covarianza pero en ninguno he encontrado una manera práctica para resolver este problema, porfavor me podría dar alguna idea de que método estadístico puedo usar para este fin, sería de mucha ayuda 👍🏻 gracias de antemano.

    Responder

    Manuel 1 de mayo de 2022, 07:57

    • Hola Manuel, para correlaciones en series temporales te recomiendo la función de correlación cruzada CCF. O puedes realizar análisis cluster con las series (considerando la estructura de autocorrelación ACF) para identificar grupos de variables con patrones temporales similares.
      Te recomiendo apuntarte a nuestro curso sobre análisis de series temporales, donde vemos esto y mucho más que te será de gran interés: https://www.maximaformacion.es/curso/curso-de-analisis-practico-de-series-temporales-con-r/
      Saludos

      Responder

      Rosana Ferrero 16 de mayo de 2022, 13:06

  • Hola tengo una inquietud estoy haciendo un trabajo con solo 1 grupo para mirar la Gestión de la calidad del cuidado enfermero en servicios hospitalarios de una institución. El trabajo es de tipo descriptivo, transversal, enfoque cuantitativo en este caso que test estadístico para el analisis de los datos debo utilizar. Gracias

    Responder

    Paola 8 de junio de 2022, 02:47

    • Hola Paola, si se trata de un estudio descriptivo solo deberías presentar estadísticos de resumen como la media y desviación estandar (para variables cuantitativas) o la frecuencia relativa y moda (para variables cualitativas). Si en su lugar, lo que deseas es realizar inferencia, con la prueba t o z puedes comparar la media con un valor teórico previo (para variables cuantitativas) o con la prueba de proporciones puedes comparar una frecuencia con un valor teórico (para variables categóricas). También podrías utilizar pruebas de hipótesis para evaluar la correlación entre variables cuantitativas.
      En fin, dependerá de tus objetivos.
      Damos estos contenidos en nuestro Curso online de Introducción al Data Science con R, RStudio, RMarkdown y tidyverse: https://www.maximaformacion.es/curso/curso-de-introduccion-a-r-software/
      Dale un vistazo al temario y nos consultas lo que necesites (+34 635 659 391)
      Saludos

      Responder

      Rosana Ferrero 8 de junio de 2022, 06:18

  • Hola! Estoy bastante perdida!
    Estoy analizando el estado de salud de los universitarios colombianos ( Bueno, regular y malo) según el sexo (hombres y mujeres) como variables principales.
    Además estoy utilizando otras variables que me ayuden y srivan de referencia como, por ejemplo: si han sufrido alguna enfermedad cronica, si son fumadores, si consumen comida chatarra, etc.
    ¿Qué estadísticos me recomiendan hacer? ¿Anova o discriminante?¿O quizá otro?
    ¿Qué pasos debería seguir?

    Responder

    Camila 13 de junio de 2022, 16:16

    • Hola Camila, si quieres evaluar la relación entre el estado de salud (categórica) y el sexo (categórica), puedes realizar una prueba de independencia Chi-cuadrado o la prueba exacta de Fisher. Ahora, si quieres agregar más predictores, debes ajustar un modelo de regresión, si tu respuesta es el estado de salid (variable categórica ordinal de 3 niveles) necesitarás una Regresión logística ordinal.
      Te invito a apuntarte en nuestro Máster para aprender a resolver este tipo de problemas y muchos más: https://www.maximaformacion.es/masters/master-de-estadistica-aplicada-con-r-software/
      Saludos

      Responder

      Rosana Ferrero 20 de junio de 2022, 10:25

  • Buenas tardes,
    Recomiendo revisar su teclado pues la barra espaciadora no le está funcionando correctamente según se puede apreciar por su artículo…

    Responder

    Alejandro 9 de julio de 2022, 23:37

  • Hola, pregunta!
    Si tengo mi variable explicativa continua pero medida dos veces (antes y después) de cuatro tipos de intervenciones quirúrgicas, con otras variables categóricas que podrían usarse como covariable qué me sugerís que haga como prueba estadística? Gracias!

    Responder

    Clara 4 de septiembre de 2022, 15:31

Te llamamos

Introduce los siguientes datos y nos pondremos en contacto contigo para atender tus dudas sin compromiso.

Te llamamos

Muchas gracias por solicitar información.
Te contactaremos lo antes posible.

Diseño web: Albin Soft.