Rosana Ferrero
Data Scientist
Juan L. López
Data Scientist
Hoy te traigo la guía definitiva para que sepas elegir rápida y correctamente la prueba estadística que debes aplicar a tus datos.
Máster de Estadística Aplicada con R Software 8ª ed 2019 (Reserva de plaza)
También debes saber distinguir cómo son tus muestras:
Seguro que tienes claro cuáles son los tipos de variables, así comienzan el 99% de los cursos de estadística de grado, pero hagamos un pequeño repaso para desempolvar estos conceptos.
Tenemos variables categóricas, que son de dos tipos: las llamadasvariables nominales (que son categorías sin orden) como el sexo; ylas variables ordinales (que sí representan un orden), como el nivelde estudios.
Recuerda que las variables nominales pueden ser binarias o dicotómicas (e.g. fumador/no fumador, enfermo/sano).
«All models are wrong, but some are useful «, Box (1979).
Lo prometido e deuda, aquí tienes el resumen de las funciones que debes utilizar en R para realizar cada tipo de prueba.
No te quedes solo con el resultado de la prueba estadística (p-valor), analiza si realmente puedes confiar en los resultados. Cuando mis resultados no son significativos, ¿realmente no existe un efecto o es que el estudio no fue capaz de detectarlo? O, por el contrario, cuando tengo resultados significativos ¿son realmente tan positivos o es que el experimento sobreestima los efectos del tratamiento?
Esto te lo dirá la potencia estadística.
Explica el significado real (práctico) de los resultados de tu investigación. Es esencial que interpretemos no sólo la significación estadística de los resultados (el ya archiconocido p-valor), sino también su significación práctica o real.
Revisa el post de tamaño de efecto para saber cómo actuar.
Ayúdate de gráficos y estadísticos descriptivos para interpretar los resultados de las pruebas de hipótesis. En este post te contamos la importancia de los gráficos a la hora de informar tus resultados.
¡Realizar gráficos apropiados es parte esencial del análisis de datos!
Máster de Estadística Aplicada con R Software 8ª ed 2019 (Reserva de plaza)
Hola muy buen día; antes que nada he fe felicitarlos por su magnifica información, sin embargo continuo un poco indecisa con las pruebas que puedo usar; ojala y ustedes puedan ayudarme; si mi objetivo es : Determinar la influencia de la funcionalidad familiar en el apoyo familiar y su relación con el auto manejo en mujeres con cáncer de mama. que pruebas debo usar? mi muestra es menor a 30 individuos, gracias!!
Hola Biviana, gracias por tu comentario.
Como indica el post, debes definir el tipo de variable y muestras que tienes. No sé cómo has medido las variables que mencionas, por lo que no puedo ayudarte con lo que me indicas.
Explica cómo mides:
Variable 1: funcionalidad familiar
Variable 2: apoyo familiar
Variable 3: auto manejo en mujeres con cáncer de mama
Saludos
Hola, muchas gracias por el esfuerzo en hacer más fácil y comprensible la, a veces, árida y, siempre, útil estadística.
Tengo que resolver un problema y me quedan dudas: he pasado un test antes y después de un curso a un grupo inicial de 21 personas que luego se quedan en 12. He hecho varias preguntas con una escala de 5 puntos (nunca, raramente, en ocasiones, con frecuencia y siempre), ¿qué contraste uso para saber si la diferencia de la media de sus puntuaciones indica un cambio significativo o no?
Gracias.
Hola Antonio,
gracias a ti por tus palabras.
Por lo que dices tienes una (o varias) variable respuesta ordinal y 2 muestras relacionadas (antes y después), si te fijas en el cuadro podrías intentar aplicar la prueba de Wilcoxon para muestras relacionadas. No obstante cuidado con el tamaño desigual de las muestras.
Saludos
Hola! Muy buena información!
Quería hacer una consulta. Tengo datos de presencia/ausencia que necesito comparar entre dos sexos. Por ejemplo, quiero determinar si existen diferencias significativas entre machos y hembras respecto a la presencia de un determinado ítem alimenticio en la dieta. Tengo 11 hembras y 11 machos con su correspondiente valor 0 (ausente) o 1 (presente). Qué análisis debería utilizar?
Muchas gracias.
Hola, gracias por seguirnos. ¿A un mismo sujeto/organismo le has presentado los 2 tipos de alimento? si es así estarías ante muestras relacionadas (y como quieres comparar 2 grupos aplicarías McNemar), sino ante muestras independientes (aplicarías Fisher).
Saludos
HOLA! GRACIAS POR LA INFORMACIÓN. TENGO UNA DUDA SI ERES TAN AMABLE: SÍ TENGO DISTRIBUCIÓN NORMAL DE UNA VARIABLE PERO LA PRUEBA DE LEVENE ME DICE QUE NO TENGO HOMOGENEIDAD DE VARIANZAS, QUE PRUEBA PUEDO HACER PARA EL ANÁLISIS DE LOS GRUPOS (SON GRUPOS MÚLTIPLES INDEPENDIENTES). SALUDOS.
Hola Alejandra, gracias a ti por tu comentario.
Si lo que necesitas es aplicar un ANOVA de 1 vía (1 factor) con muestras independientes, para datos que no cumplen el supuesto de homocedasticidad, entonces puedes utilizar la corrección de Welch para no asumir varianzas iguales entre grupos. En R sería así: oneway.test(respuesta ~ grupos, data=Data, var.equal=FALSE)
Saludos
Muy buen post!
Quisiera preguntar para mi tipo de datos que tipo de herramienta me conviene, ya que debo comparar un ensayo en dos condiciones y a su vez cada condición tiene otras dos ..Los valores obtenidos son numéricos..En ese caso los dos grupos tienen relación o no ? Seria Yuen o Yuend?
Gracias
Gracias Carolina, dependerá de si tus factores están cruzados o anidados:
http://conjugateprior.org/2013/01/formulae-in-r-anova/
https://stats.stackexchange.com/questions/228800/crossed-vs-nested-random-effects-how-do-they-differ-and-how-are-they-specified
Saludos
Muy buenas tengo una duda, mi estudio se basa en determinar si existe asociación entre el grado de pie diabetico (Categorico ordinal) y el tipo de calzado, la poblacion de estudio es pequeña y por lo tanto el muestro abarca a todos los miembros (35) , que prueba puedo utilizar de comprobación de hipotesis para determinar si existe una asociacion entre el grado y el tipo de calzado?
Hola Alt SSG (? :p),
fíjate en la guía, si tienes variables categóricas y quieres evaluar su asociación, puedes utilizar la prueba de Fisher.
Saludos
Un saludo grande y gracias por la respuesta, estoy haciendo una investigación de coloración de células de cuello uterino, 100 muestras por duplicado 2 laminas cada muestra a la 100 par aplique la coloracion de estudio que es la hematoxilina oxidada con agua oxigenada y a la otra 100 par aplique hematoxilina de harris (como gold standar) tengo que comparar los resultados de ambos para determinar si es util la hematoxilina con agua oxigenada, hay 04 variables y se miden por: 1=malo, 2=regular, 3=bueno, 4=excelente, que estadísticas puedo aplicar, Gracias
Hola Abdón,
tienes:
Variables respuesta: 4 variables y se miden por: 1=malo, 2=regular, 3=bueno, 4=excelente,
Variables explicativas/predictoras: coloración (2 niveles: hematoxilina oxidada con agua oxigenada y hematoxilina de harris). Teniendo en cuenta las réplicas por los duplicados y las láminas.
Al tener réplicas (duplicados y láminas) necesitaras un modelo mixto, y al tener respuestas ordinales alguna distribución no normal.
Saludos
Permítame saludarla y solicitarle nuevamente si es posible se sirva ayudarme en lo siguiente
1.- Si requiero realizar una encuesta sobre diabéticos en una ciudad cual es el marco muestral y como hago para tener una lista de personas diabéticos y calcular la muestra.
2.- Si utilizo la siguiente formula para calcular la muestra n= N*z2 * σ2/(N-1)*e2*+z2* σ2 , se utiliza (e2) para determinar el margen de error y en mis apuntes de clase tengo que el margen de error es el intervalo en el que se espera encontrar el dato que se quiere medir del universo. El dato puede ser en general de dos tipos: media o proporción. Mi confusión es entonces con el intervalo de confianza, cual es la diferencia entre el margen de error y el intervalo de confianza sea para media o proporción?
Mil gracias por su atencion
Hola Alberto,
creo que este tipo de dudas deberías consultarla con tus tutores, puesto que para responder al punto 1 debes conocer de manera adecuada la población que deseas estudiar, cuáles son tus objetivos y cuáles son los datos que podrías obtener. Desconozco estas 3 cuestiones.
Respecto al punto 2, un intervalo de confianza incluye una estimación puntual del parámetro de la población (de una media o de una proporción, por ejemplo) y un margen de error que representa la precisión y la confianza con la cuál estás estimando dicho parámetro.
Por ejemplo, las encuestas de intención de voto suelen expresar que -por ejemplo- el 13% del electorado piensa votar al candidato A, con un margen de error del 3% (asumiendo un nivel de confianza del 95% generalmente). Saludos
Hola, me ha gustado mucho su forma de explicar, pero hay algo que llevo días tratando de hacer y no se como. Tengo que relacionar rangos de edad de una muestra con resultados de una encuesta que va de 1 a 100 en spss. No he encontrado una prueba que pueda poner mis 6 categorías de edades. Estoy en la maestría y no se que hacer solo me falta ralizar esa relación para significancia estadistica.
Buenos días Carmen, gracias por tu comentario. Nuestra profesora experta del Máster de Estadística con R Software contestó a tu anterior consulta: «En respuesta a Carmen.Hola Carmen, no sé a qué te refieres con «números raros». En principio deberías mirar si la puntuación de la encuesta toma un amplio rango de valores (porque aunque sea de 1 a 100 tal vez todos respondieron en 70-80, no lo sé). En segundo lugar deberás corroborar que hayas especificado bien la variable edad por rangos. Describe los datos (estadísticos y gráficos) y corrobora también los supuestos del ANOVA, si no se cumplen utiliza la versión no paramétrica. Saludos».
Esperamos que te haya resultado útil y te deseamos mucha suerte en tu maestría. Un saludo.
Hola, estoy terminando mi maestría y me falta dos tablas en donde debo relacionar edad por rangos vs resultados de una encuesta totalizada de 1-100. Me parece que ANOVA es mi mejor opcion pero cuando lo hago en SPSS me de numero raros, lo mismo debo hacer con años de antiguedad. Que me podrías recomendar.
Hola Carmen, no sé a qué te refieres con «números raros». En principio deberías mirar si la puntuación de la encuesta toma un amplio rango de valores (porque aunque sea de 1 a 100 tal vez todos respondieron en 70-80, no lo sé). En segundo lugar deberás corroborar que hayas especificado bien la variable edad por rangos. Describe los datos (estadísticos y gráficos) y corrobora también los supuestos del ANOVA, si no se cumplen utiliza la versión no paramétrica. Saludos
Buen post, muchas gracias por la información.. aun tengo algunas dudas con mi estadístico espero puedan ayudarme. En mi trabajo de invetigacion estoy evaluando si el tratamiento que le doy a ratones baja los niveles de glucosa posprandial. tengo una n=3 por grupo, 4 grupos en total, un control negativo, un positivo (medicamento), uno con tratamiento de prueba en dosis de 50 y otro en tratamiento de prueba con dosis de 100, tomamos una muestra de glucosa inicial a tiempo 0 damos tratamiento y posteriormente tomamos muestras de glucosa cada media hora para evaluar los niveles de glucosa, hacemos 4 tomas. queremos evaluar nuestros tratamientos con respecto al control, aplique una prueba de normalidad de SHAPIRO-WILK y me dice que mis datos son normales, hice después una Anova de 2 vias y comparación multiple de medias con Tukey, me arrojo diferencias significativas, mi grafica es niveles de glucosa con respecto al tiempo ( 30, 60, 90 y 120 min) sin embargo en la revisión de mis resultados me hacen la observación que este tipo de análisis no se aplica una Anova ya que es el mismo sujeto con respeto al tiempo y eso me confunde, no se que prueba aplicar, me podrían ayudar, gracias.
Hola Ana, gracias por escribir en nuestro blog, me alegra saber que te ha gustado el post. Como al resto te comento que lo primero que tienes que hacer es definir muy bien cuáles son tus variables:
Variable dependiente o respuesta: nivel de glucosa
Variable independientes o explicativas/predictivas: grupos (4 muestras independientes) y tiempo (4 muestras relacionadas).
Como tienes más de 2 grupos para comparar una respuesta numérica, debes aplicar el ANOVA pero en este caso como sería un ANOVA de 2 vías (porque tienes 2 variables prodictivas) y mixto (porque una variable es de muestras independientes y la otra de muestras relacionadas).
Revisa el tamaño de muestra que tienes antes de interpretar los resultados.
Revisa la homogeneidad de varianza que es un supuesto más restrictivo que la normalidad.
Para las comparaciones múltiples puedes usar una que compare con el control solamente.
Saludos
Tengo sólo 8 datos, en un estudio de pacientes de neurología.
Necesito relacionar edad con un índice.
Qué test No paramétrico sería mejor ocupar??
Gracias,
Hola Patricia, puedes calcular el coeficiente de correlación de Spearman. Saludos
Hola, estupendo resumen. Estudie estadística hace muchos años y este post es un gran punto de partida para hacer un refresh. Tengo una duda con R, tengo un estudio (variable relacionada, numérica comparación- creo) pues es una encuesta a 200 clientes con datos de 5 años. Los 4 primeros antes de implantar una mejora y el último año con la mejora implantada. He hecho una columna Clientes (con sus nombres) y otras 5 año1, año2, año3, año4 y año5 con la evaluación del 1-10. Pero no se donde ni como meter la variable “mejora” a modo de si/no y conseguir que me haga el gráfico de cajas.
Hola Miguel, gracias por tu comentario. Si a todos los clientes le has aplicado la mejora en el último año, entonces no necesitas una columna nueva. Lo que deberías hacer es comparar la evaluación del 1-10 entre los 5 años.
– variable respuesta: escala 1-10
– variable explicativa: tiempo (5 años)
Realiza un ANOVA de medidas repetidas.
En caso de que el plan de mejora sea en distintos años o sea distinto para cada cliente, entonces el planteo sería más complejo, deberías considerar un ANOVA de más vías.
Saludos
Un saludo de antemano.
Tengo una consulta que hacer.
Estoy realizando una investigación sobre el efecto de los polifenoles en el grosor de la pared del ventrículo izquierdo en pacientes hipertensos.
Estoy vuelto loco con las variables.
Tengo cuatro grupos (n=14). Cada uno con una mezcla diferentes de medicamentos. He medido dos parámetros en específico, el índice de Sokolow (electrocaediograficamente) y el índice de masa ventricular (ecocardiografía). Ambas variables numéricas. Los parámetros los he medido en tres tiempos, el primero es la medición basal, y dos posteriores a los tres y seis meses.
El resultado que busco es ver las variaciones en el espesor de la pared ventricular izquierda expresada por esos dos índices.
¿Que estadístico es el recomendado en este caso?
He probado con ANOVA por por cada indice y por cada periodo de tiempo y comparando los cuatrongrupos; es decir, he realizado un ANOVA por cada índice por separado (Sokolow e índice de masa ventricular) incluyendo los cuatro grupos y los periodos de tiempo por separado (basales, tres y seis meses), en total he realizado seis ANOVA, sin embargo no me quedan claros los resultados
No sé si sea el estadístico adecuado.
¿Podría ayudarme?
Hola José Juan,
por lo que interpreto tienes:
– variables respuesta: el índice de Sokolow (electrocaediograficamente) y el índice de masa ventricular (ecocardiografía)
– variables explicativas: tratamiento (4 grupos) y tiempo (3 mediciones).
Puedes plantear un ANOVA de 2 vías mixto para cada una de las variables. Por ejemplo, para el índice de Sokolow en función del tratamiento y el tiempo, donde analices la interacción entre tratamiento y tiempo. Lo mismo para el índice de masa ventricular.
Otra opción es analizar las 2 variables respuesta a la vez mediante un MANOVA (el ANOVA multivariado).
Saludos
Saludos,
Primero quiero agradecer por el excelente resumen presentado….Sin embargo, creo que mi caso no se encuentra entre los descritos.
Necesito determinar si existe diferencia significativa entre las variables de un mismo grupo de datos….Dichas variables son continuas y no cuento con el valor de la media poblacional….En este caso que prueba podrían aconsejarme?…..
Mil gracias de antemano!
Hola Marce, ¿cómo son tus variables? ¿son medidas repetidas dentro de un mismo grupos? saludos
Hola!! me encanta vuestro blog, lo he leído a fondo porque es justo lo que necesitaba.
Sin embargo, me ha surgido también la duda de cuándo debería utilizarse un modelo de regresión y cuándo un modelo de correlación?? Agradecería mucho vuestra respuesta ya que no he conseguido aclararme entre la aplicación de ambos.
Gracias de antemano por el trabajazo realizado para aclararnos un poco más el mundo de la estadística indiferencial y saludos de una seguidora!
Hola Lucía,
¡Nos alegra mucho que nuestro blog te sea de útil!
La correlación nos indica la dirección y la fuerza de la realación lineal que existe entre dos variables y mediante un modelo de regresión podemos estudiar cómo varía una variable en función a los valores de otra u otras variables y además hacer predicciones.
Por ejemplo, tenemos datos en una variable de los ingresos en euros de unas familias y en otra de su gasto en alimentación. Si calculamos su correlación obtenemos que r = 0.9, al ser positiva esto nos dice que a más ingresos mayor gasto en alimentación y al estar cercana a uno nos dice que la relación es muy fuerte, pero no sabemos en qué grado varía una variable con respecto a la otra. Para ello hacemos una regresión y obtenemos la siguiente recta de regresión.
gastoenalimentacion = 150 + 0.5*ingresos
De esta manera sabemos que por cada euro más de ingreso aumenta 0.5 euros el gasto en alimentación. Además podemos estimar el gasto por ejemplo de una familia que ingrese por ejemplo 1200 euros, siendo este 150 + 0.5*1200 = 750 euros.
Como puedes observar depende de lo que busques puedes hacer uno, otro o ambos ya que son complementarios.
Saludos.
Hola, muy valiosa la información
En mi caso tengo una muestra de 8 pacientes con diabetes y aplicamos un modelo de consulta nutricional grupal, por lo cual medimos variables como peso, IMC, glicemias pre y post prandiales antes y después de la intervención. En estos casos cual es la prueba a utilizar, entendí que deben de utilizarse pruebas no paramétricas y que es mejor la moda en lugar de la media
pero me podrías aclarar
Saludos
Hola Marcela,
Lo siento mucho, en este caso no sabría por dónde orientar las pruebas ya que no conozco este tipo de modelos. En este caso yo buscaría bibliografía y estudiaría qué técnicas estadísticas se han aplicado en artículos que traten este tipo de análisis.
Saludos.
Buenas tardes, me gustaría agradeceros la ayuda que me habéis brindado con este blog. Me encuentro realizando una investigación en la que he medido, mediante test, tres parámetros: compromiso organizacional (que tiene tres dimensiones: afectivo, continuo y normativo), foco regulador (con dos dimensiones: de promoción y de prevención) e implicación en el trabajo. Además, recogí diferentes datos socio-demográficos. Me gustaría saber qué me podríais recomendar para averiguar si los diferentes parámetros, o sus dimensiones, estarían relacionados de alguna manera. Y cómo podría determinar si las diferencias socio-demográficas afectan a dichos parámetros.
Gracias, un cordial saludo.
Hola Enrique,
Lo primero gracias a ti por seguir el blog.
Creo que un análisis de componentes principales (PCA) sería muy interesante en este caso, si bien son eminentemente descriptivos nos permiten estudiar relaciones entre variables. Si encuentras relaciones entre variables que te parezcan interesantes en el PCA, se podría proceder a realizar una regresión o regresiones múltiples sólo con las variables que nos interesen, u otros modelos lineales, para observar como se relacionan de forma más detallada los primeros parámetros con las diferencias sociodemográficas.
De nada, aquí estamos para lo que necesitéis.
Saludos.
Hola Juan Luis, te agradezco mucho tu respuesta. Seguí tu consejo de realizar un PCA pero ahora no se si debería realizar una correlación lineal o una regresión, te agradecería una breve explicación de ambos para saber cual debería utilizar. Por otra parte, para comparar las diferencias entre los datos sociodemográficos he utilizado Anova de un factor, pero en la mayoría de los casos me han dado unos resultados que no son significativos, ¿podrías recomendarme que hacer con esos datos para que sirvieran de alguna manera para mi investigación?
Muchas gracias.
Saludos.
Buenos días, !gracias por el post! es realmente útil, sin embargo, aún tengo ciertas dudas. Actualmente estoy realizando un proyecto de investigación y tengo dudas a la hora de realizar el análisis estadístico. Se trata de un estudio piloto con diseño pre-post (n=11). En este, la muestra se divide en 2 grupos de forma aleatoria y se asignan 5 participantes en un grupo y 6 en otro, donde recibirán tratamientos diferentes. Se realiza una evaluación previa a la intervención de diferentes variables (>5 variables numéricas) y otra evaluación posterior al tratamiento de las mismas variables. Hemos explorado si existe una distribución normal de las variables (test Saphiro-Wilk en SPSS 25) y encontramos que en algunas de ellas sí la hay, mientras que en otras no.
Teniendo en cuenta que se trata de 2 grupos y 2 tiempos de medición diferentes, donde no hay una distribución normal para todas las variables ¿qué prueba estadística es la más recomendable para este estudio?
El objetivo del estudio es comparar ambos tratamientos para la muestra y determinar el tamaño del efecto para cada tratamiento.
Muchas gracias.
Hola Lisandro,
Creo que podrías realizar un manova mixto, el equivalente multivariante del anova mixto (entregrupos – intragrupos). Es decir, un manova de medidas repetidas que incluya el factor pre-post y el factor tratamiento (entiendo que los dos grupos) de esta manera podrás incluir las cinco variables respuesta en el modelo. En R creo que se pueden realizar con la función Anova() de la librería car, el penúltimo ejemplo de la página de ayuda de la función es similar si no me equivoco a lo que quieres realizar.
Si no tienes acceso a un software que haga este tipo de pruebas o te resulta muy complejo puedes hacer anovas mixtos (entregrupos – intragrupos) con cada variable y aplicar una corrección de bonferroni a los p valores para no inflar la probabilidad de obtener errores tipo I o falsos positivos.
Saludos.
Buenas tardes, ¡gracias por la respuesta! Lo que me resulta dudoso es si puedo aplicar el test que menciona (anovas mixtos intergrupo-intragrupo) si solo tenemos 2 medidas (una pre y otra post), y como menciono anteriormente, cuando existe distribución normal únicamente para algunas de las variables, mientras que para otras no.
Un saludo
Buenas tardes, tengo dudas a la hora de analizar los datos de mi estudio. Se trata de un estudio piloto (n=11) en el que queremos comparar 2 tratamientos en un tipo de población. La muestra se dividió al azar en dos grupo y se valoraron diferentes características (dolor, discapacidad, etc.) de forma previa a la intervención y posterior a la intervención para cada grupo. Al valorar si existe una distribución normal de las variables, obtenemos que algunas de ellas siguen una distribución normal, mientras que otras no lo hacen.
Al realizarse medidas pre y post, y querer comparar cuál de los dos tratamientos resultó mejor para dicha población, ¿qué prueba estadística sería la más indicada?
Muchas gracias de antemano.
Un saludo!
Buenos días, al realizar el comentario desde la cuenta de un familiar se envió con nombre del mismo, el comentario original es aquel que está a nombre de «Lisandro», mientras que este a nombre de «Juan» fue enviado por error.
Les pido disculpas.
Un saludo.
Hola! estoy realizando un trabajo de portación de microorganismos y quiero comparar los porcentajes obtenidos en diferentes períodos del año (trimestres). Puedo usar algún test estadístico para determinar si existen diferencias significativas entre los distintos periodos? Muchas gracias por tanta sabiduría en estos temas
Hola Sandra,
Creo que podría ser útil un test de proporciones. Te pongo un ejemplo en R.
## Datos de Fleiss (1981), p. 139.
## H0: La hipótesis nula es que las cuatro poblaciones de pacientes
## con una determinada enfermedad tienen la misma proporción de fumadores.
## A: La alternativa es que esta proporción es diferente al menos en una
## de las poblaciones.
fumadores < - c(83, 90, 129, 70) # Frecuencias de fumadores.
pacientes < - c(86, 93, 136, 82) # Frecuencias de total de pacientes.
prop.test(fumadores, pacientes)
Comparto contigo también una entrada del blog sobre el tema:
Enlace: Diferencias entre las proporciones de 2 poblaciones diferentes
De nada, aquí estamos para lo que necesitéis.
Saludos.
Hola, primeramente gracias por la guía y felicitaciones por la buena disposición a hacerla.
Aprovecho el comentario para hacerte una consulta: Tengo 3 variables (cada una con 3 réplicas) para distintas estaciones, mi intención es comparar 2 técnicas de muestreo (es decir tengo las 3 variables con sus respectivas réplicas para cada técnica), la intención es determinar qué tanto se parecen en resultados, para determinar si es posible cambiar una técnica por la otra.
Debería usar promedios en vez de las 3 réplicas? y ¿qué tipo de análisis me convendría más?
Muchas gracias de antemano
Hola Nico,
¿Por replicas te refieres a medidas repetidas de las mismas estaciones? En este caso podríamos hacer un manova de medidas repetidas. Si son réplicas con otras estaciones podríamos hacer un manova.
Saludos.
Hola, gracias por responder !!
Si, son medidas repetidas de las mismas estaciones, entonces iré por el manova de medidas repetidas.
Muchas gracias!
Hola, quisiera hacerle una consulta, tengo un cuestionario dicotomico (1=si y 2=no) aplicado a 31 personas, y mi objetivo es
Determinar de qué manera incide la violencia familiar en el concebido y su proyecto de vida, que estadístico aplicaría espero me absuelva mi duda gracias de antemano saludos.
Hola César,
Entiendo que buscas estudiar la asociación entre dos variables dicotómicas de tu cuestionario, para ello podrías hacer una prueba de Fisher o Chi-cuadrado de asociación. A nivel exploratorio podría ser interesante también realizar un análisis de correspondencias múltiples con todos tus datos.
Saludos.
Muy interesante. Su aplicación para el análisis estadístico es de suma importancia. Las técnicas de recolección de datos y la interpretación de los resultados mediante la estadística ayudan a comprender los fenómenos físicos investigados en ingeniería.
Hola Ever, muchas gracias por tus palabras. Saludos
Buenas noches Rosana, muchas gracias por compartir esta Guía y felicidades por lo profesional que eres.
Tengo una duda, espero puedas ayudarme. Uno de los objetivos de la investigación es «Determinar el grado de influencia del factor Normativo en las buenas prácticas para la transformación a viviendas sostenibles en la Urbanización El Algarrobo» . La respuesta que tengo en los ítems de estas variables es dicotómica (Si/No). Sin embargo, en la variable factor normativos el 100% de las personas encuestadas respondieron «No», por lo que no puedo trabajar un prueba Chi-cuadrado, porque pasaría a ser una constante. ¿Qué prueba puedo aplicar para resolver ese objetivo?
De antemano, muchas gracias.
Saludos
Hola Mabell, gracias por tu comentario. Si el 100% de las personas han respondido un solo tipo de respuesta, no puedes evaluarla estadísticamente porque no tienes variabilidad. Busca si puedes analizarlo a través de otra variable o si puedes aumentar la muestra.
Saludos
Hola muy buen articulo, resuelve muchas dudas estadísticas y de forma entendible. Disculpa, ando revisando que prueba estadística puedo utilizar en mi investigación que trata de pasarle dos escalas de evaluación a los sujetos y quiero comparar el resultado que me da en ambos, que prueba me recomendarías utilizar?
Hola Andrea, puedes mirar el esquema que les enseño en este mismo post.
Si tienes dos escalas numéricas y quieres evaluar cómo se relacionan, utiliza la correlación. Si tienes dos escalas categóricas y quieres evaluar su relación, utiliza la prueba de independencia chi-cuadrado o la prueba exacta de Fisher.
Saludos
Buenas tardes, excelente información. Me ha servido mucho. Quisiera hacerle una consulta yo no trabajado mucho con estadística inferencial y quisiera hacer una investigación sobre los enfermos reportados de hepatitis A en institutos de salud publica. tengo la estadística de los 8 últimos años por semanas. (2011-2018). Que trabajo de estadística inferencial, ‘¿ podría plantearme con esos datos? (es un trabajo académico y el fin es aprender) quiero usar Intervalos de confianza, prueba de hipótesis (ya sea parametrica o no parametrica). Si puedes asesorarme o darme una idea de que podría plantearme y que herramientas usar te lo agradecería.
Gracias de antemano.
Hola María Eugenia,
en tu caso quieres evaluar el comportamiento temporal del número de enfermos de hepatitis A. Primero miraría gráficos temporales para identificar posibles tendencias o comportamientos estacionales. Si estos existen deberías pensar en utilizar técnicas de series temporales que no enseño en este blog. En caso contrario, y si quieres, por ejemplo, comparar entre años, podrías utilizar estadística inferencial como pruebas para muestras relacionadas. Si te fijas en el esquema de este post, tu objetivo sería comparar 3 o más grupos (años) relacionados para una variable respuesta nominal binaria (sí o no enfermo), por lo tanto usa la prueba Q de Cohcran.
Saludos
hola felicidades por tu pagina tan explicita y hacer un poco menos complicada la estadística inferencial, quería preguntarte si estoy haciendo una intervención donde voy a medir lo aprendido después de intervención, se les aplicara un cuestionario antes y otro después de la intervención educativa, entonces mi prueba es una t. student de una cola?
Hola Alejandra,
perdona la demora pero estoy de baja. Fíjate en el esquema de este mismo post:
Tu objetivo es comparar 2 muestras relacionadas (antes y después en un mismo grupo)
* Si la variable respuesta del cuestionario es numérica utiliza la prueba t de student para muestras relacionadas
* Si es ordinal utiliza la prueba de Wilcoxon para muestras relacionadas
* Si es nominal utiliza la prueba de Yuen para muestras relacionadas
* O si es nominal binaria utiliza la prueba de McNemar
Si además tienes a los sujetos divididos por grupo (e.g. grupo tratamiento vs grupo placebo) ya tendrías que optar por un ANOVA de 2 vías de medidas repetidas, una vía o factor correspondería al tiempo (antes vs después) y el otro al grupo (tratamiento vs placebo).
Saludos
hola buena noches,quería consultar sobre una investigación acerca del perfil de potenciales clientes,si quiero comprar frecuencia de compra con ocasiones en que compran por ejemplo cumpleaños,reuniones o mas bien con el precio(lo que querríamos saber es si existe relación) nos conviene hacer un análisis de regresión o que estadístico usar ??.Muchas gracias.
Hola Romina,
perdona la demora pero estoy de baja.
Si tienes pocos años de estudios podrías realizar estadística inferencial considerando muestras relacionadas o algún modelo de regresión, pero si cuentas con datos de varios años sería mejor inclinarte por modelos de series temporales que incluyan explícitamente la componente de autocorrelación (los resultados de tiempos cercanos serán más parecidos entre sí que los de tiempos lejanos).
Saludos
Hola Rosana, en primer lugar muchas gracias por esta guía tan útil para los que no manejamos nada bien la estadística.
Me gustaría hacerte una consulta sobre un estudio que estoy realizando. Tengo un grupo de personas mayores a los que les he medido en dos días distintos la fuerza de presión manual (tanto para la mano dcha como izq) y ahora quiero saber si esta medida es fiable (puesto que son personas con demencia). Quiero comparar la mano derecha del primer dia con el segundo, e igual para la izquierda, ¿qué debo hacer?¿Si realizo el T-student y el valor de p es mayor a 0.05 que significaría en mi caso, que no son estadisticamente significativas y por lo tanto serían medidas fiables?
Gracias de antemano!
Hola María,
perdona la demora pero estoy de baja.
Fíjate en el esquema de este mismo post. Si quieres comparar la presión de la mano derecha (o izquierda) del primer día con el segundo, tu objetivo es comparar 2 muestras relacionadas (para un mismo sujeto mides una respuesta en el tiempo, por lo cual sus respuestas estarán relacionadas, es decir, si un sujeto tiene alta presión un día es de esperar que también la tenga el día siguiente, y esta relación debes controlarla con pruebas para muestras relacionadas que tengan en cuenta el individuo).
Como tu variable respuesta presión es numérica, utiliza la prueba t de student para muestras relacionadas.
Ahora, si quieres además comparar el resultado de la mano derecha con izquierda (e.g. para ver si en alguna de las dos cambia el registro), podrías optar por un ANOVA de medidas repetidas para 2 vías, una que tenga en cuenta el tiempo (antes y después) y otra que tenga en cuenta la mano (izquierda y derecha).
Saludos
Hola felicitaciónes!
Una consulta, voy a relacionar comportamiento alimentario( variable cualitativa, con imc( variable cuantitativa continúa) que test me recomendaría usar?
Gracias
Hola José, gracias por tus felicitaciones.
Si lo que quieres es comparar los valores de IMC (numérico) entre los grupos de comportamiento alimentario (categórico) utiliza pruebas de comparaciones (e.g. t de Student si tienes 2 grupos o ANOVA si tienes más de 2 grupos, evalúa los supuestos previamente). Otra opción es categorizar la variable IMC en grupos (e.g. delgado, normal,…) puedes realizar estas categorías y luego evaluar la relación con los grupos de comportamiento mediante pruebas de independencia Chi-cuadrado y comparaciones múltiples.
Saludos
Hola Rosana,
En primer lugar felicidades por el artículo. Es muy claro aún así para mi que nunca he estudiado mucho de estadística no sé qué sería mejor para comparar mis variables.
Tengo un conjunto de datos cuantitativos y contínuos. Son medidas de concentración de metales en diferentes períodos de un año y entre diferentes años. Yo quiero ver si los valores que obtento están relacionados entre diferentes períodos y entre distintos metales.
La muestra global es muy grande pero cada muestreo independiente es n<30. Para hacer las comparaciones interanuales e intraanuales podría aplicar un test-t de dos colas? Hasta ahora había aplicado el test de Fischer y usado el p-value para evaluar la probabilidad de que dos variables estuviesen relacionadas y ahora no sé si un test-t sería más apropiado.
Muchas gracias de antemano por tu respuesta.
Hola Andrea, gracias por tu comentario.
La prueba a seleccionar dependerá de cuántos períodos o años quieras comparar. Si tienes pocos períodos/años puedes utilizar pruebas para muestras relacionadas (o medidas repetidas), si son muchos períodos/años sería mejor considerar modelos que tengan en cuenta la componente temporal (las muestras de períodos/años más cercanos podrían ser más similares entre sí que aquellas separadas en el tiempo, o podrías modelar específicamente la variabilidad temporal). Para comparar distintos metales en un mismo período/año sí puedes utilizar pruebas para muestras independientes. Respecto al número de datos, si tienes pocas observaciones por muestra podrías realizar pruebas no paramétricas y/o realizar pruebas paramétricas y realizar estudios de potencia estadística y estimación de tamaño muestral (aquí tienes un par de post sobre el tema: https://www.maximaformacion.es/blog-dat/tamano-muestral-y-potencia-estadistica/ y https://www.maximaformacion.es/blog-dat/aumenta-la-potencia-estadistica-de-tus-investigaciones/).
Saludos
Hola,
Necesito saber que método estadístico debo utilizar para analizar los datos obtenidos de dos variables cualitativas, estoy haciendo una investigación y mi tema es Análisis de Aplicación de Marketing Digital y su influencia en el proceso de compras de los clientes de la empresa JM.
Saludos..
Hola Gissella, si tienes 2 variables cualitativas (o categóricas) para muestras independientes y quieres evaluar su relación, puedes utilizar la prueba de independencia Chi-cuadrado y/o la prueba de Fisher. Si tienes más de 2 categorías te recomiendo luego realizar comparaciones pareadas. Aquí tienes algunos ejemplos que se realizan en R: https://rcompanion.org/rcompanion/b_07.html
Saludos
Buenas noches
Gracias por la explicación, pero al ser el análisis estadístico mi debilidad más grande, aún no logro entender a pleno cómo debería abordar mi investigación.
Mi investigación trata sobre asociar las visitas de un grupo particular de insectos a una planta especie de planta. Son 5 plantas de la misma especie, en condiciones similares. Tomé datos de la T°; H°, Radiación y el viento.
Mi duda es:
– Es muy poco trabajar con 39 muestras?? es todo lo que conseguí en los 16 días de muestreo. Y me preocupa mucho que 39 sea un número tan bajo que no me permita trabajar.
– Para obtener la relación entre las visitas y los factores ambientales, puedo hacer uso de Correlación de Pearson?
y por último:
Puedo sacar el índice de diversidad de Shannon W, índice de dominancia de Simpson e índice de densidad de Simpson con solo 32 insectos??
Por favor, espero me responda. Estoy haciendo mi tesis y mi profesor guía nunca está en su oficina.
Hola Camila,
el tamaño de muestra que necesitas dependerá de la variabilidad de los datos que tengas (e.g. si tienes datos muy variables seguramente necesites un gran número de observaciones para detectar el posible efecto), del tamaño del efecto de tu estudio (e.g. si el efecto que estás midiendo es muy bajo, necesitarás más observaciones para detectarlo) y del tipo de prueba que desees realizar (e.g. si quieres evaluar varias variables explicativas a la vez y con interacciones, deberás tener un mayor número de observaciones).
Te invito a que leas nuestros post sobre potencia estadística y tamaño de muestra: https://www.maximaformacion.es/blog-dat/tamano-muestral-y-potencia-estadistica/ y https://www.maximaformacion.es/blog-dat/aumenta-la-potencia-estadistica-de-tus-investigaciones/
También debes asegurarte que esos 16 días de muestreo se pueden realmente considerar como una misma muestra, o al menos ser consciente de que lo estás asumiendo, eso dependerá de tu diseño de estudio.
Para estudiar la relación entre 2 variables numéricas como parecen ser el número de visitas y los factores ambientales, puedes utilizar el análisis correlación. Dependiendo de cómo sea la relación (lineal o no lineal), la distribución de las muestras (normal o no normal) y la presencia o no de outliers, puedes optar por una correlación paramétrica (la de Pearson), no paramétrica (la de Spearman) o robusta.
Respecto a los índices de diversidad, etc, sí puedes calcularlo pero su interpretación dependerá del contexto de tu investigación y las comparaciones que estés haciendo.
Saludos
Hola. Queria hacer una consulta en relacion con una investigación que estoy realizando. Mi objetivo general es analizar la asociacion existente entre los niveles de autoconcepto académico y el grado de ansiedad frente a los examenes en estudiantes de diferentes años de la carrera de psicologia (primero, segundo y tercer año). Estoy en duda si deberia utilizar la prueba de chi cuadrado o el coeficiente de correlacion de rho de spearman. Esto para analizar la asociacion en cada año. Gracias. Si entendi bien, mis variables serian ordinales.
Hola Valentina,
depende de cómo estén medidas tus variables. Para evaluar la asociación entre «los niveles de autoconcepto académico» y «el grado de ansiedad frente a los examenes», si estas variables toman solo 2-5 categorías (e.g. bajo, medio y alto) sería recomendable la prueba de independencia Chi-cuadrado, sin embargo si tienes más de 5-7 niveles (e.g. escala de likert) podrías optar por el análisis de correlación no paramétrica de Spearman. Si además quieres analizar esta asociación para distintos grupos de la carrera de psicología, deberías repetir el análisis en cada estrato, o -si fuera el caso- recurrir a análisis más sofisticados como la prueba de Cochran-Mantel-Haenszel (CMH). Saludos
Hola, Rosana.
Te quería plantear lo siguientes, tengo dos grupos aleatorizados, uno es el experimental y el otro es el de control/lista de espera. Existirán medidas pre y post para el grupo experimental. Del grupo de control, aunque después también se beneficien del tratamientos (una vez finalizado el grupo experimental) solo me servirían los datos pre. El contraste, por tanto, se efectuaría entre los datos post del grupo de experimental con los datos pre del grupo de control.
¿Qué estadístico utilizarías para comprobar la equivalencia inicial de los dos grupos en las medidas y en las variables demográficas relevantes?
Hola Josefina, si tu objetivo es evaluar las condiciones iniciales de ambos grupos, para determinar si son equivalentes/comparables, lo que deberías hacer es comparar los grupos experimental y control para las variables que hayas registrado en la condición pre.
Saludos
Excelente artículo! Enhorabuena. Te quería preguntar qué prueba estadística sería correcta si quiero comparar 2 grupos independientes en una serie de variables psicológicas, donde cada una de ella proporciona un valor número (puntajes de test). Esto en base a hipótesis nulas, donde lo que quiere comprobar es q ambos grupos son homogéneos en fichas variables.
Gracias!!!
Hola Camila, gracias por dejarnos tu comentario. Por lo que dices, quieres analizar cada variable psicológica por separado, comparando 2 grupos independientes. Si tu variable psicológica es numérica (e.g. puntuación del 1-100 en una escala psicológica) puedes optar por la prueba de t de Student para 2 muestras independientes, o su versión no paramétrica o robusta, como indica el cuadro de este post. Si tu variable psicológica es categórica (e.g. grado de satisfacción bajo/medio/alto) deberías mirar la prueba de independencia Chi-cuadrado. Saludos
Hola Rosana, muy buen resumen, tengo una duda, estoy tratando de hacer un reporte de caso, donde tengo un sujeto al que se le a aplicado una dieta específica y se le han realizado varias medidas, de peso y analíticas de sangre en un período de 4 años. El objetivo es observar si la dieta que ha estado consumiendo influye en los cambios de peso y valores de los análisis sanguineos. Como debería ser encaminado el análisis de estos datos
Hola Carolina, gracias por tu comentario. Supongo que el análisis de series temporales te puede ser útil, porque debes tener en cuenta que los datos no son independiente sino que muestran correlación temporal. Pero revisa la bibliografía que se publica en tu área de trabajo para saber si existe algo más específico. Saludos
Hola Rosana,
Lo primero enhorabuena por el artículo, sencillo y claro. Tengo una duda. Qué test usarías para ver si hay cambio y su magnitud en una variable cualitativa con más de dos niveles en un estudio pre-post? El tamaño muestral es pequeño, 30. A todos los pacientes se les aplica el mismo tratamiento y necesito saber si el cambio es significativo en varias variables cualis con más de dos niveles por lo que no puedo usar McNemar.
Muchas gracias!
Hola Beatriz, gracias por tu comentario. Si tienes una variable respuesta categórica (con más de 2 niveles) medida en 2 tiempos (-pre y post-), puedes aplicar la prueba de McNemar. En las páginas 7-8 del siguiente documento tienes un ejemplo en R: http://biotoolbox.binghamton.edu/Biostatistics/Biostatistics%20Student%20Tutorials/McNemars%20Test/Biol483MMcNemar%27sTestFinal.pdf
También aquí tienes varios ejemplos: http://rcompanion.org/handbook/H_05.html (y de otras pruebas).
Te recomiendo también que leas: Alan Agresti (1990). Categorical data analysis. New York: Wiley. Pages 350–354.
Saludos
Muchísimas gracias Rosana!!
Hola Rosana, creo que mi anterior comentario no se ha publicado. En el te preguntaba que clase de prueba estadística crees que debo utilizar para comparar los resultados obtenidos según sexo y edad en una prueba para niños donde las opciones de respuestas solo son: niña, niño o ambos.
Gracias!!
Hola Mari Carmen, ¡muchas gracias por tu comentario! es justo nuestro principal objetivo, intentar explicar la estadística de una forma sencilla y práctica.
Respecto a tu pregunta, depende de cómo hayas medido los resultados. Supongo que se trata de una puntuación, una variable continua, que quieres comparar por grupo de edad y sexo. En ese caso, como tienes 2 factores, deberías realizar un ANOVA de 2 factores o vías (siempre y cuando se cumpla con los supuestos de la prueba). En este links tienes una explicación buena y sencilla: http://www.sthda.com/english/wiki/two-way-anova-test-in-r
Me apunto crear un post sobre el tema en el futuro ;).
Saludos
Hola Rosana, tu forma de sintetizar la estadística de una forma tan sencilla es increíble, enhorabuena.
Paso a realizarte un consulta respecto al TFM que estoy llevando a cabo. Se trata de un estudio sobre los estereotipos de género en niños muy pequeños (3-7 años). La forma de recolección de los datos ha sido a partir de una prueba realizada por mí en la que se les realizan preguntas donde la opción de respuesta solo es: niña, niño o ambos. Ahora quiero comparar las respuestas que me han dado en función de dos variables, por un lado la edad y por el otro el sexo. ¿Que tipo de análisis crees que me convendría para obtener resultados?
Gracias de antemano
Un saludo
Hola!!
Necesito ayuda, nunca he estudiado estadística y para un trabajo de la Universidad he tenido que realizar un estudio donde comparo dos grupos (A y B), formados por diferentes personas cada uno y elegidos de manera aleatoria y debo comparar el antes y el después de estos dos grupos. ¿Qué debo hacer?
Millones de gracias!
Hola Ariadna,
te recomiendo mirar este tutorial del blog: Prueba t de Student para medidas repetidas con R
https://www.maximaformacion.es/blog-dat/prueba-t-de-student-para-medidas-repetidas-con-r/
Saludos
Buenas Patricia,
Estoy en mi último año de carrera y estoy liada con mi TFG en el cual voy a evaluar distintos índices de vegetación a lo largo del ciclo del cultivo. Mi objetivo es estudiar la relación existente entre ambos índices en distintas fases a través de distintos estadísticos como la correlación, ahora bien, en el momento en el que dos índices no se encuentran correlacionados ¿qué estadístico sería el más útil para determinar qué índice es mejor emplear en una determinada etapa?.
No tengo mucha práctica en el tema, pero ahora me toca profundizar en él.
Muchas gracias.
Hola Paloma,
para determinar qué índice es mejor emplear en una determinada etapa deberías tener alguna otra variable respuesta de interés. Por ejemplo, imagina que estás midiendo el rendimiento de tu cultivo, puedes evaluar qué índice se correlaciona mejor con el rendimiento del cultivo. Es una cuestión que debes responder con tu objetivo de estudio y las otras variables que hayas medido.
Saludos
Hola! Va directo a marcadores!
Me ha parecido muy útil aunque aún tengo dudas con cómo hacer un análisis de los datos que tengo en un dataset: Tengo un registro de fechas en las que se ha alimentado a un animal (y el peso del alimento que ha comido) y de fechas en las que se ha reproducido. Cómo podría analizar esos datos? Cómo podría predecir la próxima fecha en la que comerá en base a la tendencia que llevaba hasta el momento? Cómo podría probar que tiene relación la alimentación con la cópula? Si esto se prueba, cómo podría predecir la cópula en base a cuándo comió la última vez? Cómo saber qué tendencia sigue el peso de la comida para predecir cuánto comerá la próxima vez? Cómo podría interpretar la estacionalidad? Y por último, qué gráficos representarían mejor toda esta información?
Soy usuaria novata de R, manejo bien el código pero a veces me pierdo con cómo interpretar los datos por lo que me gusta afrontar pequeños retos para ir aprendiendo.
Hola Azahara, gracias por tu comentario.
No conozco tus datos pero parece que necesitarías ajustar un modelo de regresión. Tienes una variable respuesta numérica (día de la cópula, siendo 0 el día en que comienza el experimento) y 2 variables explicativas (día de alimentación y peso del alimento). Además, al tratarse de datos temporales tendrás que considerar/controlar que los datos no son independientes, esto lo puedes lograr con modelos mixtos o con modelos de series temporales, dependiendo de tus datos y el objetivo de trabajo. Te recomiendo algunos libros para leer sobre el tema:
* Alain F. Zuur, Elena N. Ieno, Anatoly A. Saveliev, Neil Walker, Graham M. Smith (2009) Mixed Effects Models and Extensions in Ecology with R
* Rob Hyndman & George Athanasopoulos (2013) Forecasting: principles and practice
Saludos
Hola, Rosana, muy interesantes las informaciones de esta página, pues estoy terminando la parte estadística de mi tesis y me gustaría hacerte una pregunta: tengo 36 variables dependientes escalares, unas con distribución normal, otras no (hice el test de homogeneidad) , mi design es intrasujetos. Cuando comparo unas con las otras a veces tengo un par con distribución normal ( test T para muestras pareadas) otras con no normal ( wilcoxon), y en otra situación tengo un par que una variable es normal y otra no. ¿ Qué hago? Ya intenté transformarlas con log y otros y sigue no normal la que es no normal. ¿Puedo usar el test wilcoxon?
Hola Patricia,
gracias por tu comentario. Lo primero es ver por qué las muestras no son normales y qué tanto lo son. Si la desviación de la normalidad es poca o no se debe a la presencia de outliers o a la naturaleza de la variable, puedes seguir aplicando pruebas paramétricas. En caso de que existan outliers te recomiendo utilizar pruebas robustas, y en el caso de que las variables sean ordinales pruebas no paramétricas. Ten cuidado también con el incumplimiento del supuesto de homogeneidad de varianza que comentas, pues las pruebas paramétricas sí pueden dar problemas en esos casos. Existen algunas técnicas para controlar este problema, por ejemplo en la prueba t de Student o en el ANOVA, puedes indicar var.equal = FALSE para aplicar la corrección de Welch en caso de heterocedasticidad.
Saludos
Hola Rosana, muchas gracias por la información, tengo una consulta, tengo un estudio descriptivo de 60 pacientes a los que se le han aplicado 2 purebas diagnosticas, que miden la misma variable cuantitativa ordinal (3 categorias) que test estadistico puedo aplicar y es necesario realizar la comprobacion de la normalidad o debo aplicar pruebas no parametricas por ser ordinal la variable estudio.
Muchas gracias!
Hola Daniela, tienes 2 variables respuesta de tipo ordinal (3 categorías) que nunca seguirán una distribución normal por definición. No indicas cuál es tu objetivo, así que supongo que quieres comparar grupos de pacientes (e.g. placebo vs control). Si ese fuera el caso, y quieres analizar los resultados de cada prueba diagnóstica por separado, mira en la tabla que les he puesto en el post. Buscarías comparar 2 grupos independientes (e.g. placebo vs control) para una variable respuesta de tipo ordinal, por lo cual en ese caso utiliza la Prueba de Mann-Whitney.
Saludos
Hola Rosana. Muchas gracias por toda la información que has puesto a nuestra disposición.
Querría hacerte una consulta.
Tengo, para 4 zonas pesqueras, la distribución de residuos encontrados en 8 categorías (plástico, metal, etc.) y querría saber si las diferencias en la distribución por tipología de residuos en cada zona son estadísticamente significativas.
El problema es que el mayor o menor número de objetos recogidos en cada una de las zonas ha dependido del número de barcos y de días pescando (y recogiendo basura).
En esta situación, ¿qué prueba estadística debería aplicar?
Gracias
Hola Óscar, gracias por tu comentario. Se me ocurre crear una nueva variable que esté ponderada por el esfuerzo de muestreo. Esto es bastante habitual en ecología. Imagina que estamos muestreando el bentos por estacion (espacial o temporal), para ponderar por el esfuerzo de muestreo es conveniente la estandarización respecto al total de estaciones utilizadas. Sumamos la abundancia de cada especie en una estación y se divide por el total. Así la nueva variable se expresa como una proporción o porcentaje. Saludos
Hola! me gustó mucho el artículo. Quería saber cómo se hacen los supuestos sobre normalidad si no tengo ningún dato. En mi caso voy a hacer un pre y post con un grupo control y experimental. Tendría que reportar expectativas de normalidad para ambos grupos? ¿es posible que un grupo presente datos normales y otro no?
Mil gracias !!!
Hola María, gracias por tu comentario. Si aún no has tomado los datos, lo primero a tener en cuenta es si tu variable respuesta puede ser de naturaleza normal. Por ejemplo, las variables de conteo como el número de hijos, suelen tener una distribución de Poisson, asimétrica, donde hay más probabilidad de encontrar valores bajos y baja probabilidad de encontrar valores grandes, por lo cual es muy probable que no obtengas una distribución normal. Lo segundo a tener en cuenta es el tamaño de la muestra, gracias al teorema central del límite podrías asumir normalidad siempre que la muestra sea grande (más de 30 casos por grupo). En tercer lugar, recuerda que aunque no se cumpla el supuesto de normalidad, si esta diferencia es «leve» podrías seguir utilizando técnicas paramétricas. Es más peligroso el incumplimiento de la homogeneidad de varianza que el incumplimiento de la normalidad, y para el primero podrías utilizar aproximaciones como la de Welch para corregirlo y seguir utilizando técnicas paramétricas.
Saludos
Hola Rosana, muchas gracias por esta información. Ha sido de mucha utilidad. Sin embargo quisiera hacerte una par de consultas. Podrías escribirme a mi correo electrónico para enviarte por este medio mis dudas?
Saludos,
Natalia G
Hola Natalia,
si necesitas asesoramiento de consultoría puedes solicitar nuestro servicio a través de esta página web: https://www.maximaconsultoria.es
Saludos
Hola Rosana
Estoy haciendo un estudio ECA de casos y controles para medir si se observa un cambio en el nivel de ansiedad de niños antes, durante y después de un procedimiento médico. Hay un total de 3 grupos diferenciados por edad. Cada uno de estos grupos se compara con un grupo control correspondiente (misma edad) en el que no hay intervención
Tengo dudas acerca de cual sería el procedimiento estadístico para comparar el grupo casos y control del mismo rango de edad, si quiero comparar los resultados de la misma variable en los diferentes espacios de tiempo en los que se mide, en este caso antes, durante y después de la intervención. Entiendo que debería hacerse ANOVA de un factor para obtener los resultados, eso es así?
Gracias
Hola Sergio,
tienes que pensar cuáles son tus variables explicativas (o productivas) y cuál tu variable respuesta.
Si he entendido bien, tienes:
* variable respuesta: nivel de ansiedad
* variables explicativas: tiempo (antes, durante, después), grupo de edad (3), grupo de tratamiento (tratado o control).
Por lo tanto, si se cumplen los supuestos paramétricos, podrías utilizar un ANOVA de 3 vías (porque tienes 3 variables explicativas o factores).
El procedimiento es similar a lo que explico en este post: https://www.maximaformacion.es/blog-dat/como-realizar-el-anova-de-una-via-en-r/ pero tendrás que tener en cuenta posibles efectos de interacción entre los factores.
Saludos
Hola buenas tardes, felicidades por el articulo muy completo, en el caso del estudio de la importancia de emplear una ludoteca desde el ámbito educativo para fomentar la lectura y escritura y haber realizado una encuesta al personal docente (9 maestras) con escala tipo likert, que programa debería utilizar para analizar los resultados obtenidos?
Hola Daniela,
depende de tu objetivo. Si lo que quieres es ver la relación entre distintas medidas de «importancia de emplear una ludoteca» (en escala likert) podrías realizar análisis de correlación de Spearman (no paramétrica porque tienes solo 9 observaciones). Si lo que quieres es comparar la «importancia de emplear una ludoteca» (likert) entre grupos de maestras deberías tener cuidado porque tienes muy pocos datos (piensa que como mucho los grupos te quedarían de 4-5 casos).
Saludos
Hola. antes que nada disculpad mi ignorancia… ¿que prueba se aplicaria para evaluar el efecto de un tratamiento en el que se han tomado 4 mediciones, 1 pretratamiento, la segunda a la semana del tratamiento, la tercera al mes del tratamiento y la cuarta a los dos meses del tratamiento, en dos variables?
Gracias.
Hola Isabel,
si lo que quieres es comparar 1 variable respuesta en los 4 tiempos, utilizarías un ANOVA de medidas repetidas, siguiendo lo indicado en la tabla de resumen de este post.
Si quieres analizar 2 variables respuesta en los 4 tiempos, a la vez, deberías utilizar un MANOVA de medidas repetidas, que es la versión multivariante de la anterior.
Saludos
Hola, felicitaciones por esta guía. Espero puedas ayudarme con un inconveniente que tengo: Quiero saber si un indice (Variable respuesta) es diferente en individuos reproductivos y no reproductivos, para ello estoy haciendo un ANOVA a un Factor (con dos niveles); al chequear los supuestos encuentro que hay normalidad de residuos pero NO Homocedasticidad. Intuyo que puede deberse a que uno de los niveles esta armado con 29 muestras y el otro por 79. Pero no se como corregirlo, en algunos sitios eh leído que se puede usar Kruskal-Wallis, pero hasta donde se si existe heterocedasticidad no se puede . Probé correcciones con raíz cuadrada y logaritmos y sigue siendo heterocedastico. Que aconsejarías en un problema así?
Desde ya muchas gracias!
Hola Evangelina,
si quieres comparar una variable respuesta numérica entre 2 grupos independientes, siguiendo el esquema que les he mostrado, deberías seleccionar la prueba t de Student para muestras independientes. En el caso de que tengas problemas de falta de homogeneidad de varianza entre las muestras (heterocedasticidad) debes chequear primero a qué se debe. Si se trata realmente de diferencias en la variabilidad de la respuesta entre las muestras puedes seguir utilizando la prueba t de Student con la aproximación de Welch (o Satterthwaite), es decir, la varianza se estima por separado para ambos grupos y se utiliza la modificación de Welch a los grados de libertad. Esto lo indicas en la función t.test(y~x, var.equal=FALSE) -viene marcada por defecto en R-. Aquí tienes una guía paso a paso para su realización: https://www.maximaformacion.es/blog-dat/comparacion-de-2-muestras-con-r/
Si en su lugar el problema se debe a la presencia de datos atípicos (outliers) deberías optar por la prueba robusta de Yuen con yuen(y~x), como indico en la tabla de este post.
¡Saludos!
Gracias Rossana, eres genial!!!, este blog me permitió entender claramente algo que me había llevado semanas de estudio.
Nuevamente muchas gracias!
Hola Jorge, ¡gracias a ti por el comentario! Nos alegra y anima a seguir trabajando en simplificar y aclarar conceptos con casos prácticos. Saludos
hola muchas gracias por el aporte teórico
quisiera aun así corroborar la prueba más correcta deseo analizar en 1 muestra un cuestionario tipo likert en preprueba y posprueba, con la finalidad de ver si la intervención que propuse tuvo efecto o no
de antemano, gracias
Hola Marisol,
fíjate en las tablas de resumen del post. Si tienes una variable de tipo ordinal, como son las escalas de likert (asumo que tiene 5 o más categorías), y quieres comparar 2 muestras relacionadas o medidas repetidas (pre y post-prueba), debes aplicar una prueba de Wilcoxon para muestras relacionadas. Como se indica en la segunda tabla de resumen, la función en R a utilizar es wilcox.test(y~g, paired=T) donde «y» es la variable respuesta (las respuestas en escala likert), y «g» la variable explicativa (el grupo pre y post-test).
Tienes un post para realizar el análisis en R, paso a paso, aquí: https://www.maximaformacion.es/blog-dat/prueba-t-de-student-para-medidas-repetidas-con-r/
¡Saludos!
Hola Rosana. Muchas gracias por tu rápida respuesta. Pero creo que no me he explicado bien.
En una muestra , donde los sujetos me han cumplimentado un cuestionario tipo likert, quiero establecer si existen diferencias significativas de esas opiniones con:
1. El genero de los sujetos (hombre/mujer)
2. La edad de los sujetos (preadolescentes/ adolescentes / jóvenes,)
Mi pregunta es ¿que prueba estadistica debería utilizar ?
Mucchas gracias. un cordial saludo. Manuel
Fíjate en el esquema de este mismo post.
Tu variable/s respuesta/s es ordinal (escala de likert -supongo que es de 5 categorías-) y tu objetivo es:
1. Comparar 2 grupos independientes (sexo: hombre/mujer)-> Prueba de Mann-Whitney
2. Comparar 3 grupos independientes (edad: pre-adolescentes, adolescentes, jóvenes).->Prueba de Kruskall-Wallis
Son pruebas no paramétricas debido a que tu respuesta (ordinal) no seguirá una distribución normal debido a su naturaleza intrínseca.
Saludos
Hola Rosana. Enhorabuena por tu blog. Nunca he visto algo tan útil, pero sigo con mi duda. El nombre de tu blog es perfecto.
Tengo una muestra que proviene de diversas provincias de una comunidad autónoma, aunque yo para evitar suspicacias entre una ciudad y otra o entre ciudades, no he puesto esa variable. Solo se que todos los que me han contestado trabajan en la comunidad.
Ahora sí tengo la variable de la edad por intervalos. Entonces para conocer si existe diferencias significativas en función de la edad, debo realizar la t de Student para para una muestra?
Gracias y Felicidades por tu blog
Gracias por tu comentario, Manuel.
Si entiendo bien tu problema, quieres comparar las edades de los sujetos entre provincias y no por ciudad. Si la variable respuesta fuera la edad original numérica y tuvieras 2 provincias que analizar, entonces deberías realizar la prueba t de Student. Si tuvieras más de 2 provincias realizarías el ANOVA de 1 factor.
Sin embargo, me comentas que la edad la tienes por intervalos. No sé cuántos intervalos tienes, pero si son pocos, en ese caso la variable respuesta edad sería categórica (ordinal) y deberías hacer una prueba de independencia Chi-cuadrado. Si fueran muchos intervalos de edad podrías aplicar el ANOVA no paramédico, que se llama prueba de Kruskall-Wallis.
Un último comentario, si en los análisis descriptivos observas que tienes muchas diferencias por ciudad, tal vez deberías considerar también ese factor en tu estudio.
¡Saludos!
Hola Rosana. Muchas gracias por tu rápida respuesta. Pero creo que no me he explicado bien.
En una muestra , donde los sujetos me han cumplimentado un cuestionario tipo likert, quiero establecer si existen diferencias significativas de esas opiniones con:
1. El genero de los sujetos (hombre/mujer)
2. La edad de los sujetos (preadolescentes/ adolescentes / jóvenes,)
Mi pregunta es ¿que prueba estadistica debería utilizar ?
Mucchas gracias. un cordial saludo
Hola Rosana, muchas gracias por el apunte resumen de pruebas estadísticas,
pero aun así me surgen dudas sobre mi trabajo. Tengo las mediciones de 3 equipos que arrojan el nº de veces que han sido operados por meses. o sea tengo la máquina M1 con los datos por meses de 2017 y 2018, igual para M2 y M3. El problema es qué prueba debería realizar para comparar las tres maquinas según el nº de veces que han sido operadas (puestas en funcionamiento). Comparar los valores por años y entre máquinas para ver si hay significación. ¿Qué me aconsejas? Gracias por tu tiempo.
Hola Juan, gracias a ti por tu comentario.
En tu caso quieres explicar el número de veces que «algo» ha sido operado (variable respuesta) según 2 factores (variables explicativas): la máquina (M1, M2, M3; factor Inter-grupo o de muestras independientes) y el tiempo (2017 y 2018; factor intra-sujetos o de muestras relacionadas o repetidas). Luego de realizar los estadísticos descriptivos y probar los supuestos de la prueba, podrías aplicar un ANOVA de 2 factores mixto.
Aquí tienes un ejemplo sencillo de aplicación en R:
http://www.cookbook-r.com/Statistical_analysis/ANOVA/#mixed-design-anova
Saludos
Hola Rosa enhorabuena por el blog, tengo una pregunta..estoy desarrollando un estudio en el que tengo 3 grupos de estudio en el que se estudian 4 variables (parámetros de medición celular), las cuales son no paramétricas, y 3 de ellas ni tienen homogéneidad de varianzas (a las que les he aplicado el ANOVA con corrección de Welch) y la cuarta variable no es paramétrica, sí tiene homogeneidad de varianza entre mis grupos peero no tiene misma distribución entre los grupos, o lo que es lo mismo, no cumple todos los requisitos para aplicarle el Kruskal-Wallis. Qué me recomiendas que le aplique? Con qué medirías el tamaño del efecto en esta variable? Muchas gracias!
Hola María, gracias por tu comentario ;).
Creo que con lo de «no paramétrica» lo que quieres decir es que en tus muestras no se cumple el supuesto de distribución normal. El ANOVA es bastante robusto ante la falta de normalidad, salvo que se deba a la presencia de outliers (en ese caso aplica pruebas robustas) o a la naturaleza de la variable (e.g. variables ordinales, en ese caso aplica pruebas no paramétricas). Por lo tanto, casi seguro que podrías seguir con el ANOVA (aplicando la corrección de Welch en caso de incumplimiento de homogeneidad de varianza, función oneway.test()). Revisa en todo caso los gráficos descriptivos para decidirte.
El tamaño del efecto en el ANOVA lo mediría con la f de Cohen o con el eta cuadrado. Por ejemplo, para los datos de R InsectSprays:
fit <- aov(count ~ spray, data = InsectSprays) library(sjstats) cohens_f(fit) #1.621407 Saludos
Hola Rosana, enhorabuena por el blog! Vengo a preguntarte una duda que no consigo resolver… estoy desarrollando un estudio en el que tengo 3 grupos de estudio en el que se estudian 4 variables (parámetros de medición celular), las cuales son no paramétricas, y 3 de ellas ni tienen homogéneidad de varianzas (a las que les he aplicado el ANOVA con corrección de Welch) y la cuarta variable no es paramétrica, sí tiene homogeneidad de varianza entre mis grupos peero no tiene misma distribución entre los grupos, o lo que es lo mismo, no cumple todos los requisitos para aplicarle el Kruskal-Wallis. Qué me recomiendas que le aplique? y con qué medirías el tamaño del efecto en esta variable? Muchas gracias!
¡Hola!
Tengo que comparar una variable numérica de 12 grupos diferentes, la variable numérica es dependiente de 2 factores, 10 de estos grupos pasaron la prueba de normalidad y 2 no, y por eso no debo usar una ANOVA de 2 factores, me recomiendan usar GLM, pero el GLM se puede hacer dependiendo de mis datos. ¿Qué glm me recomiendas? Gracias.
Hola,
Tengo una pregunta acerca de qué hacer cuando tienes dos variables que quieres comparar y una de ellas cumple una distribución normal y la otra (aunque la normalices aplicándole log, raíz cuadrada..etc) no. ¿Aplicas un test no paramétrico igualmente?.
Gracias
Hola Isabel,
depende de a qué se deba la falta de normalidad y qué tan grande sea.
A grandes rasgos, si se trata de una variable numérica, con datos suficientes (más de 30), podrías continuar con una prueba paramétrica, la mayoría son bastante robustas ante la falta de normalidad.
Si se trata en realidad de una variable ordinal, mejor utilizar pruebas no paramétricas.
Por último, si la falta de normalidad se debe a la presencia de datos atípicos mejor utilizar pruebas robustas.
Saludos
Hola Rosana, excelente tu blog … sabes que a las tablas podrías agregar una columna para el caso de datos (variables) multinomiales, es decir, cuando tenemos varios resultados posibles (más de 2), pero no hay un orden jerárquico entre ellos, es decir, la escala de medición no es interval.
Sigue publicando por favor, un abrazo.
Eric.
Hola Eric, gracias por tu comentario.
No sé si te refieres a tablas de frecuencia, pero en tal caso cuando usas variables nominales de más de 2 categorías se generan automáticamente tantas columnas como posibles respuestas. La función a utilizar en tal caso es table().
Otro abrazo
Me refiero a que en las dos tablas que tienes publicadas en esta misma página (una con el tipo de análisis adecuado de acuerdo a los tipos de datos que tienes, y la otra con la función de R a usar en cada caso), podrías agregar una columna para el caso en que las variables (o tipo de datos, como lo llamas en el encabezado de la tabla 1) sean de tipo multinomial, es decir, como el caso binomial, pero con más de dos opciones 🙂
Gracias por todo el fantástico material que entregas y por la rapidez de tus respuestas.
Abrazo.
Ahora te entiendo Eric, gracias. Ya he actualizado la tabla con la nueva columna.
Saludos
Hola Rosana. Veo que comentas que has añadido una columna para variables multinomiales, pero no me aparece en esta página. Podrías colgarla, por favor? Muchas gracias por el material! Es muy sencillo y claro, muy útil!
Hola Sara,
Las funciones que se encuentran en la última columna de variables nominales pueden servir tanto para binomiales como para multinomiales. Nuestra compañera Rosana rehizo las tablas para cambiar una prueba, la Q de Cochran. Comparto contigo las tablas actualizadas.
Enlaces: Tabla 1 y Tabla 2.
Saludos.
Hola, gracias por el blog.
He realizado los análisis estadísticos de un estudio cuasiexperimental con 400 niños de educación primaria (grupo control y experimental, con una medida pre y post en cada uno). Es decir, un modelo factorial 2×2 (tiempo * tratamiento).
Prácticamente en todas las variables no hay distribución normal, y en muchas tampoco se cumple homocedasticidad (previamente he quitado los outliers con el método «explorar» del SPSS, y he probado a hacer transformaciones pero no arreglan mucho y surgen nuevos problemas, como el de interpretación que comentas).
– ¿Tendrías alguna fuente bibliográfica relevante en ciencias sociales que yo pudiera citar en el estudio que estoy elaborando, que justifique que se puedan hacer anovas aunque no se cumplan los supuestos?
– Un compañero matemático me ha comentado que para conseguir robustez, en los casos en los que no se cumplan los supuestos, puedo presentar en mi estudio que he hecho la prueba paramétrica y la homóloga no paramétrica y que conseguido en ambos lo mismo, estos es, resultados no significativos en ambos, o resultados significativos en ambos. ¿Esto aportaría robustez? ¿cómo puedo justifcar documentalmente este procedimiento?
– ¿Cómo saber qué prueba robusta concreta (según el post) debo aplicar a mis datos? Desconozco totalmente el tema, y he leído sobre todo de los procedimientos clásicos.
Muchas gracias, de verdad.
Hola Alejandro, gracias a ti por participar del blog.
Habría que analizar a qué se debe la falta de normalidad en la distribución de los residuos y la presencia de heterocedasticidad en tus datos para elegir correctamente la mejor solución. Por ejemplo, podría ocurrir que tienes pocos datos o que tienes distribuciones asimétricas, o que la propia naturaleza de los datos no es normal (e.g. para datos de conteo), etc..
El ANOVA se podría llegar a aplicar aún si no se cumple el supuesto de normalidad en caso de que esta no sea demasiado pronunciada (Glass et al. 1972, Harwell et al. 1992, Lix et al. 1996, Dixon 2008 -las citas son generales, no específicas de sociología, lo siento, no es mi área de trabajo-).
Si conoces la distribución de los datos, una opción es utilizar un modelo lineal generalizado (GLM) con un supuesto de distribución de errores diferente a la normal. Otra solución es realizar pruebas no paramétricas (que no asumen ninguna distribución de los datos, no asumen normalidad) y comparar los resultados.
La opción de transformar la variable para cumplir con el supuesto de normalidad también es posible, siempre y cuando la variable transformada sea fácil de interpretar y tenga sentido en el contexto de tu investigación.
Cuando no se cumple el supuesto de homogeneidad de varianza se puede utilizar la prueba con corrección (en el caso del ANOVA de 1 factor está la prueba de Welch o incluso la Kruskall – Wallis podría servir) o se puede modelar específicamente la varianza si se conoce más información.
Por último, decirte que tengas cuidado con eliminar «outliers». Debes estar seguro que son valores erróneos para eliminarlos, en caso contrario te estarán dando información sobre la variabilidad de los datos. Lo otro que puedes intentar es utilizar técnicas robustas que le dan menor peso (importancia) a estos outliers.
Espero haber sido de ayuda.
¡Saludos!
Referencias:
Dixon, P. 2008. Models of accuracy in repeated-measures designs. Journal of Memory and Language, 59(4), 447-456.
Glass, G.V., P.D. Peckham, and J.R. Sanders. 1972. Consequences of failure to meet assumptions underlying fixed effects analyses of variance and covariance. Rev. Educ. Res. 42: 237-288.
Harwell, M.R., E.N. Rubinstein, W.S. Hayes, and C.C. Olds. 1992. Summarizing Monte Carlo results in methodological research: the one- and two-factor fixed effects ANOVA cases. J. Educ. Stat. 17: 315-339.
Lix, L.M., J.C. Keselman, and H.J. Keselman. 1996. Consequences of assumption violations revisited: A quantitative review of alternatives to the one-way analysis of variance F test. Rev. Educ. Res. 66: 579-619.
hola, tengo un modelo de regresion lineal multiple con problemas de normalidad, como puedo resolverlo?
Hola Álvaro,
es una pregunta interesante, y mi respuesta es «depende».
Si no se cumple el supuesto de normalidad aún puedes utilizar el modelo de regresión lineal, el problema lo tendrás a la hora de evaluar la significación de los coeficientes de regresión, para concluir cuestiones como la bondad de ajuste y para predecir con el modelo.
Necesitas conocer la causa por la que no se cumple el supuesto de normalidad para poder corregir el modelo de regresión ajustado. Por ejemplo, si se debe a la presencia de valores atípicos (outliers) puedes utilizar un modelo de regresión lineal robusto (puedes ver nuestro POST: https://www.maximaformacion.es/blog-dat/como-lidiar-con-los-datos-atipicos-outliers/).
En algunos casos se utiliza la transformación de la variable, pero solo te lo recomiendo si la variable transformada tiene un significado simple, claro y útil (e.g. logaritmos para la de cambio).
Otra solución es considerar específicamente la distribución de tus datos y realizar un modelo de regresión lineal generalizado (puedes ver nuestro POST: https://www.maximaformacion.es/blog-dat/que-modelo-de-regresion-deberia-elegir/). Por ejemplo, podremos utilizar la distribución binomial cuando la respuesta es una proporción, la de Poisson para respuestas de conteo, la Gamma para datos donde varianza aumenta según la media, la Exponencial para análisis de supervivencia, etc…
Espero que esta discusión te sea de ayuda. ¡Saludos!
Hola! cuando ya analizamos bonferroni o tukey para ordenar distintos tratamientos, ¿cómo identificamos el mejor tratamiento?. Estoy comparando medias y quiero identificar cual es la media más representativa
Hola Ana, gracias por participar del blog.
¿A qué te refieres con «el mejor tratamiento»? ¿y con «la media más representativa»?
Dependerá de tus datos y objetivos, de lo que estás intentando responder, pero en términos generales lo que tienes que mirar es qué grupos difieren significativamente y luego mediante los estadísticos descriptivos (numéricos y gráficos) puedes ver qué grupo presenta mayor/menor media y así interpretar bajo el contexto de tu pregunta de investigación.
Saludos
Hola me encanto tu explicacion. Espero me puedad ayudar. Conoces de alguna pagina p sitio donde pueda encontrar ejercicios para hacer con spss, nuestro profesor de la uni no nos ayuda mucho.
Muchas gracias. Un beso
Hola Cristina, gracias a ti por escribirnos, me alegra de que te haya gustado el post. No suelo trabajar con SPSS, pero existe mucho material en línea que te puede servir:
– sus manuales (http://www.cs.bme.hu/~kela/SPSSStatistics%20(E)/Documentation/Spanish/Manuals/IBM%20SPSS%20Statistics%2019%20Core%20System%20User%27s%20Guide.pdf),
– libros https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&uact=8&ved=2ahUKEwjYzYO27pTfAhVWThUIHcj6BAMQFjAAegQIBBAB&url=https%3A%2F%2Fwww.amazon.es%2FDiscovering-Statistics-Using-IBM-SPSS%2Fdp%2F1446249182&usg=AOvVaw2xEe8GwemPxyWrbXqlgFtU (este autor me gusta mucho, tiene también su versión en R)
– y hasta cursos gratuitos como este http://www.spssfree.com/curso-de-spss/index.html.
¡Saludos!
Hola, está super genial la explicación, pero tengo dudas con mi caso, te lo planteo a ver si me puedes ayudar.
Hice mediciones de regeneración de plantas (número de plantas pequeñas) en dos tipos de bosque (multietaneo y coetaneo). EL número de plantas encontradas de registraron según si eran de semilla o regeneración vegetativa y además por rangos de altura (5 rangos de altura) dentro de cada uno de los rangos se anotó el número de plantas por semilla y vegetativa.
Como estoy comparando entre multietaneo y coetaneo creo que debería hacer prueba T pero no sé cómo analizar toda la información junta ( los rangos de altura y si son por semilla o vegetativa) ? Me podrías ayudar?
Hola Carol, gracias por seguirnos y por tus comentarios. Cuando tienes múltiples variables respuesta lo mejor es realizar análisis multivariantes. Esto te podría permitir encontrar patrones que no sean visibles si analizas solamente 2 variables a la vez. Aquí tienes una entrada del blog donde hablo del tema: https://www.maximaformacion.es/blog-dat/analisis-multivariado-para-big-data/
¡Saludos!
Excelente información gracias de antemano
Me alegro de que te haya gustado y espero que te sea de ayuda. ¡Gracias por seguirnos y buen comienzo de semana!
Hola, Rosana te planteo mi caso y espero tu ayuda, mi investigación consiste en medir la generación de metano producido por un sustrato diluido en agua en tres relaciones, 1:1, 1:3 y 1:5 por ejemplo (1 parte de estiércol con 5 partes de agua), las mediciones se harán por un periodo de 30 días, debo aplicar una prueba estadística que me indique cual de las 3 relaciones genero mas metano, no se si el ANOVA me sirva porque los ejemplos que he visto ninguno toma en cuenta mediciones por periodos de tiempo, no se si el ANOVA de medidas repetidas me sirva porque yo supongo que en mi investigación las muestras no están relacionadas entre si. En fin, si entiendes mi caso y supieras que prueba estadística podría aplicar serias de gran ayuda, muchas gracias de antemano.
Hola Yeffer,
por lo que veo tienes una respuesta (generación de metano) y 2 variables explicativas (la dosis -1:1, 1:3 y 1:5- y el tiempo -30 días-). De las variables explicativas la dosis implica muestras independientes pero el tiempo implica muestras relacionadas. Por lo tanto deberías realizar un ANOVA mixto para 2 factores o, de manera más generalizada, un modelo mixto. Estos últimos son la mejor opción y los comento en esta entrada del blog (https://www.maximaformacion.es/blog-dat/que-modelo-de-regresion-deberia-elegir/), también lo vemos en nuestro Máster de Estadística Aplicada con R por si quieres realizarlo.
Saludos
Estuve buscando por mucho tiempo un resumen asi de claro y al grano sobre este importante tema, en la universidad te dejan confundido y sin material para poder abordarlo de forma correcta. De verdad muchas gracias.
PD: ¿existira material/cursos/fuente/etc de libre acceso que den esta informacion mas detallada?
Hola Gabriel, gracias por tu comentario.
No existe un único recurso que pueda recomendarte que toque todos los tipos de pruebas estadísticas que mencionamos en este post (paramétricas, no paramétricas y robustas). Sí las vemos en detalle en nuestro Máster de Estadística Aplicada con R). Pero te copio algunos recursos interesantes que hablan sobre algunos de estos temas:
Libro en español y con R (gratuito): http://www4.ujaen.es/~ajsaez/recursos/RRCmdrv31.pdf
Libro en inglés y con R (no gratuito): https://uk.sagepub.com/en-gb/eur/discovering-statistics-using-r/book236067
Web en inglés y con R (gratuito): http://www.sthda.com/english/wiki/comparing-means-in-r
Libro sobre test robustos con R (no gratuito): Introduction to Robust Estimation and Hypothesis Testing Statistical …https://www.amazon.es/Introduction-Estimation-Hypothesis-Statistical…/0123869838
Viñeta sobre test robustos con R (gratuito): https://cran.r-project.org/web/packages/WRS2/vignettes/WRS2.pdf y https://pdfs.semanticscholar.org/5f5c/186fceb1598528fbd2f798878055549f792b.pdf
¡Un saludo y gracias pòr seguir nuestro blog!
Estan muy buenos los recursos!, muchisimas gracias!. Saludos!
¡Gracias Gabriel por tu comentario! buen fin de semana
Excelente y didáctica presentación.. Mi admiración y respeto
Paulino Montilla
¡Gracias Paulino! Me alegra saber que el post te ha resultado interesante. ¡Un saludo!
Muchas gracias por tu post. Esto es lo que quisieramos pero no nos enseñan en las clases
Gracias por seguir el blog Sebastián. Me alegro de que el contenido del post te haya resultado útil. Te animo a proponernos temas que te resulten de interés para crear nuevos contenidos. ¡Saludos!
Hola, excelente resumen. Explica muy claramente lo que hacer según el tipo de variable. Pero tengo una duda. ¿Cuando una variable es numérica (puntuación en un test) y otra es nominal binaria (el sexo) ¿como puedo identificar si una de las dos categorías muestra una tendencia de resultados diferente a la otra? ¿Dividir el grupo en función del sexo y comparar las medias con t de student sería una buena aproximación?
Muchas gracias de antemano.
Hola Jose,
sí, si quieres comparar una variable numérica entre 2 grupos lo mejor es utilizar la prueba t de Student o, en caso de que no se cumplan los supuestos y/o existan outliers, utilizar su análogo no paramétrico o robusto, respectivamente.
Puedes revisar nuestro post sobre cómo realizar la prueba t de Student en R: https://www.maximaformacion.es/blog-dat/comparacion-de-2-muestras-con-r/
Saludos y felices fiestas