35 preguntas frecuentes sobre Estadística Aplicada

35 preguntas frecuentes sobre Estadística Aplicada

sep´17 Patricia Merayo 0 comentarios

Estoy segura de que tienes una pregunta estadística sin respuesta.

Por esta razón he decidido publicar esta lista de las preguntas frecuentes que te servirá como una puesta a punto en conceptos básicos para comenzar cono nosotros tu camino como científico de datos.

1. ¿Cuáles son las diversas etapas implicadas en un proyecto de análisis estadístico?

  • Comprender el problema de investigación
  • Explorar los datos.
  • Preparar los datos para el modelado mediante la detección de valores atípicos, el tratamiento de los valores perdidos, la transformación de las variables, etc.
  • Ejecutar el modelo y analizar el resultado.
  • Validar el modelo utilizando un nuevo conjunto de datos.
  • Empezar a aplicar el modelo y realizar un seguimiento de los resultados para analizar el rendimiento del modelo durante un período de tiempo.

2. ¿En que consiste la estadística descriptiva?

Tienen por objeto fundamental describir y analizar las características de un conjunto de datos, obteniéndose de esa manera conclusiones sobre las características de dicho conjunto y sobre las relaciones existentes con otras poblaciones, a fin de compararlas.

3. ¿En que consiste la inferencia estadística?

Es una parte de la Estadística que comprende los métodos y procedimientos para deducir propiedades (hacer inferencias) de una población, a partir de una pequeña parte de la misma (una muestra).

4. ¿Por qué la limpieza de datos juega un papel vital en el análisis estadístico?

La limpieza de datos incluye encontrar, corregir o eliminar datos erróneos de una base de datos.

El proceso permite identificar datos incompletos, incorrectos, inexactos, no pertinentes, etc. y luego substituir, modificar o eliminar estos datos sucios ("data duty").

Con esto se busca que los datos obtenidos se encuentren en las condiciones adecuadas al momento de realizar los análisis estadísticos pertinentes a la investigación.

Podría tomar hasta un 80% del tiempo de trabajo, por lo que es una parte crítica de la tarea de análisis.

5. ¿Qué es la regresión lineal?

La regresión lineal es una técnica estadística donde la puntuación de una variable Y se predice a partir de la puntuación de una segunda variable X siguiendo una recta descrita por un intercepto y una pendiente.

Se dice que X es la variable predictora e Y la variable respuesta.

6. ¿Qué es mejor tener buenos datos o buenos modelos? Y ¿cómo se define "bueno"?

Una buena información de partida (datos) es sin duda más importante que los buenos modelos.
Si la calidad de los datos no es de buena, tendremos que pasar mucho tiempo de limpieza y procesamiento previo de los datos.

¿Cómo se define bueno?

- Buenos datos: datos pertinentes para el proyecto.
- Buen modelo: modelo pertinente en relación con el proyecto y/o que se generaliza con conjuntos de datos externos.

7. ¿Necesitamos el término de intersección en un modelo de regresión?

- Garantiza que los residuos tienen una media de cero
- Garantiza que las estimaciones mínimos cuadrados sean imparciales
- La línea de regresión se mueve hacia arriba y hacia abajo, mediante el ajuste de la constante, a un punto en el que la media de los residuales es cero.

8. ¿Cuáles son los supuestos requeridos para la regresión lineal?

Los datos utilizados en el ajuste del modelo son representativos de la población
La verdadera relación subyacente entre X e Y es lineal
La varianza de los residuos es constante

(homoscedástica, no heterocedástica)
Los residuos son independientes.
Los residuos se distribuyen normalmente.

9. ¿Qué es una "distribución normal"?

Los datos se distribuyen generalmente de diferentes maneras con un sesgo hacia la izquierda o hacia la derecha, etc... Sin embargo, hay casos en los que los datos se distribuyen alrededor de un valor central sin ningún sesgo de distribución, formando una curva en forma de campana.

10. ¿Qué es la colinealidad y qué hacer con él? ¿Cómo eliminar multicolinealidad?

Colinealidad / Multicolinealidad:
- En la regresión múltiple: cuando dos o más variables están altamente correlacionados
- Proporcionan información redundante
- Los errores estándar de los coeficientes de regresión de las variables afectadas tienden a ser grandes
- La prueba de hipótesis de que el coeficiente es igual a cero puede conducir a un error de rechazar falsamente la hipótesis nula de ningún efecto de la explicativo (error tipo II)
- Lleva a sobreajuste

Cómo eliminar la multicolinealidad:
- Elimine algunas de las variables afectadas
- Utilice regresión con componentes principales: da predictores no correlacionados
- Combine las variables afectadas
- Utilice la regresión contraída (ridge)
- Utilice la regresión parcial por mínimos cuadrados (PLS)

Cómo detectar la multicolinealidad:

- Se observan grandes cambios en los coeficientes individuales cuando se añaden o eliminan una variable predictora
- Se observan coeficientes de regresión insignificante para los predictores afectados pero también un rechazo de la

hipótesis conjunta de que los coeficientes son todos cero (prueba F) - VIF: es la proporción de las varianzas del coeficiente cuando se ajusta el modelo completo dividido por la varianza del coeficiente cuando se ajusta con él.

- Regla de oro: VIF > 5 indica multicolinealidad (aunque otros autores consideran 10 y otros 20 como puntos de corte).
- Matriz de correlación parcial.

11. Diagnóstico, ¿Cómo comprobar si el modelo de regresión se ajusta bien a los datos?

R cuadrado / R cuadrado ajustado:
- R2 Describe el porcentaje de la variación total descrito por el modelo
- R2 siempre aumenta cuando se añaden nuevas variables: el R2aj incorpora grados de libertad del modelo para ajustar el R2 al aumentar las variables predictoras.

Prueba F:
- Evaluar la hipótesis "H0: todos los coeficientes de regresión son iguales a cero" Vs "H1: al menos uno no es cero"
- Indica si el R2 es confiable

RMSE:
- Es una medida absoluta de ajuste (mientras que R2 es una medida relativa de ajuste)

12. ¿Qué es la validación cruzada?

Es una técnica de validación de modelos para evaluar si los resultados de un análisis estadístico pueden ser generalizados a un conjunto de datos independientes.
Se utiliza principalmente en entornos en los que el objetivo es la predicción y se quiere estimar la precisión con un modelo. El objetivo de la validación cruzada es definir un conjunto de datos para probar el modelo en la fase de entrenamiento (es decir, conjunto de datos de validación) con el fin de limitar problemas como el sobreajuste, y obtener una visión sobre si el modelo se puede generalizar a un conjunto de datos independientes.

13. ¿Qué es la interpolación y extrapolación?

Estimar un valor de 2 valores desconocidos de una lista de valores es de interpolación. La extrapolación se aproxima a un valor mediante la ampliación de un conjunto conocido de valores o hechos.

14. ¿Qué significa el valor P o p-valor?

El P-valor se utiliza para determinar la significación de los resultados después de una prueba de hipótesis y siempre está entre 0 y 1.

Si asumimos un nivel de significación del 5% podemos decir que:

  • P> 0,05 significa que la hipótesis nula no puede ser rechazada.
  • P <= 0,05 denota una evidencia en contra de la hipótesis nula es decir, la hipótesis nula puede ser rechazada.

15. ¿Cuál es la diferencia entre el aprendizaje supervisado un aprendizaje no supervisado?

Se hace referencia al Aprendizaje Supervisado cuando un algoritmo aprende algo de los datos de entrenamiento y este conocimiento se puede aplicar luego a los datos de prueba.
Si el algoritmo no aprende nada de antemano porque no hay variable de respuesta o porque no disponemos de datos de entrenamiento, entonces diremos que estamos ante un Aprendizaje no supervisado.

16. ¿Qué es un outlier o valor atípico? ¿Qué es un inlier? ¿Cómo se detectan los valores atípicos y cómo se manipulan?

Los valores atípicos:
- Son observaciones que están lejos de las demás observaciones
- Pueden ocurrir por casualidad en cualquier distribución
- A menudo indican un error de medición o una distribución de cola larga
- El error de medición: descartarlos o utilizar la estadística robusta - Distribución de cola larga: gran asimetría, no puede utilizar las herramientas que suponen una distribución normal
- Los valores atípicos se pueden identificar mediante gráficos o métodos univariantes.
- Los valores atípicos pueden ser evaluados individualmente o ser sustituidos.
- Todos los valores extremos no son valores atípicos.

La identificación de valores atípicos:
- No existe un método matemático rígido
- Ejercicio subjetivo: tenga cuidado
- Boxplots
- Gráficos QQ (cuantiles muestrales Vs cuantiles teóricos)

Manejo de los valores extremos:
- Depende de la causa
- Retención: cuando el modelo subyacente es conocido
- Problemas de regresión: sólo excluye los puntos que presenten un alto grado de influencia en los coeficientes estimados (distancia de Cook)

Inlier:
- Observaciones que se encuentan dentro de la distribución general de los demás valores observados
- No perturba los resultados, pero son ? e inusuales

- Un simple ejemplo: una observación registrada en la unidad equivocada (° F en lugar de ° C)

La identificación de inliers:
- Utiliza la distancia a Mahalanobi - Deséchelos

17. ¿Cómo tratar los valores ausentes (datos perdidos o que faltan)?

Si no se identifica ningún patrón en las ausencias entonces los valores ausentes pueden ser sustituidos por la mediana o media (imputación) o simplemente pueden ser ignorados.

De todas maneras se debe tener cuidado en el porcentaje de valores perdidos que tiene una variable, por ejemplo, si el 80% de los valores de una variable están ausentes, entonces mejor no considerar la variable.

Si los datos faltan por azar: la eliminación no tiene ningún efecto de polarización, pero disminuye el poder del análisis disminuyendo el tamaño efectivo de la muestra

Imputación simple. Sustituir los datos ausentes por los valores medios (o mediana, etc.) de los restantes datos.

* En general es una mala práctica.

* Si solo queremos estimar la media, la asignación de valores medios preserva la media de los datos observados.

* Conduce a una subestimación de la desviación estándar.

* Distorsiona las relaciones entre las variables "tirando" los estimadores de las correlaciones hacia el cero. Recomendado: imputación Knn o por mezcla de Gauss

18. ¿Qué es un falso positivo y un falso negativo?

Falso positivo: informar incorrectamente la presencia de una condición o efecto cuando no existe realmente. Por ejemplo: test VIH positivo cuando el paciente es en realidad el VIH negativo.
Falso negativo: informar erróneamente la ausencia de una condición cuando en realidad existe. Ejemplo: no detectar una enfermedad cuando el paciente tiene la enfermedad.

19. ¿Qué es la potencia estadística?

* Sensibilidad de una prueba de hipótesis

* Probabilidad de que la prueba rechace correctamente la hipótesis nula cuando la hipótesis alternativa es cierta

* Capacidad de una prueba para detectar un efecto, si el efecto existe realmente

* Potencia = P (rechazar H0 | H1 es verdadera)

* A medida que aumenta la potencia, las posibilidades de error de tipo II (falso negativo) disminuyen

* Se utiliza en el diseño de experimentos, para calcular el tamaño de muestra mínimo necesaria para que uno pueda razonablemente detectar un efecto.

* Se utiliza para comparar las pruebas. Ejemplo: entre una prueba paramétrico y una prueba no paramétrica con la misma hipótesis.

20. ¿En que consiste una muestra?

Es un subconjunto limitado extraído de una población con el objeto de reducir el campo de experiencias. Las propiedades que obtengamos se harán extensivas a toda la población.

21. ¿Que es el muestreo?

En estadística se conoce como muestreo a la técnica para
la selección de una muestra a partir de una población Esto no es más que el procedimiento empleado para obtener una o más muestras de una población; el muestreo es una técnica que sirve para obtener una o más muestras de población.

22. ¿Qué es un individuo en Estadística?

Cada uno de los elementos del colectivo (la población) que es objeto estudio.

23. ¿Qué es una población en Estadística?

El conjunto de todos los individuos que son objeto de interés desde un punto de vista estadístico.

24. ¿Que se entiende por probabilidad?

La probabilidad mide la frecuencia con la que se obtiene un resultado (o conjunto de resultados) al llevar a cabo un experimento aleatorio, del que se conocen todos los resultados posibles, bajo condiciones suficientemente estables.

25. ¿Que se entiende por una población homogénea?

Es una población que comparte unas mismas características y se entre sí.

26. ¿Que se entiende por un parámetro estadístico?

Se llama parámetro estadístico, medida estadística o parámetro poblacional a un valor representativo de una población, como la media aritmética, la proporción de individuos que presentan determinada característica, o la desviación típica.

Un parámetro es un número que resume la gran cantidad de datos que pueden derivarse del estudio de una variable estadística.

27. ¿Que se entiende por un estimador?

Se llama estimación al conjunto de técnicas que permiten dar un valor aproximado de un parámetro de una población a partir de los datos proporcionados por una muestra.
En estadística, un estimador es un estadístico (esto es, una función de la muestra) usado para estimar un parámetro desconocido de la población. Por ejemplo, si se desea conocer el precio medio de un artículo (el parámetro desconocido) se recogerán observaciones del precio de dicho artículo en diversos establecimientos (la muestra) y la media aritmética de las observaciones puede utilizarse como estimador del precio medio.

28. ¿Que se entiende por error de estimación?

Es una medida de su precisión que se corresponde con la amplitud del intervalo de confianza. Cuanta más precisión se desee en la estimación de un parámetro, más estrecho deberá ser el intervalo de confianza y, si se quiere mantener o disminuir el error, más ocurrencias deberán incluirse en la muestra estudiada.

29. ¿Que se entiende por error de muestreo?

Es la imprecisión que se comete al estimar una característica de la población de estudio (parámetro) mediante el valor obtenido a partir de una parte o muestra de esa población (estadístico). Este error depende de muchos factores, entre ellos, del procedimiento de extracción de esa parte de la población (diseño muestral), del número de unidades que se extraen (tamaño de la muestra), de la naturaleza de la característica a estimar, etc.

30. ¿Que se entiende por una estimación robusta?

La estadística robusta es una aproximación alternativa a los métodos estadísticos clásicos. El objeto es producir estimadores que no sean afectados indebidamente por valores atípicos (outliers) o por variaciones pequeñas respecto a las hipótesis de los modelos.

Por ejemplo, la mediana es un estimador robusto de la centralidad de los datos, y no así la media aritmética.

31. ¿Cuales son las principales debilidades de la media aritmética?

- Es sensible a los valores extremos.
- No es recomendable emplearla en distribuciones muy asimétricas.
- Si se emplean variables discretas o cuasi-cualitativas, la media aritmética puede no pertenecer al conjunto de valores de la variable. - Es la media aritmética que se utiliza cuando a cada valor de la variable se le otorga una ponderación o peso distinto de la frecuencia o repetición. Para poder calcularla se tendrá que tener en cuenta las ponderaciones de cada uno de los valores que tenga la variable.

32. ¿Que se entiende por una variable?

Una variable es una característica que es medida en diferentes individuos, y que es susceptible de adoptar diferentes valores.

33. ¿En que consiste una variable cualitativa?

Los datos de características cualitativas son aquellos que no se pueden expresar numéricamente, corresponden a categorías o niveles. Sí se pueden etiquetar las categorías, es decir, convertir a valores numéricos antes de que se trabaje con ellos.

Las características cualitativas pueden clasificarse como:
Variable cualitativa ordinal: La variable puede tomar distintos valores ordenados siguiendo una escala establecida, aunque no es necesario que el intervalo entre mediciones sea uniforme, por ejemplo, leve, moderado, grave
Variable cualitativa nominal: En esta variable los valores no pueden ser sometidos a un criterio de orden, por ejemplo los colores o el lugar de residencia.

34. ¿En que consiste una variable cuantitativa?

Son aquellas variables que se pueden expresar numéricamente y se obtienen a través de mediciones y conteos.

Las características cuantitativas pueden clasificarse como:
Variable discreta: Solo puede tomar valores enteros. Es la variable que presenta separaciones o interrupciones en la escala de valores que puede tomar. Estas separaciones o interrupciones indican la ausencia de valores entre los distintos valores específicos que la variable pueda asumir. Ejemplo: El número de hijos (1, 2, 3, 4, 5).

Variable continua: Puede tomar valores reales (con decimales). Es la variable que puede adquirir cualquier valor dentro de un intervalo especificado de valores. Por ejemplo el peso (2.3 kg, 2.4 kg, 2.5 kg...) o la altura (1.64 m, 1.65 m, 1.66 m...), que solamente está limitado por la precisión del aparato medidor, en teoría permiten que siempre exista un valor entre dos cualesquiera.

35. ¿Qué son las variables dependiente e independiente?

Según la influencia que asignemos a unas variables sobre otras, podrán ser:

  • Variables independientes: Son las que el investigador escoge para establecer agrupaciones en el estudio, clasificando intrínsecamente a los casos del mismo. Un tipo especial son las variables de confusión, que modifican al resto de las variables independientes y que de no tenerse en cuenta adecuadamente pueden alterar los resultados por medio de un sesgo.
  • Variables dependientes: Son las variables de respuesta que se observan en el estudio y que podrían estar influenciadas por los valores de las variables independientes

Ahora te toca a ti, ¿cuál es esa pregunta estadística que te quita el sueño?

0 comentarios

Acepto la política de privacidad

¹ Todos los campos son obligatorios.
² Tu correo electrónico no será publicado.

  • Es bastante frecuente que, usando estadística paramétrica, se presenten problemas de falta de normalidad o de homogeneidad de varianzas.
    La solución era acudir a la estadística no paramétrica. Actualmente, diversos autores sugieren usar siempre la estadística robusta, en lugar de la paramétrica o no paramétrica
    Pues, aunque la estadística robusta se diseñó para protección ante outliers, también está el hecho de que no exige normalidad ni homocedasticidad.
    Mi pregunta concreta es:
    ¿Se puede usar estadística robusta cuando no hay motivo para recortar la media, o, incluso no se puede recortar, por ser la muestra muy pequeña? Es decir, usarla solo para evitar el problema de falta de normalidad y homocedasticidad.
    Muchas gracias y un cordial saludo.

    Alejandro Argamentería

    Responder

    Alejandro Argamentería 4 de enero de 2019, 11:28

    • Hola Alejandro,
      No podría decir que sea aconsejable siempre optar por pruebas robustas.
      Hay distintas formas de hacer frente a estos problemas de incumplimiento de supuestos estadísticos en las pruebas de hipótesis. Incluso algunas pruebas (como el ANOVA) son bastante robustas frente a la falta de normalidad, por ejemplo.
      También, como mencionas, hay que considerar el número de datos (tamaño muestral) que tienes, porque al recortar estás quitando información del análisis.
      Por otra parte, en algunos casos las pruebas paramétricas pueden ser más potentes (potencia estadística) que las no paramétricas o robustas.
      Es un tema complejo. Se debería primero evaluar cómo son tus datos y a qué se debe la falta de normalidad y/o homocedasticidad, qué tipo de pruebas necesitas y qué opciones no paramétricas y robustas tienes, y entonces podrás evaluar cuál es la mejor opción que se adapta a tu caso.
      Saludos y gracias por el comentario

      Responder

      Rosana Ferrero 7 de enero de 2019, 19:28

  • Estimada Rosana:
    Gracias por tu respuesta. Me permito seguir exponiendo mi problema, que me temo es el de muchos más.
    Dentro de las ciencias físico-naturales, la experimentación exige recogida de muestras y su posterior análisis químico o fisicoquímico. Antes, hay que determinar el número mínimo de muestras para que una diferencia relevante resulte estadísticamente significativa. Con frecuencia, queda en el límite de que podemos manejar y gastar. Y, ojo con las pseudorréplicas y errores de diseño, eso de entrada.
    Así que, cada muestra incorporada a una base de datos Excel, costó mucho dinero, además de sangre, sudor y lágrimas. Como para tener que descartarla después.
    La bibliografía actual es tajante: es muy frecuente la falta de normalidad y homocedasticidad. Pensándolo bien, hay motivos para ello. La realidad es muy compleja. Así que seleccionamos niveles, organizamos niveles dentro de cada uno… y luego no hay homogeneidad de varianza.
    En mi caso, tenía programado acudir al análisis de varianza, al de covarianza y a un modelo mixto con un factor de efecto aleatorio y otro de efecto fijo. Pero, al hacer previamente los tests de Shapiro Wilks y de Levene, aparecen muchos casos de falta de normalidad y, con mayor frecuencia, de homocedasticidad. Luego, la estadística paramétrica me da muchos resultados con tres estrellas, pero, a la luz de Wilcoxon (2017) y otros trabajos, publicar esa información podría ser hacer trampa.
    La alternativa de estadística no paramétrica, no permite uso de covariables y limita la modelización.
    La estadística robusta, ofrece muchas más posibilidades al respecto, aunque tampoco en demasía. Pero me serviría.
    ¿Puedo usar los métodos robustos sin recortar el número original de muestras? Es decir, sólo para obviar la falta de homogeneidad y homocedasticidad (además de no tener que tirar dinero a la papelera, que por otra parte no puedo permitírmelo).
    Por más que leo información actual, no encuentro una respuesta clara.
    Muchas gracias y un cordial saludo

    Responder

    Alejandro Argamentería 10 de enero de 2019, 16:31

    • Hola Alejandro, sin dudas esos son grandes problemas reales de la aplicación práctica de la estadística. Cuestiones que intento afrontar siempre en mis cursos.
      Como te decía en el mensaje anterior, lo primero es saber la causa de por qué no se cumple la normalidad y la homogeneidad de varianza para poder seleccionar la mejor opción para tu problema.
      Como te comenté, incluso el ANOVA paramétrico puede hacer frente a la falta de normalidad con relativa robustez, y en los modelos mixtos (que son la opción más flexible) hasta puedes modelar específicamente la varianza de tus datos cuando no presentan homocedasticidad entre grupos. Hay muchas alternativas, pero el primer paso es realizar estadísticos descriptivos y gráficos para obtener más información antes de elegir la mejor solución.
      Te dejo un link donde menciona las alternativas no paramétricas y robustas para el ANOVA de 2 vías, puede que te ayuda: https://journal.r-project.org/archive/2016/RJ-2016-027/RJ-2016-027.pdf
      También tienes esta opción no paramétrica que es bastante flexible: http://depts.washington.edu/madlab/proj/art/
      En el caso de que optes por modelos mixtos te recomiendo el libro de Zuur que es muy aplicado: https://www.springer.com/la/book/9780387874579

      Saludos

      Responder

      Rosana Ferrero 10 de enero de 2019, 17:43

  • Hola, escribo en este foro por si alguien puede ayudarme. Estoy realizando un trabajo en el que he recogido los valores de una serie de variables cuantitativas y me interesa relacionarlos con una posible complicación médica. Para ello, de las variables que me han salido significativas, he calculado las curvas ROC y el AUC. He obtenido varios resultados en los que el AUC tiene un valor inferior a 0,5 y no sé qué interpretación tiene este resultado. ¿Puede ser que el AUC sea menor a 0,5? o es que he cometido algún error en el cálculo. Muchas gracias, saludos-

    Responder

    Maria 27 de enero de 2019, 18:12

    • Hola María,
      no hemos hablado de curvas ROC en el este foro, pero te puedo decir que el área bajo la curva ROC (llamado AUC) se puede interpretar como la probabilidad de que el modelo clasifique un caso positivo aleatorio con mayor puntaje que un caso negativo aleatorio. Como es una probabilidad, su valor estará comprendido entre 0 y 1, donde 1 representa un valor diagnóstico perfecto y 0.5 es una prueba sin capacidad discriminatoria diagnóstica. Si un test clasifica aleatoriamente como «positivo», lo hará la mitad de las veces, y por tanto esperamos obtener la mitad positivos y mitad negativos, produciendo el punto 0.5 en el espacio ROC.
      Si obtienes un valor menor de 0.5 deberías invertir el criterio de positividad de la prueba.
      Saludos

      Referencias:

      D.W. Hosmer y S. Lemeshow (2000). Applied Logistic Regression. 2nd ed. John Wiley & Sons, Inc. Pp. 156-164.

      A. Agresti (2002). Categorical Data Analysis. 2nd ed. John Wiley & Sons, Inc. Pp.228-230.

      Responder

      Rosana Ferrero 28 de enero de 2019, 09:51

  • Hola, por favor me podrían ayudar con una duda que tengo. En una pregunta de respuestas múltiples, en las que se le da al encuestado la posibilidad de escoger entre un listado de 18 atributos (para que indique los que son más importantes para él), ¿se debe limitar el número de opciones que el encuestado pueda escoger entre esas 18, para que no exista una dispersión y las respuestas sean representativas? En términos de estadística, ¿existe un máximo o un porcentaje de opciones que debería escoger? Mil gracias.

    Saludos,

    Responder

    Ivonne Dominguez 19 de marzo de 2019, 16:19

    • Hola Ivonne,
      dependerá de los objetivos de tu investigación. Si quieres obtener conclusiones sobre cuáles son las 3 características más importantes para el encuestado, entonces limítalo a 3. Si lo que quieres, en su lugar, es obtener una imagen de la situación lo más completa, entonces puedes dejar que selecciona tantas respuestas como desee. Cierto es que si lo dejas abierto puedes encontrarte con encuestados más participativos que otros (algunos responderán el mínimo y otros -los menos- serán más detallistas). Yo te recomendaría, en general, indicar que seleccionen 3 respuestas e incluso en orden de importancia, pero es algo personal.
      Otro tema es que luego, aunque tengas 18 atributos, puedas englobar las categorías en una clasificación más amplia para poder analizar los resultados (tener un suficiente número de datos por categoría).
      Saludos

      Responder

      Rosana Ferrero 20 de marzo de 2019, 12:46

  • Hola, me podrian ayudar con una duda que tengo?

    Si se que el 80% de la poblacion de un pais tiene automobiles. Podria agarrar un grupo de 100.000 personas y esto deberia cumplirse? Contra que concepto teorico se contradice esto?
    Estoy casi seguro que no es asi, pero queria sacarme la duda.

    Gracias!

    Responder

    juan 27 de junio de 2019, 16:31

    • Hola Juan, perdona la demora en responder pero estoy de baja.
      Depende de varias cuestiones. Deberías asegurarte de a qué población representa esa información, el tamaño de la población y qué variabilidad tiene esa estimación. Es difícil que se cumpla exactamente la estimación de la población en una muestra debido en parte a esos 3 factores.
      Saludos

      Responder

      Rosana Ferrero 9 de julio de 2019, 11:16

  • Estimada Rosana
    Para analizar muchos de los datos de mi tesis estoy usando ANOVA con el test de Duncan como Post Hoc (para varianzas iguales). En alguno de mis resultados estoy observando que aunque ANOVA indica que no hay diferencias entre grupos (p mayor que 0.05) el test de Duncan dice lo contrario, y me hace grupos muy diferentes ¿Cuán de los dos resultados es el válido?. Mirando los datos en bruto creo que si que tiene que haber diferencias (porque algunos de los grupos tienen medias cercanas a 0 y otros medias muy altas)
    Muchas gracias con antelación.

    Responder

    Vanesa 7 de agosto de 2019, 14:28

    • Hola Vanesa,

      Ambas pruebas suelen coincidir pero al testear cosas distintas, efecto global frente a efectos entre parejas de grupos, pueden dar resultados contradictorios entre ellas. El test de Duncan además es menos conservador que por ejemplo el de Tukey por lo que es más fácil obtener más diferencias estadísticamente significativas entre grupos. Elegir entre cualquiera de los dos resultados sería válido, para decidir debes tener en cuenta el coste para tu investigación de tener falsos positivos en el caso de guiarte por las comparaciones múltiples o de tener un falso negativo en el caso de guiarte por el anova.

      De nada, aquí estamos para lo que necesites.

      Saludos.

      Responder

      Juan Luis López 8 de agosto de 2019, 11:20

  • Buen día! Primero quiero felicitarla por toda la información dada y darle las gracias! En esta ocasión tengo unas interrogantes respecto a un trabajo de análisis estadístico quebdebo realizar. Necesito por año hacer un análisis estadístico de un tipo de alcohol de acuerdo a sus componentes y ver como por año ha ido aumentando o disminuyendo. Pero la data es muy variada. Ejemplo en el año 2006 tengo 5 muestras en el 2008 tengo 16 en el 2009 tengo 1. Y así. Yo estaba pensando hacer un análisis estadístico por año y el promedio de ello utilizarlo como estándar de ese año. Pero también tengo q entre los datos hay mucha variabilidad es decir para un componente : Aldehido: tengo 0.98 0.67 2.67 y 7.56. Será q debo eliminar los dos últimos valores q se salen de lo normal y luego hacer el análisis estadístico?.
    Gracias

    Responder

    Andreina 1 de septiembre de 2019, 23:24

    • Buenos días Andreina, gracias por tu comentario, nos alegra saber que estos post les son de ayuda. No me queda muy claro cuál es tu objetivo, ¿comparar los componentes del alcohol por año? si es así tienes muy pocos datos por año y muy variados… va a estar difícil. Si tu objetivo, en cambio, es caracterizar los componentes del alcohol podrías olvidarte de los años. Lo de eliminar datos no te lo recomiendo, la variabilidad es información valiosa y el número de observaciones también, te cargarías dos temas importantes :p. ¡Saludos!

      Responder

      Rosana Ferrero 2 de septiembre de 2019, 12:40

  • Me gustaría saber si cuando se realiza un estudio y se determina el universo y la población, no determinar una muestra exacta y determinar como muestra toda la población de estudio, ¿Sería correcto?

    Responder

    Claudia 10 de septiembre de 2019, 12:41

    • Hola Claudia, Normalmente uno toma una muestra representativa para que sus resultados se puedan extrapolar a la población. Pero existen casos en que la población y la muestra son lo mismo. Por ejemplo, en un censo, los datos se recopilan sobre toda la población, por lo tanto, el tamaño de la muestra es igual al tamaño de la población. Saludos

      Responder

      Rosana Ferrero 10 de septiembre de 2019, 16:26

  • Hola muy buena información, pero tengo una duda respecto a la muestra (unidades muestrales) y el sesgo.
    Tenemos una población N, la cual sabemos por información previa que tiene una gran variabilidad. Entonces al conformar las unidades muestrales (forma, tamaño) deben ser representativas. Mi duda es cada una de las unidades muestrales ¿capta la variabilidad de la población o solo del área que abarca? Y eso se extrapola o representa a todo la población.
    La segunda duda respecto al sesgo, se define como la desviación de los datos estimados respecto al verdadero valor. Ese verdadero valor¿ lo conocemos? o como sabemos que es ¿mayor o menor ese desvío? sino conocemos el verdadero valor.
    Muchas Gracias! Saludos.

    Responder

    Diego Apablaza 20 de octubre de 2019, 01:15

    • Hola Diego,
      Para que la muestra sea representativa de la población (capte su variabilidad, en tus palabras) lo principal es que el muestreo realizado sea de tipo aleatorio, es decir, donde cada elemento d ela población tiene la misma probabilidad de ser elegido para formar parte de la muestra y cada muestra del mismo tamaño tiene la misma probabilidad de ser seleccionada. En el caso de que la variabilidad que indicas se deba a la existencia de grupos o estratos, podría interesarte realizar un muestreo estratificado además. Para eso lee sobre los tipos de muestro estadísticos que existen y evalúa cuál se adecúa más a tu contexto de investigación.
      El verdadero valor del parámetro poblacional siempre es desconocido, lo que conocemos es el valor de su estimación (el estadístico) a partir de la muestra.
      El sesgo muestral se refiere a una tendencia sistemática inherente a un método de muestreo que da estimaciones de un parámetro que son, en promedio, menores (sesgo negativo), o mayores (sesgo positivo) que el parámetro real. El sesgo muestral puede suprimirse, o minimizarse, usando la aleatorización. Lee sobre los tipos de sesgo que existen para ver cómo evitarlos (e.g. https://es.wikipedia.org/wiki/Sesgo_muestral).
      Saludos

      Responder

      Rosana Ferrero 21 de octubre de 2019, 12:29

  • El nivel de confianza indica que tan probable es que el parámetro de la población se encuentra dentro del intervalo de confianza?
    verdadero o falso

    Responder

    ghelen gonzales flores 25 de octubre de 2020, 23:19

En Máxima Formación utilizamos cookies propias y de terceros con finalidad analítica y publicitaria. En nuestra política de cookies te contamos cuáles usamos y cómo desactivarlas si quieres. Aceptar todas Configurar/Rechazar

Diseño web: Albin Soft.