Ratio: 3 / 5

Inicio activadoInicio activadoInicio activadoInicio desactivadoInicio desactivado
 

Hoy te presento las preguntas más comunes con las que te enfrentas al comenzar a aprender Estadística Aplicada.

faqs 890x395

Estoy segura de que tienes una pregunta estadística sin respuesta.

Y es por esta razón que he decidido publicar esta lista de las preguntas frecuentes que nos llegan al comenzar el Máster de Estadística Aplicada.

Esta lista te servirá como una puesta a punto de conceptos básicos para comenzar cono nosotros tu camino como científico de datos.

  • ¿Cuáles son las diversas etapas implicadas en un proyecto de análisis estadístico?

  • Comprender el problema de investigación

  • Explorar los datos.

  • Preparar los datos para el modelado mediante la detección de valores atípicos, el tratamiento de los valores perdidos, la transformación de las variables, etc.

 

  • Ejecutar el modelo y analizar el resultado. 

  • Validar el modelo utilizando un nuevo conjunto de datos.

  • Empezar a aplicar el modelo y realizar un seguimiento de los resultados para analizar el rendimiento del modelo durante un período de tiempo.

  • ¿En que consiste la estadística descriptiva

Tienen por objeto fundamental describir y analizar las características de un conjunto de datos, obteniéndose de esa manera conclusiones sobre las características de dicho conjunto y sobre las relaciones existentes con otras poblaciones, a fin de compararlas. 

  • ¿En que consiste la inferencia estadística

Es una parte de la Estadística que comprende los métodos y procedimientos para deducir propiedades (hacer inferencias) de una población, a partir de una pequeña parte de la misma (una muestra).

  • ¿Por qué la limpieza de datos juega un papel vital en el análisis estadístico?

FAQs master estadistica

La limpieza de datos incluye encontrar, corregir o eliminar datos erróneos de una base de datos. El proceso permite identificar datos incompletos, incorrectos, inexactos, no pertinentes, etc. y luego substituir, modificar o eliminar estos datos sucios ("data duty").

Con esto se busca que los datos obtenidos se encuentren en las condiciones adecuadas al momento de realizar los análisis estadísticos pertinentes a la investigación.

Podría tomar hasta un 80% del tiempo de trabajo, por lo que es una parte crítica de la tarea de análisis.

  • ¿Qué es la regresión lineal?

La regresión lineal es una técnica estadística donde la puntuación de una variable Y se predice a partir de la puntuación de una segunda variable X siguiendo una recta descrita por un intercepto y una pendiente. 

Se dice que X es la variable predictora e Y la variable respuesta.

  • ¿Qué es mejor tener buenos datos o buenos modelos? Y ¿cómo se define "bueno"? 

Una buena información de partida (datos) es sin duda más importante que los buenos modelos.

Si la calidad de los datos no es de buena, tendremos que pasar mucho tiempo de limpieza y procesamiento previo de los datos.

¿Cómo se define bueno?

- Buenos datos: datos pertinentes para el proyecto.

- Buen modelo: modelo pertinente en relación con el proyecto y/o que se generaliza con conjuntos de datos externos.

  • ¿Necesitamos el término de intersección en un modelo de regresión?

- Garantiza que los residuos tienen una media de cero

- Garantiza que las estimaciones mínimos cuadrados sean imparciales

- La línea de regresión se mueve hacia arriba y hacia abajo, mediante el ajuste de la constante, a un punto en el que la media de los residuales es cero.

  • ¿Cuáles son los supuestos requeridos para la regresión lineal? ¿Qué pasa si se violan algunos de estos supuestos?

  1. Los datos utilizados en el ajuste del modelo son representativos de la población

  2. La verdadera relación subyacente entre X e Y es lineal

  3. La varianza de los residuos es constante (homoscedástica, no heterocedástica)

  4. Los residuos son independientes.

  5. Los residuos se distribuyen normalmente.

Para predecir Y a partir de X: 1) + 2)

Para estimar el error estándar de las predicciones: 1) + 2) + 3)

Para obtener una estimación no sesgada de Y a partir de X: 1) + 2) + 3) + 4)

Hacer las pruebas de hipótesis para la pendiente y la correlación, y los intervalos de confianza: 1) + 2) + 3) + 4) + 5)

  • ¿Qué entiende por "distribución normal"?

Los datos se distribuyen generalmente de diferentes maneras con un sesgo hacia la izquierda o hacia la derecha, etc... Sin embargo, hay casos en los que los datos se distribuyen alrededor de un valor central sin ningún sesgo de distribución, formando una curva en forma de campana. 

  • ¿Qué es la colinealidad y qué hacer con él? ¿Cómo eliminar multicolinealidad?

Colinealidad / Multicolinealidad:

- En la regresión múltiple: cuando dos o más variables están altamente correlacionados

- Proporcionan información redundante

- Los errores estándar de los coeficientes de regresión de las variables afectadas tienden a ser grandes

- La prueba de hipótesis de que el coeficiente es igual a cero puede conducir a un error de rechazar falsamente la hipótesis nula de ningún efecto de la explicativo (error tipo II)

- Lleva a sobreajuste

Cómo eliminar la multicolinealidad:

- Elimine algunas de las variables afectadas

- Utilice regresión con componentes principales: da predictores no correlacionados

- Combine las variables afectadas

- Utilice la regresión contraída (ridge)

- Utilice la regresión parcial por mínimos cuadrados (PLS)

Cómo detectar la multicolinealidad:

- Se observan grandes cambios en los coeficientes individuales cuando se añaden o eliminan una variable predictora

- Se observan coeficientes de regresión insignificante para los predictores afectados pero también un rechazo de la hipótesis conjunta de que los coeficientes son todos cero (prueba F)

- VIF: es la proporción de las varianzas del coeficiente cuando se ajusta el modelo completo dividido por la varianza del coeficiente cuando se ajusta con él.

- Regla de oro: VIF > 5 indica multicolinealidad (aunque otros autores consideran 10 y otros 20 como puntos de corte).

- Matriz de correlación parcial.

  • Diagnóstico, ¿Cómo comprobar si el modelo de regresión se ajusta bien a los datos?

R cuadrado / R cuadrado ajustado:

- R2 Describe el porcentaje de la variación total descrito por el modelo

- R2 siempre aumenta cuando se añaden nuevas variables: el R2aj incorpora grados de libertad del modelo para ajustar el R2 al aumentar las variables predictoras.

Prueba F:

- Evaluar la hipótesis "H0: todos los coeficientes de regresión son iguales a cero" Vs "H1: al menos uno no es cero"

- Indica si el R2 es confiable

RMSE:

- Es una medida absoluta de ajuste (mientras que R2 es una medida relativa de ajuste) 

  • ¿Qué es la validación cruzada?

Es una técnica de validación de modelos para evaluar si los resultados de un análisis estadístico pueden ser generalizados a un conjunto de datos independientes. Se utiliza principalmente en entornos en los que el objetivo es la predicción y se quiere estimar la precisión con un modelo. El objetivo de la validación cruzada es definir un conjunto de datos para probar el modelo en la fase de entrenamiento (es decir, conjunto de datos de validación) con el fin de limitar problemas como el sobreajuste, y obtener una visión sobre si el modelo se puede generalizar a un conjunto de datos independientes. 

  • ¿Qué es la interpolación y extrapolación?

Estimar un valor de 2 valores desconocidos de una lista de valores es de interpolación. La extrapolación se aproxima a un valor mediante la ampliación de un conjunto conocido de valores o hechos.

faq tecnicas estadisticas avanzadas

  • ¿Qué significa el valor P o p-valor?

El P-valor se utiliza para determinar la significación de los resultados después de una prueba de hipótesis y siempre está entre 0 y 1. Si asumimos un nivel de significación del 5% podemos decir que:

  • P> 0,05 significa que la hipótesis nula no puede ser rechazada.
  • P <= 0,05 denota una evidencia en contra de la hipótesis nula es decir, la hipótesis nula puede ser rechazada.
  • ¿Cuál es la diferencia entre el aprendizaje supervisado un aprendizaje no supervisado?

Se hace referencia al Aprendizaje Supervisado cuando un algoritmo aprende algo de los datos de entrenamiento y este conocimiento se puede aplicar luego a los datos de prueba.

Si el algoritmo no aprende nada de antemano porque no hay variable de respuesta o porque no disponemos de datos de entrenamiento, entonces diremos que estamos ante un Aprendizaje no supervisado. 

faqs

  • ¿Qué es un outlier o valor atípico? ¿Qué es un inlier? ¿Cómo se detectan los valores atípicos y cómo se manipulan?. 

Los valores atípicos:

- Son observaciones que están lejos de las demás observaciones

- Pueden ocurrir por casualidad en cualquier distribución

- A menudo indican un error de medición o una distribución de cola larga

- El error de medición: descartarlos o utilizar la estadística robusta

- Distribución de cola larga: gran asimetría, no puede utilizar las herramientas que suponen una distribución normal

 

Los valores atípicos se pueden identificar mediante gráficos o métodos univariantes. 

Los valores atípicos pueden ser evaluados individualmente o ser sustituidos. 

Todos los valores extremos no son valores atípicos.

Regla de las 3-sigma (datos distribuidos normalmente): 1 de 22 observaciones puedan diferir en dos veces la desviación estándar de la media

Regla de las 3-sigma: 1 de 370 observaciones serán diferentes en tres veces la desviación estándar de la media

Ejemplo: en una muestra de 1000 observaciones, la presencia de hasta 5 observaciones que se desvían de la media en más de tres veces la desviación estándar se encuentra dentro del rango de lo que se puede esperar, al ser menos de dos veces el número esperado y por lo tanto, dentro de 1 desviación estándar del número esperado (distribución de Poisson).

Si la naturaleza de la distribución se conoce a priori, es posible ver si el número de valores atípicos se desvían significativamente de lo que puede esperarse. Para un corte dado (las muestras caen más allá del punto de corte con probabilidad p), el número de valores atípicos se puede aproximar con una distribución de Poisson con lambda = pn. Ejemplo: si se tiene una distribución normal con un corte de 3 desviaciones estándar de la media, p = 0,3% y por lo tanto podemos aproximar el número de muestras cuya desviación sea superior a 3 sigmas por una Poisson con lambda = 3

Outlier. La identificación de valores atípicos:

- No existe un método matemático rígido

- Ejercicio subjetivo: tenga cuidado

- Boxplots

- Gráficos QQ (cuantiles muestrales Vs cuantiles teóricos)

Manejo de los valores extremos:

- Depende de la causa

- Retención: cuando el modelo subyacente es conocido

- Problemas de regresión: sólo excluye los puntos que presenten un alto grado de influencia en los coeficientes estimados (distancia de Cook)

Inlier:

- Observaciones que se encuentan dentro de la distribución general de los demás valores observados

- No perturba los resultados, pero son ? e inusuales

- Un simple ejemplo: una observación registrada en la unidad equivocada (° F en lugar de ° C)

La identificación de inliers:

- Utiliza la distancia a Mahalanobi

- Deséchelos

 

  • ¿Cómo tratar los valores ausentes (datos perdidos o que faltan)?

Si no se identifica ningún patrón en las ausencias entonces los valores ausentes pueden ser sustituidos por la mediana o media (imputación) o simplemente pueden ser ignorados. 

De todas maneras se debe tener cuidado en el porcentaje de valores perdidos que tiene una variable, por ejemplo, si el 80% de los valores de una variable están ausentes, entonces mejor no considerar la variable.

Si los datos faltan por azar: la eliminación no tiene ningún efecto de polarización, pero disminuye el poder del análisis disminuyendo el tamaño efectivo de la muestra

Imputación simple. Sustituir los datos ausentes por los valores medios (o mediana, etc.) de los restantes datos.

   * En general es una mala práctica.

   * Si solo queremos estimar la media, la asignación de valores medios preserva la media de los datos observados.

   * Conduce a una subestimación de la desviación estándar.

   * Distorsiona las relaciones entre las variables "tirando" los estimadores de las correlaciones hacia el cero.

Recomendado: imputación Knn o por mezcla de Gauss 

  • Explique lo qué es un falso positivo y un falso negativo.

Falso positivo: informar incorrectamente la presencia de una condición o efecto cuando no existe realmente. Por ejemplo: test VIH positivo cuando el paciente es en realidad el VIH negativo.

Falso negativo: informar erróneamente la ausencia de una condición cuando en realidad existe. Ejemplo: no detectar una enfermedad cuando el paciente tiene la enfermedad.

  • ¿Qué es la potencia estadística?

   * Sensibilidad de una prueba de hipótesis 

   * Probabilidad de que la prueba rechace correctamente la hipótesis nula cuando la hipótesis alternativa es cierta

   * Capacidad de una prueba para detectar un efecto, si el efecto existe realmente

   * Potencia = P (rechazar H0 | H1 es verdadera)

   * A medida que aumenta la potencia, las posibilidades de error de tipo II (falso negativo) disminuyen

   * Se utiliza en el diseño de experimentos, para calcular el tamaño de muestra mínimo necesaria para que uno pueda razonablemente detectar un efecto. 

   * Se utiliza para comparar las pruebas. Ejemplo: entre una prueba paramétrico y una prueba no paramétrica con la misma hipótesis.

images

  • ¿En que consiste una muestra

Es un subconjunto limitado extraído de una población con el objeto de reducir el campo de experiencias. Las propiedades que obtengamos se harán extensivas a toda la población.

En estadística se conoce como muestreo a la técnica para la selección de una muestra a partir de una población Esto no es más que el procedimiento empleado para obtener una o más muestras de una población; el muestreo es una técnica que sirve para obtener una o más muestras de población.

  • ¿Qué es un individuo en Estadística? 

Cada uno de los elementos del colectivo (la población) que es objeto estudio.

  • ¿Qué es una población en Estadística? 

El conjunto de todos los individuos que son objeto de interés desde un punto de vista estadístico.

La probabilidad mide la frecuencia con la que se obtiene un resultado (o conjunto de resultados) al llevar a cabo un experimento aleatorio, del que se conocen todos los resultados posibles, bajo condiciones suficientemente estables. 

  • ¿Que se entiende por una población homogénea

Es una población que comparte unas mismas características y se entre sí.

  • ¿Que se entiende por un parámetro estadístico?

Se llama parámetro estadísticomedida estadística o parámetro poblacional a un valor representativo de una población, como la media aritmética, la proporción de individuos que presentan determinada característica, o la desviación típica.

Un parámetro es un número que resume la gran cantidad de datos que pueden derivarse del estudio de una variable estadística.

  • ¿Que se entiende por un estimador

Se llama estimación al conjunto de técnicas que permiten dar un valor aproximado de un parámetro de una población a partir de los datos proporcionados por una muestra. 

En estadística, un estimador es un estadístico (esto es, una función de la muestra) usado para estimar un parámetro desconocido de la población. Por ejemplo, si se desea conocer el precio medio de un artículo (el parámetro desconocido) se recogerán observaciones del precio de dicho artículo en diversos establecimientos (la muestra) y la media aritmética de las observaciones puede utilizarse como estimador del precio medio.

  • ¿Que se entiende por error de estimación

Es una medida de su precisión que se corresponde con la amplitud del intervalo de confianza. Cuanta más precisión se desee en la estimación de un parámetro, más estrecho deberá ser el intervalo de confianza y, si se quiere mantener o disminuir el error, más ocurrencias deberán incluirse en la muestra estudiada.

  • ¿Que se entiende por error de muestreo

Es la imprecisión que se comete al estimar una característica de la población de estudio (parámetro) mediante el valor obtenido a partir de una parte o muestra de esa población (estadístico). Este error depende de muchos factores, entre ellos, del procedimiento de extracción de esa parte de la población (diseño muestral), del número de unidades que se extraen (tamaño de la muestra), de la naturaleza de la característica a estimar, etc.

  • ¿Que se entiende por una estimación robusta

La estadística robusta es una aproximación alternativa a los métodos estadísticos clásicos. El objeto es producir estimadores que no sean afectados indebidamente por valores atípicos (outliers) o por variaciones pequeñas respecto a las hipótesis de los modelos.

Por ejemplo, la mediana es un estimador robusto de la centralidad de los datos, y no así la media aritmética.

  • ¿Cuales son las principales debilidades de la media aritmética?

- Es sensible a los valores extremos.

- No es recomendable emplearla en distribuciones muy asimétricas.

- Si se emplean variables discretas o cuasi-cualitativas, la media aritmética puede no pertenecer al conjunto de valores de la variable.

- Es la media aritmética que se utiliza cuando a cada valor de la variable se le otorga una ponderación o peso distinto de la frecuencia o repetición. Para poder calcularla se tendrá que tener en cuenta las ponderaciones de cada uno de los valores que tenga la variable.

images copia

  • ¿Que se entiende por una variable

Una variable es una característica que es medida en diferentes individuos, y que es susceptible de adoptar diferentes valores.

  • ¿En que consiste una variable cualitativa

Los datos de características cualitativas son aquellos que no se pueden expresar numéricamente, corresponden a categorías o niveles. Sí se pueden etiquetar las categorías, es decir, convertir a valores numéricos antes de que se trabaje con ellos.

Las características cualitativas pueden clasificarse como:

Variable cualitativa ordinal: La variable puede tomar distintos valores ordenados siguiendo una escala establecida, aunque no es necesario que el intervalo entre mediciones sea uniforme, por ejemplo, leve, moderado, grave 

Variable cualitativa nominal: En esta variable los valores no pueden ser sometidos a un criterio de orden, por ejemplo los colores o el lugar de residencia.

  • ¿En que consiste una variable cuantitativa

Son aquellas variables que se pueden expresar numéricamente y se obtienen a través de mediciones y conteos. 

Las características cuantitativas pueden clasificarse como:

Variable discreta: Solo puede tomar valores enteros. Es la variable que presenta separaciones o interrupciones en la escala de valores que puede tomar. Estas separaciones o interrupciones indican la ausencia de valores entre los distintos valores específicos que la variable pueda asumir. Ejemplo: El número de hijos (1, 2, 3, 4, 5).

Variable continua:  Puede tomar valores reales (con decimales). Es la variable que puede adquirir cualquier valor dentro de un intervalo especificado de valores. Por ejemplo el peso (2.3 kg, 2.4 kg, 2.5 kg...) o la altura (1.64 m, 1.65 m, 1.66 m...), que solamente está limitado por la precisión del aparato medidor, en teoría permiten que siempre exista un valor entre dos cualesquiera.

Según la influencia que asignemos a unas variables sobre otras, podrán ser:

Variables independientes: Son las que el investigador escoge para establecer agrupaciones en el estudio, clasificando intrínsecamente a los casos del mismo. Un tipo especial son las variables de confusión, que modifican al resto de las variables independientes y que de no tenerse en cuenta adecuadamente pueden alterar los resultados por medio de un sesgo.

Variables dependientes: Son las variables de respuesta que se observan en el estudio y que podrían estar influenciadas por los valores de las variables independientes.

 

Ahora te toca a ti, ¿cuál es esa pregunta estadística que te quita el sueño?

Comentarios (0)

Rated 0 out of 5 based on 0 votes
There are no comments posted here yet

Deja tus comentarios

Posting comment as a guest.
Archivos adjuntos (0 / 3)
Share Your Location
Escribe el texto que se muestra en la siguiente imagen. ¿No lo ves claro?