Cómo describir tus datos en R: paso 1
Hola, hoy te traigo una guía paso a paso para explorar tus datos en R y presentarlos de manera clara y significativa.Veremos cómo preparar tablas y gráficos para resumir nuestros datos y darle vida a las estadísticas descriptivas.
Recuerda. Una presentación clara de tus datos te permitirá mostrar la valiosa información que contienen y dará paso a mejores análisis posteriores, facilitando su interpretación y la toma de decisiones.
He dividido este tema en 3 pasos (3 post):
PASO 1. PREPARA TUS DATOS PARA EL ANÁLISIS
IMPORTA E INSPECCIONA TUS DATOS
CLASIFICA TUS DATOS
TRANSFORMA TUS DATOS
• Las variables ordinales son factores.
• Cómo categorizar una variable numérica.
PASO 2. ELIGE LA MEJOR HERRAMIENTA
PASO 3. COMUNICA TUS RESULTADOS EN FORMATO APA
En este post veremos el primer paso, en próximos post incluiré los siguientes.
PASO 1. PREPARA TUS DATOS PARA EL ANÁLISIS
Cuando se preparan los datos para el análisis en R surgen varios desafíos:
• Importar/Cargar los datos en R: ¿Cómo ingresar los datos en R? ¿Cómo es su estructura?
• Inspeccionar los tipos de variables que tenemos: ¿Son categóricas o numéricas?
• Transformar los datos en una forma apropiada para su análisis.
• Gestionar los valores ausentes/perdidos (NA) y de valores atípicos (outliers): ¿Qué hacer con los NA? ¿Y con los outliers?
• Recodificar los valores categóricos: ¿Cómo crear nuevas categorías?
Veremos aquí los temas más generales que pueden automazarse.
ÚLTIMAS PLAZAS EN MASTERS
Máster Data Science
CONVOCATORIA ABIERTA I Logra la máxima precisión y rigor en tus proyectos de Ciencia de Datos.
Ver convocatorias 2022MAster en MAchine learning
CONVOCATORIA ABIERTA | Automatiza procesos y crea tus propios algoritmos de Machine Learning.
Ver convocatorias 2022IMPORTA/CARGA LOS DATOS EN R
Si deseas trabajar con tus propios datos, visita nuestro post de trucos.
EL EJEMPLO DE LAS COBAYAS
Como ejemplo vamos a utilizar aquí los datos ToothGrowth que están disponibles en el conjunto de datos que viene instalado en R por defecto. Se trata de datos donde tenemos la longitud de los dientes (len) de 60 cobayas. Cada animal recibió uno de los tres niveles de dosis de vitamina C (dose, 0,5, 1 y 2 mg / día) mediante uno de los dos métodos de administración (supp) sea jugo de naranja (OJ) o ácido ascórbico (VC, una forma de vitamina C).
* Para acceder a estos datos vamos a activarlos con la función data().
INSPECCIONA TUS DATOS
* Ahora dale un vistazo rápido a los datos con la función head() que nos muestra las primeras 6 filas del conjunto de datos o data.frame.
* Y vamos a consultar la estructura de los datos, cómo son las variables que tenemos disponibles, con la función str().
Aquí vemos que tenemos un data.frame de 60 observaciones y 3 variables, 2 numéricas (len y dose) y 1 factor (supp).
Como siempre, las observaciones o casos se colocan en las filas y las variables se colocan en las columnas de la base de datos. Si este no es tu caso, puedes consultar nuestro post:
¿Cómo reorganizar y resumir tus datos en R?
Si quieres obtener más información sobre estos datos puedes consultar la ayuda de R.
Escribimos ?ToothGrowth en la consola y se abrirá una página en la ventana inferior derecha donde se describen los datos.
CLASIFICA TUS DATOS
Ahora debemos clasificar nuestras variables para comprender qué podemos hacer con ellas. Podemos tener:
- variables categóricas (o factores o variables cualitativas) y
- variables numéricas (o variables cuantitativas).
En el primer grupo podemos además subdividir entre variables nominales u ordinales, según las categorías no tengan un orden de importancia o sí lo tengan, respectivamente. Por ejemplo, el sexo de los sujetos encuestados es una variable nominal, mientras que el nivel de estudio es una variable ordinal porque tenemos los niveles primaria, secundaria, universitario, categorías con orden.
Por otro lado, las variables numéricas, pueden subdividirse en continuas o discretas según consideren datos reales o enteros, con o sin coma, respectivamente. La edad es una variable numérica continua, mientras que el número de hijos es una variable numérica discreta (no podemos tener 1.5 hijos, por ejemplo).
En los datos Toothgrowth, recordemos, tenemos:
- La variable numérica “len” o largo de los dientes, continua.
- La variable categórica nominal “supp” o suplemento de vitamina C, nominal, con categorías OJ o VC.
- La variable categórica ordinal “dose” que está representada como numérica pero realmente solo puede tomar 3 niveles: 0.5, 1 o 2 mg/día. Por lo tanto, esta variable debería ser categórica ordinal, con 3 niveles.
Según el tipo de variable que tengas, cómo debes describirla. Por ejemplo, no puedes pretender calcular la media de la variable sexo :p. Lo veremos al detalle más adelante.
TRANSFORMA TUS DATOS
En algunos casos puede ser necesario que realices transformaciones previas de tus datos antes de describirlos. Te pongo un par de ejemplos.
* Las variables ordinales son factores.
Como hemos visto, para este ejemplo, antes de realizar los análisis descriptivos debemos transformar la variable dose a factor, ya que es una variable ordinal. Esto lo hacemos en la función as.factor().
* Cómo categorizar una variable numérica.
Podemos querer transformar una variable numérica a una categórica, por ejemplo, imagina que nos interesa crear categorías para el largo de dientes (pequeño, mediano o grande) según ciertos intervalos del largo de los dientes.
Pues esto lo podemos hacer con la función cut(), indicándole los límites de los intervalos (breaks) y las etiquetas de dichos intervalos (labels) como se ve a continuación.
¡NOTA! Aquí hay que tener en cuenta que siempre una variable numérica contendrá más información (más variabilidad) que una variable categórica, y que debemos seleccionar las categorías con cuidado basados en la bibliografía previa del tema en cuestión.
Ahora te toca a ti, ponte manos a la obra y cuéntanos tu experiencia.
¡Saludos!
2 comentarios
Muy buena informacion
fac 12 de abril de 2022, 16:24
¡Muchas gracias Fredy!
Rosana Ferrero 12 de abril de 2022, 17:21