Trucos de R Y RStudio que no mucha gente conoce
Hoy comparto contigo algunos de mis secretos. Trucos muy útiles para importar, manipular y graficar tus datos con R y RStudio, en pocos pasos y de forma interactiva.
Toma nota, porque estos trucos de R y RStudio ¡no muchos los conocen!
En post anteriores te he hablado de R y RStudio, por eso ya sabrás que para mí y para miles de Data Scientists estas herramientas son el támdem perfecto para el análisis estadístico.
Y hoy quiero compartir contigo unos trucos realmente útiles para que importes, manipules y grafiques tus datos de manera sencilla con R/RStudio, ¡en muy pocos pasos y de forma interactiva!
Veremos cómo con una única función o con un solo clic puedes comenzar a analizar tus datos en R/RStudio:
- Selecciona archivos con Import Dataset
- Manipula tus datos con View
- Grafica de manera automática
- Customiza tu gráfico ggplot2
? ¡Manos a la obra!
Selecciona archivos con Import Dataset
RStudio incluye nuevas características para importar datos de manera interactiva: archivos csv, xls, xlsx, sav, dta, por, sas y stata.
Te voy a mostrar cómo importar tus archivos de manera interactiva en 3 sencillos pasos:
1.SELECCIONA. Elige los datos que quieres importar desde el panel de entorno (ventana superior derecha de R: Environment-> Import Dataset):
O hazlo desde el menú de herramientas (Tools->Import Dataset):
Puedes importar 3 tipos de datos:
- Datos delimitados (.csv)
- Datos de Excel (.xls o .xlsx)
- Datos estadísticos (se SPSS .sav, de SAS .sas o de Stata .stata)
2. CUSTOMIZA. Se abrirá un panel donde te permite especificar/controlar ciertos pasos en la importación. Según el caso podrás:
- Escribir el nombre del objeto resultante
- Especificar los decimales (con punto “.” o coma “,”)
- Indicar si tienes nombres en las filas
- Especificar el tipo de separador (con comillas simples “ o punto y coma ; )
- Importar desde el sistema de archivos o desde una url
- Cambiar los tipos de datos de columna
- Incluir o no determinadas columnas
- Cambiar el nombre del conjunto de datos
- Omitir las primeras N filas
- Usar la fila de encabezado para los nombres de columna
- Recortar espacios en los nombres
- Cambiar el delimitador de columna
- Seleccionar el tipo de codificación
- Seleccionar los identificadores de entrecomillado, comentario y NA
Podrás ir viendo cómo será el objeto resultante para evitar errores.
3. EJECUTA. El último paso es hacer clic en «import» para ejecutar el código, importar los datos y abrir una ventana para visualizarlos.
IMPORTANTE: El mayor problema con el uso de la opción interactiva es que pierde la reproducibilidad de su código. Si el archivo se va a quedar en el mismo lugar, es mejor copiar y pegar el código que has generado en el lugar donde lo vas a usar.
Manipula tus datos con View
El visor También te permite mirar dentro de tus datos y realizar algunos análisis exploratorio (EDA) para ayudarte a comprender los datos.
Abre el visor
Como te comenté en el caso anterior, cuando importas tus datos de manera interactiva automáticamente se abrirá un visor con los datos importados. En caso de que quieras abrir el visor por ti mismo puedes hacerlo de 2 maneras:
1.Utilizando la función View(). Por ejemplo, para visualizar los datos famosos de lirios carga los datos y luego pide visualizarlos:
> data(iris) > View(iris)
Se abrirá una pestaña en la ventana superior izquierda de RStudio, así:
2.Haciendo clic en el icono de datos de la ventana superior derecha de RStudio, en el panel de entorno (Environment):
¿Cómo manipular tus datos desde el visor?
ORDENAR. Puedes ordenar los datos según una columna simplemente haciendo seleccionando la columna.
Por ejemplo, para ordenar la tabla según valores crecientes de Sepal.Length:
Aparecerá un triángulo azul para indicarle lo que ha realizado. Si vuelves a pinchar sobre él se ordenarán los datos de manera decreciente según esa columna.
Para eliminar la clasificación y mostrar los datos en el orden en que R lo ve, haz clic en la celda vacía en la esquina superior izquierda.
FILTRAR. Para aplicar filtros, haz clic en el icono de Filter en la barra de herramientas.
Cualquier campo que se pueda filtrar tendrá un cuadro blanco etiquetado como «All». Haz clic en este cuadro para cambiar los valores que desea ver. Por ejemplo, para filtrar iris con un ancho de sépalo superior a 3.6:
En la parte inferior de la tabla se indicará cuántos registros contiene el conjunto de datos antes y después del filtrado; en este caso, hemos filtrado 135 registros de un total de 150.
Si aplicas dos filtros de columna, verás solo registros que coincidan con ambos.
Puedes borrar los filtros individuales haciendo clic en (x) al lado del filtro; para borrar todos los filtros a la vez, haga clic en el icono de Filtro en la barra de herramientas.
BUSCAR. Busca un número, un valor lógico (TRUE o FALSE) o un texto.
Puedes buscar un número, un valor lógico (TRUE o FALSE) o un texto en todas las columnas de tus datos escribiendo en el cuadro de filtro global. Por ejemplo, si buscamos los casos que corresponden a la especie virgínica:
IMPORTANTE: Por el momento no es posible extraer la «vista actual» como un objeto R, o guardar en un código R las manipulaciones que hayas realizado de manera interactiva.
Grafica de manera automática
La función ggpairs del paquete GGally genera una matriz de gráficos a partir de un conjunto de datos. Automáticamente identifica los tipos de variables que tenemos y las gráficas de manera adecuada. También calcula las correlaciones lineales entre variables numéricas.
Por ejemplo, para los datos de lirios, escribe en la consola:
> library(GGally) > ggpairs(iris, mapping = aes(colour = Species))
Se generará el siguiente gráfico:
Los gráficos son un paso crucial en el análisis exploratorio de tus datos.
Customiza tu gráfico ggplot2
ggThemeAssist es un complemento (addin) de RStudio que usa el paquete rstudioapi para brindarte una GUI donde puedes editar tus gráficos ggplot2.
Necesitarás la versión más reciente (estable) de RStudio (v0.99.878 o posterior). Instalar el paquete desde CRAN:
> install.packages("ggThemeAssist")
O desde Github usando el paquete devtools:
> if (!requireNamespace("devtool", quietly = TRUE)) install.packages("devtools") > devtools::install_github("calligross/ggthemeassist")
La función ggThemeAssist estará disponible en el menú Addins en RStudio:
Para editar gráficos de ggplot2, simplemente resalte un objeto ggplot2 en su secuencia de comandos actual y ejecute el complemento.
Por ejemplo, para los datos de lirios, puedes escribir en un archivo de código:
> library(GGally) > library(ggplot2) > gg<-ggplot(data=iris, aes(x = Sepal.Length, y = Sepal.Width)) + geom_point(aes(color=Species, shape=Species)) + xlab("Sepal Length") + ylab("Sepal Width") + ggtitle("Sepal Length-Width") > gg
Subraya el objeto gg y presiona el Addins ggplot Theme Assistant como se muestra en la imagen:
Puedes customizar tu gráfico como quieras, y cuando finalices (Done) se insertará en tu hoja de código las operaciones que has realizado en la notación estándar de ggplot2. Si más adelante necesitas volver a realizar estos pasos, puedes simplemente ejecutar los comandos que has creado.
¡Así de fácil!
Espero que estos trucos te hayan resultado prácticos
¿Quieres compartir los tuyos? Espero tus comentarios.
¡Nos vemos en el próximo post!
FUENTES
- Selecciona archivos con Import Dataset > https://support.rstudio.com/hc/en-us/articles/218611977-Importing-Data-with-RStudio
- Manipula tus datos con View > https://support.rstudio.com/hc/en-us/articles/205175388-Using-the-Data-Viewer
- Grafica de manera automática > http://ggobi.github.io/ggally/#columns_and_mapping
- Customiza tu gráfico ggplot2 > https://github.com/calligross/ggthemeassist
0 comentarios
Nadie ha publicado ningún comentario aún. ¡Se tu la primera persona!