5 ¿Y ahora qué?

A lo largo del libro discutimos cómo emplear el paquete dplyr para manipular datos. También estudiamos cómo filtrar casos que nos interesan, seleccionar variables, crear nuevas variables y unir objetos con datos. Todas estas son tareas rutinarias cuando empleamos datos.

R es una herramienta versátil y adicionar dplyr la hace una herramienta aún mas versátil. Con estos elementos es posible optimizar el flujo de trabajo cuando empleamos datos para sacar conclusiones.

El flujo de trabajo23 inicia desde la preparación y limpieza de los datos que previamente han sido recolectados y almacenados (ver Figura 5.1). Después se exploran los datos para entender las relaciones entre las variables. Esta parte del proceso puede implicar la visualización de los datos. Posteriormente, pasamos al modelamiento necesario para lograr el objetivo de nuestro análisis. Finalmente, procedemos a la comunicación de los resultados, esto implica generar visualizaciones de nuestros hallazgos. En esta etapa los datos ya se han transformado en una conclusión que permite la toma de decisiones.



Figura 5.1: Flujo de trabajo para pasar de datos a tomar decisiones

Flujo de trabajo para pasar de datos a tomar decisiones



Las herramientas estudiadas en este libro nos facilitan la tarea de preparación y limpieza de los datos para su posterior exploración y modelado. Si te interesan las herramientas que estudiamos en este libro, con seguridad estarás interesado en las herramientas que brinda R para el modelado de los datos y su visualización.

En la comunidad R encontrarás numerosos paquetes para el modelado de los datos. En el siguiente enlace encontrará información de las diferentes temáticas para las cuáles existen paquetes: https://cran.r-project.org/web/views/ . Hay numerosos paquetes, que van desde la estadística, hasta otros relacionados con genética y métricas del medio ambiente, pasando por algoritmos de inteligencia artificial. En el universo de R encontrarás paquetes que te permitirán realizar cualquier actividad que te permita sacarle provecho a datos cuantitativos y cualitativos (Alonso Cifuentes & Ocampo, 2022).

La Visualización facilita la comprensión y el descubrimiento de los datos por medio de gráficos. Las visualizaciones nos permiten tanto entender nuestros datos antes de analizarlos, como comunicar los resultados de un análisis (Alonso Cifuentes & Ocampo, 2022).

El paquete ggplot2 (Wickham, 2016) permite realizar visualizaciones de alta calidad siguiendo una gramática sencilla24. La Figura 5.2 presenta el resumen de los resultados de valoración del desempeño en práctica a un número relativamente grande de estudiantes de un programa de la Universidad Icesi. Las filas representan a cada uno de los estudiantes, y las columnas una pregunta del instrumento utilizado. Los colores representan la valoración en una escala cualitativa. (Alonso Cifuentes & Ocampo, 2022)



Figura 5.2: Visualización de todas las preguntas del intrumento de valoración de estudiantes en práctica de un programa de la Universidad Icesi

Visualización de todas las preguntas del intrumento de valoración de estudiantes en práctica de un programa de la Universidad Icesi
Fuente:Cienfi.

Con R también podemos construir visualizaciones interactivas (ver Figuras 5.3). La Figura 5.3 presenta los datos del paquete gapminder del PIB per cápita (en escala logarítmica) y la esperanza de vida alrededor del mundo para 200725. Este tipo de visualizaciones le permiten al usuario interactuar con los datos. Se pueden apagar los continentes y hacer zoom. Pasa el cursor por encima de un punto para ver la información. (La interacción solo funciona en la versión Web del libro).



Figura 5.3: Gráfico interactivo de la relación del PIB per cápita y la esperanza de vida alrededor del mundo (2007)

Las posibilidades de visualizar los datos con R son numerosas. Un buen inicio para aprender a visualizar datos con R es el paquete ggplot2 (Wickham et al., 2021) . Te invito a leer el siguiente libro de esta serie: “Empezando a Visualizar Datos con R y Ggplot2” (Alonso & Largo, 2022). Espero que esta obra te motive a continuar tu camino de aprendizaje y unirte a la gran comunidad de R. En este universo de R, ¡la imaginación es el límite!

Referencias

Alonso Cifuentes, J. C., & González, A. (2012). Ggplot: Gráficos de alta calidad. Apuntes de Economía, 33, 29. https://www.researchgate.net/publication/323202960_Ggplot_graficos_de_alta_calidad
Alonso Cifuentes, J. C., & Montenegro, S. (2012). Visualización de información georeferenciada en ggplot2. Apuntes de Economía, 35, 16. https://www.researchgate.net/publication/306259435_Visualizacion_de_informacion_georeferenciada_en_ggplot2
Alonso Cifuentes, J. C., & Ocampo, M. P. (2022). Empezando a usaR: Una guía paso a paso. http://www.icesi.edu.co/editorial/empezando-usar
Alonso, J. C., & Largo, M. F. (2022). Empezando a visualizar datos con r y ggplot2. http://www.icesi.edu.co/editorial/empezando-visualizar
Sievert, C. (2020). Interactive web-based data visualization with r, plotly, and shiny. Chapman; Hall/CRC. https://plotly-r.com
Wickham, H. (2016). ggplot2: Elegant graphics for data analysis. Springer-Verlag New York. https://ggplot2.tidyverse.org
Wickham, H., François, R., Henry, L., & Müller, K. (2021). Dplyr: A grammar of data manipulation. https://CRAN.R-project.org/package=dplyr

  1. Para una explicación breve de las actividades en el proceso de análisis de datos puedes ver el video en el siguiente enlace: https://youtu.be/rhLWa-vOxyU .↩︎

  2. En el siguiente enlace encontrarás un video con una breve introducción al paquete ggplot2: https://youtu.be/IVkn7spjZ1Q. Si deseas una introducción algo mas profunda a este paquete puedes consultar Alonso Cifuentes & González (2012), Alonso Cifuentes & Montenegro (2012) o Alonso & Largo (2022). ↩︎

  3. Puedes encontrar una breve introducción a la construcción de gráficos interactivo con el paquete plotly (Sievert, 2020) en el siguiente enlace: https://youtu.be/EWjxic2ce9g . ↩︎