9 ¿Y ahora qué?

A lo largo del libro discutimos cómo empezar a usar la herramienta R. Estudiamos desde su descarga, instalación, la descripción de sus componentes, hasta entender la sintaxis básica del lenguaje, la creación de los objetos y sus diferentes clases. Finalmente, vimos como cargar bases de datos en diferentes formatos.

R es una herramienta versátil que nos permite encontrar paquetes y material específico en diferentes disciplinas, en el siguiente enlace puedes encontrar información de estas diferentes temáticas: https://cran.r-project.org/web/views/. Desde epidemiología, psicometría, econometría y estadística, hasta paquetes relacionados con genética y métricas de medio ambiente, pasando por algoritmos de inteligencia artificial. En el universo de R encontrarás paquetes que te permitirán realizar cualquier actividad que te permita sacarle provecho a datos cuantitativos y cualitativos.

Después de cargar los datos nuestro objetivo es transformarlos en información, conocimiento, entendimiento y ojalá sabiduría (Ver Figura 9.1 y Alonso Cifuentes & Quintero Villarreal (2021) para una mayor discusión). Cuando encontramos relaciones en los datos generamos información que permite comprender lo ocurrido en el pasado. La información implica encontrar relaciones en un contexto de manera que se proporciona una historia útil detrás de los datos.

Figura 9.1: Pirámide del Conocimiento

Pirámide del Conocimiento
Fuente:Adaptación de Alonso Cifuentes y Quintero Villarreal (2021).

Si además encontramos patrones en el comportamiento de los datos, generamos conocimiento sobre lo ocurrido en el pasado. El conocimiento es información que ha sido comprendida en su contexto de manera que se logran encontrar patrones de comportamiento. Esto nos permitirá encontrar aplicaciones a ese entendimiento.

Si adicionalmente se logra explicar el cómo y el por qué de algo o se encuentra una visión y comprensión de los datos generamos entendimiento. Finalmente, en algunas ocasiones se encuentra sabiduría, si el entendimiento puede enmarcarse en una estructura. Así se ubica al conocimiento en un marco teórico que permite aplicar el entendimiento a situaciones diferentes y no de manera intuitiva.

Para superar la etapa de tener datos y subir en esa pirámide de conocimiento, tenemos a nuestra disposición diferentes herramientas estadísticas y algoritmos de aprendizaje de máquina que se pueden en general agrupar en ocho categorías. Estas tareas son:

  • Resumir
  • Visualizar
  • Agrupar o clustering
  • Clasificar
  • Detectar excepciones
  • Asociar
  • Estimar regresiones
  • Pronosticar

Resumir implica simplificar la representación de los datos para generar información. Podemos emplear R para calcular estadísticas descriptivas y resumir grupos de variables empleando técnicas como el análisis de componentes principales23.

La visualización facilita la comprensión y el descubrimiento de los datos por medio de gráficos. En muchas ocasiones una imagen dice mas que mil palabras. Las visualizaciones nos permiten tanto entender nuestros datos antes de analizarlos como comunicar los resultados de un análisis.

R tiene el paquete ggplot2(Wickham, 2016) que permite realizar visualizaciones de gran calidad24. En las Figuras 9.2, 9.3 y 9.4 se muestran diferentes ejemplos de visualizaciones realizadas en R. Por ejemplo, la Figura 9.2 presenta el resumen de los resultados tras aplicar una valoración de desempeño en práctica a un número grande de practicantes. Las filas representan a cada uno de los estudiantes, y las columnas cada una de las preguntas del instrumento (formulario) utilizado. Los colores simbolizan la valoración en una escala cualitativa. Nota que esta visualización permite resumir muchos datos y permite brindar información sobre el resultado.

Figura 9.2: Visualización de todas las preguntas del intrumento de valoración de estudiantes en práctica de la Universidad Icesi

Visualización de todas las preguntas del intrumento de valoración de estudiantes en práctica de la Universidad Icesi
Fuente:Cienfi.

La Figura 9.3 presenta una visualización de la distribución de la esperanza de vida al nacer en cada uno de los países disponibles en la base de datos gapminder del paquete con el mismo nombre (para una discusión de esta base de datos ver la sección 8.2 ) y empleando el paquete ggstatsplot (Patil, 2021). Esta visualización permite ver la espera de vida al nacer en el año 2007 (cada punto es un país). Además se observa cómo se distribuye la esperanza de vida al nacer por medio de gráficos de violines25. Pero la visualización tiene además información de pruebas estadísticas para comparar las medias de los diferentes continentes.

Figura 9.3: Gráfico de violines y prueba de comparación de media por continentes para la esperanza de vida al nacer alrededor del mundo (2007)

Gráfico de violines y prueba de comparación de media por continentes para la esperanza de vida  al nacer alrededor del mundo (2007)
Fuente:Cienfi.

Y también podemos visualizar información cualitativa de textos como se muestra en la nube de palabras26 de la Figura 9.4. En dicha nube se resumen los discursos del Presidente Juan Manuel Santos y Rodrigo Londoño (conocido como Timochenco), el día 24 de noviembre de 2016 cuando se firma el Acuerdo de Paz entre el Estado Colombiano y las Fuerzas Armadas Revolucionarias de Colombia - Ejército del Pueblo (FARC-EP).

Figura 9.4: Nube de palabras de los discursos al momento de la firma de del Acuerdo de Paz entre el Estado Colombiano y las FARC-EP (24 de noviembre de 2016)

Nube de palabras de los discursos al momento de la firma de del Acuerdo de Paz entre el Estado Colombiano y las FARC-EP (24 de noviembre de 2016)
Fuente:Tomado de Alonso Cifuentes (2020b).

R también permite la construcción de visualizaciones interactivas27 y animadas como los que se presentan en la Figuras 9.5 y 9.6, respectivamente (estas figuras solo son interactivas en la versión html del libro).

La Figura 9.5 presenta los datos del paquete gapminer del PIB per cápita (en escala lograítmica) y la esperanza de vida alrededor del mundo para 2007. Este tipo de visualizaciones le permiten al usuario interactuar con los datos. ¡Te invito a que juegues con el gráfico! se pueden apagar los continentes y hacer zoom. Pasa el cursor por encima de un punto para ver la información. (La interacción solo funciona en la versión Web del libro).

Figura 9.5: Gráfico interactivo de la relacion del PIB per cápita y la esperanza de vida al nacer alrededor del mundo (2007)

A diferencia de la Figura 9.5 la 9.6 no es interactiva , pero si permite ver la evolución en el tiempo de la misma relación representada anteriormente. Esta figura animada fue creada con el paquete gganimate (Pedersen & Robinson, 2020). La animación solo funciona en la versión web del libro. Aquí podemos ver cómo, por continente, han mejorado tanto la esperanza de vida como el PIB per cápita.

Podríamos llenar hojas y hojas con visualizaciones interesantes, pero ya te hisciste una idea de las potencialidades de emplear visualizaciones para comunicar mensajes.

Figura 9.6: Visualización animada de la evolución del PIB per cápita y la esperanza de vida alrededor del mundo (1952-2007).

Visualización animada de la evolución del PIB per cápita y la esperanza de vida  alrededor del mundo (1952-2007).
Fuente:Tomado de Alonso Cifuentes (2020b).

Regresando a las tareas que podemos realizar con los datos, el clustering28 parte de una muestra para encontrar grupos de elementos similares. Por ejemplo, a partir de conjunto de clientes podemos, por medio de un modelo de clustering, crear tres grupos de clientes de acuerdo con ciertas características. Esto se conoce en el mercadeo como segmentación de clientes.

La tarea de clasificación29 tiene como finalidad predecir la categoría de un individuo. Por ejemplo, en algunas situaciones se deseará determinar si un nuevo cliente comprará o no nuestro producto. En este caso las categorías son compra o no compra. Otro tipo de preguntas que puede resolver esta tarea son ¿se irá el cliente?, ¿pagará el crédito? y, ¿será el individuo un buen match para la posición?

La tarea de detección de excepciones tiene como objetivo encontrar individuos con características o comportamiento diferentes. La tarea de encontrar asociaciones busca reglas de coocurrencia de productos en diferentes canastas. Es decir, busca cuáles productos son comprados regularmente al mismo tiempo que otros para poder sugerir composición de canastas. Estos modelos intentan encontrar la estructura de los datos sin la necesidad de enseñarle al algoritmo cuáles son las coocurrencias.

La tarea de estimar regresiones implica encontrar relaciones entre muchas variables y una variable cuantitativa de interés. Esto es tanto para entender qué variables están asociadas a un fenómeno, como para simular el comportamiento en diferentes escenarios.

Finalmente, la tarea de generar pronósticos implica predecir el comportamiento futuro de una variable cuantitativa. Para esto se emplean los patrones de comportamiento pasados para extrapolarlas al futuro.

Como ves el camino es largo y hay muchas tareas que podrás estudiar a tu ritmo. Todas podrán ser efectuadas con R. Esperamos que esta libro te motive a continuar tu camino de aprendizaje y unirte a la gran comunidad de R. En este universo de R, ¡la imaginación es el límite!

Referencias

Alonso Cifuentes, J. C. (2020a). Herramientas del business analitycs en r: Análisis de componentes principales para resumir variables. Universidad Icesi. https://www.researchgate.net/publication/341829708_Herramientas_del_Business_Analitycs_en_R_Analisis_de_Componentes_Principales_para_resumir_variables
Alonso Cifuentes, J. C. (2020b). Una introducción a la construcción de word clouds (para economistas) en r. Economics Lecture Notes, 9, 1–28. https://www.researchgate.net/publication/341829699_Una_introduccion_a_la_construccion_de_Word_Clouds_para_economistas_en_R
Alonso Cifuentes, J. C., & González, A. (2012). Ggplot: Gráficos de alta calidad. Apuntes de Economía, 33, 29. https://www.researchgate.net/publication/323202960_Ggplot_graficos_de_alta_calidad
Alonso Cifuentes, J. C., & Montenegro, S. (2012). Visualización de información georeferenciada en ggplot2. Apuntes de Economía, 35, 16. https://www.researchgate.net/publication/306259435_Visualizacion_de_informacion_georeferenciada_en_ggplot2
Alonso Cifuentes, J. C., & Quintero Villarreal, L. M. (2021). Guía de buenas prácticas para la mitigación del riesgo de modelo de analítica.
Patil, I. (2021). Visualizations with statistical details: The ’ggstatsplot’ approach. Journal of Open Source Software, 6(61), 3167. https://doi.org/10.21105/joss.03167
Pedersen, T. L., & Robinson, D. (2020). Gganimate: A grammar of animated graphics. https://CRAN.R-project.org/package=gganimate
Sievert, C. (2020). Interactive web-based data visualization with r, plotly, and shiny. Chapman; Hall/CRC. https://plotly-r.com
Wickham, H. (2016). ggplot2: Elegant graphics for data analysis. Springer-Verlag New York. https://ggplot2.tidyverse.org

  1. En el siguiente enlace podrás encontrar una breve introducción a la lógica del PCA: https://youtu.be/-EQFB_iiqd4. Si quieres ver cómo implementar esta técnica en R puedes encontrar una introducción en Alonso Cifuentes (2020a) . ↩︎

  2. En el siguiente enlace encontrarás un video con una breve introducción al paquete ggplot2: https://youtu.be/IVkn7spjZ1Q. Si deseas una introducción algo mas profunda a este paquete puedes consultar Alonso Cifuentes & González (2012) y Alonso Cifuentes & Montenegro (2012). ↩︎

  3. Para una breve explicación de como interpretar los gráficos de violines puedes ver el siguiente video: https://youtu.be/FQZzjb2LiK8↩︎

  4. En el siguiente enlace puede observar una breve introducción a las nubes de palabras: https://youtu.be/EvDAbWPMqiQ . Y para una introducción de cómo construir las nubes de palabras en R puedes leer Alonso Cifuentes (2020b) .↩︎

  5. Puedes encontrar una breve introducción a la construcción de gráficos interactivo con el paquete plotly (Sievert, 2020) en el siguiente enlace: https://youtu.be/EWjxic2ce9g . ↩︎

  6. Puedes encontrar una breve introducción a la tareas de clustering o agregación en el siguiente video: https://youtu.be/z0LX3sBSuXg .↩︎

  7. Puedes encontrar una breve introducción a la tarea de clasificación en el siguiente video: https://youtu.be/0K7ryP0uKGo .↩︎