Prefacio

Tras varios años de emplear parte del material que conforma esta obra como notas de clase del curso Introducción al Business Analytics de la Universidad Icesi, decidimos convertir estas notas en una obra autocontenida. Los contenidos de los capítulos y su arquitectura, son producto de los comentarios valiosos de los estudiantes de este curso y los investigadores del Cienfi, con quienes estamos agradecido.

Este libro presenta una introducción a los modelos estadísticos y de aprendizaje de máquina que permiten realizar la tarea de clasificación. La discusión de los diferentes capítulos está dirigida a personas que están empezando su formación de científico de datos.

Este libro supone un uso intermedio de R (R Core Team, 2023). Si crees que necesitas algún refuerzo en R, recomendamos tres libros. Alonso & Ocampo (2022) presenta una breve introducción para iniciar a usar R. Ese primer libro discute cómo instalar R y RStudio y paquetes, cómo cargar diferentes bases de datos y cómo realizar operaciones aritméticas y lógicas con objetos. En Alonso & Ocampo (2022) también se discuten las clases esenciales de objetos sencillos y compuestos. No dudes en consultar ese primer libro si aún no has iniciado tu camino por el universo de R.

El segundo libro de la serie (Alonso, 2022) presenta una breve introducción al paquete para dplyr (Wickham et al., 2021) que permite manipular objetos que contengan datos. En ese libro se discute cómo filtrar observaciones, crear nuevas variables y combinar objetos con datos. Es recomendable tener un conocimiento de ese paquete antes de leer esta obra. Consulta ese segundo libro si aún no has tenido alguna experiencia manipulando objetos con datos con dplyr.

Finalmente, recomendamos (Alonso & Largo, 2023) en el que se presenta una introducción a la creación de visualizaciones con el paquete ggplot2 (Wickham, 2016). En esta obra emplearemos visualizaciones empleando este paquete. Así este libro asume un manejo intermedio de R, y los paquetes dplyr y ggplot2.

Por otro lado, un manejo del modelo de regresión múltiple conceptualmente y en R es deseable. Alonso (2024) te puede brindar una introducción a la fundamentación formal del modelo de regresión y cómo estimar estos modelos y chequear sus supuestos en R.

Esta obra recoge nuestra experiencia trabajando con R y los modelos de clasificación para resolver problemas con datos desde el Cienfi (Centro de Investigación en Economía y Finanzas) de la Universidad Icesi. En el Cienfi, empleamos R para la transformación de datos en conclusiones que faciliten la toma de decisiones en organizaciones privadas y públicas.

¡Esperamos encuentres esta obra útil y la compartas con otros! Si tienes alguna sugerencia del libro o corrección, no dudes en escribirnos. Esta es una obra en constante construcción.

Referencias

Alonso, J. C. (2022). Empezando a transformar bases de datos con r y dplyr. Universidad Icesi. https://doi.org/10.18046/EUI/bda.h.2
Alonso, J. C. (2024). Introducción al modelo clásico de regresión para científico de datos en r. Universidad Icesi. https://doi.org/XXXX
Alonso, J. C., & Largo, M. F. (2023). Empezando a visualizar datos con r y ggplot2. (2. ed.). Universidad Icesi. https://doi.org/10.18046/EUI/bda.h.3.2
Alonso, J. C., & Ocampo, M. P. (2022). Empezando a usaR: Una guía paso a paso. Universidad Icesi. https://doi.org/doi.org/10.18046/EUI/bda.h.1
R Core Team. (2023). R: A language and environment for statistical computing. R Foundation for Statistical Computing. https://www.R-project.org/
Wickham, H. (2016). ggplot2: Elegant graphics for data analysis. Springer-Verlag New York. https://ggplot2.tidyverse.org
Wickham, H., François, R., Henry, L., & Müller, K. (2021). Dplyr: A grammar of data manipulation. https://CRAN.R-project.org/package=dplyr