Prefacio

Tras varios años de emplear parte del material que conforma esta obra como notas de clase de un curso de análisis cuantitativo de la Maestría en Ciencia de datos de la Universidad Icesi de Cali, decidimos convertir estas notas en una obra autocontenida. Los contenidos de los capítulos y su arquitectura, son producto de los comentarios valiosos de los estudiantes de este curso y los investigadores del Cienfi, con quienes estoy infinitamente agradecido.

En la práctica es común encontrarse con científicos de datos que emplean el modelo de regresión múltiple para resolver preguntas de negocio. Si bien es popular ese uso, es poco frecuente observar en la práctica el chequeo de todos los supuestos que están detrás de este modelo y que hacen que éste pueda generar respuestas adecuadas.

El objetivo de este libro es presentar el modelo estadístico clásico de regresión múltiple con toda la formalidad posible a los científicos de datos. Para lograr este objetivo se presenta una mezcla entre los fundamentos (estadísticos y de álgebra lineal) teóricos del modelo y cómo llevarlo a la práctica empleando R.

En el Capítulo 1 se presenta una introducción a las diferentes tareas que puede desarrollar con datos un científico de datos y tipos de analítica. Se introduce la noción de analítica diagnóstica, predictiva y prescriptiva. Posteriormente, en los Capítulos 2 al 4 se presenta el modelo clásico de regresión múltiple. En esta parte del libro se discute el modelo como tal, la inferencia en este, las medidas de bondad de ajuste y cómo comparar modelos. La segunda parte del libro (Extendiendo el modelo clásico de regresión múltiple) comprende los Capítulos 5 al 7. En esta parte se introducen dos herramientas poderosas para los científicos de datos: las variables dummy y la selección automática de modelos. Esta sección culmina con nuestro primer caso completo de aplicación. Este caso emplea lo estudiado hasta ese momento para mostrar paso a paso cómo responder una pregunta de negocio empleando el modelo clásico de regresión múltiple. La tercera parte del libro (Problemas econométricos) discute problemas con los datos como la multicolinealidad (Capítulo 8), y las implicaciones y cómo resolver las violaciones de supuestos como la heteroscedasticidad (Capítulo 9) y la autocorrelación (Capítulo 11). Esta sección concluye actualizando nuestro primer caso de aplicación chequeando el cumplimiento de los supuestos del modelo y corrigiendo los problemas detectados. La cuarta sección del libro discute cómo se puede emplear el modelo de regresión para hacer analítica predictiva (Capítulo 12 y presenta un caso práctico que integra todo lo estudiado en este libro (Capítulo 13. En la quinta sección del libro (Apéndices: Conceptos básicos álgebra matricial y estadística) se puede encontrar dos capítulos que recogen los fundamentos estadísticos y de álgebra matricial necesarios para seguir la argumentación formal del libro. La última sección presenta la respuesta a algunos ejercicios que se sugieren al final de cada uno de los capítulos de las primeras tres secciones del libro.

Este libro supone que el lector tiene un manejo básico de R2. Se espera del lector que pueda cargar diferentes formatos de archivos a R, conozca las principales clases de objetos (en especial los objetos de clase data.frame) y pueda realizar gráficas básicas. Por otro lado, el libro también supone un conocimiento básico de estadística3 y álgebra matricial4.

Referencias

Alonso, J. C., & Ocampo, M. P. (2022). Empezando a usaR: Una guía paso a paso. Universidad Icesi- In press.

  1. Para una introducción a R ver Alonso & Ocampo (2022).↩︎

  2. En el Capítulo 15 se presenta un repaso de los conceptos de la estadística, necesarios para seguir los argumentos de este libro.↩︎

  3. En el Capítulo 14 se presenta un repaso de los conceptos de álgebra matricial, necesarios para seguir los argumentos de este libro.↩︎