1 ¿Por qué usar R?
R (R Core Team, 2018) es un lenguaje de programación de uso libre con una gran comunidad a nivel mundial. La cual al ser activa mantiene a R en constante renovación y actualización, esto lo hace un software poderoso y versátil. R inicialmente fue empleado por estadísticos y científicos para estimar modelos estadísticos, recientemente es también empleado por científicos de datos para desarrollar diferentes etapas del proceso de analítica y automatización de tareas.
Hay múltiples razones para emplear R, entre las cuáles podemos encontrar las siguientes:
R es gratuito. No tenemos que pagar licencias costosas para usar técnicas cuantitativas de punta desarrolladas por científicos alrededor del mundo. R es un software de procesamiento y análisis de datos particularmente popular entre la comunidad científica y estadística, el cual es distribuido gratuitamente bajo licencia pública general (GNU).
R es multiplataforma. R está disponible para usuarios de tres sistemas operativos: Unix-Like, Windows y Mac-OS. Los códigos y análisis que se realizan bajo un sistema operativo pueden ser empleados por otros usuarios que manejen otro sistema operativo.
R tiene métodos estadísticos y de inteligencia artificial de última tecnología, además crece todos los días. R tiene más de 2000 paquetes3 (conjuntos de códigos que se pueden adicionar a R) diseñados para efectuar operaciones especiales. Encontraremos numerosos paquetes para realizar numerosas tareas y cálculos. Es poco común encontrar un método estadístico o de inteligencia artificial, para el cuál no exista ya un paquete. Los paquetes también son gratuitos.
R tiene documentación en línea de buena calidad y completa construida por una comunidad científica excepcional. Esto hace que R se encuentre respaldado por la comunidad científica.
R crea gráficos de alta calidad. R crea visualizaciones sensacionales incomparables a los de otros paquetes gratuitos o pagos4. Adicionalmente, es posible crear visualizaciones interactivas5.
R nos hace pensar en cómo resolver el problema. Al ser un lenguaje de programación, es necesario pensar en los pasos necesarios para resolver el problema. La interfaz de línea de comando es ideal para aprender haciendo.
R permite hacer investigación reproducible (reproducible research). Es decir, R permite documentar los resultados obtenidos paso a paso, mostrando el flujo completo de procesamiento de los datos por medios de scripts e informes que cualquier investigador puede constatar. La reproducibilidad en la investigación es importante debido a que garantiza transparencia y confianza en los hallazgos. Además, la reproducibilidad permite entender el procedimiento realizado paso a paso.
Con R puede hacerse “lo mismo” de diversas formas Al ser un lenguaje de programación, cada persona puede expresarse de manera diferente para resolver una misma pregunta y llegar a una misma respuesta.
R no es solamente utilizado en la academia, también es empleado en diferentes áreas de la industria. Las organizaciones emplean cada vez más a R para hacer análisis de datos y responder sus preguntas de negocio (business analytics). Esto hace que los profesionales que son usuarios de R tengan ventajas al conseguir un trabajo en la industria, frente a aquellos que no lo emplean.
R está listo para trabajar en el mundo del Big Data y business analytics. Por eso, cada vez más científicos de datos emplean este software para sus análisis como parte de un arsenal de lenguajes disponibles para hacer ciencia de datos.
R se integra a otros softwares. Cada vez son más los softwares comerciales que crean “puertas” para realizar análisis en R y poderlos integrar al flujo de trabajo diario. También es posible integrar el uso de R con otros lenguajes como Python.
R permite el cálculo distribuido. R puede emplear los diferentes núcleos que tienen los computadores en la actualidad, de esta manera permite realizar cálculos distribuidos en diferentes núcleos de procesamiento de los computadores. Lo anterior agiliza los cálculos, reduciendo los tiempos de procesamiento.
En últimas, R es una comunidad de colaboración alrededor del mundo que está disponible de manera gratuita para quien desee emplearla. En la actualidad, este lenguaje de programación estadístico permite realizar desde cálculos muy sencillos, hasta programar diferentes rutinas que permiten realizar operaciones más complejas, a partir de líneas de código.
El proyecto R inicia en 1992 en la Universidad de Auckland en Nueva Zelanda. Los profesores Robert Gentleman y Ross Ihaka crearon este software como una evolución del software estadístico comercial S-PLUS. El nombre de R se originó por las iniciales de sus primeros autores, pero también como un símbolo de evolución sobre el software comercial S-PLUS. En 1995 apareció la primera versión de R distribuida como software de código abierto bajo el tipo de licencia GPL2. En 1997 se conforma el Core Team que desarrolla constantemente a R.
La primera versión estable de R fue publicada el 29 de febrero de 2000. En ese momento la comunidad de R creció inicialmente entre los estadísticos. Posteriormente, la comunidad científica de diferentes áreas del conocimiento comenzó a adoptar R, haciendo de este un lenguaje estadístico alternativo a los softwares comerciales disponibles. Hoy, R ha superado el mundo de la estadística y se ha convertido en un lenguaje para procesar y visualizar datos, incluyendoal mundo del Big Data. En 2020 se lanzó la versión 4.0 de R tras 20 años de crecimiento exponencial de los usuarios de este lenguaje de programación.
Toda la información relacionada con R puede ser encontrada en “Proyecto R” (R project en inglés). Los archivos del paquete central y los demás paquetes se pueden encontrar en la CRAN (Comprehensive R Archive Network), a la cual puede accederse a través de una serie de mirrors distribuidos en todo el mundo. Por ejemplo, la Universidad Icesi mantiene un mirror de R, al cual se accede a través de la página http://www.icesi.edu.co/CRAN/. Existen diferentes mirrors en los cinco continentes.
Debido a que la interfaz de R puede ser poco amigable con un usuario sin experiencia o familiarizado con códigos y scripts de programación, se han desarrollado diferentes interfaces para hacer más agradable su visualización. Ejemplos de ellas van desde aproximaciones que permiten el uso de R con el ratón usando clic como RCommander (Fox, 2017)6, hasta RStudio que provee una interfaz amigable para controlar a R empleando comandos como se haría directamente en R. RStudio fue diseñado para facilitar el trabajo en R sin importar la tarea desempeñada7. Otra opción es Tinn-R que sólo está disponible para Windows8.
En el Capítulo 2 veremos el paso a paso de la instalación de R y RStudio para que podamos empezar a correr los primeros códigos. Posteriormente, en el Capítulo 3 discutiremos las partes que componen la interfaz de R y RStudio. En el Capítulo 4 presentaremos una introducción a los objetos de R y cómo hacer operaciones básicas. En el Capítulo 5 se presentan los objetos más sencillos y algunos compuestos. En el Capítulo 6 se presenta el directorio de trabajo de R. En el Capítulo 7 se ofrece una introducción a los paquetes en R. Finalmente, en el Capítulo 8 se muestran diferentes maneras de cargar una base de datos en R.
Referencias
En el enlace https://cran.r-project.org/web/views/ se puede encontrar un listado no comprensivo de paquetes organizados por temas.↩︎
Algunos ejemplos de visualizaciones creadas en R se pueden encontrar en la Galería de Gráficos de R↩︎
Algunos ejemplos de visualizaciones creadas en R se pueden encontrar en la página web del Cienfi. Por ejemplo, en este link encontraras algunas visualizaciones interactivas.↩︎
Para una introducción a Rcommander puede consultar a Alonso Cifuentes & Jaramillo (2011) .↩︎
RStudio puede ser descargado desde http://www.rstudio.com/ide/download/ para cualquier sistema operativo↩︎
Se puede descargar desde http://sourceforge.net/projects/tinn-r/.↩︎