Unidadii I
Unidadii I
Unidadii I
INSTRUDUCCIÓN
Diplomatura en Ciencia de Datos orientada la las Ciencias Sociales
19/05/2023
¿Qué es R?
De manera resumida podremos decir que R es un lenguaje de programación (muy popular) y un software
gratuito (en parte) de código abierto, es muy utilizado en el análisis de datos y la ciencia de datos. R
es especialmente poderoso para realizar cálculos estadísticos avanzados y crear gráficos. Entre uno de los
paquetes para análisis de datos, existen algunos de ellos dedicados para en análisis de datos espaciales, como
también paquetes para el manejo de datos geoespaciales tanto vectoriales como ráster.
R proporciona más de 18.000 paquetes de ciencia de datos dedicados (de acuerdo al último registro de 2022),
tanto multipropósito como de especialización limitada. Es una tecnología que cuenta con el respaldo de una
comunidad en línea activa y útil y es compatible con varios sistemas operativos.
Si desea profundizar puede ingresar al sitio oficial Proyecto R
¿Qué es RStudio?
RStudio es un IDE (entorno de desarrollo integrado) flexible y multifuncional de código abierto que se usa
ampliamente como una interfaz gráfica para trabajar con R de la versión 3.0.1 o superior. Además, también
está adaptado a muchos otros lenguajes de programación, como Python o SQL.
RStudio ofrece numerosas funciones útiles:
• La primera de ella es que es una interfaz fácil de usar a diferencia de la interfaces propia de R
• La capacidad de escribir y guardar scripts reutilizables.
• Fácil acceso a todos los datos importados y objetos creados (como variables, funciones, etc.)
• Ayuda exhaustiva sobre cualquier objeto
• Autocompletado de código (una gran ayuda)
• La capacidad de crear proyectos para organizar y compartir su trabajo con sus colaboradores de manera
más eficiente (es muy importante para aquellos que recién comienzan a trabajar con datos)
• Vista previa de la trama
• Fácil cambio entre terminal y consola
1
Comenzando a operar R con RStudio
Podremos hacer algún tipo de personalización al que podemos acceder desde la barra de herramientas “Tools”
y “Global Options”. Una de las opciones es contar con una visualización adecuada y cómoda.
Otra configuración que es relevante hacer es la del diccionario. En realidad no es algo que sea obligatorio
realizar, no obstante al momento de escribir los códigos, y principalmente cuando se escriban script extensos
con sus comentario, al no contar con el diccionario en español, la totalidad de lo que escribamos estará
subrayado de color rojo. Eso podría ser algo molesto, desde el punto de vista visual.
En la solapa que figura “main dictionary language” seleccionaremos “instalar”, así se instalaran el paquete
de diccionario para luego poder seleccionar con cual trabajaresmo.
La interfaz de RStudio la podemos resumir a grandes rasgos, como un conjunto de ventanas que organiza
nuestro espacio de trabajo, veremos entonces;
• Área izquierda: incluye las pestañas Consola, Terminal y Trabajos en segundo plano
• Área superior derecha: incluye las pestañas Entorno, Historial, Conexiones y Tutorial
• Área inferior derecha: incluye las pestañas Archivos, Gráficos, Paquetes, Ayuda, Visor y Pre-
sentación.
Consola
La pestaña desplegará una serie de información al momento de iniciar RStudio, la información sobre la
versión R en uso y también algunos comandos básicos para probar. Al final de esas descripciones, podemos
escribir nuestro código R, presionar Enter y obtener el resultado debajo de la línea de código (por ejemplo,
podremos usar como una calculadora, 2*2 o 1+1). Prácticamente, podemos hacer aquí cualquier cosa que
haríamos en cualquier otro programa R, por ejemplo:
Environment (Ambiente)
Cada vez que definimos una variable nueva o reasignamos una existente en RStudio, se almacena como un
objeto en el espacio de trabajo y se muestra, junto con su valor, en la pestaña Entorno en el área superior
derecha de la ventana de RStudio .
Para observar este proceso, ejecutemos un pequeño comando en la consola:
El operador de asignación, (‘<-’), no es el operador habitual, ‘=’ que es utilizado en otros software como
es Python, aquí se reserva para otro propósito. Para nuestro caso consiste en dos caracteres, ‘<’ (‘menor
que’) y ‘-’ (‘guión’), que obligatoriamente deben ir unidos y ’apuntan’ hacia el objeto que recibe el valor de
la expresión. El operador usual, <-, puede interpretarse como una abreviatura de la función assign().
Como se puede observar, la primera opción con la utilización del operador ‘<-’ es mucho más intuitivo y
fácil de utiliza, a lo largo de la Diplomatura veremos otros operadores que resumen procesos y son de mucha
utilidad.
En este “Ambiente” tenemos diferentes opciones que son muy accesibles con los iconos, ejemplo podemos
tener deferentes maneras de visualizar, con “List” o “Grid”. Eliminar o borrar del “Ambiente” los objetos que
deseamos, esto se hace con el icono que hace referencia a una escoba “Clear”, antes, deberemos seleccionar
el objeto que deseamos limpiar del “Ambiente” de trabajo. Existen otros accesos rápidos, como por ejemplo
“Import Dataset” que lo utilizaremos mucho a lo largo de la Diplomatura.
Otras Pestañas
Uso de la consola
Como veremos a lo largo de la Diplomatura, R es una herramienta extremadamente poderosa, sin embargo,
aún puede usarse solo como una calculadora simple o avanzada. Esto lo podemos comprobar escribiendo
los comandos directamente en la consola (por defecto, esta es la ventana inferior izquierda en su entorno
RStudio) o escriba los comandos en su editor (por defecto, esta es la ventana superior izquierda en su entorno
RStudio).
Veremos algunos ejemplos:
Podremos realizar cualquier cálculo aritmético
(10 + 10)/ 5
## [1] 4
El símbolo * hace referencia al operador multiplicar y el signo ˆ significa “elevar a la potencia”, por lo que
da 2 por 10 al cuadrado, es decir,200.
2*10ˆ2
## [1] 200
Valores Especiales: Para ayudarnos con los cálculos aritméticos R, soporta cuatro valores numéricos espe-
ciales:
• Inf
• -Inf
• NaN
• Na
Los dos primeros, son la forma positiva y negativa para valores infinitos. NaN (del inglés, “not-a-number”)
significa que nuestro cálculo o no tiene sentido matemático o que podría no haberse realizado correctamente.
NA (del inglés, “not available”) representa un valor desconocido.
Si una operación resulta en un número que es demasiado grande, R devolverá Inf para un numero positivo
y -Inf para un número negativo (esto es un valor infinito positivo y infinito negativo, respectivamente):
# Resultado Inf
2ˆ1024
## [1] Inf
# Resultado -Inf
-2ˆ1024
## [1] -Inf
1/0
## [1] Inf
En ocasiones, una operación se producirá un resultado que no tiene sentido. En estos casos, R devolverá
NaN (del inglés, “not a number”):
# Resultado NaN
Inf - Inf
## [1] NaN
# Resultado NaN
0/0
## [1] NaN
En R, los valores NA son usados para representar valores desconocidos. (NA es la abreviación “not avail-
able”). Nos encontraremos valores NA en texto importado a R (representando valores desconocidos) o datos
importados desde bases de datos (para reemplazar valores NULL).
Veamos un ejemplo, aún no hemos visto el concepto de vector no obstante sirve el ejemplo. Si hemos relevado
algún valor de una variable, como la edad de las personas de una oficina, y entre todos ellos uno no desea
dar dicha información, entonces deberemos asignar NA a esa ausencia.
• Persona “A”: 25
• Persona “B”: 29
• Persona “C”: 35
• Persona “D”: NA
• Persona “E”: 39
• Persona “F”: 25
Principales Operadores
En R se tiene muchos operadores para realizar diferentes operaciones matemáticas y lógicas. Los operadores
en R se pueden clasificar principalmente en las siguientes categorías.
• Operadores aritméticos
• Operadores relacionales
• Operadores lógicos
• Operadores de Asignación
Operadores aritméticos
Estos operadores se utilizan para realizar operaciones matemáticas como la suma y la multiplicación.
Operador Descripción
+ Suma
– Sustracción
* Multiplicación
/ División
ˆ Exponente
%% Módulo (resto de la división)
%/% División entera
Operadores relacionales
Los operadores relacionales se utilizan para comparar entre valores.
Operador Descripción
< Menos que
> Mas grande que
<= Menos que o igual a
>= Mayor qué o igual a
== Igual a
!= No igual a
Operadores Lógicos Los operadores lógicos se utilizan para realizar operaciones booleanas.
Operador Descripción
! NO lógico
& AND lógico por elementos
&& Y lógico
Los operadores & y | realizan una operación por elementos que produce un resultado que tiene la longitud
del operando más largo.
Pero && y || examina solo el primer elemento de los operandos que dan como resultado un vector lógico de
longitud única.
Trabajar con proyectos de RStudio no solo hace que el análisis sea ordenado y reproducibles, también hacen
que el trabajo en RStudio sea más sencillo. Los operadores que trabajan en análisis de datos y ciencia de
datos mantienen todos los archivos asociados a un proyecto en un mismo lugar — datos de entrada, scripts,
resultados, gráficos. Esta es una práctica tan acertada y común, que RStudio cuenta con soporte integrado
para esto por medio de los proyectos.
Al comienzo, en los primeros pasos, sería posible que solo se cuente con algunos script y uno o dos archivos
con datos, pero es posible que rápidamente, a medida que se profundiza en la ciencia de datos, se cuente con
un gran número de archivos con nombres parecidos pero que pertenecen a análisis totalmente distintos. Con
la finalidad de comenzar desde el inicio de una manera ordenada, daremos inicio al trabajo con “Proyectos”.
¿Qué ventajas tiene?
• Permite ”cuidar” los datos que se utilizan al ordenarnos en carpetas que diferencien entre la versión
original o raw y los datos limpios o los resultados finales.
• Permite compartir el trabajo fácilmente con otras personas. Solo se tiene que compartir la carpeta del
proyecto sabiendo que incluye todo lo necesario para que cualquier persona reproduzca tu análisis.
• Permite publicar de manera ordenada el código si se va a presentar o publicar el trabajo.
• Permite continuar con la trayectoria de trabajo sin importar el tiempo o período que se pause.
En la solapa “File”, localizada en el cuadrante inferior derecha, se observa la dirección (Path) donde se creo
el proyecto. Otra forma de hacerlo es por medio de:
getwd()
Para mantener ordenado nuestro directorio de trabajo, una buena mansera es hacerlo desde la solapa “File”,
allí veremos que podemos crear carpetas (“New Folder”), crear archivos (“New Blank File”), eliminar am-
bos (“Delet”), Renombrar (“Rename”) y otras más opciones en “More” que nos darán la posibilidad de
administrar nuestro espacio de trabajo.
Un ejemplo o recomendación para nuestro espacio de trabajo es crear carpetas de acuerdo a su contenido:
• Datos
• Script
• Gráficos & Mapas
Trabajar en la consola es muy limitado ya que las instrucciones se han de introducir una a una y al cerrar
RStudio, se perderá todo el proceso que hemos realizado. Lo habitual es trabajar con scripts o ficheros de
instrucciones. Estos ficheros los podremos diferenciar de los demás porque tienen extensión .R.
Se puede crear una script con cualquier editor de texto (uno de los más populares es Tinn-R), pero nosotros
lo haremos desde RStudio.
Como hemos recomendado arriba que se discriminen por carpetas o directorios, deberemos tener una que se
denomine “SCRIPT”, allí ingresamos. Luego una opción es ir a la solapa “File” (exetrmos inferior derecho),
optar por “New Blank File” y seleccionar “R Script”, luego ingresar el nombre de este archivo, ejemplo
“introduccion.R”. La otra opción es, seleccionar la ruta de menús: File > New File > R script pero aquí
luego tendremos que guardar el Script.
En ambos casos se tendrá que desplegar en la parte superior, una nueva ventana.
Contando con nuestro lienzo limpio, podremos escribir las instrucciones línea por línea. Las instrucciones
las podremos ejecutar una a una o las podemos seleccionar y ejecutar en bloque.
Para ejecutar las instrucciones tenemos varias alternativas:
• Hacemos clic en el botón: Run (botón situado en la parte derecha de las opciones del panel de script)
• Pulsamos Ctrl+r
• Ejecutamos el código desde las opciones del menú Code.
2*(10 + 20) ˆ 2
sqrt (2*(10 + 20) ˆ 2)
Ejecutar el script, luego guardar el mismo, cerrarlo y abrirlo desde el Menú > Open File. . .
Recomendaciones Importantes
Es importante que la estructura de nuestro directorio no sea extremadamente largo, como por ejemplo varias
sub-carpetas.
Es importante que los nombres no utilicen caracteres complejos
No dejar espacios entre palabras para eso unirlos con “_”