Lenguaje de Programacion R
Lenguaje de Programacion R
Lenguaje de Programacion R
PROGRAMACION R
INTRODUCCION A R
OBJETIVOS
1. Presentar el entorno de desarrollo de R, como RStudio, y cómo
configurarlo para programar de manera eficiente.
3.
Mostrar cómo realizar estadística descriptiva basica en R,
Formularios, UserForms
R
INSTALACIÓN
Y
CONFIGURACIÓN
DE R
Para descargar R debes acceder a CRAN (Comprehensive R Archive Network) que es
el repositorio central de software de R. CRAN está compuesto por una serie de
servidores en todo el mundo también conocidos como sitios espejo que son utilizados
para distribuir tanto R como sus paquetes. Utilizaremos el servidor en la nube, por lo
que ya no será necesario escoger un servidor que esté cerca de nuestro lugar de
residencia, ya que lo identificará automáticamente por ti. Para ello, abre el navegador
de tu preferencia, dirígete al sitio oficial del servidor en la nube de R y haz clic en el
enlace “Download R for Windows”.
Paso 1
Selecciona el enlace “install R for the first time” en la parte superior de la
página. Selecciona el enlace “install R for the first time” en la parte superior
de la página.
Paso 2
Paso 3
Haz clic en “Download R 4.0.3 for Windows”. El número que se encuentra en seguida de R,
corresponde a la versión que instalarás en tu ordenador y ésta variará de acuerdo a sus
actualizaciones. Será suficiente con que te asegures de que se trata de alguna de las
versiones de R-4.
Selecciona
guardar archivo.
Paso 4
Guarda el archivo ejecutable en algún lugar de tu computadora. En este
Paso 5 caso lo guardaremos en el escritorio.
Una vez terminado el proceso, aparecerá una ventana con el siguiente mensaje:
“Completando la instalación de R for Windows”. Por último, haz clic en “Finalizar” y
tendrás instalado R en tu computadora.
El siguiente paso es
instalar un IDE para
R, en este caso
utilizaremos
RStudio.
Paso 8
PROBLEMAS FRECUENTES DURANTE LA INSTALACIÓN DE R
INSTALACION DE RSTUDIO
Paso 3
Busca la opción
“RStudio
Desktop” y
selecciona
“DOWNLOAD”.
• RStudio requiere como mínimo la versión 2.11.1 de R para poder funcionar. Asegúrate
de cumplir este requisito o en caso de tener varias versiones, pulsa la tecla Ctrl al iniciar
RStudio para seleccionar la versión de R que deseas utilizar.
– Numérica o doble
– No se toman en cuenta los espacios en
blanco – Entero
– Se distinguen las mayúsculas y minúsculas – Complejo
– Se pueden incluir comentarios – Lógico
– No es necesario terminar cada sentencia – De carácter
con el carácter de punto y coma (;)
– Lenguaje orientado a objetos (todo en R son
objetos, las variables, datos, funciones y
resultados, son objetos estos se modifican o
manipulan con operadores o funciones) CLASES BÁSICAS O ATÓMICAS
SINTAXIS DE NORMAS
Podemos o no dejar Podemos crear
espacios para que el diferentes variables
código se pueda alternando mayúsculas
ordenar. y minúsculas.
Los comentarios se
utilizan para añadir
información en el código.
CLASES
NUMERICA ENTERO COMPLEJO
representan son los números naturales, son números que combinan un
números continuos como el que se usan para numero real
peso o la altura de una contar elementos de un y uno imaginario denotado por
persona. conjunto. la letra i
CONSTRUCCIONES PARA
AGRUPAR EXPRESIONES LLAVES
SEPARANDO EXPRESIONES
PARÉNTESIS
CON PUNTO Y COMA
MANEJO DE DATOS
EN R
IMPORTACIÓN Y EXPORTACIÓN DE DATOS
La importación se refiere al proceso de
traer datos desde fuentes externas,
como archivos CSV, Excel, bases de
datos, hojas de cálculo, páginas web u
otras fuentes, y cargarlos en un objeto
de datos en R para su posterior
análisis.
Esto puede hacerse por varias razones, como respaldar datos, compartir información
con otros sistemas o usuarios, analizar datos en otra herramienta o simplemente para
mantener una copia de seguridad de los datos en un formato específico.
ARCHIVO CSV #EXPORTAR
# Creamos una lista de nombre y edades
nombres <- c("Juan", "María", "Luis", "Ana", "Carlos")
edades <- c(28, 32, 45, 22, 39)
#IMPORTAR
#Importar datos desde un archivo CSV
# Combinar los datos en un marco de datos (data frame)
datos<- read.csv("archive.csv")
datos <- data.frame(Nombre = nombres, Edad = edades)
#Mostrar los primeros datos del conjunto de
# Escribir los datos en un archivo CSV
datos
nombre_archivo <- "nombres_edades.csv"
head(datos)
write.csv(datos, file = nombre_archivo, row.names = FALSE)
if (file.exists(nombre_archivo)) {
cat("El archivo CSV se ha creado con éxito.\n")
} else {
cat("Hubo un problema al crear el archivo CSV.\n")
}
ARCHIVO EXCEL
#IMPORTAR #EXPORTAR
3. FUNCIÓN FILTER( )
library(dplyr)
datos_filtrados <- datos %>% filter(edad >= 18)
Algunas de las funciones y técnicas más comunes para la agregación en R son las siguientes:
1. aggregate():
Esta función permite agregar datos en función de factores o variables categóricas. Puedes
especificar la variable que deseas agregar y la variable o variables por las que deseas
agrupar.
#Agregar la columna 'valor' por la columna 'categoria'
resultados <- aggregate(valor ~ categoria, data = datos, FUN = sum)
2. tapply( ):
Esta función se utiliza para aplicar una función específica a subconjuntos de datos basados
en una o varias variables categóricas.
#Calcular la suma de 'valor' para cada 'categoria'
resultados <- tapply(datos$valor, datos$categoria, FUN = sum)
3. by( ):
La función by() divide un conjunto de datos en subconjuntos basados en una o varias
variables y luego aplica una función a cada subconjunto.
Las funciones de alto nivel son las que generan gráficos completos,
mientras que las de bajo nivel se limitan a añadir elementos a un
gráfico existente.
Las tres formas más habituales de crear gráficos con R son usar las
funciones de R base, usar la librería ggplot2 o el paquete lattice
1.
El paquete graphics es un paquete base para la construcción de
gráficos, la función plot es la función más básica para crear
gráficos en R.
BARRAS
Es adecuado para variables
dependientes agrupadas
por tratamientos.
DISPERSIÓN
Gráfico de dispersión de las dos
variables enfrentadas coloreadas en
función del tratamiento.
HISTOGRAMA
Ayudan a entender la distribución de los
datos con los que estás trabajando.
Tiene frecuencias para cada variable
DE DENSIDAD
Forma alternativa de ver la distribución de
nuestros datos. Visualmente es más fácil
ver si los datos siguen una distribución
normal.
DE CA JA Y BIGOTES
Se utilizan para representar
características de los datos, como la
dispersión o la asimetría
TRIDIMENSIONALES
Persp() esta función realiza
representaciones de superficies.
ESTADÍSTICA
DESCRIPTIVAS EN R
ESTADÍSTICA DESCRIPTIVAS
FUNCIÓN ‘SUMMARY( )’
2. Descargar Rtools
PAQUETE SUMMARYTOOLS install.packages("summarytools")
PARA UN RESUMEN
library(summarytools)
COMPLETO
create_report(datos)
PAQUETE
SUMMARYTOOLS
ESTADÍSTICAS
Varianza
ESPECÍFICAS
var(datos$Columna)
Media mean(datos$Columna)
1er Cuartil
quantile(datos, probs =
0.25)
Desviación sd(datos$Columna)
Mediana median(datos$Columna)
Estándar
apply permite ejecutar una función a través
de las filas o las columnas. Para esto tenemos
apply(as.matrix(datos[,2:4]), 2, sd)
que tener en cuenta dos cosas:
En R, puedes crear
histogramas y visualizar
distribuciones de datos para
explorar la forma y la
estructura de tus datos. Esto es
útil en estadísticas descriptivas
para comprender cómo se
distribuyen los valores en una
variable
PASOS
1. CREAR UN HISTOGRAMA
Puedes crear un histograma utilizando la hist(datos,
main = "Histograma de Datos",
función hist(). Esta función divide tus
xlab = “Distancia",
datos en intervalos (bins) y cuenta ylab = "Frecuencia")
cuántos valores caen en cada intervalo.
DESVIACIÓN Medidas te indican cuánto varían tus datos en relación con la media. Una
ESTÁNDAR Y desviación estándar alta significa que tus datos están dispersos, mientras
que una baja significa que están agrupados cerca de la media.
VARIANZA
INTERPRETACIÓN DE RESULTADOS
• Modelado predictivo. análisis estadístico que busca predecir resultados futuros basados
en los datos pasados y presentes.
• Análisis Textual. extracción automatizada del contenido relevante del texto. Esta técnica
es muy útil para descubrir opiniones sobre productos o temas concretos a partir del
contenido generado por los usuarios.
Ejemplos:
regresion: objeto de almacén para los resultados del modelo de regresión lineal.
data = datos: especifica donde se encuentran las variables que estás utilizando en el
modelo.
• Coefficients: valores estimados para conseguir esa predicción o regresión.
Y=b+m*x
Y = b0 + b1 * x
# Llamando a la función
resultado_suma <- sumar(5, 3)
cat("La suma es:", resultado_suma) # Imprime:
La suma es: 8
Estructura de datos avanzadas
1. Listas
• Una lista es una estructura de datos que puede contener elementos de
diferentes tipos (números, caracteres, vectores, data frames, etc.).
• Puedes crear listas utilizando la función list().
• Accedes a los elementos de una lista utilizando corchetes [].
1. For
• Se utiliza para iterar sobre una secuencia de valores o elementos.
• Sintaxis:
• Ejemplo:
for (i in 1:5) {
cat("Iteración:", i, "\n")
}
2. While
• Se utiliza para repetir un conjunto de instrucciones mientras una
condición sea verdadera.
• Sintaxis:
while (condición) {
# Instrucciones que se repiten mientras la condición sea
verdadera
}
• Ejemplo:
x <- 1
while (x <= 5) {
cat("Valor de x:", x, "\n")
x <- x + 1
}
PUBLICACIÓN Y COMPARTICIÓN
DE RESULTADOS
RMARKDOWN
El R Markdown es un lenguaje marcado ligero que nos permite escribir informes que
contengan código R. El lenguaje Markdown suge con el objetivo de aligerar las marcas
en los lenguajes Markup, principalmente el HTML, pero tambien el LaTeX. Cualquiera
debería poder leer y entender un documento Markdown visualizado en un editor de
texto (sin procesar).
Si no se
cumple, pues
no y ya, te
quedas sin
markdown
El R Markdown permite la introducción
de tozos (chunks) de código RR que se
pueden ejecutar dentro de la propia
libreta, o en la salida en un
documento .pdf, .html o .doc.
Eey eey ey
Entonces, ¿eso
es Markdown? Texto
BASICAMENTE SI
PERO ES LA BASE PARA
GENERAR EL INFORME
GENERAR UN INFORME
Para crear un informe en RStudio solo hay
que elegir la opción “File”+“New File”+“R
Markdown”. Podemos elegir el destino del
informe: una página web que se podrá ver
con un navegador, un documento Word o
un PDF.
70 95 80 73 100
55 90 85 65 50
60 90 90 48 16
# Crear un vector para almacenar las calificaciones de los estudiantes
calificaciones <- c()
# Verificar que la calificación ingresada sea válida (por ejemplo, entre 0 y 100)
if (calificacion >= 0 && calificacion <= 100) {
calificaciones <- c(calificaciones, calificacion)
} else {
cat("La calificación ingresada no es válida. Por favor, ingresa una calificación entre 0 y 100.\n")
i <- i - 1 # Reintentar la entrada para el mismo estudiante
}
}
# Calcular estadísticas
promedio <- mean(calificaciones)
mediana <- median(calificaciones)
calificacion_minima <- min(calificaciones)
calificacion_maxima <- max(calificaciones)
# Mostrar el gráfico
EJERCICIO II
Un estudiante tiene una exposición sobre los países con mayor capital, de
una base de datos quiere graficar el top 15 de países con mayor PIB en el
2012.
El link de la base de datos es la siguientes:
"https://raw.githubusercontent.com/jimmyzac/Contexto-FCFM-UANL/main/
datos_bancomundial.csv"
#Descargar las librerías necesarias
library(tidyverse)
install.packages("viridis")
library(viridis)
#Mostrar al grafica
ggpib12
RECURSOS ADICIONALES
Aprendizajes
adicionales para R
Según un artículo publicado por forbes en 2016, cerca del 80% del tiempo de un proyecto
relacionado con datos se dedica a la obtención y preparación de los datos. A la vez, es la
parte que menos disfrutan los científicos de datos. Cuando comienzan el proyecto
seguramente sabes lo que hay que hacer una vez que tengas la data perfecta. Sin
embargo, quedan tres retos:
1. Obtener la data
2. Data wrangling
3. Poner en código lo que sabes que hay que hacer
Me huele a novato
Por todo esto, es crucial que tus habilidades de data wrangling sean las mejores, para que
puedas dedicar más tiempo al modelado de los datos. Aquí algunos aprendizaje para
fortalecer tu aprendizaje en R
Aprender ingles
Saber inglés implica acceso
más rápido a más
información, especialmente
en StackOverflow. Otra
ventaja es que puedes
escribir código en inglés, lo
que hará que todo el código
esté en un solo idioma y sea
más legible. StackOverflow
es una plataforma de ayuda
mundial en el entorno
informatico
Aprende a usar El análisis exploratorio y la presentación de
resultados son claves en tu proyecto. Por eso
ggplot2 necesitas graficar bien y rápido, y lo mejor
para eso es ggplot2. La sintaxis es
consistente, legible y los gráficos se ven muy
bien. Una vez que lo aprendas, no vas a
querer usar más nada. Cuando utilices las
funciones de gráficos de R base (o peor aún,
matplotlib en python) te vas a sentir como
Morty después de experimentar un suelo
nivelado por Rick. Para ahorrar tiempo en
búsquedas, usa la chuleta de RStudio (Data
Visualization Cheat Sheet) y consigue el libro
R Graphics Cookbook.
Lo que más delata a un novato en R es
Aprende a usar usar bucles for. Esto bucles son lentos y
además reducen la legibilidad del código.
purrr La mejor alternativa es usar las funciones
de purrr, que es el paquete que aprovecha
que la mayoría de los bucles, sobre todo los
relacionados con procesamiento de datos,
siguen el patrón dividir-aplicar-combinar, o
split-apply-combine. La curva de
aprendizaje de purrr puede ser un poco
lenta.
Crea un paquete en
R
Crear un paquete es más fácil de
lo crees y te va a enseñar
muchas cosas, como
documentar tus funciones y
organizar tu código, pero lo más
importante es que aprenderás
test-driven development, una
metodología de programación en
la que te pruebas que tu código
hace lo que debería hacer de
una manera automatizada
Introducción a Data Science:
Programación Estadística con R
Una de las maneras más convenientes para aprovechar el lenguaje r y la
disponibilidad de tiempo para la exploración de nuestras habilidades es
adentrándonos a la ciencia de datos enfocado en la estadística con la
programación en r.
El Data Science se encarga de estudiar de dónde viene la información, qué
representa y cómo se puede convertir en un recurso valioso en la creación
de negocios y estrategias. Para ello, busca extraer grandes cantidades de
datos para identificar patrones para ayudar a una organización a controlar
los costes, aumentar la eficiencia, reconocer nuevas oportunidades de
mercado y aumentar la ventaja competitiva de la organización.
Curso sobre data sciencie.
Introducción a Data Science:
Programación Estadística con R
https://www.coursera.org/learn/intro-data-science-programacion-estadistica-r?action=enroll
Introduccion a la
probabilidad y datos con R
Este curso le presenta el muestreo y la
exploración de datos, así como la teoría
básica de la probabilidad y la regla de
Bayes. Examinará varios tipos de métodos
de muestreo y discutirá cómo dichos
métodos pueden afectar el alcance de la
inferencia. Se cubrirá una variedad de
técnicas exploratorias de análisis de datos,
incluidas estadísticas resumidas numéricas
y visualización de datos básicos. Se le
guiará en la instalación y el uso de R y
https://www.coursera.org/learn/probability-intro
RStudio (software estadístico gratuito) y
utilizará este software para ejercicios de
laboratorio y un proyecto final.
CONCLUSIONES
El lenguaje de programación R es una herramienta poderosa y versátil que se ha
convertido en una opción popular entre los científicos de datos, estadísticos y analistas
debido a sus capacidades estadísticas y de análisis de datos. Algunas conclusiones sobre el
lenguaje de programación R son:
• Gráficos de alta calidad: R es conocido por su capacidad para generar gráficos de alta
calidad y personalizables. Esto es especialmente valioso para la visualización de datos
en investigaciones científicas y presentaciones.
• https://r-coder.com/histograma-r/