Entregable 1

Download as pdf or txt
Download as pdf or txt
You are on page 1of 10

Entregable 1

Andres Rico, Maria jose Saavedra


11/7/2021
#Analisis Descriptivo
# Cargar base de datos
library(readxl)
library(tidyverse)

## ── Attaching packages ───────────────────────────────────────


tidyverse 1.3.0 ──

## ✓ ggplot2 3.3.3 ✓ purrr 0.3.4


## ✓ tibble 3.0.3 ✓ dplyr 1.0.5
## ✓ tidyr 1.1.2 ✓ stringr 1.4.0
## ✓ readr 1.4.0 ✓ forcats 0.5.0

## ── Conflicts ──────────────────────────────────────────
tidyverse_conflicts() ──
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()

library(readr)
library(FactoMineR)

Data <- read_excel("~/Desktop/Data.xlsx")

data_new <- Data


data_new[is.na(data_new) | data_new == ".."] <- NA
colnames(data_new)[1]<- "Pais"
colnames(data_new)[2]<- "PIB_PC"
colnames(data_new)[3]<- "Tasa_Mortalidad"
colnames(data_new)[4]<- "Tasa_Desempleo"
colnames(data_new)[5]<- "CO2_Emisiones"
colnames(data_new)[6]<- "Gasto_Publico"
colnames(data_new)[7]<- "Inflacion"
colnames(data_new)[8]<- "Tasa_Desnutricion"
colnames(data_new)[9]<- "Tasa_Alimentos"
data_new<-transform(data_new, PIB_PC = as.numeric(PIB_PC),
Tasa_Mortalidad = as.numeric(Tasa_Mortalidad),
Tasa_Desempleo = as.numeric(Tasa_Desempleo),
CO2_Emisiones = as.numeric(CO2_Emisiones),
Gasto_Publico = as.numeric(Gasto_Publico),
Inflacion = as.numeric(Inflacion),
Tasa_Desnutricion = as.numeric(Tasa_Desnutricion),
Tasa_Alimentos = as.numeric(Tasa_Alimentos))
library(pander)
panderOptions('table.split.table', 60)
pandoc.table(summary(data_new), style= "grid")

##
##
## +------------------+------------------+-----------------+
## | Pais | PIB_PC | Tasa_Mortalidad |
## +==================+==================+=================+
## | Length:216 | Min. : 677 | Min. : 10 |
## +------------------+------------------+-----------------+
## | Class :character | 1st Qu.: 24633 | 1st Qu.: 2268 |
## +------------------+------------------+-----------------+
## | Mode :character | Median : 71083 | Median : 11585 |
## +------------------+------------------+-----------------+
## | NA | Mean : 3010198 | Mean : 176667 |
## +------------------+------------------+-----------------+
## | NA | 3rd Qu.: 484501 | 3rd Qu.: 66332 |
## +------------------+------------------+-----------------+
## | NA | Max. :233848318 | Max. :10313460 |
## +------------------+------------------+-----------------+
## | NA | NA's :11 | NA's :26 |
## +------------------+------------------+-----------------+
##
## Table: Table continues below
##
##
##
## +----------------+----------------+----------------+
## | Tasa_Desempleo | CO2_Emisiones | Gasto_Publico |
## +================+================+================+
## | Min. : 0.300 | Min. : 0.110 | Min. : 0.867 |
## +----------------+----------------+----------------+
## | 1st Qu.: 4.625 | 1st Qu.: 3.560 | 1st Qu.:11.188 |
## +----------------+----------------+----------------+
## | Median : 7.700 | Median : 5.590 | Median :14.130 |
## +----------------+----------------+----------------+
## | Mean : 9.538 | Mean : 7.197 | Mean :14.329 |
## +----------------+----------------+----------------+
## | 3rd Qu.:12.000 | 3rd Qu.: 9.215 | 3rd Qu.:17.125 |
## +----------------+----------------+----------------+
## | Max. :76.600 | Max. :26.910 | Max. :32.728 |
## +----------------+----------------+----------------+
## | NA's :34 | NA's :30 | NA's :71 |
## +----------------+----------------+----------------+
##
## Table: Table continues below
##
##
##
## +----------------+-------------------+----------------+
## | Inflacion | Tasa_Desnutricion | Tasa_Alimentos |
## +================+===================+================+
## | Min. :-2.815 | Min. : 2.500 | Min. : 1.233 |
## +----------------+-------------------+----------------+
## | 1st Qu.: 1.256 | 1st Qu.: 2.500 | 1st Qu.:11.995 |
## +----------------+-------------------+----------------+
## | Median : 2.408 | Median : 5.500 | Median :18.962 |
## +----------------+-------------------+----------------+
## | Mean : 4.205 | Mean : 9.888 | Mean :22.204 |
## +----------------+-------------------+----------------+
## | 3rd Qu.: 4.081 | 3rd Qu.:12.000 | 3rd Qu.:29.302 |
## +----------------+-------------------+----------------+
## | Max. :83.502 | Max. :57.400 | Max. :67.395 |
## +----------------+-------------------+----------------+
## | NA's :43 | NA's :55 | NA's :121 |
## +----------------+-------------------+----------------+

2. Descripción de las variables


A continuación se hará una breve explicación de las variables a utilizar:
1) PIB percapita: Variable numérica que estima el producto interno bruto dividido
por la población a mitad de año. El PIB es la suma del valor agregado bruto de todos
los productores residentes en la economía más los impuestos sobre los productos y
menos las subvenciones no incluidas en el valor de los productos.
2) Tasa de mortalidad por suicidio: Variable numérica que indica la tasa de
mortalidad por suicidio es el número de muertes por suicidio en un año por cada
100.000 habitantes. Tasa bruta de suicidio (no ajustada por edad).
3) Tasa de desempleo: Variable numérica que estima la proporción de la fuerza
laboral que no tiene trabajo pero que está disponible y en busca de empleo.
4) Emisiones CO2: Variable numérica que estima las emisiones de dióxido de
carbono derivadas de la quema de combustibles fósiles y la fabricación de cemento.
Incluyen el dióxido de carbono producido durante el consumo de combustibles
sólidos, líquidos y gaseosos y la quema de gas.
5) Gasto público: Variable numérica que estima el gasto del gobierno general en
educación (corriente, capital y transferencias) se expresa como un porcentaje del
gasto total del gobierno general en todos los sectores (incluidos salud, educación,
servicios sociales, etc.). Incluye los gastos financiados por transferencias de fuentes
internacionales al gobierno. El gobierno general generalmente se refiere a los
gobiernos locales, regionales y centrales.
6) Inflación: Variable numérica que estima la inflación medida por el índice de
precios al consumidor y que refleja el cambio porcentual anual en el costo para el
consumidor promedio de adquirir una canasta de bienes y servicios que pueden
fijarse o cambiarse en intervalos específicos, como anualmente. Generalmente se
utiliza la fórmula de Laspeyres.
7) Tasa de desnutrición: Variable numérica que estima el porcentaje de la población
cuyo consumo habitual de alimentos es insuficiente para proporcionar los niveles de
energía alimentaria necesarios para mantener una vida normal activa y saludable. Los
datos que se muestran como 2,5 pueden significar una prevalencia de desnutrición
por debajo del 2,5%.
8) Tasa alimentos: Variable numérica que estima el valor agregado en las
manufacturas es la suma de la producción bruta menos el valor de los insumos
intermedios utilizados en la producción para las industrias clasificadas en la división
principal D de la CIIU. Alimentos, bebidas y tabaco corresponden a las divisiones 15 y
16 de la CIIU.

2.1 Estadísticas Descriptivas:


De acuerdo con los datos obtenidos se puede decir que el valor promedio del PIB por
persona es de 3010198, que el valor medio de los datos es 71083 y que oscila entre
677 y 233848318.
Para el caso del promedio de número de muertes a causa del suicidio se puede decir
que el valor promedio del número de suicidios es de 176667, que el valor medio de los
datos es 11585 y que oscila entre 10 y 10313460.
Para la tasa de desempleo se puede decir que el valor promedio de esta tasa es de
9.538, que el valor medio de los datos es 7.700 y que oscila entre 0.3 y 76.6.
Para la medida de emisiones de dióxido de carbono se puede decir que el valor
promedio que fue emitido es de 7.197, que el valor medio de los datos es 5.590 y que
oscila entre 0.110 y 26.910.
Para el caso del gasto del gobierno se puede decir que el valor promedio es de 14.130,
que el valor medio de los datos es 14.130 y que oscila entre 0.867 y 32.728.
Para el dato de la variación se puede decir que el valor promedio de dicha tasa es de
4.205, que el valor medio de los datos es 2.408 y que oscila entre -2.815 y 83.502.
Para el caso de la tasa de desnutrición se puede decir que el valor promedio de dicha
tasa es de 9.888, que el valor medio de los datos es 5.500 y que oscila entre 2.500 y
57.400.
Para el caso de la tasa de alimentos se puede decir que el valor promedio de dicha tasa
es de 22.204, que el valor medio de los datos es 18.962 y que oscila entre 1.233 y
67.395.
3. Graficos

3.1 Grafico de Correlacion:


# Calcular matriz de corr usando base_acp pero haciendoi la imputacion de
los datos faltantes por la mediana

base_sin_na= na.omit(data_new)
me_1 = median(base_sin_na$"PIB_PC")
me_2 = median(base_sin_na$"Tasa_Mortalidad")
me_3 = median(base_sin_na$"Tasa_Desempleo")
me_4 = median(base_sin_na$"CO2_Emisiones")
me_5 = median(base_sin_na$"Gasto_Publico")
me_6 = median(base_sin_na$"Inflacion")
me_7 = median(base_sin_na$"Tasa_Desnutricion")
me_8 = median(base_sin_na$"Tasa_Alimentos")

# Reemplazar na's
data_new = mutate_at(data_new , c("PIB_PC"), ~replace(., is.na(.), me_1))
data_new = mutate_at(data_new , c("Tasa_Mortalidad"), ~replace(.,
is.na(.), me_2))
data_new = mutate_at(data_new , c("Tasa_Desempleo"), ~replace(.,
is.na(.), me_3))
data_new = mutate_at(data_new , c("CO2_Emisiones"), ~replace(.,
is.na(.), me_4))
data_new = mutate_at(data_new , c("Gasto_Publico"), ~replace(.,
is.na(.), me_5))
data_new = mutate_at(data_new , c("Inflacion"), ~replace(., is.na(.),
me_6))
data_new = mutate_at(data_new , c("Tasa_Desnutricion"), ~replace(.,
is.na(.), me_7))
data_new = mutate_at(data_new , c("Tasa_Alimentos"), ~replace(.,
is.na(.), me_8))

# Seteamos los nombres de las filas
rownames(data_new) = data_new$Pais

# Borramos Columna
data_new[, "Pais"] = NULL

# Calculamos la corr
cor(data_new)

## PIB_PC Tasa_Mortalidad Tasa_Desempleo


CO2_Emisiones
## PIB_PC 1.00000000 0.04470739 -0.041597763
0.02197078
## Tasa_Mortalidad 0.04470739 1.00000000 0.045989249 -
0.05972544
## Tasa_Desempleo -0.04159776 0.04598925 1.000000000
0.18431319
## CO2_Emisiones 0.02197078 -0.05972544 0.184313192
1.00000000
## Gasto_Publico 0.14922139 -0.04625536 0.007556054 -
0.03015312
## Inflacion 0.11239749 -0.01897103 -0.097839816
0.15263826
## Tasa_Desnutricion -0.01547257 -0.07466068 -0.069948521
0.04609626
## Tasa_Alimentos -0.05984071 -0.12098998 -0.068621422
0.11887890
## Gasto_Publico Inflacion Tasa_Desnutricion
Tasa_Alimentos
## PIB_PC 0.149221387 0.112397489 -0.01547257 -
0.059840708
## Tasa_Mortalidad -0.046255361 -0.018971029 -0.07466068 -
0.120989984
## Tasa_Desempleo 0.007556054 -0.097839816 -0.06994852 -
0.068621422
## CO2_Emisiones -0.030153120 0.152638259 0.04609626
0.118878897
## Gasto_Publico 1.000000000 -0.124188418 0.04751293
0.158109482
## Inflacion -0.124188418 1.000000000 0.09451225 -
0.009016995
## Tasa_Desnutricion 0.047512928 0.094512247 1.00000000
0.055017930
## Tasa_Alimentos 0.158109482 -0.009016995 0.05501793
1.000000000

# Grafico de correlacion curzada


plot(data_new, pch = 20, col = "pink")
##
3.2 Mapa de calor:
# Haciendo un mapa de calor para la correlacion
library(reshape2)

##
## Attaching package: 'reshape2'

## The following object is masked from 'package:tidyr':


##
## smiths

library(reshape)

##
## Attaching package: 'reshape'

## The following objects are masked from 'package:reshape2':


##
## colsplit, melt, recast

## The following object is masked from 'package:dplyr':


##
## rename
## The following objects are masked from 'package:tidyr':
##
## expand, smiths

base_mapa_calor = cor(data_new) %>% as.data.frame()


base_mapa_calor[, "variables"] = rownames(base_mapa_calor)
base_grafico = melt(base_mapa_calor, id = ("variables"))
ggplot(base_grafico, aes(variables, variable)) +
geom_tile(aes(fill = value)) +
scale_fill_gradient2(low = "dodgerblue4" ,high = "deepskyblue", mid
="white") +
theme(axis.text.x = element_text(angle = 90))


Con el gráfico de correlación, podemos observar el grado en el cual las variables estan
correlacionadas entre si, entonces graficamente en general las variables cuentas entre
si unas con otras muy baja correlacion, sin embargo las variables que tienen algo de
correlacion son gasto publico y tasa de alimentos, asi como inflacion y las emisiones
de C02, el gasto publico y el PIB-PC.

3.3 Histogramas de densidad:


P_1 = ggplot(data_new, aes(x=`CO2_Emisiones`)) +
geom_histogram(aes(y=..density..), colour="black", fill="white",
binwidth = 2,
bins = 12,
origin = 1,
right = TRUE) +
geom_density(alpha=.2, fill="#00EEFF") +
ggtitle("Emisiones de dióxido de carbono (kt) 2018") +
labs(x="Emisiones CO2 %", y="Densidad") + theme_minimal()

P_2 = ggplot(data_new, aes(x=`Tasa_Desempleo`)) +


geom_histogram(aes(y=..density..), colour="black", fill="white",
binwidth = 2,
bins = 12,
origin = 1,
right = TRUE) +
geom_density(alpha=.2, fill="#00EEFF") +
ggtitle("Tasa_Desempleo 2018") +
labs(x="Tasa_Desempleo %", y="Densidad") + theme_minimal()

P_3 = ggplot(data_new, aes(x=`Gasto_Publico`)) +


geom_histogram(aes(y=..density..), colour="black", fill="white",
binwidth = 2,
bins = 12,
origin = 1,
right = TRUE) +
geom_density(alpha=.2, fill="#00EEFF") +
ggtitle("Gasto Publico 2018") +
labs(x="Gasto Publico %", y="Densidad") + theme_minimal()

P_4 = ggplot(data_new, aes(x=`Tasa_Desnutricion`)) +


geom_histogram(aes(y=..density..), colour="black", fill="white",
binwidth = 2,
bins = 12,
origin = 1,
right = TRUE) +
geom_density(alpha=.2, fill="#00EEFF") +
ggtitle("Tasa Desnutricion 2018") +
labs(x="Tasa Desnutricion %", y="Densidad") + theme_minimal()

library(grid)
library(gridExtra)

##
## Attaching package: 'gridExtra'

## The following object is masked from 'package:dplyr':


##
## combine

grid.arrange(P_1, P_2, P_3, P_4, ncol=2,


top = textGrob("Histogramas",gp=gpar(fontsize=15,font=6)))

## Warning: `origin` is deprecated. Please use `boundary` instead.

## Warning: `right` is deprecated. Please use `closed` instead.


## Warning: `origin` is deprecated. Please use `boundary` instead.

## Warning: `right` is deprecated. Please use `closed` instead.

## Warning: `origin` is deprecated. Please use `boundary` instead.

## Warning: `right` is deprecated. Please use `closed` instead.

## Warning: `origin` is deprecated. Please use `boundary` instead.

## Warning: `right` is deprecated. Please use `closed` instead.

You might also like