Romero Tavera Manuel Fernando Actividad 1

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 9

Actividad Semana 1

APLICAR MÉTODOS DE RECOLECCIÓN


Y LIMPIEZA DE DATOS (OPENREFINE)

PRESENTADO POR:
Ing. Manuel Fernando Romero Tavera
C.C. 1.001.098.159

PRESENTADO A:
Ing. Jesús Rubio

BOOTCAMP ANÁLISIS Y VISUALIZACIÓN DE DATOS


BOGOTÁ D. C.
03/04/2024
Página 1 de 9
Tabla de contenido
1. Descripción de los Dataset´s. Recolección y Limpieza de datos...................3
1.1. Dataset 1: resultados_saber_11.csv......................................................3
1.2. Dataset 2: resultados_saber_11.csv......................................................5
2. Integración de datos de diversas fuentes y formatos....................................5
3. Utilizar las bibliotecas de Análisis de series temporales................................6
4. Realizar Conclusiones...................................................................................7

Página 2 de 9
1. Descripción de los Dataset´s. Recolección y Limpieza de datos
En la página www.datos.gov.co, se seleccionaron dos bases de datos referentes al
ámbito educativo, las cuales se describen a continuación:

1.1. Dataset 1: resultados_saber_11.csv

Recuperado de: Resultados únicos Saber 11 | Datos Abiertos Colombia


Esta base de datos contiene los resultados de las Pruebas Saber 11 realizadas
en el año 2022, en instituciones de la ciudad de Bogotá.
Para iniciar con la carga del archivo a OpenRefine, primero se descarga el archivo
del sitio web y se descarga con la extensión de tipo .CSV. Luego, se observa el
delimitador de columnas que posee el archivo, en este caso es por comas (,):

Tipo de archivo: .CSV

Delimitador: comas

Página 3 de 9
Una vez seleccionado al delimitador correcto, se procede a crear el proyecto y a
explorar los datos en busca de errores, datos faltantes, normalización de los datos,
etc. De lo cual se observa que la variable PERIODO muestra error en “20224”, ya
que debería ser “2022-2”, al igual que para el primer periodo. Por esto, en la
opción de Facet se selecciona Text facet y en edit se coloca el valor correcto.

La variable COLE_NOMBRE_SEDE presenta valores escritos de distinta forma


pero que significa lo mismo. Por esto, en la opción de Clúster se arreglan estos
datos, en la opción Merge Selected & re-cluster.

1.2. Dataset 2: resultados_saber_pro.csv

Página 4 de 9
Recuperado de: Resultados únicos Saber Pro | Datos Abiertos Colombia
Esta base de datos contiene los resultados de las Pruebas Saber Pro realizadas
en el año 2022, en instituciones de la ciudad de Bogotá.
Igual que con el archivo anterior, primero se descarga el archivo del sitio web y se
descarga con la extensión de tipo .CSV. Luego, se observa el delimitador de
columnas que posee el archivo, en este caso es por comas (,):

Tipo de archivo: .CSV


Una vez seleccionado al delimitador correcto, se procede a crear el proyecto y a
explorar los datos en busca de errores, datos faltantes y/o normalización de los
datos. De lo cual se observa que la variable PERIODO presenta el mismo error del
dataset anterior, por lo que se procede a corregir.

Por otro lado la variable ESTU_PRGM_ACADEMICO presenta valores escritos de


distinta forma pero que significan lo mismo. Por esto, en la opción de Clúster se
arreglan estos datos. Tal como se realizó en la base datos N°1.

2. Integración de datos de diversas fuentes y formatos

Página 5 de 9
Realizar al menos un cruce entre dos Dataset´s (Pandas)
Se crea un proyecto en PyCharm, en este caso se llama “Actividad1”. Luego, se
cargaron en una carpeta (“bases_datos”) los Dataset 1 y 2, limpiados y
normalizados anteriormente en OpenRefine, y posteriormente se crea un archivo
Python “actividad_entrega1.py”.

Antes de empezar a escribir código se abre la terminal y se instalan las bibliotecas


que se necesitan como lo son: “pip install pandas”, “pip install Matplotlib”, “pip
install seaborn” y “pip install plotly”.

Continuando, en el archivo Python se procede a importar dichas librerías y cargar


las bases de datos para su posterior análisis.
Página 6 de 9
Ahora bien, los Datasets contienen información pertinente de las pruebas Saber 11
y Saber Pro realizadas en el año 2022 en instituciones ubicadas en la ciudad de
Bogotá; es por esto que se quiere combinar el puntaje global de estas dos
pruebas.
El dataset1 ya contiene dicho puntaje en la variable PUNT_GLOBAL, lo cual no
posee el dataset2. Por esta razón se realiza una transformación de datos previa.
Se promedian las variables 'MOD_RAZONA_CUANTITAT_PUNT’,
'MOD_COMUNI_ESCRITA_PUNT', 'MOD_LECTURA_CRITICA_PUNT',
'MOD_INGLES_PUNT' y 'MOD_COMPETEN_CIUDADA_PUNT' y se alojan los
resultados, en una variable llamada PUNTAJE_GLOBAL_SABER_PRO. Luego se
agrega dicha variable al dataset2.

Página 7 de 9
Ahora sí, es posible realizar la combinación del Puntaje Global de estas dos
pruebas respecto a los estratos.

Se realiza el promedio de los que contiene el puntaje global, y el dataset Gracias


a esto, se realiza una previsualización dataset que el Promedio de los resultados
En vista de el dataset 1

3. Utilizar las bibliotecas de Análisis de series temporales


Realizar al menos 3 gráficos de la información contenida en los Dataset´s
anteriores utilizando las bibliotecas vistas.

4. Realizar Conclusiones
Entregar un documento con los elementos habituales (portada, índice, nombre,
fecha, numeración de páginas, etc.). Tipo de fuente: Arial 14, Máximo 8 páginas

Página 8 de 9
Página 9 de 9

También podría gustarte