Romero Tavera Manuel Fernando Actividad 1

Actividad Semana 1
APLICAR MÉTODOS DE RECOLECCIÓN

Y LIMPIEZA DE DATOS (OPENREFINE)
PRESENTADO POR:
Ing. Manuel Fernando Romero Tavera
C.C. 1.001.098.159
PRESENTADO A:
Ing. Jesús Rubio
BOOTCAMP ANÁLISIS Y VISUALIZACIÓN DE DATOS

BOGOTÁ D. C.
03/04/2024
Página 1 de 9
Tabla de contenido
1. Descripción de los Dataset´s. Recolección y Limpieza de datos...................3
1.1. Dataset 1: resultados_saber_11.csv......................................................3
1.2. Dataset 2: resultados_saber_11.csv......................................................5
2. Integración de datos de diversas fuentes y formatos....................................5
3. Utilizar las bibliotecas de Análisis de series temporales................................6
4. Realizar Conclusiones...................................................................................7
Página 2 de 9
1. Descripción de los Dataset´s. Recolección y Limpieza de datos
En la página www.datos.gov.co, se seleccionaron dos bases de datos referentes al
ámbito educativo, las cuales se describen a continuación:
1.1. Dataset 1: resultados_saber_11.csv
Recuperado de: Resultados únicos Saber 11 | Datos Abiertos Colombia

Esta base de datos contiene los resultados de las Pruebas Saber 11 realizadas
en el año 2022, en instituciones de la ciudad de Bogotá.
Para iniciar con la carga del archivo a OpenRefine, primero se descarga el archivo
del sitio web y se descarga con la extensión de tipo .CSV. Luego, se observa el
delimitador de columnas que posee el archivo, en este caso es por comas (,):
Tipo de archivo: .CSV
Delimitador: comas
Página 3 de 9
Una vez seleccionado al delimitador correcto, se procede a crear el proyecto y a
explorar los datos en busca de errores, datos faltantes, normalización de los datos,
etc. De lo cual se observa que la variable PERIODO muestra error en “20224”, ya
que debería ser “2022-2”, al igual que para el primer periodo. Por esto, en la
opción de Facet se selecciona Text facet y en edit se coloca el valor correcto.
La variable COLE_NOMBRE_SEDE presenta valores escritos de distinta forma

pero que significa lo mismo. Por esto, en la opción de Clúster se arreglan estos
datos, en la opción Merge Selected & re-cluster.
1.2. Dataset 2: resultados_saber_pro.csv
Página 4 de 9
Recuperado de: Resultados únicos Saber Pro | Datos Abiertos Colombia
Esta base de datos contiene los resultados de las Pruebas Saber Pro realizadas
en el año 2022, en instituciones de la ciudad de Bogotá.
Igual que con el archivo anterior, primero se descarga el archivo del sitio web y se
descarga con la extensión de tipo .CSV. Luego, se observa el delimitador de
columnas que posee el archivo, en este caso es por comas (,):
Tipo de archivo: .CSV

Una vez seleccionado al delimitador correcto, se procede a crear el proyecto y a
explorar los datos en busca de errores, datos faltantes y/o normalización de los
datos. De lo cual se observa que la variable PERIODO presenta el mismo error del
dataset anterior, por lo que se procede a corregir.
Por otro lado la variable ESTU_PRGM_ACADEMICO presenta valores escritos de

distinta forma pero que significan lo mismo. Por esto, en la opción de Clúster se
arreglan estos datos. Tal como se realizó en la base datos N°1.
2. Integración de datos de diversas fuentes y formatos
Página 5 de 9
Realizar al menos un cruce entre dos Dataset´s (Pandas)
Se crea un proyecto en PyCharm, en este caso se llama “Actividad1”. Luego, se
cargaron en una carpeta (“bases_datos”) los Dataset 1 y 2, limpiados y
normalizados anteriormente en OpenRefine, y posteriormente se crea un archivo
Python “actividad_entrega1.py”.
Antes de empezar a escribir código se abre la terminal y se instalan las bibliotecas

que se necesitan como lo son: “pip install pandas”, “pip install Matplotlib”, “pip
install seaborn” y “pip install plotly”.
Continuando, en el archivo Python se procede a importar dichas librerías y cargar

las bases de datos para su posterior análisis.
Página 6 de 9
Ahora bien, los Datasets contienen información pertinente de las pruebas Saber 11
y Saber Pro realizadas en el año 2022 en instituciones ubicadas en la ciudad de
Bogotá; es por esto que se quiere combinar el puntaje global de estas dos
pruebas.
El dataset1 ya contiene dicho puntaje en la variable PUNT_GLOBAL, lo cual no
posee el dataset2. Por esta razón se realiza una transformación de datos previa.
Se promedian las variables 'MOD_RAZONA_CUANTITAT_PUNT’,
'MOD_COMUNI_ESCRITA_PUNT', 'MOD_LECTURA_CRITICA_PUNT',
'MOD_INGLES_PUNT' y 'MOD_COMPETEN_CIUDADA_PUNT' y se alojan los
resultados, en una variable llamada PUNTAJE_GLOBAL_SABER_PRO. Luego se
agrega dicha variable al dataset2.
Página 7 de 9
Ahora sí, es posible realizar la combinación del Puntaje Global de estas dos
pruebas respecto a los estratos.
Se realiza el promedio de los que contiene el puntaje global, y el dataset Gracias

a esto, se realiza una previsualización dataset que el Promedio de los resultados
En vista de el dataset 1
3. Utilizar las bibliotecas de Análisis de series temporales

Realizar al menos 3 gráficos de la información contenida en los Dataset´s
anteriores utilizando las bibliotecas vistas.
4. Realizar Conclusiones
Entregar un documento con los elementos habituales (portada, índice, nombre,
fecha, numeración de páginas, etc.). Tipo de fuente: Arial 14, Máximo 8 páginas
Página 8 de 9
Página 9 de 9

Romero Tavera Manuel Fernando Actividad 1

Cargado por

Copyright:

Formatos disponibles

Romero Tavera Manuel Fernando Actividad 1

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Romero Tavera Manuel Fernando Actividad 1

Cargado por

Copyright:

Formatos disponibles

Actividad Semana 1

APLICAR MÉTODOS DE RECOLECCIÓN

BOOTCAMP ANÁLISIS Y VISUALIZACIÓN DE DATOS

1.1. Dataset 1: resultados_saber_11.csv

Recuperado de: Resultados únicos Saber 11 | Datos Abiertos Colombia

Tipo de archivo: .CSV

La variable COLE_NOMBRE_SEDE presenta valores escritos de distinta forma

1.2. Dataset 2: resultados_saber_pro.csv

Tipo de archivo: .CSV

Por otro lado la variable ESTU_PRGM_ACADEMICO presenta valores escritos de

2. Integración de datos de diversas fuentes y formatos

Antes de empezar a escribir código se abre la terminal y se instalan las bibliotecas

Continuando, en el archivo Python se procede a importar dichas librerías y cargar

Se realiza el promedio de los que contiene el puntaje global, y el dataset Gracias

3. Utilizar las bibliotecas de Análisis de series temporales

También podría gustarte