Romero Tavera Manuel Fernando Actividad 1
Romero Tavera Manuel Fernando Actividad 1
Romero Tavera Manuel Fernando Actividad 1
PRESENTADO POR:
Ing. Manuel Fernando Romero Tavera
C.C. 1.001.098.159
PRESENTADO A:
Ing. Jesús Rubio
Página 2 de 9
1. Descripción de los Dataset´s. Recolección y Limpieza de datos
En la página www.datos.gov.co, se seleccionaron dos bases de datos referentes al
ámbito educativo, las cuales se describen a continuación:
Delimitador: comas
Página 3 de 9
Una vez seleccionado al delimitador correcto, se procede a crear el proyecto y a
explorar los datos en busca de errores, datos faltantes, normalización de los datos,
etc. De lo cual se observa que la variable PERIODO muestra error en “20224”, ya
que debería ser “2022-2”, al igual que para el primer periodo. Por esto, en la
opción de Facet se selecciona Text facet y en edit se coloca el valor correcto.
Página 4 de 9
Recuperado de: Resultados únicos Saber Pro | Datos Abiertos Colombia
Esta base de datos contiene los resultados de las Pruebas Saber Pro realizadas
en el año 2022, en instituciones de la ciudad de Bogotá.
Igual que con el archivo anterior, primero se descarga el archivo del sitio web y se
descarga con la extensión de tipo .CSV. Luego, se observa el delimitador de
columnas que posee el archivo, en este caso es por comas (,):
Página 5 de 9
Realizar al menos un cruce entre dos Dataset´s (Pandas)
Se crea un proyecto en PyCharm, en este caso se llama “Actividad1”. Luego, se
cargaron en una carpeta (“bases_datos”) los Dataset 1 y 2, limpiados y
normalizados anteriormente en OpenRefine, y posteriormente se crea un archivo
Python “actividad_entrega1.py”.
Página 7 de 9
Ahora sí, es posible realizar la combinación del Puntaje Global de estas dos
pruebas respecto a los estratos.
4. Realizar Conclusiones
Entregar un documento con los elementos habituales (portada, índice, nombre,
fecha, numeración de páginas, etc.). Tipo de fuente: Arial 14, Máximo 8 páginas
Página 8 de 9
Página 9 de 9