0% encontró este documento útil (0 votos)
39 vistas

1.intro Python Pandas

Aquí están los pasos para completar la práctica 1: 1. df.shape 2. df.index 3. df.columns 4. df.dtypes 5. df.values 6. df.head(10) 7. df.tail(3) 8. df.describe() Recuerda importar pandas como pd al inicio y leer el archivo csv usando pd.read_csv('exercise_data.csv') y guardarlo en un dataframe llamado df. Luego aplica cada método solicitado sobre df.

Cargado por

Santiago Ruiz P
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
39 vistas

1.intro Python Pandas

Aquí están los pasos para completar la práctica 1: 1. df.shape 2. df.index 3. df.columns 4. df.dtypes 5. df.values 6. df.head(10) 7. df.tail(3) 8. df.describe() Recuerda importar pandas como pd al inicio y leer el archivo csv usando pd.read_csv('exercise_data.csv') y guardarlo en un dataframe llamado df. Luego aplica cada método solicitado sobre df.

Cargado por

Santiago Ruiz P
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 24

Python

Introducción
Numpy
Pandas
Manejo de Archivos
Accede al sitio oficial de la Librería Pandas:
https://pandas.pydata.org/
Qué es Python?
● Es un lenguaje de programación interpretado de alto nivel que fue creado por
Guido Van Rossum en 1989.

● Se ha utilizado ampliamente en casi todos los dominios en la actualidad y no


muestra signos de desaceleración. Esto se debe a todas las funciones que
Python ofrece a los desarrolladores. El manejo de archivos es una de las
características principales de Python.

● Según la encuesta del sitio web, la popularidad de Python superó a la de C # en


2018, al igual que superó a PHP en 2017. En la plataforma GitHub, Python
superó a Java como el segundo lenguaje de programación más utilizado, con un
40% más de solicitudes de extracción abiertas en 2017 que en 2016.
Porqué los licenciados deben aprender Python?
1. Python es fácil y sencillo de aprender. Si comprendes Python,
podrás entender más fácilmente otros lenguajes de programación.
Esto quiere decir que es una excelente opción si apenas incursionan
en el mundo de los desarrolladores.

2. Python hace referencia a su limpieza y legibilidad.

3. Está desarrollado bajo una licencia de código abierto, por lo que es


de libre uso y distribución, incluso para uso comercial.

4. Este lenguaje de programación permite una diversidad de


desarrollos de una manera fácil, ágil y rápida.
Porqué los licenciados deben aprender Python?
5. Su característica multiplataforma permite que este pueda ser
usado en diferentes sistemas operativos.

6. Gracias a su popularidad, cuenta con una amplia comunidad que


organiza eventos, conferencias, reuniones y colabora en materia de
códigos e información.

Python es ideal para cualquiera persona que desee adentrarse en el


desarrollo sin tener conocimientos previos. Además, está en el top 5
de los lenguajes para programar más usados y cada vez aumenta
más su uso y su demanda laboral.

Si quieres conocer mas acerca de este tema:


https://www.derechopractico.es/tiene-el-abogado-que-aprender-a-escribir-codigo/
Librerías Python
Librería Numpy
• Numpy es una librería de Python, especializada en el cálculo
numérico y en el análisis de datos, especialmente en grandes
volúmenes de datos. Trabaja principalmente con arreglos
(arrays).
• Tiene diferentes funciones: algebra lineal, transformada de
Fourier y matrices, además cuenta con un conjunto de
funciones estadísticas muy completo.
• Numpy significa Numerical Python.
¿Porqué utilizar Numpy?

● El principal beneficio de NumPy es que permite una generación y manejo


de datos extremadamente rápido. NumPy tiene su propia estructura de
datos incorporada, llamado arreglo que es similar a la lista normal de
Python, pero puede almacenar y operar con datos de manera mucho más
eficiente.

● Los arreglos son muy frecuentemente utilizados en Ciencia de Datos, en


donde la velocidad y el manejo de recursos es muy importante.
Ejercicio de clase

● Investiga y genera un listado de los principales métodos (funciones)


estadísticos que maneja Numpy. Agrega a un lado la descripción.
Librería Pandas

• Pandas es una biblioteca de Python que se utiliza para


trabajar con conjuntos de datos.
• Tiene funciones para analizar, limpiar, explorar y manipular
datos.
• El nombre "Pandas" hace referencia tanto a "Datos de panel"
como a "Análisis de datos de Python" y fue creado por Wes
McKinney en 2008. Su nombre es Python Data Analysis Library
(mas comúnmente conocido como Pandas)
¿Por qué utilizar Pandas?
● Pandas nos permite analizar ‘big data’ y sacar conclusiones basadas en
teorías estadísticas.

● Pandas pueden limpiar conjuntos de datos desordenados y hacerlos legibles


y relevantes.

● Los datos relevantes son muy importantes en la ciencia de datos, la cual es


una rama de la informática donde estudiamos cómo almacenar, usar y
analizar datos para derivar información de ellos.
¿Por qué utilizar Pandas?
● La biblioteca Pandas provee estructuras de datos, genera gráficos de alta
calidad con matplotlib y se integra de buena forma con otras bibliotecas que
usan arrays, como NumPy (la cual es otra biblioteca de Python).
¿Cómo está organizado Pandas?
Los principales tipos de datos que pueden representarse con pandas son:

● Serie, es una matriz unidimensional capaz de contener cualquier tipo de datos


(enteros, cadenas, números de punto flotante, objetos Python, etc.). Las
etiquetas de los ejes se denominan colectivamente índice .

● Dataframes, es una estructura de datos bidimensional con columnas de tipos


potencialmente diferentes. Puede pensar en ello como una hoja de cálculo o
una tabla SQL. Generalmente es el objeto pandas más utilizado.
Representación de tabla de datos en Pandas.

Cada columna en un dataframe es una serie.


¿Qué puede hacer Pandas?
Pandas te da respuestas sobre los datos:

● ¿Existe una correlación entre dos o más columnas?


● ¿Qué es el valor medio?
● ¿Valor máximo?
● ¿Valor mínimo?

Pandas también pueden eliminar filas que no son relevantes o que


contienen valores incorrectos, como valores vacíos o NULL. A esto se le
llama limpiar los datos (lo veremos un poco mas tarde).
Iniciando con Pandas
● Antes que todo vamos a Thonny y seleccionemos lo siguiente: Administración de paquetes y escribimos
pandas y damos clic en Buscar. En resultados de búsqueda, seleccionamos pandas y damos clic en el
botón de Install.
Pandas ya está instalado en Thonny!

Ya solo tenemos que importarlo de la siguiente forma, el pd es el alías con el cual nos referiremos a él:

Ahora si, Pandas está listo para usarse!!


Manejo de archivos en Pandas
Archivos csv y Excel.
Como leer y escribir datos tabulares en pandas?

Con los método read_ y to_ respectivamente.

Nos enfocaremos en los archivos csv que son los mas ampliamente utilizados en el
manejo de datos.
Cómo leer un archivo csv o Excel en Pandas?
Utilizaremos un archivo con terminación csv (que es el mas comúnmente utilizado para el análisis de
datos) , si lo abres directamente, podrás observar que fue creado en Excel, sin embargo su extensión es
csv (coma separated values) y lo bajaremos del siguiente link:
https://drive.google.com/file/d/1Ox96aEaSMtFVOFANVyN75kxM_ja9tCMs/view?usp=sharing

Ingresamos a Thonny y escribimos los siguiente:

Observa que la primera línea importa la librería Pandas.

Si tuviésemos que leer un archivo de Excel, solamente cambiaremos lo


siguiente: df = pd.read_excel(“Nombre del archivo”)

Observa que dentro del paréntesis va el nombre del archivo, solo si este se encuentra en el
mismo directorio que el script, si esto no es así, se deberá poner el path completo donde se
encuentra ubicado.

Si quieres saber mas , accede al siguiente link - https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html


Cómo leer un archivo csv o Excel en Pandas?

También podemos leer un archivo de tipo texto como csv.


Ejemplo:
Abre el block de notas (o algún otro editor de texto) y agrega el siguiente texto:

35 banana orange apple mango


12 carrot cucumber onion tomato

Guárdalo con el nombre sample.txt. Recuérda que debe guardarse en el mismo directorio
que el script.
Entra a Thonny y escribe el siguiente código:

¿Cuál es la salida? ¿Qué


significan los argumentos
sep y header?

Si deseas conocer mas sobre archivos csv, da clic.


Creación de archivos csv desde Pandas.

Para guardar nuestros datos (dataframes) en un archivo csv, utilizaremos el


método to_csv

Después de ejecutar nuestro script podremos observar


que se creo el archivo city.csv. Si lo abrimos veremos qué
en él se encuentran los datos de las ciudades.
Algunos comandos y funciones mas utilizados en Pandas.
Ejercicio de clase. Revisa los siguientes métodos y funciones. Investiga que hace cada una de ellas y
pruébalas en el Shell.

● df.shape
● df.index
● df.columns
● df.dtypes
● df.values
● df.value_counts
● df.head()
● df.tail()
● df.describe()
● df.sort_values(‘nombre de la columna’, ascending= False)

Comenta
Deseas conocercon tus compañeros
mas acerca de los comandostus
pararesultados.
Dataframes? Utiliza el siguiente link: https://pandas.pydata.org/docs/reference/frame.html
1. Aplicar una función para conocer cuantas
filas y cuantas columnas tiene el
dataframe.
2. Obtener el índice utilizado en el
Práctica 1 dataframe.
3. Acceder a los nombres de las columnas
del dataframe.
Instrucciones: 4. Obtener el tipo de datos de cada columna
• Bajar el archivo de Canvas llamado del dataframe.
exercise_data.csv. Guardar en una
5. Mostrar todos los valores del dataframe.
carpeta.
6. Mostrar los primeros 10 registros del
• Abrir un script nuevo en Thonny y
dataframe.
guardar en la carpeta anterior.
7. Mostrar los últimos 3 registros del
• Leer el archivo en Pandas de Python
dataframe.
y guardar en un dataframe.
8. Obtener la estadística descriptiva del
• Realiza lo siguiente:
dataframe.
9. Ordenar el dataframe por la columna de
Duration de menor a mayor.

También podría gustarte