0% encontró este documento útil (0 votos)
18 vistas24 páginas

python pandas

El curso de Python con pandas abarca la instalación y uso de las bibliotecas Pandas y NumPy para la manipulación y análisis de datos estructurados. Se presentan conceptos clave como Series y DataFrames, así como operaciones básicas y avanzadas para trabajar con datos, incluyendo filtrado, combinación y transformación de datos. Además, se incluyen ejemplos prácticos de código para ilustrar cómo aplicar estas herramientas en situaciones reales.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
18 vistas24 páginas

python pandas

El curso de Python con pandas abarca la instalación y uso de las bibliotecas Pandas y NumPy para la manipulación y análisis de datos estructurados. Se presentan conceptos clave como Series y DataFrames, así como operaciones básicas y avanzadas para trabajar con datos, incluyendo filtrado, combinación y transformación de datos. Además, se incluyen ejemplos prácticos de código para ilustrar cómo aplicar estas herramientas en situaciones reales.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 24

Curso de Python con pandas

Video Donde usar Pandas


Instalación de Pandas y librerías necesarias:
Pandas
 Propósito: Pandas está diseñado específicamente para la manipulación y
el análisis de datos estructurados (como tablas de bases de datos o
datos tabulares).
 Características Clave:
 DataFrame: Una estructura de datos bidimensional similar a una tabla en
una base de datos, donde las filas y columnas tienen etiquetas.
 Series: Una estructura unidimensional similar a una columna en una
tabla.
 Operaciones de Índices: Soporte robusto para indexación y reindexación,
facilitando la selección y manipulación de subconjuntos de datos.
 Manejo de Datos Faltantes: Métodos integrados para detectar, eliminar o
rellenar datos faltantes.
 Lectura y Escritura de Datos: Funcionalidades para leer y escribir datos
desde/hacia varios formatos como CSV, Excel, SQL, y más.
 Agrupación y Agregación: Herramientas para agrupar, resumir y
transformar datos.
 Uso Común: Ideal para tareas de limpieza de datos, preparación de
datos para modelado, y análisis exploratorio de datos.

NumPy
 Propósito: NumPy es la biblioteca fundamental para el cálculo numérico
y la manipulación de matrices en Python.
 Características Clave:
 Array N-dimensional (ndarray): Una estructura de datos poderosa y
eficiente para almacenar y manipular grandes conjuntos de datos
multidimensionales.
 Funciones Matemáticas y Lógicas: Amplia colección de funciones
matemáticas y lógicas para operar en arrays.
 Álgebra Lineal: Funcionalidades para realizar operaciones de álgebra
lineal como productos de matrices, descomposiciones, etc.
 Transformaciones: Herramientas para realizar transformaciones de
Fourier y operaciones estadísticas.
 Interoperabilidad: Funciona bien con otras bibliotecas como SciPy y
Matplotlib, facilitando la creación de pipelines de análisis de datos y
visualización.
 Uso Común: Usado en computación científica, análisis de datos,
simulaciones numéricas, y en cualquier situación que requiera cálculos
matemáticos intensivos.

Video Estructura de Datos


Codigo Naranjas:
Este código utiliza la biblioteca pandas para crear una estructura de datos
llamada Series, que es similar a una columna en una tabla. La lista
[4,9,2,6,10,200] se convierte en una Series llamada naranjas, con cada número
siendo un elemento de la serie. Luego, se imprime la Series, mostrando tanto
los índices (automáticamente asignados por pandas) como los valores.
Codigo Manzanas:
Este código utiliza la biblioteca pandas para crear una estructura de datos
llamada Series, que es una lista unidimensional de datos. La lista [60, 22, 1, 79,
2, 8] se convierte en una Series llamada manzanas, donde cada número en la
lista es un elemento de la serie. Luego, el código imprime la Series, mostrando
tanto los índices (automáticamente asignados por pandas comenzando desde
0) como los valores de la serie.
Codigo Video SERIES parte 1
Codigo Series Colores:
Este código utiliza la biblioteca pandas para crear una estructura de
datos llamada Series, que es una lista unidimensional de datos. La
lista ['rojo', 'azul', 'amarillo', 'verde', 'morado'] se convierte en una
Series llamada colores, donde cada elemento de la lista es un valor en
la serie. Luego, el código imprime la Series, mostrando tanto los
índices (automáticamente asignados por pandas comenzando desde 0)
como los valores de la serie.

Codigo Series materias diccionario:


El código organiza las calificaciones de materias específicas en un formato
estructurado (utilizando una Series de Pandas) y luego las muestra en la
consola. Esto es útil para almacenar y trabajar con datos tabulares de manera
eficiente, especialmente en análisis de datos y ciencia de datos.
El código utiliza la biblioteca pandas de Python para crear una estructura de
datos llamada Series. Una Series en Pandas es una lista unidimensional que
puede contener datos de cualquier tipo (en este caso, números enteros).
Codido Series Números.size:
El código crea una serie de Pandas llamada numeros que contiene una
secuencia de números enteros del 1 al 9. Luego, imprime el tamaño de esta
serie, que es el número total de elementos que contiene (en este caso, 9).
se utiliza la biblioteca Pandas para crear una serie llamada numeros que
contiene una secuencia de números enteros del 1 al 9. Luego, se imprime el
atributo size de la serie numeros, que muestra el número total de elementos en
la serie.
Números.index:
El código crea una serie de Pandas llamada numeros que contiene una
secuencia de números enteros del 1 al 9. Luego, imprime los índices de esta
serie, que son índices numéricos predeterminados generados automáticamente
por Pandas.
se utiliza la biblioteca Pandas para crear una serie llamada numeros que
contiene una secuencia de números enteros del 1 al 9. Luego, se imprime el
atributo index de la serie numeros, que muestra los índices de la serie.
Números.dtype:
El código crea una serie de Pandas llamada numeros que contiene una
secuencia de números enteros del 1 al 9. Luego, imprime el tipo de datos de
los elementos de esta serie, confirmando que son números enteros de 64 bits.
En este código, se utiliza la biblioteca Pandas para crear una serie llamada
numeros que contiene una secuencia de números enteros del 1 al 9. Luego, se
imprime el tipo de datos (dtype) de la serie numeros.
Acceso a una serie:
1. La primera parte del código crea una serie de Pandas llamada colores
con una lista de colores y luego imprime una selección específica de
elementos de esa serie.
2. La segunda parte crea una serie de Pandas llamada numeros con una
lista de números y luego imprime una nueva serie donde cada número
se ha multiplicado por 2.
3. Ambas partes muestran cómo Pandas facilita la manipulación y
operación con datos estructurados de manera eficiente.
Codigo Video SERIES parte 2
Funciones básicas sum, max,min
Sum:
El código crea una serie de Pandas llamada numeros que contiene una
secuencia de números enteros del 1 al 9. Luego, utiliza el método sum() para
calcular la suma de todos los elementos en esta serie y lo imprime. Esto
demuestra cómo Pandas facilita operaciones estadísticas básicas en datos
estructurados de manera eficiente.
Este código utiliza la biblioteca Pandas para crear una serie llamada numeros
que contiene una secuencia de números enteros del 1 al 9. Luego, se utiliza el
método sum() para calcular la suma de todos los elementos en la serie numeros
y se imprime el resultado.

Max:
El código demuestra cómo utilizar Pandas para realizar operaciones
estadísticas básicas en datos estructurados. En este caso, se calcula y se
imprime el valor máximo de una serie de números enteros del 1 al 9.
Min:
El código demuestra cómo utilizar Pandas para realizar operaciones
estadísticas básicas en datos estructurados. En este caso, se calcula y se
imprime el valor mínimo de una serie de números enteros del 1 al 9.
numeros.min() es un método de Pandas que calcula el valor mínimo entre
todos los elementos en la serie numeros.
sort_values():
El código utiliza la biblioteca Pandas para crear una serie llamada serie que
almacena calificaciones asociadas a diferentes materias. A continuación, se
ordena esta serie en orden descendente (de mayor a menor) basándose en los
valores de calificación. Finalmente, se imprime la serie ordenada
Ademas muestra cómo utilizar Pandas para organizar y presentar datos de
manera ordenada. En este caso, se ordenan las calificaciones de diferentes
materias en orden descendente, lo cual es útil para analizar y visualizar
rápidamente qué materias tienen las calificaciones más altas o bajas.
Serie con valor escalar:
El código crea una serie de Pandas donde todos los elementos tienen el mismo
valor (5), distribuidos según los índices [0, 1, 2, 3, 4, 5]. Este tipo de serie
es útil cuando se necesita inicializar una serie con un valor constante en cada
posición definida por índices específicos.
Serie con índice definido:
El código muestra cómo crear y utilizar una serie de Pandas donde se
relacionan nombres de futbolistas con equipos específicos mediante índices
personalizados. Esta estructura es útil para representar y trabajar con datos
que tienen relaciones directas entre dos conjuntos de información, como
nombres de jugadores y sus clubes actuales.
Video DataFrame

DataFrame:
El código ilustra cómo utilizar Pandas para crear y trabajar con DataFrames a
partir de datos estructurados en forma de diccionario. En este caso, se creó un
DataFrame estudiantes que contiene información sobre nombres de
estudiantes, carreras y correos electrónicos, proporcionando una manera
conveniente de organizar y manipular datos tabulares en Python.
DataFrame a partir de un diccionario:

El código demuestra cómo crear y trabajar con DataFrames en Pandas utilizando una lista
de listas como fuente de datos. Cada lista interna representa una fila de datos, y al
especificar los nombres de las columnas con el parámetro columns, se organiza y presenta
la información de manera estructurada y tabular.
DataFrame con Numpy:
El código ilustra cómo utilizar Pandas junto con NumPy para generar y trabajar
con DataFrames que contienen datos aleatorios. Esto es útil para simulaciones,
pruebas o cualquier aplicación donde se necesiten conjuntos de datos ficticios
pero realistas para el análisis y la manipulación en Python.
Video Datasets CSV
Filtro de datos en CSV:
este código utiliza Pandas para cargar un archivo CSV en un DataFrame, filtra
este DataFrame basado en una condición específica (edad mayor que 23), y
luego imprime el resultado del filtro. Es útil para seleccionar y trabajar solo con
las filas que cumplen ciertos criterios dentro de conjuntos de datos grandes.
Se utiliza la serie booleana filtrar para indexar el DataFrame df. Esto significa
que solo las filas donde filtrar es True se seleccionan y se asignan al nuevo
DataFrame df_filtrar. En otras palabras, df_filtrar contendrá solo aquellas
filas del DataFrame original donde el valor de 'edad' es mayor que 23.
Video Excel a CSV
Convertir Excel a csv:
este código carga datos desde un archivo Excel ('estudiantes2.xlsx') a un
DataFrame utilizando Pandas, luego convierte ese DataFrame en un archivo
CSV ('estudiantesb.csv'), y finalmente imprime los datos originales del
DataFrame antes de la conversión. Es una forma eficaz de manejar y
transformar datos entre diferentes formatos utilizando Pandas en Python.
convertir.to_csv('estudiantesb.csv', index=None, header=True) es un
método de Pandas que toma el DataFrame convertir y lo guarda como un
archivo CSV llamado 'estudiantesb.csv'. Los parámetros index=None y
header=True se utilizan para especificar que no se incluyan índices de fila en el
archivo CSV y que se mantenga la primera fila como encabezado.
Video Operaciones:

Agregar Columnas:
este código carga datos desde un archivo CSV a un DataFrame utilizando
Pandas, luego añade una nueva columna al DataFrame y finalmente imprime el
DataFrame completo, incluyendo los datos originales y la nueva columna
"TURNO". Es una forma eficiente de manipular y enriquecer datos tabulares
utilizando Pandas en Python.
Anadir datos a CSV:

Este proceso te permite cargar un archivo CSV existente, agregar nuevos datos en forma de
un DataFrame, combinar ambos DataFrames y luego guardar el resultado actualizado en un
nuevo archivo CSV. Es un método eficiente y estructurado para trabajar con datos tabulares
en Python utilizando la biblioteca Pandas.
Eliminar filas de un dataframe:
Este código cargará los datos desde el archivo CSV, eliminará las filas con
índices 1 y 2 del DataFrame y luego imprimirá el DataFrame modificado. Es útil
cuando necesitas eliminar filas específicas que no deseas incluir en tu análisis
o procesamiento posterior.
Filtrado a partir de filas dataframe:
Este código cargará los datos del archivo CSV, aplicará el filtro para encontrar
las estudiantes femeninas con edad mayor o igual a 22 años, y luego imprimirá
esas filas específicas del DataFrame. Es útil para seleccionar y trabajar con
subconjuntos de datos basados en criterios específicos utilizando Pandas en
Python.

Video combinar DataFrames


Combinar DataFrames:

Este ejemplo ilustra cómo Pandas facilita la combinación de datos de diferentes fuentes en
un solo DataFrame, proporcionando una vista consolidada que puede ser utilizada para
análisis posteriores. Esta capacidad es esencial en el trabajo con datos complejos y variados
en cualquier campo donde se necesite extraer información significativa de grandes
conjuntos de datos.
Concatenacion axis:
En este ejemplo, pd.concat() se utiliza para concatenar df1 y df2 a lo largo del
eje de las filas (axis=0). El parámetro ignore_index=True asegura que los
índices de las filas se reorganicen de manera secuencial en el DataFrame
resultante df_concat.

Pandas está optimizado para manejar grandes volúmenes de datos de manera


eficiente, lo cual es crucial en el análisis de datos moderno donde los conjuntos
de datos pueden ser muy grandes. Las operaciones en Pandas, incluida la
concatenación de DataFrames, están diseñadas para minimizar la sobrecarga
computacional y maximizar la velocidad de procesamiento.
Mezclar DataFrames:
La función pd.merge() de Pandas es crucial para la integración y la preparación
de datos al combinar conjuntos de datos que comparten una o más columnas
clave. Esto es esencial en el análisis de datos cuando se trabaja con múltiples
fuentes de datos que deben combinarse para extraer información significativa
y realizar análisis avanzados en Python.

También podría gustarte