python pandas
python pandas
NumPy
Propósito: NumPy es la biblioteca fundamental para el cálculo numérico
y la manipulación de matrices en Python.
Características Clave:
Array N-dimensional (ndarray): Una estructura de datos poderosa y
eficiente para almacenar y manipular grandes conjuntos de datos
multidimensionales.
Funciones Matemáticas y Lógicas: Amplia colección de funciones
matemáticas y lógicas para operar en arrays.
Álgebra Lineal: Funcionalidades para realizar operaciones de álgebra
lineal como productos de matrices, descomposiciones, etc.
Transformaciones: Herramientas para realizar transformaciones de
Fourier y operaciones estadísticas.
Interoperabilidad: Funciona bien con otras bibliotecas como SciPy y
Matplotlib, facilitando la creación de pipelines de análisis de datos y
visualización.
Uso Común: Usado en computación científica, análisis de datos,
simulaciones numéricas, y en cualquier situación que requiera cálculos
matemáticos intensivos.
Max:
El código demuestra cómo utilizar Pandas para realizar operaciones
estadísticas básicas en datos estructurados. En este caso, se calcula y se
imprime el valor máximo de una serie de números enteros del 1 al 9.
Min:
El código demuestra cómo utilizar Pandas para realizar operaciones
estadísticas básicas en datos estructurados. En este caso, se calcula y se
imprime el valor mínimo de una serie de números enteros del 1 al 9.
numeros.min() es un método de Pandas que calcula el valor mínimo entre
todos los elementos en la serie numeros.
sort_values():
El código utiliza la biblioteca Pandas para crear una serie llamada serie que
almacena calificaciones asociadas a diferentes materias. A continuación, se
ordena esta serie en orden descendente (de mayor a menor) basándose en los
valores de calificación. Finalmente, se imprime la serie ordenada
Ademas muestra cómo utilizar Pandas para organizar y presentar datos de
manera ordenada. En este caso, se ordenan las calificaciones de diferentes
materias en orden descendente, lo cual es útil para analizar y visualizar
rápidamente qué materias tienen las calificaciones más altas o bajas.
Serie con valor escalar:
El código crea una serie de Pandas donde todos los elementos tienen el mismo
valor (5), distribuidos según los índices [0, 1, 2, 3, 4, 5]. Este tipo de serie
es útil cuando se necesita inicializar una serie con un valor constante en cada
posición definida por índices específicos.
Serie con índice definido:
El código muestra cómo crear y utilizar una serie de Pandas donde se
relacionan nombres de futbolistas con equipos específicos mediante índices
personalizados. Esta estructura es útil para representar y trabajar con datos
que tienen relaciones directas entre dos conjuntos de información, como
nombres de jugadores y sus clubes actuales.
Video DataFrame
DataFrame:
El código ilustra cómo utilizar Pandas para crear y trabajar con DataFrames a
partir de datos estructurados en forma de diccionario. En este caso, se creó un
DataFrame estudiantes que contiene información sobre nombres de
estudiantes, carreras y correos electrónicos, proporcionando una manera
conveniente de organizar y manipular datos tabulares en Python.
DataFrame a partir de un diccionario:
El código demuestra cómo crear y trabajar con DataFrames en Pandas utilizando una lista
de listas como fuente de datos. Cada lista interna representa una fila de datos, y al
especificar los nombres de las columnas con el parámetro columns, se organiza y presenta
la información de manera estructurada y tabular.
DataFrame con Numpy:
El código ilustra cómo utilizar Pandas junto con NumPy para generar y trabajar
con DataFrames que contienen datos aleatorios. Esto es útil para simulaciones,
pruebas o cualquier aplicación donde se necesiten conjuntos de datos ficticios
pero realistas para el análisis y la manipulación en Python.
Video Datasets CSV
Filtro de datos en CSV:
este código utiliza Pandas para cargar un archivo CSV en un DataFrame, filtra
este DataFrame basado en una condición específica (edad mayor que 23), y
luego imprime el resultado del filtro. Es útil para seleccionar y trabajar solo con
las filas que cumplen ciertos criterios dentro de conjuntos de datos grandes.
Se utiliza la serie booleana filtrar para indexar el DataFrame df. Esto significa
que solo las filas donde filtrar es True se seleccionan y se asignan al nuevo
DataFrame df_filtrar. En otras palabras, df_filtrar contendrá solo aquellas
filas del DataFrame original donde el valor de 'edad' es mayor que 23.
Video Excel a CSV
Convertir Excel a csv:
este código carga datos desde un archivo Excel ('estudiantes2.xlsx') a un
DataFrame utilizando Pandas, luego convierte ese DataFrame en un archivo
CSV ('estudiantesb.csv'), y finalmente imprime los datos originales del
DataFrame antes de la conversión. Es una forma eficaz de manejar y
transformar datos entre diferentes formatos utilizando Pandas en Python.
convertir.to_csv('estudiantesb.csv', index=None, header=True) es un
método de Pandas que toma el DataFrame convertir y lo guarda como un
archivo CSV llamado 'estudiantesb.csv'. Los parámetros index=None y
header=True se utilizan para especificar que no se incluyan índices de fila en el
archivo CSV y que se mantenga la primera fila como encabezado.
Video Operaciones:
Agregar Columnas:
este código carga datos desde un archivo CSV a un DataFrame utilizando
Pandas, luego añade una nueva columna al DataFrame y finalmente imprime el
DataFrame completo, incluyendo los datos originales y la nueva columna
"TURNO". Es una forma eficiente de manipular y enriquecer datos tabulares
utilizando Pandas en Python.
Anadir datos a CSV:
Este proceso te permite cargar un archivo CSV existente, agregar nuevos datos en forma de
un DataFrame, combinar ambos DataFrames y luego guardar el resultado actualizado en un
nuevo archivo CSV. Es un método eficiente y estructurado para trabajar con datos tabulares
en Python utilizando la biblioteca Pandas.
Eliminar filas de un dataframe:
Este código cargará los datos desde el archivo CSV, eliminará las filas con
índices 1 y 2 del DataFrame y luego imprimirá el DataFrame modificado. Es útil
cuando necesitas eliminar filas específicas que no deseas incluir en tu análisis
o procesamiento posterior.
Filtrado a partir de filas dataframe:
Este código cargará los datos del archivo CSV, aplicará el filtro para encontrar
las estudiantes femeninas con edad mayor o igual a 22 años, y luego imprimirá
esas filas específicas del DataFrame. Es útil para seleccionar y trabajar con
subconjuntos de datos basados en criterios específicos utilizando Pandas en
Python.
Este ejemplo ilustra cómo Pandas facilita la combinación de datos de diferentes fuentes en
un solo DataFrame, proporcionando una vista consolidada que puede ser utilizada para
análisis posteriores. Esta capacidad es esencial en el trabajo con datos complejos y variados
en cualquier campo donde se necesite extraer información significativa de grandes
conjuntos de datos.
Concatenacion axis:
En este ejemplo, pd.concat() se utiliza para concatenar df1 y df2 a lo largo del
eje de las filas (axis=0). El parámetro ignore_index=True asegura que los
índices de las filas se reorganicen de manera secuencial en el DataFrame
resultante df_concat.