Maneja y Analiza Datos Con DataFrames de Pandas y Python
Maneja y Analiza Datos Con DataFrames de Pandas y Python
Los DataFrames son una estructura de datos fundamental en el análisis de datos con Python,
especialmente cuando se trabaja con la biblioteca Pandas. Los DataFrames son esenciales para
organizar, manipular y analizar datos tabulares. En este informe, exploraremos los conceptos
básicos de los DataFrames en Pandas, incluyendo sus atributos básicos, cómo acceder a sus
valores, métodos comunes, cómo agregar y eliminar filas y columnas, y también discutiremos la
estadística descriptiva utilizando Pandas.
Un DataFrame es una estructura de datos bidimensional en la que los datos se organizan en filas y
columnas. Algunos atributos básicos de un DataFrame en Pandas son:
1. shape: Proporciona la dimensión del DataFrame en forma de una tupla (número de filas,
número de columnas).
2. columns: Devuelve una lista con los nombres de las columnas del DataFrame.
3. index: Proporciona información sobre el índice (etiquetas de las filas) del DataFrame.
En el video, se hablo en profundidad de los atributos y pudimos profundizar en los cuatro atributos
básicos.
shape: El atributo shape devuelve una tupla que contiene dos valores: el número de filas y el
número de columnas en el DataFrame. Es útil para conocer las dimensiones de los datos que estás
trabajando.
columns: El atributo columns devuelve una lista con los nombres de las columnas en el DataFrame.
Esto es útil cuando deseas conocer las etiquetas de las columnas o cuando necesitas iterar sobre
las columnas.
index: El atributo index proporciona información sobre el índice (etiquetas de las filas) del
DataFrame. Por defecto, las filas se etiquetan con números enteros comenzando desde 0, pero
puedes personalizar el índice si es necesario. Esto es útil para acceder a filas específicas por
etiqueta o para reindexar el DataFrame.
dtypes: El atributo dtypes muestra los tipos de datos de cada columna en el DataFrame. Esto es útil
para comprender qué tipo de datos contiene cada columna y para garantizar que los tipos de datos
sean apropiados para las operaciones que deseas realizar.
Pandas ofrece una amplia variedad de métodos para realizar operaciones comunes en los
DataFrames:
3. describe(): Calcula estadísticas descriptivas para las columnas numéricas, como media,
desviación estándar, mínimo, máximo, etc.
4. info(): Proporciona información sobre las columnas, incluyendo tipos de datos y valores no
nulos.
Para agregar y borrar filas y columnas en un DataFrame, podemos utilizar los siguientes métodos:
- Agregar Filas: Utiliza el método `append()` o crea un nuevo DataFrame y luego concaténalos con
`concat()`.
- Agregar Columnas: Asigna una Serie o una lista a una nueva columna en el DataFrame existente.
- Borrar Filas: Usa el método `drop()` para eliminar filas por índice o etiqueta.
- Borrar Columnas: Utiliza el operador `del` para eliminar columnas, o el método `drop()` con
`axis=1`.
Estadística Descriptiva con Pandas
- min() y max(): Encuentra los valores mínimos y máximos de las columnas numéricas.
Los DataFrames en Pandas son una herramienta esencial para el análisis de datos en Python.
Permiten organizar, manipular y analizar datos tabulares de manera efectiva. Con una variedad de
métodos y funciones disponibles, Pandas facilita la realización de tareas comunes de análisis de
datos y estadísticas descriptivas. Con este conocimiento, los analistas de datos pueden aprovechar
al máximo sus datos y obtener información valiosa.