ADAT
ADAT
Semana 3
Pandas para el análisis de datos
Fuentes:
- bases de datos
-archivos de texto plano
-hojas electrónicas,
La analitica de datos pretende aumentar el conocimiento o
reducir la incertidumbre respecto a algo.
-Por aumentar el conocimiento nos referimos a que nos
revela cosas que no sabemos, pero que necesitamos para
la toma de decisiones.
- Por reducir la incertidumbre nos referimos a que reduce
los riesgos derivados de la toma de una decision,
aumentando nuestro grado de certeza.
Sujeto, Evento, Estado
Empleado, Buscando ascenso, Ascenso autorizado
Producto, Saliendo de almacén, Salida autorizada
La circunstancia o contexto implica alcances geográficos,
temporales, condicionales o de clasificación que delimitan a
los sujetos, eventos y estados, y a su análisis.
Análisis Muestral:
ANÁLISIS PRELIMINAR DE LOS DATOS
SETS: Son muy similares a las listas, pero estas no permiten elementos
repetidos e incluso si lo declaras con valores repetidos, solo se guardará
un valor único. SON DESORDENADOS E INMUTABLES.
Funciones
.add()
.remove() <> .discard()
.union() Fusiona dos sets
.intersection(): coincidencias entre dos sets
.difference() diferencias entre dos sets
Semana 4
Datos en pandas son float64, int, objecct, bool, datetime, timedelta,
category
Los dos elementos basicos de pandas son las series y los index
Una serie puede almacenar:
· Cadenas de texto 'Esto es una cadena de texto'
· Datos numéricos
. Datos de fecha y hora
Semana 5
DataFrame
En librerías Pandas
- Columnas y filas con datos de diferentes formas (Series pandas
indexadas y apiladas Por un valor - Examen)
- Contiene dos índices (-Filas y columnas)
- El nombre de las filas de un dataframe se llama index por defecto
empieza en 0
- Beneficio de dataframes
- Dataframe de pandas tiene varias funciones útiles se les conoce como
métodos
o Métodos de acceso y visualizacione de datos
o Métodos de manipulación y transformación de datos
o Métodos de estadísticas y datos
o Métodos de entrada y salida
o Métodos de visualización
- Las cualidades de dataframe lo diferencian de otros
- Cuando se coloca el punto después de un dataframe es un método y los
que no son llamados atributos.
o df.info (Método)
- Meodos y atributos
o .info()
o .shape(): Conjunto de datos
o .columns() : Nombres de columnas
o .index.to_list() : Indice de dataframe
o Slice: filtrar datos
o Describe() : conocer algunas estadísticas descriptivas
sobre el dataframe
o .size
- El acceso a un dataframe se realiza por nombre, atributo, indice nativo,
personalizado, celdas especificas por etiqueta, celdas especificas por
índices numericos
Semana 6
df= pd.read_csv ( 'archivo.csv')
pandas.read_csv("nombre.csv")
sep: Carácter delimitador. El valor predeterminado es header “ ’ “
Indica si la primera fila del archivo CSV contiene encabezados de
columna o no. El valor predeterminado es infer.
Usecols: Se utiliza para especificar las columnas del archivo CSV que se
van a incluir en el dataframe resultante.
Dtype: Se utiliza para especificar el tipo de datos de las columnas del
dataframe resultante. Los tipos de datos deben de especificarse a través
de un diccionario
na_values: Se utiliza para especificar los valores que se consideran como
valores faltantes en el archivo CSV. NaN y None.
Nrows: Especifica el numero máximo de filas que se leerán del archivo
CSV.
CREAR DATAFRAME A PARTIR DE ARCHIVO TXT
df= pd.read_table ( 'archivo.txt')
Excel:
Usecols: Se utiliza para especificar las columnas del archivo Excel que se
van a incluir en el dataframe resultante.
Dtype: Se utiliza para especificar el tipo de datos de las columnas del
DataFrame resultante.
na values: Se utiliza para especificar los valores que Se consideran como
valores faltantes en el archivo de Excel.
sheet_name: Especifica el nombre o índice de la hoja del libro de Excel
que se va a leer. Si no se especifica, se leera la primera hoja por defecto.
Header: Indica si la primera fila de la hoja de Excel contiene
encabezados de columna o no.