0% encontró este documento útil (0 votos)
9 vistas11 páginas

ADAT

Guia de Analisis de datos

Cargado por

arturo23cja
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
9 vistas11 páginas

ADAT

Guia de Analisis de datos

Cargado por

arturo23cja
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 11

Semana 1

Bibliotecas utilizadas en el análisis de datos: Matplotilb, seaborn,


Numpy, y pandas.
Pandas Descripción básica
 Lenguaje Python
 código abierto
 Creada en 2008 por Wes Mckinney
 Pandas = Contracción de “Panel Data”
Características básicas
 Estructuras de datos. Ofrece una variedad de estructuras de datos
de Python.
 Indexacion. Pandas te permite indexar datos de forma rápida y
sencilla, permitiéndote acceder a elementos específicos dentro de
un DataFrame.
 Limpieza de datos
 Manipulación de datos
 Visualización de datos
Desventajas
 Difícil de depurar
 No es adecuado para grandes conjuntos de datos
 Requiere conocimiento de Python
 No es adecuado para aprendizajes profundos
Archivos compatibles con PANDAS
 Xlsx (Excel), CSV, JSON (Java), HTML, SQL, ETC.
Estructuras
Series (Columnas) , Dataframes (Tablas), Panel (Cubos)
Import pandas as pd
Import numpy as np
Semana 2 Parte 2
Jupyter Notebook: Es una aplicación web de código abierto basado en la
web. Puede contener código, ecuaciones (Latex), visualizaciones y texto
narrativo estilizado en formato markdown.
- Julia, Phyton y R (Basado en sell Python)
- Unidad Principal son las librerías
- Se generan archivos .jpynb (Examen)
- Celdas y resultado
- Kernel de ejecución
- Uso: Informe analítico y ciencia de datos
- Los títulos se crean con #, ##, ###, etc
Google colab
Los documentos se llaman librerías de Jupyter

Semana 3
Pandas para el análisis de datos
Fuentes:
- bases de datos
-archivos de texto plano
-hojas electrónicas,
La analitica de datos pretende aumentar el conocimiento o
reducir la incertidumbre respecto a algo.
-Por aumentar el conocimiento nos referimos a que nos
revela cosas que no sabemos, pero que necesitamos para
la toma de decisiones.
- Por reducir la incertidumbre nos referimos a que reduce
los riesgos derivados de la toma de una decision,
aumentando nuestro grado de certeza.
Sujeto, Evento, Estado
Empleado, Buscando ascenso, Ascenso autorizado
Producto, Saliendo de almacén, Salida autorizada
La circunstancia o contexto implica alcances geográficos,
temporales, condicionales o de clasificación que delimitan a
los sujetos, eventos y estados, y a su análisis.

Análisis Muestral:
ANÁLISIS PRELIMINAR DE LOS DATOS

-El analisis volumetrico es la parte del proceso donde se


analizan los volúmenes esperados de datos que es
necesario tener para realizar un analisis de datos exitoso.
-Si tenemos datos de todos para el caso, el analisis puede
ser un estudio censal, y es 100% confiable.
Confianza Utilizada: 90, 95% Y 99%
Campos: Salud, política, ciencia, economía, mercados.
Muestra: Un subconjunto de una población mas grande.
Uso: Inferencias y generalizaciones.
Muestras aleatorias simple: Misma probabilidad de un
indivisuo de ser seleccionado. No se consideran
características especifiacas de cada individuo para el
análisis de la información.
Estratificada: Dividir a la población en subgrupos con
ciertas características comunes, permite asegurar que cada
subgrupo este representado en la muestra.
Cálculo de muestra estadística:
Semana 3 parte 2
Listas tuplas y diccionarios
Las listas son ordenadas (Indexadas), editables, dinámicas y
no unicas, y permiten cualquier dato separado por una coma
Ejemplo
Lista = [10, 20, 30, 40, 50]
Para agregar función : Nombredelista.funcion =
Mi_list.append()
Append: Añade elemento al final
Insert: Añade en posición concreta
Remove: elimina elemento que conozcamos su valor
Sort: ordena lista ascendentemente, se agrega ()
Clear: vacia la lista
Diccionarios:
Almacena datos con una clave única y un valor asociado, usan
() y {}
Para darlo de alta = my_dict = dict()
. Los diccionarios se ordenan y son mutables.
. Pueden soportar cambios despues de su creación, pero son
estrictos acerca de entradas duplicadas.
· Todas las claves/valores deben ser únicos.
· Una vez que creado un diccionario, se puede acceder a los
elementos en el utilizando la clave para cada valor.
Funciones
Len(): Da el numero de elementos de un diccionario
print(len(my_dict))
# Print: 2
Operador in: Para comprobar si existe una clave o no dentro
de un diccionario, esto nos devolvera True en caso de
encontrarlo y False si no lo encuentra,
· Clear(): Si queremos vaciar un diccionario.
my dict. clear()
print(my_dict)
· Get(): Obtener el valor de una Clave de un diccionario.
print(my_dict.get(‘hello’))
# Print: World
TUPLAS: Son similares a las listas, pero lo que las diferencia es que
estas son inmutables, esto quiere decir que no puede modificarse de
ninguna forma después de su creación, SE USAN CON {} Y SE PUEDEN
CONCATENAR Y COMBINAR CON OTRAS TUPLAS
my_tuple = (1,2,3,4)

SETS: Son muy similares a las listas, pero estas no permiten elementos
repetidos e incluso si lo declaras con valores repetidos, solo se guardará
un valor único. SON DESORDENADOS E INMUTABLES.

Funciones
.add()
.remove() <> .discard()
.union() Fusiona dos sets
.intersection(): coincidencias entre dos sets
.difference() diferencias entre dos sets
Semana 4
Datos en pandas son float64, int, objecct, bool, datetime, timedelta,
category
Los dos elementos basicos de pandas son las series y los index
Una serie puede almacenar:
· Cadenas de texto 'Esto es una cadena de texto'
· Datos numéricos
. Datos de fecha y hora
Semana 5
DataFrame
En librerías Pandas
- Columnas y filas con datos de diferentes formas (Series pandas
indexadas y apiladas Por un valor - Examen)
- Contiene dos índices (-Filas y columnas)
- El nombre de las filas de un dataframe se llama index por defecto
empieza en 0

- Beneficio de dataframes
- Dataframe de pandas tiene varias funciones útiles se les conoce como
métodos
o Métodos de acceso y visualizacione de datos
o Métodos de manipulación y transformación de datos
o Métodos de estadísticas y datos
o Métodos de entrada y salida
o Métodos de visualización
- Las cualidades de dataframe lo diferencian de otros
- Cuando se coloca el punto después de un dataframe es un método y los
que no son llamados atributos.
o df.info (Método)
- Meodos y atributos
o .info()
o .shape(): Conjunto de datos
o .columns() : Nombres de columnas
o .index.to_list() : Indice de dataframe
o Slice: filtrar datos
o Describe() : conocer algunas estadísticas descriptivas
sobre el dataframe
o .size
- El acceso a un dataframe se realiza por nombre, atributo, indice nativo,
personalizado, celdas especificas por etiqueta, celdas especificas por
índices numericos
Semana 6
df= pd.read_csv ( 'archivo.csv')
pandas.read_csv("nombre.csv")
sep: Carácter delimitador. El valor predeterminado es header “ ’ “
Indica si la primera fila del archivo CSV contiene encabezados de
columna o no. El valor predeterminado es infer.
Usecols: Se utiliza para especificar las columnas del archivo CSV que se
van a incluir en el dataframe resultante.
Dtype: Se utiliza para especificar el tipo de datos de las columnas del
dataframe resultante. Los tipos de datos deben de especificarse a través
de un diccionario
na_values: Se utiliza para especificar los valores que se consideran como
valores faltantes en el archivo CSV. NaN y None.
Nrows: Especifica el numero máximo de filas que se leerán del archivo
CSV.
CREAR DATAFRAME A PARTIR DE ARCHIVO TXT
df= pd.read_table ( 'archivo.txt')
Excel:

Usecols: Se utiliza para especificar las columnas del archivo Excel que se
van a incluir en el dataframe resultante.
Dtype: Se utiliza para especificar el tipo de datos de las columnas del
DataFrame resultante.
na values: Se utiliza para especificar los valores que Se consideran como
valores faltantes en el archivo de Excel.
sheet_name: Especifica el nombre o índice de la hoja del libro de Excel
que se va a leer. Si no se especifica, se leera la primera hoja por defecto.
Header: Indica si la primera fila de la hoja de Excel contiene
encabezados de columna o no.

También podría gustarte