ADAT

Guia de Analisis de datos

Cargado por

arturo23cja

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

9 vistas11 páginas

ADAT

Guia de Analisis de datos

Cargado por

arturo23cja

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Está en la página 1/ 11

Semana 1

Bibliotecas utilizadas en el análisis de datos: Matplotilb, seaborn,

Numpy, y pandas.
Pandas Descripción básica
 Lenguaje Python
 código abierto
 Creada en 2008 por Wes Mckinney
 Pandas = Contracción de “Panel Data”
Características básicas
 Estructuras de datos. Ofrece una variedad de estructuras de datos
de Python.
 Indexacion. Pandas te permite indexar datos de forma rápida y
sencilla, permitiéndote acceder a elementos específicos dentro de
un DataFrame.
 Limpieza de datos
 Manipulación de datos
 Visualización de datos
Desventajas
 Difícil de depurar
 No es adecuado para grandes conjuntos de datos
 Requiere conocimiento de Python
 No es adecuado para aprendizajes profundos
Archivos compatibles con PANDAS
 Xlsx (Excel), CSV, JSON (Java), HTML, SQL, ETC.
Estructuras
Series (Columnas) , Dataframes (Tablas), Panel (Cubos)
Import pandas as pd
Import numpy as np
Semana 2 Parte 2
Jupyter Notebook: Es una aplicación web de código abierto basado en la
web. Puede contener código, ecuaciones (Latex), visualizaciones y texto
narrativo estilizado en formato markdown.
- Julia, Phyton y R (Basado en sell Python)
- Unidad Principal son las librerías
- Se generan archivos .jpynb (Examen)
- Celdas y resultado
- Kernel de ejecución
- Uso: Informe analítico y ciencia de datos
- Los títulos se crean con #, ##, ###, etc
Google colab
Los documentos se llaman librerías de Jupyter

Semana 3
Pandas para el análisis de datos
Fuentes:
- bases de datos
-archivos de texto plano
-hojas electrónicas,
La analitica de datos pretende aumentar el conocimiento o
reducir la incertidumbre respecto a algo.
-Por aumentar el conocimiento nos referimos a que nos
revela cosas que no sabemos, pero que necesitamos para
la toma de decisiones.
- Por reducir la incertidumbre nos referimos a que reduce
los riesgos derivados de la toma de una decision,
aumentando nuestro grado de certeza.
Sujeto, Evento, Estado
Empleado, Buscando ascenso, Ascenso autorizado
Producto, Saliendo de almacén, Salida autorizada
La circunstancia o contexto implica alcances geográficos,
temporales, condicionales o de clasificación que delimitan a
los sujetos, eventos y estados, y a su análisis.

Análisis Muestral:
ANÁLISIS PRELIMINAR DE LOS DATOS

-El analisis volumetrico es la parte del proceso donde se

analizan los volúmenes esperados de datos que es
necesario tener para realizar un analisis de datos exitoso.
-Si tenemos datos de todos para el caso, el analisis puede
ser un estudio censal, y es 100% confiable.
Confianza Utilizada: 90, 95% Y 99%
Campos: Salud, política, ciencia, economía, mercados.
Muestra: Un subconjunto de una población mas grande.
Uso: Inferencias y generalizaciones.
Muestras aleatorias simple: Misma probabilidad de un
indivisuo de ser seleccionado. No se consideran
características especifiacas de cada individuo para el
análisis de la información.
Estratificada: Dividir a la población en subgrupos con
ciertas características comunes, permite asegurar que cada
subgrupo este representado en la muestra.
Cálculo de muestra estadística:
Semana 3 parte 2
Listas tuplas y diccionarios
Las listas son ordenadas (Indexadas), editables, dinámicas y
no unicas, y permiten cualquier dato separado por una coma
Ejemplo
Lista = [10, 20, 30, 40, 50]
Para agregar función : Nombredelista.funcion =
Mi_list.append()
Append: Añade elemento al final
Insert: Añade en posición concreta
Remove: elimina elemento que conozcamos su valor
Sort: ordena lista ascendentemente, se agrega ()
Clear: vacia la lista
Diccionarios:
Almacena datos con una clave única y un valor asociado, usan
() y {}
Para darlo de alta = my_dict = dict()
. Los diccionarios se ordenan y son mutables.
. Pueden soportar cambios despues de su creación, pero son
estrictos acerca de entradas duplicadas.
· Todas las claves/valores deben ser únicos.
· Una vez que creado un diccionario, se puede acceder a los
elementos en el utilizando la clave para cada valor.
Funciones
Len(): Da el numero de elementos de un diccionario
print(len(my_dict))
# Print: 2
Operador in: Para comprobar si existe una clave o no dentro
de un diccionario, esto nos devolvera True en caso de
encontrarlo y False si no lo encuentra,
· Clear(): Si queremos vaciar un diccionario.
my dict. clear()
print(my_dict)
· Get(): Obtener el valor de una Clave de un diccionario.
print(my_dict.get(‘hello’))
# Print: World
TUPLAS: Son similares a las listas, pero lo que las diferencia es que
estas son inmutables, esto quiere decir que no puede modificarse de
ninguna forma después de su creación, SE USAN CON {} Y SE PUEDEN
CONCATENAR Y COMBINAR CON OTRAS TUPLAS
my_tuple = (1,2,3,4)

SETS: Son muy similares a las listas, pero estas no permiten elementos
repetidos e incluso si lo declaras con valores repetidos, solo se guardará
un valor único. SON DESORDENADOS E INMUTABLES.

Funciones
.add()
.remove() <> .discard()
.union() Fusiona dos sets
.intersection(): coincidencias entre dos sets
.difference() diferencias entre dos sets
Semana 4
Datos en pandas son float64, int, objecct, bool, datetime, timedelta,
category
Los dos elementos basicos de pandas son las series y los index
Una serie puede almacenar:
· Cadenas de texto 'Esto es una cadena de texto'
· Datos numéricos
. Datos de fecha y hora
Semana 5
DataFrame
En librerías Pandas
- Columnas y filas con datos de diferentes formas (Series pandas
indexadas y apiladas Por un valor - Examen)
- Contiene dos índices (-Filas y columnas)
- El nombre de las filas de un dataframe se llama index por defecto
empieza en 0

- Beneficio de dataframes
- Dataframe de pandas tiene varias funciones útiles se les conoce como
métodos
o Métodos de acceso y visualizacione de datos
o Métodos de manipulación y transformación de datos
o Métodos de estadísticas y datos
o Métodos de entrada y salida
o Métodos de visualización
- Las cualidades de dataframe lo diferencian de otros
- Cuando se coloca el punto después de un dataframe es un método y los
que no son llamados atributos.
o df.info (Método)
- Meodos y atributos
o .info()
o .shape(): Conjunto de datos
o .columns() : Nombres de columnas
o .index.to_list() : Indice de dataframe
o Slice: filtrar datos
o Describe() : conocer algunas estadísticas descriptivas
sobre el dataframe
o .size
- El acceso a un dataframe se realiza por nombre, atributo, indice nativo,
personalizado, celdas especificas por etiqueta, celdas especificas por
índices numericos
Semana 6
df= pd.read_csv ( 'archivo.csv')
pandas.read_csv("nombre.csv")
sep: Carácter delimitador. El valor predeterminado es header “ ’ “
Indica si la primera fila del archivo CSV contiene encabezados de
columna o no. El valor predeterminado es infer.
Usecols: Se utiliza para especificar las columnas del archivo CSV que se
van a incluir en el dataframe resultante.
Dtype: Se utiliza para especificar el tipo de datos de las columnas del
dataframe resultante. Los tipos de datos deben de especificarse a través
de un diccionario
na_values: Se utiliza para especificar los valores que se consideran como
valores faltantes en el archivo CSV. NaN y None.
Nrows: Especifica el numero máximo de filas que se leerán del archivo
CSV.
CREAR DATAFRAME A PARTIR DE ARCHIVO TXT
df= pd.read_table ( 'archivo.txt')
Excel:

Usecols: Se utiliza para especificar las columnas del archivo Excel que se
van a incluir en el dataframe resultante.
Dtype: Se utiliza para especificar el tipo de datos de las columnas del
DataFrame resultante.
na values: Se utiliza para especificar los valores que Se consideran como
valores faltantes en el archivo de Excel.
sheet_name: Especifica el nombre o índice de la hoja del libro de Excel
que se va a leer. Si no se especifica, se leera la primera hoja por defecto.
Header: Indica si la primera fila de la hoja de Excel contiene
encabezados de columna o no.

También podría gustarte

Unidad 2 Manipulación de Datos Con Pandas
Aún no hay calificaciones
Unidad 2 Manipulación de Datos Con Pandas
34 páginas
Desarrollo de Los Aspectos Personales para La Ocupación. DAPO. 2 Edición
100% (1)
Desarrollo de Los Aspectos Personales para La Ocupación. DAPO. 2 Edición
94 páginas
Bioplaguicidas
Aún no hay calificaciones
Bioplaguicidas
10 páginas
El Sistema EFI
Aún no hay calificaciones
El Sistema EFI
13 páginas
Diapos Lenguaje
Aún no hay calificaciones
Diapos Lenguaje
21 páginas
Estadistica
Aún no hay calificaciones
Estadistica
47 páginas
01 - Librería Pandas
Aún no hay calificaciones
01 - Librería Pandas
43 páginas
Tema 10 - Guia de Inteligencia Artificial
Aún no hay calificaciones
Tema 10 - Guia de Inteligencia Artificial
16 páginas
Ev2 Eq4 Reporte Tecnico Sobre Analisis de Datos Con Pandas
Aún no hay calificaciones
Ev2 Eq4 Reporte Tecnico Sobre Analisis de Datos Con Pandas
20 páginas
PYTHON
Aún no hay calificaciones
PYTHON
34 páginas
Presentacion Inicial Ciencia de Datos Vivelab
Aún no hay calificaciones
Presentacion Inicial Ciencia de Datos Vivelab
77 páginas
Módulo 3 - Manejo de Datos Estructurados Con Pandas
Aún no hay calificaciones
Módulo 3 - Manejo de Datos Estructurados Con Pandas
24 páginas
Inteligencia Artificial y Ciencia de Datos - Data - Base
Aún no hay calificaciones
Inteligencia Artificial y Ciencia de Datos - Data - Base
21 páginas
VC C3 DPDS
Aún no hay calificaciones
VC C3 DPDS
23 páginas
Clase - Python 6 (24 - II)
Aún no hay calificaciones
Clase - Python 6 (24 - II)
29 páginas
Estadística Descriptiva - Jupyter Notebook
Aún no hay calificaciones
Estadística Descriptiva - Jupyter Notebook
14 páginas
Analyzing Data With Python 2
Aún no hay calificaciones
Analyzing Data With Python 2
64 páginas
(Sesion03) Introduccion Python
Aún no hay calificaciones
(Sesion03) Introduccion Python
47 páginas
Terminos y Definiciones
Aún no hay calificaciones
Terminos y Definiciones
8 páginas
Parte4 Pandas
Aún no hay calificaciones
Parte4 Pandas
36 páginas
Parcial Alg
Aún no hay calificaciones
Parcial Alg
8 páginas
Bootcamp Inteligencia Artificial Nivel Explorador
Aún no hay calificaciones
Bootcamp Inteligencia Artificial Nivel Explorador
62 páginas
Guía Adat Parcial 1
Aún no hay calificaciones
Guía Adat Parcial 1
10 páginas
Unidad 2 Py
Aún no hay calificaciones
Unidad 2 Py
10 páginas
Unidad 6 PC
Aún no hay calificaciones
Unidad 6 PC
2 páginas
M3 Analisis de Datos - Obtención y Preparación de Datos. (AE2)
Aún no hay calificaciones
M3 Analisis de Datos - Obtención y Preparación de Datos. (AE2)
55 páginas
Ciencias de Datos Con Python
100% (3)
Ciencias de Datos Con Python
40 páginas
Guía de Referencia de Pandas
Aún no hay calificaciones
Guía de Referencia de Pandas
2 páginas
Pandas
Aún no hay calificaciones
Pandas
67 páginas
Sesión07 Sesión08
Aún no hay calificaciones
Sesión07 Sesión08
32 páginas
FP Clase14
Aún no hay calificaciones
FP Clase14
26 páginas
Preguntas para Revisión - Alfredo Paz
Aún no hay calificaciones
Preguntas para Revisión - Alfredo Paz
6 páginas
LEARNING
Aún no hay calificaciones
LEARNING
78 páginas
Apunte Certamen 2
Aún no hay calificaciones
Apunte Certamen 2
32 páginas
Introduccion A Pandas
Aún no hay calificaciones
Introduccion A Pandas
10 páginas
Módulo 1 - Resumen
Aún no hay calificaciones
Módulo 1 - Resumen
7 páginas
Clase 3 Numpy Pandas
Aún no hay calificaciones
Clase 3 Numpy Pandas
16 páginas
MAM Fumagalli 16-17 Agosto
Aún no hay calificaciones
MAM Fumagalli 16-17 Agosto
107 páginas
Practica - 06 - Pandas - Intro
Aún no hay calificaciones
Practica - 06 - Pandas - Intro
2 páginas
ProgrammToolsPython 3 2 2021
Aún no hay calificaciones
ProgrammToolsPython 3 2 2021
21 páginas
Guía de Examen Final
Aún no hay calificaciones
Guía de Examen Final
39 páginas
Análisis y Visualización de Datos Usando Python - Comenzando Con Datos
Aún no hay calificaciones
Análisis y Visualización de Datos Usando Python - Comenzando Con Datos
15 páginas
Actividad 1
Aún no hay calificaciones
Actividad 1
12 páginas
ZILFVzaWn2iNcssr - 1JeAdSTveiNrhUOd-Introducción Al Uso de Librerías
Aún no hay calificaciones
ZILFVzaWn2iNcssr - 1JeAdSTveiNrhUOd-Introducción Al Uso de Librerías
9 páginas
S5-Tarea 2
Aún no hay calificaciones
S5-Tarea 2
9 páginas
Manejo de Python
Aún no hay calificaciones
Manejo de Python
23 páginas
Unidad 3 Uso Libreria Pandas
Aún no hay calificaciones
Unidad 3 Uso Libreria Pandas
18 páginas
1.4.1 Manejo de Python
Aún no hay calificaciones
1.4.1 Manejo de Python
23 páginas
5 - Pandas
Aún no hay calificaciones
5 - Pandas
41 páginas
Practica 2 UNIDAD 2 DRLE
Aún no hay calificaciones
Practica 2 UNIDAD 2 DRLE
7 páginas
1.intro Python Pandas
Aún no hay calificaciones
1.intro Python Pandas
24 páginas
Prog - Orien - M - Datos Modulo 8
Aún no hay calificaciones
Prog - Orien - M - Datos Modulo 8
41 páginas
10 Python - Introducción A Pandas PDF
Aún no hay calificaciones
10 Python - Introducción A Pandas PDF
45 páginas
Módulo 1 - Glosario
Aún no hay calificaciones
Módulo 1 - Glosario
3 páginas
Practica 2 UNIDAD 2
Aún no hay calificaciones
Practica 2 UNIDAD 2
4 páginas
Alarcòn Mètodos Practica4
Aún no hay calificaciones
Alarcòn Mètodos Practica4
10 páginas
Semana 5 Ed
Aún no hay calificaciones
Semana 5 Ed
23 páginas
Python PANDAS
Aún no hay calificaciones
Python PANDAS
10 páginas
01 - Intro Librería Pandas
Aún no hay calificaciones
01 - Intro Librería Pandas
24 páginas
Unidad 6 - Librerias Pandas
Aún no hay calificaciones
Unidad 6 - Librerias Pandas
9 páginas
Resumen Numpy
Aún no hay calificaciones
Resumen Numpy
4 páginas
Estructuras de datos en java
De Everand
Estructuras de datos en java
Luis Felipe Wanumen Silva
Aún no hay calificaciones
Aprende a Programar en R - 2ª Edición
De Everand
Aprende a Programar en R - 2ª Edición
Patricia García Montero
Aún no hay calificaciones
Ev2 Prma
Aún no hay calificaciones
Ev2 Prma
25 páginas
Ev - 4 Cuadro Sinóptico Sobre Prestaciones y Beneficios, Afores, Trabajo Virtual y Sindicato
Aún no hay calificaciones
Ev - 4 Cuadro Sinóptico Sobre Prestaciones y Beneficios, Afores, Trabajo Virtual y Sindicato
6 páginas
EV - 2 - Reporte Labs
Aún no hay calificaciones
EV - 2 - Reporte Labs
16 páginas
EV - 1 - Mapa Mental
Aún no hay calificaciones
EV - 1 - Mapa Mental
9 páginas
Metodo Inventariacion Turistica PDF
78% (18)
Metodo Inventariacion Turistica PDF
32 páginas
Programa de Formación Del Sistema GDE
Aún no hay calificaciones
Programa de Formación Del Sistema GDE
6 páginas
Frases de Espanol Cotidiano
Aún no hay calificaciones
Frases de Espanol Cotidiano
3 páginas
DVSV
Aún no hay calificaciones
DVSV
17 páginas
Definición Arbitraria de La Especie
100% (1)
Definición Arbitraria de La Especie
10 páginas
00 Silabo Curso de Mecanica de Suelos 2011.actualizado Ucv
Aún no hay calificaciones
00 Silabo Curso de Mecanica de Suelos 2011.actualizado Ucv
6 páginas
Taller 1. Cuenca Terminado
Aún no hay calificaciones
Taller 1. Cuenca Terminado
20 páginas
Evolución de Word
Aún no hay calificaciones
Evolución de Word
6 páginas
Escuelas Geopoliticas Española, Brasileña, Italiana: Integrantes de Grupo
Aún no hay calificaciones
Escuelas Geopoliticas Española, Brasileña, Italiana: Integrantes de Grupo
12 páginas
Casación 2754
Aún no hay calificaciones
Casación 2754
4 páginas
Tarea 2
Aún no hay calificaciones
Tarea 2
5 páginas
Nom 181 Ssa1 1998
Aún no hay calificaciones
Nom 181 Ssa1 1998
17 páginas
Carta de Bienvenida Lecumberry
Aún no hay calificaciones
Carta de Bienvenida Lecumberry
1 página
Plan Estrategico para La Division de Op4eraciones de Sherwin Williams Chile
Aún no hay calificaciones
Plan Estrategico para La Division de Op4eraciones de Sherwin Williams Chile
137 páginas
3.3.6 y 3.3.7
Aún no hay calificaciones
3.3.6 y 3.3.7
32 páginas
SILABO 2015-I Mecanica de Suelos II URP
Aún no hay calificaciones
SILABO 2015-I Mecanica de Suelos II URP
5 páginas
PFC David Fuentes Cantero
100% (1)
PFC David Fuentes Cantero
165 páginas
Formulario Beca Completa de Estudio CTI PDF
Aún no hay calificaciones
Formulario Beca Completa de Estudio CTI PDF
4 páginas
Nissan NV200 e 2014 ES
Aún no hay calificaciones
Nissan NV200 e 2014 ES
12 páginas
Mitos de Etica
Aún no hay calificaciones
Mitos de Etica
8 páginas
Lector de PDF - Adobe Acrobat Reader (Latinoamérica)
Aún no hay calificaciones
Lector de PDF - Adobe Acrobat Reader (Latinoamérica)
7 páginas
Metodos para Encontar Una Solucion Basica Inicial
Aún no hay calificaciones
Metodos para Encontar Una Solucion Basica Inicial
31 páginas
#ProcedimientoTributario Jurisprudencia 2024 LRF Group S.A DETERMINACIÓN DEL TRIBUTO Impugnación de Proveedores 23/05/2024
Aún no hay calificaciones
#ProcedimientoTributario Jurisprudencia 2024 LRF Group S.A DETERMINACIÓN DEL TRIBUTO Impugnación de Proveedores 23/05/2024
11 páginas
Liquidacion Prestaciones Sociales
Aún no hay calificaciones
Liquidacion Prestaciones Sociales
1 página
BONOS. Ejercicios Resueltos
100% (1)
BONOS. Ejercicios Resueltos
18 páginas
Plan Acción Ampliado AGA México
Aún no hay calificaciones
Plan Acción Ampliado AGA México
11 páginas
Cuestionario Historia
Aún no hay calificaciones
Cuestionario Historia
7 páginas