0% encontró este documento útil (0 votos)

153 vistas107 páginas

AnálisisExploratorioDeDatos - EDA

Este documento presenta una introducción a Aurea Soriano-Vargas, una investigadora peruana en el campo de la ciencia de la computación. Actualmente es coordinadora de investigación en la Universidad de Campinas en Brasil. Su investigación se centra en la visualización de información y el análisis exploratorio de datos. El documento también proporciona una guía de cinco pasos para realizar un análisis exploratorio de datos.

Cargado por

JOSE LUIS GARAVITO ALEJOS

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

153 vistas107 páginas

AnálisisExploratorioDeDatos - EDA

Cargado por

JOSE LUIS GARAVITO ALEJOS

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Está en la página 1/ 107

Análisis Exploratorio de Datos

Dr. Aurea Soriano-Vargas

[email protected]

Institute of Computing
University of Campinas (Unicamp)

Av. Albert Einstein, 1251 - Cidade Universitária CEP

13083-970 • Campinas/SP - Brasil

aureasoriano | @aureasoriano | aurea-soriano | recod.ai 1

Sobre mí

Institute of Computing
University of Campinas (Unicamp)

Av. Albert Einstein, 1251 - Cidade Universitária CEP

13083-970 • Campinas/SP - Brasil

2
Aurea Soriano-Vargas
Perﬁl Personal
Profesional Peruana en Ciencia de la
Intereses de investigación Computación
Visualización de Información, Visual
Analytics (Visual Data Mining),
Procesamiento de Imágenes, Aprendizaje
Posición actual
de Máquina Coordinadora de Investigación / Investigadora
senior en la Universidade Estadual de Campinas
(Unicamp) (https://recod.ai/senior-researchers/)
Investigadora/Docente
Universidad de California, Davis (UCDAVIS)
Universidad de São Paulo, Brasil (USP)
Universidad de Campinas, Brasil (UNICAMP)
Universidad Nacional de San Agustín (UNSA) BSc
Ingeniería Informática por la Universidad
Analista Desarrolladora Católica San Pablo (UCSP), Arequipa, Perú
Monitora - VistaJet en 2009
Southern Copper Corporation
PhD MSc
Ciencia de la Computación por la Universidad Ciencia de la Computación por la Universidad
de São Paulo (USP) Brasil en 2018. de São Paulo (USP) Brasil en 2013.

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 3

Análisis Exploratorio de Datos

Institute of Computing
University of Campinas (Unicamp)

Av. Albert Einstein, 1251 - Cidade Universitária CEP

13083-970 • Campinas/SP - Brasil

4
¿Cuál es el objetivo?
Hacer una pregunta
1 interesante.
¿Qué harías si tuvieras todos los datos?
¿Qué quieres predecir o estimar?

¿Cómo se muestrearon los datos?

2 Obtener los datos ¿Qué datos son relevantes?
¿Hay algún problema de privacidad?

Graﬁque los datos.

3 Analizar los datos. ¿Hay anomalías?
¿Hay patrones?

Construir un modelo.
4 Modelar los datos. Ajustar el modelo.
Validar el modelo.

Comunicar y visualizar ¿Qué aprendimos?

5 los resultados.
¿Tienen sentido los resultados?
¿Podemos contar una historia?

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 5

¿Cómo empiezo a analizar estos datos?
Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 6
¿Cómo empiezo a analizar estos datos?
Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 7
Análisis exploratorio de datos (EDA)
y visualización

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 8

Kahoot

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 9

Análisis Exploratorio de Datos
Objetivo: obtener una visión general de los
datos
EDA o visualización puede ser el objetivo:
Siempre debe mirar cada variable:
Analista de datos
¡aprenderá algo!

El análisis de conjuntos de datos

basados en varios métodos numéricos y basado en datos (sin modelo)
herramientas gráﬁcas.

Facilita el descubrimiento de lo inesperado Pensamiento interactivo y visual.

así como el cumplimiento de lo esperado. Los humanos son los mejores reconocedores
de patrones.
Conocer los datos:
● distribuciones (simétrica,
normal, asimétrica) Para escuchar los datos:
● problemas de calidad de datos ● para detectar errores
● valores atípicos, anomalías ● para ver patrones en los datos
● correlaciones e interrelaciones ● para encontrar violaciones de
● subconjuntos de interés supuestos estadísticos
● patrones, tendencias, ● …y porque si no lo haces, estarás
estructura subyacente, en problemas después
desviaciones de tendencia

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 10

Clasiﬁcación de EDA

Los métodos gráﬁcos

Los métodos no gráficos
obviamente resumen los datos
generalmente implican el cálculo no gráfica gráfica de forma esquemática o
de estadísticas de resumen.
pictórica.

Los métodos multivariados

Los métodos univariados
examinan dos o más variables al
analizan una variable univariada multivariada
mismo tiempo para explorar las
(columna de datos) a la vez relaciones.

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 11

Satisfacción del cliente Santander
¿Qué clientes están satisfechos?

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 12

Satisfacción del cliente Santander
¿Qué clientes están satisfechos?

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 13

Pasos de EDA
Reestructuración de datos
Identificar correlaciones Decisión
Es posible que deba crear nuevas variables
Trate de identificar variables Decidir sobre la necesidad de
a partir de las existentes.
correlacionadas, relaciones transformación (sobre variables de
Obtenga tasas o porcentajes de ellos.
de interacción y respuesta y/o explicativas).
Formato, Diferentes órdenes de magnitud
multicolinealidad, si las hay. Decidir sobre la hipótesis en base a sus
Variables ficticias para variables
preguntas de investigación.
categóricas.

2 4 6

1 3 5
Generar buenas preguntas Obtener estadísticas descriptivas Tratar con
de investigación. Usar herramientas gráﬁcas apropiadas observaciones faltantes
Basado en las preguntas de investigación.
Tratando de entender la estructura de datos,
relaciones, anomalías, comportamientos
inesperados.

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 14

2 4 6

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 15

Satisfacción del cliente Santander
¿Qué clientes están satisfechos?
● ¿Cómo se relaciona la
satisfacción del cliente con cada
variable?
● ¿Existen clusters en los datos?
● ¿Hay variables que no están
proporcionando ninguna
información?
● ¿Alguna relación entre las otras
variables?
● ¿Alguna combinación de
características da como
resultado una mayor tasa de
satisfacción?
● ¿Hay alguna diferencia entre los
clientes en términos de índices
de satisfacción?
● ¿¿¿Qué más???

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 16

2 4 6

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 17

Dados - Tidy data
Este formato requiere tener una columna para cada variable y
Variable, característica una ﬁla para cada observación.

Observaciones, instancias

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 18

Tipos de dados

Categóricos Quantitativos

Binario Nominal Ordinal Discretos Continuos

● 2 categorías ● Más categorías ● Ordem importa

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 19

Tipos de datos

Binarios

Discretos Continuos

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 20

Datos constantes

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 21

Datos constantes

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 22

Datos faltantes

Estratégia 1: Remover as colunas com null.

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 23

Datos faltantes

Estrategia 2: Usamos SimpleImputer para reemplazar los valores faltantes con el valor
promedio a lo largo de cada columna.

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 24

Variable Target

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 25

Diferente orden de magnitud

● Diferencias de escala entre las variables -> aumentar la diﬁcultad del problema.
● Valores de entrada grandes -> modelo con pesos grandes.
● Modelo con pesos grandes es inestable -> bajo rendimiento durante el aprendizaje y sensibilidad a los valores de
entrada = mayor error de generalización.
● Diferencia de escala no afecta a todos los algoritmos de aprendizaje automático.
● Algoritmos que utilizan suma ponderada de variables de entrada son afectados, como la regresión lineal, la
regresión logística y las redes neuronales artiﬁciales (aprendizaje profundo).
● Algoritmos que utilizan distancia entre observaciones se ven afectados, como KNN y SVM.
● Algoritmos no afectados por la escala de las variables: árbol de decisión y bosque aleatorio.

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 26

Diferente orden de magnitud

Redimensionamento dos dados do intervalo original em

um novo intervalo de 0 e 1. Quando? distribuição de
Normalização de dados é desconhecida ou os dados não têm distribuição
dados gaussiana. Altamente afetada por outliers.

Redimensionar a distribuição de valores para que a

média dos valores observados seja 0 e o desvio
padrão seja 1. Quando? quando os dados estão sendo
Padronização de usados para análise multivariada, (todas as variáveis
dados de unidades comparáveis). Geralmente é aplicado
quando os dados têm distribuição gaussiana.
Ligeiramente afetada por outliers.
Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 27
Diferente orden de magnitud

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 28

2 4 6

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 29

Resúmenes numéricos de datos
Medidas de Tendencia Central Medidas de variación o variabilidad
Calculado para proporcionar un "centro" Describen la "dispersión de datos" o
alrededor del cual se distribuyen las qué tan lejos están las medidas del
mediciones en los datos. centro.

– media: μ = ∑i Xi / n – cuartiles X: Q1 value = X0.25n , Q3 value = X0.75 n

– moda: el valor común en X • Rango de intercuartiles: value(Q3) - value(Q1)
– mediana: X=sort(X), mediana = Xn/2 • range: max(X) - min(X) = Xn - X1
(mitad abajo, mitad arriba) – 2 2
varianza: σ = ∑i (Xi - μ) / n
– desviación estándar: σ
– skewness: ∑i (Xi - μ)3 / [ (∑i (Xi - μ)2)3/2 ]
• cero si es simétrico; asimétrico a la derecha es
lo más común

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 30

Resúmenes numéricos de datos

La media y la desviación estándar son afectadas

por los valores atípicos.
Media: para distribuciones simétricas sin valores
La mediana y los cuartiles son más robustos.
atípicos
Mejor para distribuciones asimétricas.

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 31

Estadísticas descriptivas

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 32

John Tukey

“El mayor valor de una imagen es cuando nos

obliga a percibir lo que nunca esperábamos
ver.”

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 33

Visualización

“El uso de representaciones de datos

interactivas y visuales asistidas por
computadora para ampliar la
cognición” [Tarjeta 99]

Transformar los datos en

codiﬁcaciones visuales.

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 34

Visualización de Información - Objetivos

Comunicar (Explicativa) Analizar (Exploratoria)

Presentar datos e ideas Explorar los datos

Explicar e informar Evaluar una situación

Proporcionar pruebas y apoyo Determinar cómo proceder

Inﬂuir y persuadir Decidir qué hacer

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 35

Opciones de visualización

Otras
Módulo de visualización Pandas Bokeh, Vega, Vincent, Altair
opciones

Matplotlib D3.js https://d3js.org/

Seaborn

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 36

¿Atributos visuales?

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 37

¿Atributos visuales?
diferentes codiﬁcaciones tienen
diferentes propiedades
(psicología perceptiva)

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 38

¿Atributos visuales?
diferentes codiﬁcaciones tienen
diferentes propiedades
(psicología perceptiva)

Bueno para comunicar valores exactos...

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 39

¿Atributos visuales?
diferentes codiﬁcaciones tienen
diferentes propiedades
(psicología perceptiva)

Bueno para comunicar proporciones...

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 40

¿Atributos visuales?
diferentes codiﬁcaciones tienen
diferentes propiedades
(psicología perceptiva)

Bueno para llamar la atención...

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 41

¿Atributos visuales?
diferentes codiﬁcaciones tienen
diferentes propiedades
(psicología perceptiva)

¡¡Colores!!

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 42

¿Atributos visuales?: Color
“Why Should Engineers and Scientists Be
Worried About Color?” (Rogowitz & Treinish,
1996)

Conclusiones:
● Escalas de arcoíris: malas
● No existe una escala "mejor"

En caso de duda, utilice el sitio web "Color

Brewer":
http://colorbrewer2.org

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 43

¿Atributos visuales?

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 44

Usar o gráﬁco
certo

https://extremepresentation.typepad.co
m/blog/ﬁles/choosing_a_good_chart.pdf

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 45

Visualizações

Otros tipos de Reducción de

1 Variable 2 Variables Más de 2 Variables
datos dimensionalidad

Histogramas Scatterplot Barras, apiladas Series temporales TSNE

Histogramas Contour Plots, PCA

suavizados Transparency Small Multiples Datos Espaciales

Boxplots Correlation TSVD

Graph Splatting
HeatMap
UMAP
Coordenadas
Paralelas

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 46

Histograma ¿Qué edad tenías cuando diste tu primer beso?

Muestra centro, varianza,

asimetría, moda, valores
atípicos o patrones
extraños.
El ancho y la posición son
importantes

edad del primer beso

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 47

Histograma

Independientemente del valor común que se

interponga en la forma de ver

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 48

Comparações: Barras vs. Linhas

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 49

Histograma suavizado
Estimativas de densidade

▪ # de contenedores es
muy importante: 10, 30,
60

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 50

Histograma - Problemas
● Para conjuntos de datos pequeños, los histogramas pueden ser engañosos.
○ Los pequeños cambios en los datos, contenedores o anclas pueden ser engañosos

● Para grandes conjuntos de datos, los histogramas pueden ser bastante efectivos para ilustrar
las propiedades generales de la distribución.

● Los histogramas solo funcionan con 1 variable a la vez

○ Pero small multiples pueden ser efectivos

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 51

Boxplot
Un boxplot muestra la mediana, los cuartiles y los valores atípicos sospechosos. Un
valor atípico se deﬁne como una observación de más de 1,5 × IQR de los cuartiles.

Outliers posibles

rango máximo de bigote

bigote superior

Q3 (tercer cuartil)

mediana
El rango intercuartílico (IQR) es una medida Q1 (primer cuartil)
de dispersión estadística, que es la
dispersión de los datos
bigote inferior
Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 52
Boxplot

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 53

2 Variables: Scatterplot

Para dos variables numéricas, el

scatterplot es la elección obvia.

útil para responder:

● ¿x, y relacionados?
● lineal
● cuadrático
● otro
● ¿la varianza(y) depende de x?
● ¿valores atípicos presentes?

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 54

2 Variables: Scatterplot

Lineal Quadrático
Sem relacionamento aparente

Homoscedastic (mesma Heteroscedastic (variação em Y

variância ﬁnita) difere dependendo do valor de X)
Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 55
2 Variables: Scatterplot - Problema

Puede ser terrible con muchos datos...

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 56

2 Variables: Scatterplot - Solución
Qué hacer para grandes conjuntos de datos

Contour plots Transparent plotting Graph splatting

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 57

Comparaciones: Barras

#identiﬁcar columnas que

tienen más valores únicos
para tener una idea de las
variables continuas en
nuestros datos

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 58

Barras apiladas
Las barras apiladas se pueden utilizar
para comparar valores continuos entre
dos o más variables.

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 59

Más de 2 variables - Histograma - Small Multiples

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 60

Más de 2 variables - Matriz de Scatterplot

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 61

Más de 2 variables - Boxplot - Small Multiples
Los boxplots uno al lado del otro son muy efectivos para mostrar las diferencias en las
variables.

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 62

Correlaciones

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 63

Coordenadas Paralelas

Sépalo, Pétalo

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 64

Coordenadas Paralelas

Sépalo, Pétalo

¡El famoso conjunto de

datos iris!

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 65

Coordenadas Paralelas
Sepal
Length

5.1

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 66

Coordenadas Paralelas
Sepal Sepal
Length Width

3.5

5.1

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 67

Coordenadas Paralelas
Sepal Sepal Petal Petal
Length Width length Width

3.5

5.1 0.2
1.4

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 68

Coordenadas Paralelas

3.5

5.1
1.4
0.2
Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 69
Coordenadas Paralelas

Transparencia e interactividad…

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 70

Series temporales
Si sus datos tienen un componente temporal, asegúrese de explorarlo

summer bifurcations in air travel

(favor early/late)
summer
peaks

steady growth
trend
New Year bumps

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 71

Datos espaciales: Mapas chloropleth

Mapas que usan tonos de color para representar valores numéricos

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 72
Reducción de dimensionalidad
TSNE PCA TSVD UMAP
técnica de manifold learning para la
reducción de dimensionalidad técnica de factorización de
visualización de conjuntos de énfasis en la variación reducción de dimensiones, conserva
matrices que factoriza una más de la estructura global con un
datos de alta dimensión sacar patrones fuerte matriz M en 3 matrices U, Σ y V. rendimiento de tiempo de ejecución
n=2, random_state=7 n=2, random_state=7 n=2, random_state=7 superior

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 73

¿Qué está faltando?

Pie charts 3D
● muy popular ● agradable poder mostrar tres
● bueno para mostrar razones simples de dimensiones
proporciones ● difícil hacerlo bien
● La percepción humana no es buena para ● a menudo mal hecho
comparar arcos. ● mejor varios tipos de proyección 2D
● diagramas de barras, histogramas
generalmente mejores (pero menos bonitos)

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 74

Cómo generar una mala
El objetivo de una buena visualización de datos:
visualización de EDA Mostrar datos con precisión y claridad

1 Mostrar el menor número de informaciones posible

2 Ocultar lo que queremos mostrar (con basura

gráﬁca)

3 Usar pseudo-3d y colorear de forma cursi

4 Incluir un gráﬁco de pizza ( en color y en 3D)

5 Usar una escala mal elegida

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 75

Cómo generar una mala visualización de EDA

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 76

Cómo generar una mala visualización de EDA

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 77

Visualización efectiva de EDA

1. Tener integridad 3. Usar el gráﬁco

gráﬁca correcto

4. Usar los
2. Simpliﬁcar colores
sabiamente

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 78

Integridad gráﬁca - Distorsiones de escala

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 79

Integridad gráﬁca - Distorsiones de escala

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 80

Integridad gráﬁca - Distorsiones de escala

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 81

Integridad gráﬁca - Distorsiones de escala

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 82

“Duplique los ejes, duplique el engaño”
(Cita de desviación estándar de Gary Smith)

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 83

Integridade Gráﬁca

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 84

Integridad Gráﬁca

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 85

Ser proporcional

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 86

Ser proporcional

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 87

Ser proporcional

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 88

Ser proporcional

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 89

Simpliﬁcar
Elementos visuales extraños que desvían la atención del mensaje

http://www.tbray.org/ongoing/data-ink/di1
Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 90
Simpliﬁcar

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 91

Usar el
gráﬁco
correcto

https://extremepresentation.typepad.co
m/blog/ﬁles/choosing_a_good_chart.pdf

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 92

Usar los colores sabiamente
Colores para categorías: no use más de 5-8 colores a la vez

Colores para datos ordinales: variar luminancia y saturación

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 93

¡Evita la escala arcoíris!

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 94

¡Evita la escala arcoíris!

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 95

ColorBrewer

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 96

Después de EDA

Institute of Computing
University of Campinas (Unicamp)

Av. Albert Einstein, 1251 - Cidade Universitária CEP

13083-970 • Campinas/SP - Brasil

97
¿Qué viene después de EDA?

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 98

¿Qué viene después de EDA?

Análisis conﬁrmatorio de
datos: veriﬁcar la hipótesis
mediante análisis
estadístico

Saca conclusiones y
presenta tus resultados de
una buena manera

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 99

Análisis de datos exploratorio vs conﬁrmatorio

EDA CDA
Sin hipótesis al Comienza con la
principio hipótesis

Prueba la
Genera hipótesis
hipótesis nula

Usa métodos
Usa modelos
gráﬁcos
estadísticos
(principalmente)

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 100

Conclusiones

Institute of Computing
University of Campinas (Unicamp)

Av. Albert Einstein, 1251 - Cidade Universitária CEP

13083-970 • Campinas/SP - Brasil

101
Conclusiones

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 102

Conclusiones

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 103

Conclusiones

Examine todas sus variables a 01

fondo y con cuidado antes de
comenzar el análisis.

Al describir distribuciones numéricas,

discuta la forma, el centro, la
dispersión y las observaciones
02 inusuales.
Las estadísticas sólidas no se ven 03
afectadas fácilmente por
anomalías y desviaciones
extremas

Comience siempre su exploración con

una visualización
04
05
Use gráﬁcos siempre que sea
posible

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 104

Obrigado!
¡Gracias! Thank you!
https://github.com/aurea-soriano/SantanderEDA
105
¿Preguntas?

106
Manifold Learning?

Busca lo más vital, no más

Lo que es necesidad, no más
Y olvídate de la preocupación
Tan solo, lo muy esencial
Para vivir sin batallar
Y la naturaleza te lo da

Baloo - El libro de la selva

● Enfoque para la reducción de la dimensionalidad no lineal.

● Intento de generalizar frameworks lineales como PCA para que sean sensibles a la estructura no lineal de los
datos.
● Aprende la estructura de alta dimensión de los datos a partir de los datos mismos, sin el uso de clasiﬁcaciones
predeterminadas.

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 107

También podría gustarte

Ideas Clave
100% (1)
Ideas Clave
411 páginas
Clase 1 - Introducción A Data Analytics
100% (1)
Clase 1 - Introducción A Data Analytics
70 páginas
Sesiòn Cuàntos Quedan Maestra Janet 2°
Aún no hay calificaciones
Sesiòn Cuàntos Quedan Maestra Janet 2°
7 páginas
Apuntes Base de Datos
Aún no hay calificaciones
Apuntes Base de Datos
235 páginas
Clase 6 - Introducción A La Manipulación de Datos Con Pandas (Parte II)
Aún no hay calificaciones
Clase 6 - Introducción A La Manipulación de Datos Con Pandas (Parte II)
73 páginas
Visualización Avanzada de Datos
100% (1)
Visualización Avanzada de Datos
197 páginas
Git Hubbbbb
Aún no hay calificaciones
Git Hubbbbb
47 páginas
Manual Medidas II EE239 - 2023I
Aún no hay calificaciones
Manual Medidas II EE239 - 2023I
31 páginas
ADB Unidad 1-2-3-4
Aún no hay calificaciones
ADB Unidad 1-2-3-4
190 páginas
Configuracion de NetBean y Eclipse para Java ME
Aún no hay calificaciones
Configuracion de NetBean y Eclipse para Java ME
32 páginas
Manual Big Data
100% (1)
Manual Big Data
116 páginas
Capitulo 3 Algoritmos y Programacion Python - Parte 1 (49-68)
Aún no hay calificaciones
Capitulo 3 Algoritmos y Programacion Python - Parte 1 (49-68)
20 páginas
Bigdata Mod 1 Pereira
100% (1)
Bigdata Mod 1 Pereira
300 páginas
Manual para Construir Un Data Warehouse
100% (4)
Manual para Construir Un Data Warehouse
59 páginas
Analisis de Datos Con R PDF
Aún no hay calificaciones
Analisis de Datos Con R PDF
163 páginas
Todo
100% (1)
Todo
231 páginas
Exercises
100% (1)
Exercises
9 páginas
Medir Lo Importante. (Como Medir La Gestión Del Capital Humano en El Siglo XXI) Luis María Cravino. Prólogo de Santiago Lazzati
100% (2)
Medir Lo Importante. (Como Medir La Gestión Del Capital Humano en El Siglo XXI) Luis María Cravino. Prólogo de Santiago Lazzati
38 páginas
Big Data, Web Scraping y Data Mining
Aún no hay calificaciones
Big Data, Web Scraping y Data Mining
94 páginas
Guia Basica Numpy
Aún no hay calificaciones
Guia Basica Numpy
29 páginas
Acceso A Bases de Datos Desde Python Con Pyodbc - Cursos de Programación de 0 A Experto © Garantizados
Aún no hay calificaciones
Acceso A Bases de Datos Desde Python Con Pyodbc - Cursos de Programación de 0 A Experto © Garantizados
6 páginas
de Postgresql
Aún no hay calificaciones
de Postgresql
15 páginas
Trabajo Índices y Restricciones en Oracle
Aún no hay calificaciones
Trabajo Índices y Restricciones en Oracle
5 páginas
Sumas y Restas
Aún no hay calificaciones
Sumas y Restas
4 páginas
IBM Data Quality
Aún no hay calificaciones
IBM Data Quality
323 páginas
Introducción A Pandas para Análisis de Series Temporales
Aún no hay calificaciones
Introducción A Pandas para Análisis de Series Temporales
46 páginas
Clase 1
Aún no hay calificaciones
Clase 1
36 páginas
Separata 01
Aún no hay calificaciones
Separata 01
65 páginas
Data Analytics Certified Associate - DACA
100% (1)
Data Analytics Certified Associate - DACA
59 páginas
Metodo de Las Incognitas Cinematicas
Aún no hay calificaciones
Metodo de Las Incognitas Cinematicas
67 páginas
Guía 3 - Polígonos
Aún no hay calificaciones
Guía 3 - Polígonos
6 páginas
La Guía Definitiva Sobre La Dimension Tiempo en Un Data Warehouse - El Futuro de Los Datos
100% (1)
La Guía Definitiva Sobre La Dimension Tiempo en Un Data Warehouse - El Futuro de Los Datos
23 páginas
Taller Matplotlib - Jupyter Notebook
Aún no hay calificaciones
Taller Matplotlib - Jupyter Notebook
12 páginas
Instructivo Reporte Inventario Semestral
Aún no hay calificaciones
Instructivo Reporte Inventario Semestral
9 páginas
Programacion Con Python PDF
Aún no hay calificaciones
Programacion Con Python PDF
47 páginas
Coursera 2
100% (1)
Coursera 2
81 páginas
Apuntes Ciencia de Datos
Aún no hay calificaciones
Apuntes Ciencia de Datos
66 páginas
Pract3 SQL Server
Aún no hay calificaciones
Pract3 SQL Server
42 páginas
Lecturas Big Data C
Aún no hay calificaciones
Lecturas Big Data C
135 páginas
Manejo de Entornos de Python
Aún no hay calificaciones
Manejo de Entornos de Python
5 páginas
Fundamentos de SQL
Aún no hay calificaciones
Fundamentos de SQL
74 páginas
ESSup
100% (1)
ESSup
18 páginas
Ebook Ciencia de Datos Con R
Aún no hay calificaciones
Ebook Ciencia de Datos Con R
27 páginas
Silabo - Progr. Nivelación - Python y R
100% (1)
Silabo - Progr. Nivelación - Python y R
6 páginas
Riesgo de Incendios Forestales Provincia de Cáceres
Aún no hay calificaciones
Riesgo de Incendios Forestales Provincia de Cáceres
14 páginas
Python Ciencia de Datos
Aún no hay calificaciones
Python Ciencia de Datos
3 páginas
2.2.4.5 Lab - Configuring IPv6 Static and Default Routes
Aún no hay calificaciones
2.2.4.5 Lab - Configuring IPv6 Static and Default Routes
9 páginas
Data Structures Es
Aún no hay calificaciones
Data Structures Es
73 páginas
Curso Spring Boot
Aún no hay calificaciones
Curso Spring Boot
76 páginas
Taller Big Data
100% (1)
Taller Big Data
6 páginas
Organización y Procesos de Negocios
Aún no hay calificaciones
Organización y Procesos de Negocios
6 páginas
Tema02-Minería de Datos-Ciencia de Datos - 2018-19
Aún no hay calificaciones
Tema02-Minería de Datos-Ciencia de Datos - 2018-19
92 páginas
MBD - m1 - U1 - Introducción y Motivación - Manual - v02 - 2019 PDF
Aún no hay calificaciones
MBD - m1 - U1 - Introducción y Motivación - Manual - v02 - 2019 PDF
117 páginas
Ensayo Importancia de La Medición
100% (1)
Ensayo Importancia de La Medición
3 páginas
Tema 1
Aún no hay calificaciones
Tema 1
38 páginas
Distribución de Corriente: Intensidades Nominales de Barras Colectoras E-Cu (DIN 43 671)
Aún no hay calificaciones
Distribución de Corriente: Intensidades Nominales de Barras Colectoras E-Cu (DIN 43 671)
4 páginas
Guia - Herencia y Constructores
0% (2)
Guia - Herencia y Constructores
5 páginas
Guia #1 de Geometria 7° Per I 2021
Aún no hay calificaciones
Guia #1 de Geometria 7° Per I 2021
9 páginas
Ejercicios de Hilos Base
Aún no hay calificaciones
Ejercicios de Hilos Base
21 páginas
Taller Mongo DB
Aún no hay calificaciones
Taller Mongo DB
25 páginas
Sistema de Reconocimiento de Palabras Clave en Conversaciones de Voz 2014
100% (1)
Sistema de Reconocimiento de Palabras Clave en Conversaciones de Voz 2014
62 páginas
Introduccion Al Modelo Entidad Relacion MER y MER
Aún no hay calificaciones
Introduccion Al Modelo Entidad Relacion MER y MER
10 páginas
Modulo 5 - Ciclo de Vida de Big Data - 2020
Aún no hay calificaciones
Modulo 5 - Ciclo de Vida de Big Data - 2020
66 páginas
Estructuras Dinámicas Lineales
Aún no hay calificaciones
Estructuras Dinámicas Lineales
4 páginas
Clase 2 Big Data
Aún no hay calificaciones
Clase 2 Big Data
46 páginas
Capitulo3-Poblar El Data Mart
Aún no hay calificaciones
Capitulo3-Poblar El Data Mart
72 páginas
Edgard Lucho 1 - SQL - Básico - cap07-V2-Vistas
Aún no hay calificaciones
Edgard Lucho 1 - SQL - Básico - cap07-V2-Vistas
13 páginas
Pliegues
Aún no hay calificaciones
Pliegues
25 páginas
Arquitectura BI
Aún no hay calificaciones
Arquitectura BI
27 páginas
Informe 6 Ecuacion de La Continuidad y de Bernulli
Aún no hay calificaciones
Informe 6 Ecuacion de La Continuidad y de Bernulli
7 páginas
Data Scientist y Lenguaje R. Guía de Autoformación para El Uso de Big Data - Henri LAUDE
Aún no hay calificaciones
Data Scientist y Lenguaje R. Guía de Autoformación para El Uso de Big Data - Henri LAUDE
13 páginas
Catalogue UG ZS1 - Es
Aún no hay calificaciones
Catalogue UG ZS1 - Es
119 páginas
SQL Java
Aún no hay calificaciones
SQL Java
14 páginas
Casos de Vibración
Aún no hay calificaciones
Casos de Vibración
4 páginas
Aceracion
Aún no hay calificaciones
Aceracion
15 páginas
Crear Una Base de Datos en MySQL
Aún no hay calificaciones
Crear Una Base de Datos en MySQL
4 páginas
Matematia Divina Muestra
Aún no hay calificaciones
Matematia Divina Muestra
19 páginas
Campo Magnético.
Aún no hay calificaciones
Campo Magnético.
43 páginas
Tema 4 Elementos Constructivos
Aún no hay calificaciones
Tema 4 Elementos Constructivos
2 páginas
Temas de Matemáticas (Oposiciones de Secundaria) Tema 1
Aún no hay calificaciones
Temas de Matemáticas (Oposiciones de Secundaria) Tema 1
18 páginas
Enunciados Problemas Repetitivos
Aún no hay calificaciones
Enunciados Problemas Repetitivos
4 páginas
Estadisitca Ensayo
Aún no hay calificaciones
Estadisitca Ensayo
13 páginas
Hilatura de Algodon 2
Aún no hay calificaciones
Hilatura de Algodon 2
13 páginas
Adaptadores de Nivel Entre 5V y 3.3V - Inventable
Aún no hay calificaciones
Adaptadores de Nivel Entre 5V y 3.3V - Inventable
11 páginas
Taller 1 Matematicas I 2025-1
Aún no hay calificaciones
Taller 1 Matematicas I 2025-1
2 páginas
D4 Circunferencia
Aún no hay calificaciones
D4 Circunferencia
3 páginas
Freiberg It A
Aún no hay calificaciones
Freiberg It A
5 páginas
Maquina de Von Newmann
Aún no hay calificaciones
Maquina de Von Newmann
1 página
Análisis de datos con Power Bi, R-Rstudio y Knime
De Everand
Análisis de datos con Power Bi, R-Rstudio y Knime
Jorge Fernando Betancourt Uscátegui
Aún no hay calificaciones
Excel y Power Bi. El cóctel perfecto
De Everand
Excel y Power Bi. El cóctel perfecto
Francisco José Carrasco
Aún no hay calificaciones