0% encontró este documento útil (0 votos)
153 vistas107 páginas

AnálisisExploratorioDeDatos - EDA

Este documento presenta una introducción a Aurea Soriano-Vargas, una investigadora peruana en el campo de la ciencia de la computación. Actualmente es coordinadora de investigación en la Universidad de Campinas en Brasil. Su investigación se centra en la visualización de información y el análisis exploratorio de datos. El documento también proporciona una guía de cinco pasos para realizar un análisis exploratorio de datos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
153 vistas107 páginas

AnálisisExploratorioDeDatos - EDA

Este documento presenta una introducción a Aurea Soriano-Vargas, una investigadora peruana en el campo de la ciencia de la computación. Actualmente es coordinadora de investigación en la Universidad de Campinas en Brasil. Su investigación se centra en la visualización de información y el análisis exploratorio de datos. El documento también proporciona una guía de cinco pasos para realizar un análisis exploratorio de datos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 107

Análisis Exploratorio de Datos

Dr. Aurea Soriano-Vargas


[email protected]

Institute of Computing
University of Campinas (Unicamp)

Av. Albert Einstein, 1251 - Cidade Universitária CEP


13083-970 • Campinas/SP - Brasil

aureasoriano | @aureasoriano | aurea-soriano | recod.ai 1


Sobre mí

Institute of Computing
University of Campinas (Unicamp)

Av. Albert Einstein, 1251 - Cidade Universitária CEP


13083-970 • Campinas/SP - Brasil

2
Aurea Soriano-Vargas
Perfil Personal
Profesional Peruana en Ciencia de la
Intereses de investigación Computación
Visualización de Información, Visual
Analytics (Visual Data Mining),
Procesamiento de Imágenes, Aprendizaje
Posición actual
de Máquina Coordinadora de Investigación / Investigadora
senior en la Universidade Estadual de Campinas
(Unicamp) (https://recod.ai/senior-researchers/)
Investigadora/Docente
Universidad de California, Davis (UCDAVIS)
Universidad de São Paulo, Brasil (USP)
Universidad de Campinas, Brasil (UNICAMP)
Universidad Nacional de San Agustín (UNSA) BSc
Ingeniería Informática por la Universidad
Analista Desarrolladora Católica San Pablo (UCSP), Arequipa, Perú
Monitora - VistaJet en 2009
Southern Copper Corporation
PhD MSc
Ciencia de la Computación por la Universidad Ciencia de la Computación por la Universidad
de São Paulo (USP) Brasil en 2018. de São Paulo (USP) Brasil en 2013.

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 3


Análisis Exploratorio de Datos

Institute of Computing
University of Campinas (Unicamp)

Av. Albert Einstein, 1251 - Cidade Universitária CEP


13083-970 • Campinas/SP - Brasil

4
¿Cuál es el objetivo?
Hacer una pregunta
1 interesante.
¿Qué harías si tuvieras todos los datos?
¿Qué quieres predecir o estimar?

¿Cómo se muestrearon los datos?


2 Obtener los datos ¿Qué datos son relevantes?
¿Hay algún problema de privacidad?

Grafique los datos.


3 Analizar los datos. ¿Hay anomalías?
¿Hay patrones?

Construir un modelo.
4 Modelar los datos. Ajustar el modelo.
Validar el modelo.

Comunicar y visualizar ¿Qué aprendimos?


5 los resultados.
¿Tienen sentido los resultados?
¿Podemos contar una historia?

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 5


¿Cómo empiezo a analizar estos datos?
Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 6
¿Cómo empiezo a analizar estos datos?
Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 7
Análisis exploratorio de datos (EDA)
y visualización

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 8


Kahoot

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 9


Análisis Exploratorio de Datos
Objetivo: obtener una visión general de los
datos
EDA o visualización puede ser el objetivo:
Siempre debe mirar cada variable:
Analista de datos
¡aprenderá algo!

El análisis de conjuntos de datos


basados en varios métodos numéricos y basado en datos (sin modelo)
herramientas gráficas.

Facilita el descubrimiento de lo inesperado Pensamiento interactivo y visual.


así como el cumplimiento de lo esperado. Los humanos son los mejores reconocedores
de patrones.
Conocer los datos:
● distribuciones (simétrica,
normal, asimétrica) Para escuchar los datos:
● problemas de calidad de datos ● para detectar errores
● valores atípicos, anomalías ● para ver patrones en los datos
● correlaciones e interrelaciones ● para encontrar violaciones de
● subconjuntos de interés supuestos estadísticos
● patrones, tendencias, ● …y porque si no lo haces, estarás
estructura subyacente, en problemas después
desviaciones de tendencia

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 10


Clasificación de EDA

Los métodos gráficos


Los métodos no gráficos
obviamente resumen los datos
generalmente implican el cálculo no gráfica gráfica de forma esquemática o
de estadísticas de resumen.
pictórica.

Los métodos multivariados


Los métodos univariados
examinan dos o más variables al
analizan una variable univariada multivariada
mismo tiempo para explorar las
(columna de datos) a la vez relaciones.

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 11


Satisfacción del cliente Santander
¿Qué clientes están satisfechos?

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 12


Satisfacción del cliente Santander
¿Qué clientes están satisfechos?

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 13


Pasos de EDA
Reestructuración de datos
Identificar correlaciones Decisión
Es posible que deba crear nuevas variables
Trate de identificar variables Decidir sobre la necesidad de
a partir de las existentes.
correlacionadas, relaciones transformación (sobre variables de
Obtenga tasas o porcentajes de ellos.
de interacción y respuesta y/o explicativas).
Formato, Diferentes órdenes de magnitud
multicolinealidad, si las hay. Decidir sobre la hipótesis en base a sus
Variables ficticias para variables
preguntas de investigación.
categóricas.

2 4 6

1 3 5
Generar buenas preguntas Obtener estadísticas descriptivas Tratar con
de investigación. Usar herramientas gráficas apropiadas observaciones faltantes
Basado en las preguntas de investigación.
Tratando de entender la estructura de datos,
relaciones, anomalías, comportamientos
inesperados.

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 14


Pasos de EDA
Reestructuración de datos
Identificar correlaciones Decisión
Es posible que deba crear nuevas variables
Trate de identificar variables Decidir sobre la necesidad de
a partir de las existentes.
correlacionadas, relaciones transformación (sobre variables de
Obtenga tasas o porcentajes de ellos.
de interacción y respuesta y/o explicativas).
Formato, Diferentes órdenes de magnitud
multicolinealidad, si las hay. Decidir sobre la hipótesis en base a sus
Variables ficticias para variables
preguntas de investigación.
categóricas.

2 4 6

1 3 5
Generar buenas preguntas Obtener estadísticas descriptivas Tratar con
de investigación. Usar herramientas gráficas apropiadas observaciones faltantes
Basado en las preguntas de investigación.
Tratando de entender la estructura de datos,
relaciones, anomalías, comportamientos
inesperados.

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 15


Satisfacción del cliente Santander
¿Qué clientes están satisfechos?
● ¿Cómo se relaciona la
satisfacción del cliente con cada
variable?
● ¿Existen clusters en los datos?
● ¿Hay variables que no están
proporcionando ninguna
información?
● ¿Alguna relación entre las otras
variables?
● ¿Alguna combinación de
características da como
resultado una mayor tasa de
satisfacción?
● ¿Hay alguna diferencia entre los
clientes en términos de índices
de satisfacción?
● ¿¿¿Qué más???

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 16


Pasos de EDA
Reestructuración de datos
Identificar correlaciones Decisión
Es posible que deba crear nuevas variables
Trate de identificar variables Decidir sobre la necesidad de
a partir de las existentes.
correlacionadas, relaciones transformación (sobre variables de
Obtenga tasas o porcentajes de ellos.
de interacción y respuesta y/o explicativas).
Formato, Diferentes órdenes de magnitud
multicolinealidad, si las hay. Decidir sobre la hipótesis en base a sus
Variables ficticias para variables
preguntas de investigación.
categóricas.

2 4 6

1 3 5
Generar buenas preguntas Obtener estadísticas descriptivas Tratar con
de investigación. Usar herramientas gráficas apropiadas observaciones faltantes
Basado en las preguntas de investigación.
Tratando de entender la estructura de datos,
relaciones, anomalías, comportamientos
inesperados.

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 17


Dados - Tidy data
Este formato requiere tener una columna para cada variable y
Variable, característica una fila para cada observación.

Observaciones, instancias

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 18


Tipos de dados

Categóricos Quantitativos

Binario Nominal Ordinal Discretos Continuos


● 2 categorías ● Más categorías ● Ordem importa

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 19


Tipos de datos

Binarios

Discretos Continuos

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 20


Datos constantes

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 21


Datos constantes

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 22


Datos faltantes

Estratégia 1: Remover as colunas com null.

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 23


Datos faltantes

Estrategia 2: Usamos SimpleImputer para reemplazar los valores faltantes con el valor
promedio a lo largo de cada columna.

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 24


Variable Target

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 25


Diferente orden de magnitud

● Diferencias de escala entre las variables -> aumentar la dificultad del problema.
● Valores de entrada grandes -> modelo con pesos grandes.
● Modelo con pesos grandes es inestable -> bajo rendimiento durante el aprendizaje y sensibilidad a los valores de
entrada = mayor error de generalización.
● Diferencia de escala no afecta a todos los algoritmos de aprendizaje automático.
● Algoritmos que utilizan suma ponderada de variables de entrada son afectados, como la regresión lineal, la
regresión logística y las redes neuronales artificiales (aprendizaje profundo).
● Algoritmos que utilizan distancia entre observaciones se ven afectados, como KNN y SVM.
● Algoritmos no afectados por la escala de las variables: árbol de decisión y bosque aleatorio.

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 26


Diferente orden de magnitud

Redimensionamento dos dados do intervalo original em


um novo intervalo de 0 e 1. Quando? distribuição de
Normalização de dados é desconhecida ou os dados não têm distribuição
dados gaussiana. Altamente afetada por outliers.

Redimensionar a distribuição de valores para que a


média dos valores observados seja 0 e o desvio
padrão seja 1. Quando? quando os dados estão sendo
Padronização de usados para análise multivariada, (todas as variáveis
dados de unidades comparáveis). Geralmente é aplicado
quando os dados têm distribuição gaussiana.
Ligeiramente afetada por outliers.
Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 27
Diferente orden de magnitud

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 28


Pasos de EDA
Reestructuración de datos
Identificar correlaciones Decisión
Es posible que deba crear nuevas variables
Trate de identificar variables Decidir sobre la necesidad de
a partir de las existentes.
correlacionadas, relaciones transformación (sobre variables de
Obtenga tasas o porcentajes de ellos.
de interacción y respuesta y/o explicativas).
Formato, Diferentes órdenes de magnitud
multicolinealidad, si las hay. Decidir sobre la hipótesis en base a sus
Variables ficticias para variables
preguntas de investigación.
categóricas.

2 4 6

1 3 5
Generar buenas preguntas Obtener estadísticas descriptivas Tratar con
de investigación. Usar herramientas gráficas apropiadas observaciones faltantes
Basado en las preguntas de investigación.
Tratando de entender la estructura de datos,
relaciones, anomalías, comportamientos
inesperados.

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 29


Resúmenes numéricos de datos
Medidas de Tendencia Central Medidas de variación o variabilidad
Calculado para proporcionar un "centro" Describen la "dispersión de datos" o
alrededor del cual se distribuyen las qué tan lejos están las medidas del
mediciones en los datos. centro.

– media: μ = ∑i Xi / n – cuartiles X: Q1 value = X0.25n , Q3 value = X0.75 n


– moda: el valor común en X • Rango de intercuartiles: value(Q3) - value(Q1)
– mediana: X=sort(X), mediana = Xn/2 • range: max(X) - min(X) = Xn - X1
(mitad abajo, mitad arriba) – 2 2
varianza: σ = ∑i (Xi - μ) / n
– desviación estándar: σ
– skewness: ∑i (Xi - μ)3 / [ (∑i (Xi - μ)2)3/2 ]
• cero si es simétrico; asimétrico a la derecha es
lo más común

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 30


Resúmenes numéricos de datos

La media y la desviación estándar son afectadas


por los valores atípicos.
Media: para distribuciones simétricas sin valores
La mediana y los cuartiles son más robustos.
atípicos
Mejor para distribuciones asimétricas.

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 31


Estadísticas descriptivas

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 32


John Tukey

“El mayor valor de una imagen es cuando nos


obliga a percibir lo que nunca esperábamos
ver.”

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 33


Visualización

“El uso de representaciones de datos


interactivas y visuales asistidas por
computadora para ampliar la
cognición” [Tarjeta 99]

Transformar los datos en


codificaciones visuales.

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 34


Visualización de Información - Objetivos

Comunicar (Explicativa) Analizar (Exploratoria)

Presentar datos e ideas Explorar los datos

Explicar e informar Evaluar una situación

Proporcionar pruebas y apoyo Determinar cómo proceder

Influir y persuadir Decidir qué hacer

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 35


Opciones de visualización

Otras
Módulo de visualización Pandas Bokeh, Vega, Vincent, Altair
opciones

Matplotlib D3.js https://d3js.org/

Seaborn

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 36


¿Atributos visuales?

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 37


¿Atributos visuales?
diferentes codificaciones tienen
diferentes propiedades
(psicología perceptiva)

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 38


¿Atributos visuales?
diferentes codificaciones tienen
diferentes propiedades
(psicología perceptiva)

Bueno para comunicar valores exactos...

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 39


¿Atributos visuales?
diferentes codificaciones tienen
diferentes propiedades
(psicología perceptiva)

Bueno para comunicar proporciones...

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 40


¿Atributos visuales?
diferentes codificaciones tienen
diferentes propiedades
(psicología perceptiva)

Bueno para llamar la atención...

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 41


¿Atributos visuales?
diferentes codificaciones tienen
diferentes propiedades
(psicología perceptiva)

¡¡Colores!!

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 42


¿Atributos visuales?: Color
“Why Should Engineers and Scientists Be
Worried About Color?” (Rogowitz & Treinish,
1996)

Conclusiones:
● Escalas de arcoíris: malas
● No existe una escala "mejor"

En caso de duda, utilice el sitio web "Color


Brewer":
http://colorbrewer2.org

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 43


¿Atributos visuales?

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 44


Usar o gráfico
certo

https://extremepresentation.typepad.co
m/blog/files/choosing_a_good_chart.pdf

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 45


Visualizações

Otros tipos de Reducción de


1 Variable 2 Variables Más de 2 Variables
datos dimensionalidad

Histogramas Scatterplot Barras, apiladas Series temporales TSNE

Histogramas Contour Plots, PCA


suavizados Transparency Small Multiples Datos Espaciales

Boxplots Correlation TSVD


Graph Splatting
HeatMap
UMAP
Coordenadas
Paralelas

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 46


Histograma ¿Qué edad tenías cuando diste tu primer beso?

Muestra centro, varianza,


asimetría, moda, valores
atípicos o patrones
extraños.
El ancho y la posición son
importantes

edad del primer beso

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 47


Histograma

Independientemente del valor común que se

interponga en la forma de ver

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 48


Comparações: Barras vs. Linhas

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 49


Histograma suavizado
Estimativas de densidade

▪ # de contenedores es
muy importante: 10, 30,
60

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 50


Histograma - Problemas
● Para conjuntos de datos pequeños, los histogramas pueden ser engañosos.
○ Los pequeños cambios en los datos, contenedores o anclas pueden ser engañosos

● Para grandes conjuntos de datos, los histogramas pueden ser bastante efectivos para ilustrar
las propiedades generales de la distribución.

● Los histogramas solo funcionan con 1 variable a la vez


○ Pero small multiples pueden ser efectivos

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 51


Boxplot
Un boxplot muestra la mediana, los cuartiles y los valores atípicos sospechosos. Un
valor atípico se define como una observación de más de 1,5 × IQR de los cuartiles.

Outliers posibles

rango máximo de bigote

bigote superior

Q3 (tercer cuartil)

mediana
El rango intercuartílico (IQR) es una medida Q1 (primer cuartil)
de dispersión estadística, que es la
dispersión de los datos
bigote inferior
Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 52
Boxplot

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 53


2 Variables: Scatterplot

Para dos variables numéricas, el


scatterplot es la elección obvia.

útil para responder:


● ¿x, y relacionados?
● lineal
● cuadrático
● otro
● ¿la varianza(y) depende de x?
● ¿valores atípicos presentes?

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 54


2 Variables: Scatterplot

Lineal Quadrático
Sem relacionamento aparente

Homoscedastic (mesma Heteroscedastic (variação em Y


variância finita) difere dependendo do valor de X)
Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 55
2 Variables: Scatterplot - Problema

Puede ser terrible con muchos datos...

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 56


2 Variables: Scatterplot - Solución
Qué hacer para grandes conjuntos de datos

Contour plots Transparent plotting Graph splatting

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 57


Comparaciones: Barras

#identificar columnas que


tienen más valores únicos
para tener una idea de las
variables continuas en
nuestros datos

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 58


Barras apiladas
Las barras apiladas se pueden utilizar
para comparar valores continuos entre
dos o más variables.

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 59


Más de 2 variables - Histograma - Small Multiples

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 60


Más de 2 variables - Matriz de Scatterplot

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 61


Más de 2 variables - Boxplot - Small Multiples
Los boxplots uno al lado del otro son muy efectivos para mostrar las diferencias en las
variables.

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 62


Correlaciones

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 63


Coordenadas Paralelas

Sépalo, Pétalo

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 64


Coordenadas Paralelas

Sépalo, Pétalo

¡El famoso conjunto de


datos iris!

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 65


Coordenadas Paralelas
Sepal
Length

5.1

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 66


Coordenadas Paralelas
Sepal Sepal
Length Width

3.5

5.1

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 67


Coordenadas Paralelas
Sepal Sepal Petal Petal
Length Width length Width

3.5

5.1 0.2
1.4

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 68


Coordenadas Paralelas

3.5

5.1
1.4
0.2
Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 69
Coordenadas Paralelas

Transparencia e interactividad…

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 70


Series temporales
Si sus datos tienen un componente temporal, asegúrese de explorarlo

summer bifurcations in air travel


(favor early/late)
summer
peaks

steady growth
trend
New Year bumps

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 71


Datos espaciales: Mapas chloropleth

Mapas que usan tonos de color para representar valores numéricos


Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 72
Reducción de dimensionalidad
TSNE PCA TSVD UMAP
técnica de manifold learning para la
reducción de dimensionalidad técnica de factorización de
visualización de conjuntos de énfasis en la variación reducción de dimensiones, conserva
matrices que factoriza una más de la estructura global con un
datos de alta dimensión sacar patrones fuerte matriz M en 3 matrices U, Σ y V. rendimiento de tiempo de ejecución
n=2, random_state=7 n=2, random_state=7 n=2, random_state=7 superior

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 73


¿Qué está faltando?

Pie charts 3D
● muy popular ● agradable poder mostrar tres
● bueno para mostrar razones simples de dimensiones
proporciones ● difícil hacerlo bien
● La percepción humana no es buena para ● a menudo mal hecho
comparar arcos. ● mejor varios tipos de proyección 2D
● diagramas de barras, histogramas
generalmente mejores (pero menos bonitos)

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 74


Cómo generar una mala
El objetivo de una buena visualización de datos:
visualización de EDA Mostrar datos con precisión y claridad

1 Mostrar el menor número de informaciones posible

2 Ocultar lo que queremos mostrar (con basura


gráfica)

3 Usar pseudo-3d y colorear de forma cursi

4 Incluir un gráfico de pizza ( en color y en 3D)

5 Usar una escala mal elegida

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 75


Cómo generar una mala visualización de EDA

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 76


Cómo generar una mala visualización de EDA

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 77


Visualización efectiva de EDA

1. Tener integridad 3. Usar el gráfico


gráfica correcto

4. Usar los
2. Simplificar colores
sabiamente

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 78


Integridad gráfica - Distorsiones de escala

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 79


Integridad gráfica - Distorsiones de escala

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 80


Integridad gráfica - Distorsiones de escala

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 81


Integridad gráfica - Distorsiones de escala

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 82


“Duplique los ejes, duplique el engaño”
(Cita de desviación estándar de Gary Smith)

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 83


Integridade Gráfica

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 84


Integridad Gráfica

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 85


Ser proporcional

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 86


Ser proporcional

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 87


Ser proporcional

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 88


Ser proporcional

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 89


Simplificar
Elementos visuales extraños que desvían la atención del mensaje

http://www.tbray.org/ongoing/data-ink/di1
Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 90
Simplificar

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 91


Usar el
gráfico
correcto

https://extremepresentation.typepad.co
m/blog/files/choosing_a_good_chart.pdf

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 92


Usar los colores sabiamente
Colores para categorías: no use más de 5-8 colores a la vez

Colores para datos ordinales: variar luminancia y saturación

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 93


¡Evita la escala arcoíris!

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 94


¡Evita la escala arcoíris!

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 95


ColorBrewer

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 96


Después de EDA

Institute of Computing
University of Campinas (Unicamp)

Av. Albert Einstein, 1251 - Cidade Universitária CEP


13083-970 • Campinas/SP - Brasil

97
¿Qué viene después de EDA?

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 98


¿Qué viene después de EDA?

Análisis confirmatorio de
datos: verificar la hipótesis
mediante análisis
estadístico

Saca conclusiones y
presenta tus resultados de
una buena manera

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 99


Análisis de datos exploratorio vs confirmatorio

EDA CDA
Sin hipótesis al Comienza con la
principio hipótesis

Prueba la
Genera hipótesis
hipótesis nula

Usa métodos
Usa modelos
gráficos
estadísticos
(principalmente)

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 100


Conclusiones

Institute of Computing
University of Campinas (Unicamp)

Av. Albert Einstein, 1251 - Cidade Universitária CEP


13083-970 • Campinas/SP - Brasil

101
Conclusiones

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 102


Conclusiones

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 103


Conclusiones

Examine todas sus variables a 01


fondo y con cuidado antes de
comenzar el análisis.

Al describir distribuciones numéricas,


discuta la forma, el centro, la
dispersión y las observaciones
02 inusuales.
Las estadísticas sólidas no se ven 03
afectadas fácilmente por
anomalías y desviaciones
extremas

Comience siempre su exploración con


una visualización
04
05
Use gráficos siempre que sea
posible

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 104


Obrigado!
¡Gracias! Thank you!
https://github.com/aurea-soriano/SantanderEDA
105
¿Preguntas?

106
Manifold Learning?

Busca lo más vital, no más


Lo que es necesidad, no más
Y olvídate de la preocupación
Tan solo, lo muy esencial
Para vivir sin batallar
Y la naturaleza te lo da

Baloo - El libro de la selva

● Enfoque para la reducción de la dimensionalidad no lineal.


● Intento de generalizar frameworks lineales como PCA para que sean sensibles a la estructura no lineal de los
datos.
● Aprende la estructura de alta dimensión de los datos a partir de los datos mismos, sin el uso de clasificaciones
predeterminadas.

Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 107

También podría gustarte