AnálisisExploratorioDeDatos - EDA
AnálisisExploratorioDeDatos - EDA
Institute of Computing
University of Campinas (Unicamp)
Institute of Computing
University of Campinas (Unicamp)
2
Aurea Soriano-Vargas
Perfil Personal
Profesional Peruana en Ciencia de la
Intereses de investigación Computación
Visualización de Información, Visual
Analytics (Visual Data Mining),
Procesamiento de Imágenes, Aprendizaje
Posición actual
de Máquina Coordinadora de Investigación / Investigadora
senior en la Universidade Estadual de Campinas
(Unicamp) (https://recod.ai/senior-researchers/)
Investigadora/Docente
Universidad de California, Davis (UCDAVIS)
Universidad de São Paulo, Brasil (USP)
Universidad de Campinas, Brasil (UNICAMP)
Universidad Nacional de San Agustín (UNSA) BSc
Ingeniería Informática por la Universidad
Analista Desarrolladora Católica San Pablo (UCSP), Arequipa, Perú
Monitora - VistaJet en 2009
Southern Copper Corporation
PhD MSc
Ciencia de la Computación por la Universidad Ciencia de la Computación por la Universidad
de São Paulo (USP) Brasil en 2018. de São Paulo (USP) Brasil en 2013.
Institute of Computing
University of Campinas (Unicamp)
4
¿Cuál es el objetivo?
Hacer una pregunta
1 interesante.
¿Qué harías si tuvieras todos los datos?
¿Qué quieres predecir o estimar?
Construir un modelo.
4 Modelar los datos. Ajustar el modelo.
Validar el modelo.
2 4 6
1 3 5
Generar buenas preguntas Obtener estadísticas descriptivas Tratar con
de investigación. Usar herramientas gráficas apropiadas observaciones faltantes
Basado en las preguntas de investigación.
Tratando de entender la estructura de datos,
relaciones, anomalías, comportamientos
inesperados.
2 4 6
1 3 5
Generar buenas preguntas Obtener estadísticas descriptivas Tratar con
de investigación. Usar herramientas gráficas apropiadas observaciones faltantes
Basado en las preguntas de investigación.
Tratando de entender la estructura de datos,
relaciones, anomalías, comportamientos
inesperados.
2 4 6
1 3 5
Generar buenas preguntas Obtener estadísticas descriptivas Tratar con
de investigación. Usar herramientas gráficas apropiadas observaciones faltantes
Basado en las preguntas de investigación.
Tratando de entender la estructura de datos,
relaciones, anomalías, comportamientos
inesperados.
Observaciones, instancias
Categóricos Quantitativos
Binarios
Discretos Continuos
Estrategia 2: Usamos SimpleImputer para reemplazar los valores faltantes con el valor
promedio a lo largo de cada columna.
● Diferencias de escala entre las variables -> aumentar la dificultad del problema.
● Valores de entrada grandes -> modelo con pesos grandes.
● Modelo con pesos grandes es inestable -> bajo rendimiento durante el aprendizaje y sensibilidad a los valores de
entrada = mayor error de generalización.
● Diferencia de escala no afecta a todos los algoritmos de aprendizaje automático.
● Algoritmos que utilizan suma ponderada de variables de entrada son afectados, como la regresión lineal, la
regresión logística y las redes neuronales artificiales (aprendizaje profundo).
● Algoritmos que utilizan distancia entre observaciones se ven afectados, como KNN y SVM.
● Algoritmos no afectados por la escala de las variables: árbol de decisión y bosque aleatorio.
2 4 6
1 3 5
Generar buenas preguntas Obtener estadísticas descriptivas Tratar con
de investigación. Usar herramientas gráficas apropiadas observaciones faltantes
Basado en las preguntas de investigación.
Tratando de entender la estructura de datos,
relaciones, anomalías, comportamientos
inesperados.
Otras
Módulo de visualización Pandas Bokeh, Vega, Vincent, Altair
opciones
Seaborn
¡¡Colores!!
Conclusiones:
● Escalas de arcoíris: malas
● No existe una escala "mejor"
https://extremepresentation.typepad.co
m/blog/files/choosing_a_good_chart.pdf
▪ # de contenedores es
muy importante: 10, 30,
60
● Para grandes conjuntos de datos, los histogramas pueden ser bastante efectivos para ilustrar
las propiedades generales de la distribución.
Outliers posibles
bigote superior
Q3 (tercer cuartil)
mediana
El rango intercuartílico (IQR) es una medida Q1 (primer cuartil)
de dispersión estadística, que es la
dispersión de los datos
bigote inferior
Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 52
Boxplot
Lineal Quadrático
Sem relacionamento aparente
Sépalo, Pétalo
Sépalo, Pétalo
5.1
3.5
5.1
3.5
5.1 0.2
1.4
3.5
5.1
1.4
0.2
Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 69
Coordenadas Paralelas
Transparencia e interactividad…
steady growth
trend
New Year bumps
Pie charts 3D
● muy popular ● agradable poder mostrar tres
● bueno para mostrar razones simples de dimensiones
proporciones ● difícil hacerlo bien
● La percepción humana no es buena para ● a menudo mal hecho
comparar arcos. ● mejor varios tipos de proyección 2D
● diagramas de barras, histogramas
generalmente mejores (pero menos bonitos)
4. Usar los
2. Simplificar colores
sabiamente
http://www.tbray.org/ongoing/data-ink/di1
Análisis Exploratorio de Datos, Dra. Aurea Soriano-Vargas (2022) 90
Simplificar
https://extremepresentation.typepad.co
m/blog/files/choosing_a_good_chart.pdf
Institute of Computing
University of Campinas (Unicamp)
97
¿Qué viene después de EDA?
Análisis confirmatorio de
datos: verificar la hipótesis
mediante análisis
estadístico
Saca conclusiones y
presenta tus resultados de
una buena manera
EDA CDA
Sin hipótesis al Comienza con la
principio hipótesis
Prueba la
Genera hipótesis
hipótesis nula
Usa métodos
Usa modelos
gráficos
estadísticos
(principalmente)
Institute of Computing
University of Campinas (Unicamp)
101
Conclusiones
106
Manifold Learning?