Tema 04
Tema 04
Tema 04
2017 - 2018
1. Introducción. Preprocesamiento
2. Integración, Limpieza y Transformación
3. Datos Imperfectos
4. Reducción de Datos
5. Comentarios Finales
Bibliografía:
S. García, J. Luengo, F. Herrera
Data Preprocessing in Data Mining
Springer, 2015
Motivación
Preprocesamiento: Tareas para disponer de datos de calidad previos al
uso de algoritmos de extracción de conocimiento. Conocimiento
Patrones/
Modelos
Datos
para Datos
Preprocesados
Análisis
Interpretación
Minería Evaluación
Problema/
Datos de Datos
Brutos Preprocesamiento
Selección
Motivación
Preprocesamiento: Tareas para disponer de datos de calidad previos al
uso de algoritmos de extracción de conocimiento.
1. Introducción. Preprocesamiento
2. Integración, Limpieza y Transformación
3. Datos Imperfectos
4. Reducción de Datos
5. Comentarios Finales
Bibliografía:
S. García, J. Luengo, F. Herrera
Data Preprocessing in Data Mining
Springer, 2015
INTRODUCCIÓN
D. Pyle, 1999, pp. 90:
Dorian Pyle
Data Preparation for Data
Mining Morgan Kaufmann
Publishers, 1999
INTRODUCCIÓN
D. Pyle, 1999, pp. 90:
Dorian Pyle
Data Preparation for Data
Mining Morgan Kaufmann
Publishers, 1999
Data Preprocessing
S. García, J. Luengo, F. Herrera, 2015, Preface vii:
20
Preprocesamiento de Datos
¿Qué incluye el Preprocesamiento de Datos?
21
Inteligencia de Negocio
TEMA 4. Preprocesamiento de Datos
1. Introducción. Preprocesamiento
2. Integración, Limpieza y Transformación
3. Datos Imperfectos
4. Reducción de Datos
5. Comentarios Finales
Bibliografía:
S. García, J. Luengo, F. Herrera
Data Preprocessing in Data Mining
Springer, 2015
Snapshot on Data Preparation
24
Integración de datos
25
Integración de datos
Servidor
Data Warehouse
Base de
Datos 1
Extracción,
agregación ..
Base de
Datos 2
26
Integración de datos
Ejemplos
▪ Diferentes escalas: Salario en dólares versus peniques
27
Integración de datos
28
Integración de datos
Análisis de correlaciones
rA, B
( A A )( B B )
(n 1) A B
n: número de datos
A: media
A: desviación estándar
29
Integración de datos
x x2 1/x
Análisis de correlaciones x 1
Ejemplo2:
Edad Tensión Obesidad Colesterol Tabaquismo Alcoholismo Pulsaciones Hierro
Edad 1
Tensión 0.63 1
30
Integración de datos
31
Limpieza de datos
▪ Objetivos:
• resolver inconsistencias
• Rellenar/imputar valores perdidos,
• suavizar el ruido de los datos,
• identificar o eliminar outliers …
32
Limpieza de datos
▪ Datos limpios
0000000001,199706,1979.833,8014,5722 , ,#000310 ….
,111,03,000101,0,04,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0300,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0300,0300.00
33
Limpieza de datos
Edad=“42”
Fecha de Nacimiento=“03/07/1997”
34
Normalización
35
Normalización
• Normalización zero-mean. Se normaliza en función de la
media y la desviación estándar.
v A
v'
A
Útil cuando se desconocen los límites o cuando los datos
anómalos pueden dominar la normalización min-max.
36
Transformación de los datos
▪ Objetivo: Transformar los datos de la mejor forma posible
para la aplicación de los algoritmos de DM.
Bibliografía:
T. Y. Lin. Attribute Transformation for Data Mining I: Theoretical
Explorations. International Journal of Intelligent Systems 17, 213-222, 2002.
37
Inteligencia de Negocio
TEMA 4. Preprocesamiento de Datos
1. Introducción. Preprocesamiento
2. Integración, Limpieza y Transformación
3. Datos Imperfectos
4. Reducción de Datos
5. Comentarios Finales
Bibliografía:
S. García, J. Luengo, F. Herrera
Data Preprocessing in Data Mining
Springer, 2015
Snapshot on Data Preparation
40
Datos Imperfectos
41
Valores perdidos
42
Valores perdidos
43
Valores perdidos (ejemplo preservando media y desviación)
44
Valores perdidos (ejemplo)
45
Valores perdidos (ejemplo)
X Y Clase
a a + • Estimar por el valor más probable
a ? n + (la moda)
X = n error
n a -
n n -
• Estimar por el valor más probable
n a + (la moda) dentro de la clase (+)
X = a (prob. 0.5) ó X=n (prob. 0.5)
No resuelve nada
46
Valores perdidos
47
Valores perdidos
48
Valores perdidos en clasificación. Ejemplo
49
Valores perdidos en clasificación. Ejemplo
50
Limpieza de datos con ruido
15 methods
http://www.keel.es/
51
Valores perdidos
Bibliografía:
WEBSITE: http://sci2s.ugr.es/MVDM/
J. Luengo, S. García, F. Herrera, A Study on the Use of Imputation Methods for
Experimentation with Radial Basis Function Network Classifiers Handling
Missing Attribute Values: The good synergy between RBFs and EventCovering
method. Neural Networks, doi:10.1016/j.neunet.2009.11.014, 23(3) (2010) 406-418.
S. García, F. Herrera, On the choice of the best imputation methods for missing
values considering three groups of classification methods. Knowledge and
Information Systems 32:1 (2012) 77-108, doi:10.1007/s10115-011-0424-2
52
Limpieza de datos con ruido
Tipos de ejemplos
Fig. 5.2 The three types of examples considered in this book: safe examples (labeled as
s), borderline examples (labeled as b) and noisy examples (labeled as n). The
continuous line shows the decision boundary between the two classes
53
Limpieza de datos con ruido
54
Limpieza de datos con ruido
55
Ensemble Filter (EF)
• C.E. Brodley, M.A. Friedl. Identifying Mislabeled Training Data. Journal of Artificial Intelligence Research 11
(1999) 131-167.
• Different learning algorithm (C4.5, 1-NN and LDA) are used to create classifiers in several subsets of the
training data that serve as noise filters for the training sets.
• Two main steps:
1. For each learning algorithm, a k-fold cross-validation is used to tag each training example as correct
(prediction = training data label) or mislabeled (prediction ≠ training data label).
2. A voting scheme is used to identify the final set of noisy examples.
• Consensus voting: it removes an example if it is misclassified by all the classifiers.
• Majority voting: it removes an instance if it is misclassified by more than half of the classifiers.
Training Data
Voting scheme
(consensus or majority)
Noisy examples
Ensemble Filter (EF)
Cross-Validated Committees Filter (CVCF)
• S. Verbaeten, A.V. Assche. Ensemble methods for noise elimination in
classification problems. 4th International Workshop on Multiple Classifier Systems
(MCS 2003). LNCS 2709, Springer 2003, Guilford (UK, 2003) 317-325.
2. Each classifier built with the k-fold cross-validation is used to tag ALL the
training examples (not only the test set) as correct (prediction = training data
label) or mislabeled (prediction ≠ training data label).
Iterative Partitioning Filter (IPF)
• T.M. Khoshgoftaar, P. Rebours. Improving software quality prediction by noise filtering
techniques. Journal of Computer Science and Technology 22 (2007) 387-396.
• IPF removes noisy data in multiple iterations using CVCF until a stopping criterion is reached.
• The iterative process stops if, for a number of consecutive iterations, the number of noisy
examples in each iteration is less than a percentage of the size of the training dataset.
Training Data
CVCF Filter
NO ¿STOP
?
YES
http://www.keel.es/
60
Limpieza de datos con ruido
61
Detección de datos anómalos
▪ Valor erróneo <> valor anómalo.
62
Detección de datos anómalos
Outliers
Son objetos/datos con características que son considerablemente
diferentes de la mayoría de los otros datos/objetos del conjunto.
63
Detección de datos anómalos
▪ Valores anómalos, atípicos o extremos (outliers): son
correctos aunque sean anómalos estadísticamente.
▪ Técnicas de detección:
• Definir una distancia y ver los
individuos con mayor distancia
media al resto de individuos.
64
Detección de datos anómalos
▪ Tratamiento de valores anómalos:
• Ignorar. Algunos algoritmos son robustos a datos
anómalos.
65
Inteligencia de Negocio
TEMA 4. Preprocesamiento de Datos
1. Introducción. Preprocesamiento
2. Integración, Limpieza y Transformación
3. Datos Imperfectos
4. Reducción de Datos
5. Comentarios Finales
Bibliografía:
S. García, J. Luengo, F. Herrera
Data Preprocessing in Data Mining
Springer, 2015
Reducción de Datos
71
Reducción de Datos
Reducción
de Datos
Selección de Discretización
Características
Selección de
Instancias
Reducción de Datos
Reducción de
Datos
Selección de Discretización
Características
Selección de
Instancias
Bibliografía:
H. Liu, H. Motoda. Feature Selection for Knowledge Discovery
and Data Mining. Kluwer Academic, 1998.
H. Liu, H. Motoda (Eds.) Feature Extraction, Construction, and
Selection: A Data Mining Perspective, Kluwer Ac., 1998.
Selección de Características
El resultado de la SC sería:
❖ Menos datos los algoritmos pueden aprender más
rápidamente
❖ Mayor exactitud el clasificador generaliza mejor
❖ Resultados más simples más fácil de entender
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
A 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1
B 0 0 0 0 1 1 1 1 0 0 0 0 1 1 1 1
C 0 0 1 1 0 0 1 1 0 0 1 1 0 0 1 1
D 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1
E 0 1 0 0 0 1 1 0 1 1 0 0 0 0 1 0
F 1 1 1 0 1 1 0 0 1 0 1 0 0 1 0 0
Selección de Características
{}
{1,2,3,4}
Selección de Características
Complete Empty
Set of Set of
Features Features
Selección de Características
Estrategia de búsqueda
Dadas N variables, explorar todos los subconjuntos posibles
supone 2N (p.e. 220=1048576)
Si queremos exactamente subconjuntos de M variables
(M<=N) entonces supone (NM). P.e. explorar subconjuntos
de 10 variables de 20 posibles, daría 184756
Una búsqueda exhaustiva no es aceptable
Medidas filtro
Medidas de separabilidad. Miden la separabilidad entre clases:
euclídeas, Mahalanobis,…
P.e. Para un problema con 2 clases, un proceso de SC basado en
medidas de este tipo determina que X es mejor que Y si X induce una
diferencia mayor que Y entre las dos probabilidades condicionales de
las clases
ic
f ( X 1 ,..., X M ) M
i 1
M
i 1 j i 1
ij
M M M
f ( X 1... M ) I ( X i ; C ) I ( X i ; X j )
i 1 i 1 j i 1
por ejemplo con β=0.5
Selección de Características
Medidas de consistencia
2 0 0 0 1
2 0 0 1 0
Inf. Mutua Dist. Correlación
1 0 0 1 1 euclídea
0 0 0 0 1
Temp. 4.03E-4 0.143 -0.043
2 1 0 0 1
Hum. 0.045 0.463 -0.447
0 1 0 1 1
2 0 1 1 0
Selección de Características
Ventajas
Envolventes:
Exactitud: generalmente son más exactos que los filtro,
debido a la interacción entre el clasificador y el conjunto de
datos de entrenamiento
Capacidad para generalizar: poseen capacidad para evitar el
sobreajuste debido a las técnicas de validación utilizadas
Filtro:
Rápidos. Suelen limitarse a cálculos de frecuencias, mucho
más rápido que entrenar un clasificador
Generalidad. Al evaluar propiedades intrínsecas de los datos
y no su interacción con un clasificador, sus resultados
pueden ser utilizados por cualquier clasificador
Selección de Características
Inconvenientes
Envolventes:
Muy costosos: para cada evaluación hay que aprender un
modelo y validarlo. No es factible para clasificadores
costosos
Pérdida de generalidad: La solución está sesgada hacia el
clasificador utilizado
Filtros:
Tendencia a incluir muchas variables. Normalmente se debe
a las características monótonas de la función objetivo
utilizada
• El usuario deberá seleccionar un umbral
Selección de Características
Proceso
no si Subconjunto
Criterio Seleccionado
Parada
Selección de Características
Proceso
Proceso
Distintas Clasificaciones
filter Supervisados
wrapper No supervisado
Subconjunto = {}
Repetir
Sk = generarSubconjunto(x)
si existeMejora(S, Sk,U)
Subconjunto = Sk
Hasta CriterioParada()
Algoritmos de Ranking
Devuelven una lista de atributos ordenados según
algún criterio de evaluación.
Entrada: x atributos - U criterio evaluación
Lista = {}
Para cada Atributo xi, i {1,...,N}
vi = calcular(xi,U)
situar xi dentro de Lista conforme vi
Atributos A1 A2 A3 A4 A5 A6 A7 A8 A9
Ranking A5 A7 A4 A3 A1 A8 A6 A2 A9
A5 A7 A4 A3 A1 A8 (6 atributos)
Selección de Características
Algunos algoritmos.
¿Qué subconjunto de 2 variables seleccionamos?
Selección de Características
Algunos algoritmos.
Algunos algoritmos.
Selección hacia delante
X arg max f (S X )
X U S
3. S=S U {X+}
4. Ir al paso 2
Selección de Características
Algunos algoritmos.
Selección hacia atrás
X arg max f (S X )
X S
3. S=S-{X-}
4. Ir al paso 2
Selección de Características
Algunos algoritmos.
Selección hacia delante:
Funciona mejor cuando el subconjunto óptimo tiene pocas
variables
Es incapaz de eliminar variables
Algunos algoritmos.
Selección l-más r-menos
Es una generalización de forward y backward
S S {X }
3. Repetir r veces
X arg max f ( S X )
X S
S S {X }
4. Ir al paso 2
Selección de Características
Algunos algoritmos.
Selección bidireccional
SF SF {X }
4. Seleccionar
X arg max f ( S B X )
X S B S F
SB SB {X }
5. Ir al paso 3
Selección de Características
S S {X }
3. Seleccionar
X arg max f (S X )
X S
4. Si f(S-X-)>f(S)
entonces S=S-{X-} e ir al paso 3
si no ir al paso 2
Selección de Características
Algunos algoritmos.
Selección de características con árboles de decisión
Conjunto inicial de atributos: {A1, A2, A3, A4, A5, A6}
A4 ?
A1? A6?
Extracción de características
f1=
1 N
Y
f2= f4=
1 1 f1*f2*f3
Y N
Y N =1
Y N
f3= f4=
1 0
1 1
Y N f4= f4=
N
Y 1 1
Y N Y N
f4= f4=
1 0
1 1
Y N 0 1 1 0
Y N
0 1 1 0
Fig. 7.4 The effect of using the product of features in decision tree modeling
Reducción de Datos
Reducción de
Datos
Selección de Discretización
Características
Selección de
Instancias
Bibliografía:
T. Reinartz. A Unifying View on Instance Selection.
Data Mining and Knowledge Discovery 6, 191-210, 2002.
Selección de Instancias
SI y Transformación (compactación/agrupamiento)
Selección de Instancias
Selección de
Instancias
Muestreo Aprendizaje
Selección de Activo
Prototipos o
Aprendizaje
basado en
Instancias
Selección de Instancias
Muestreo
Muestreo
Datos sin refinar Reducción simple
Selección de Instancias
Training Prototype
Data Set Selection Instances
(TR) Algorithm Selected (S)
Test Instance-based
Data Set Classifier
(TS)
Alg. de
Selección de
Prototipos
Selección de Prototipos
Propiedades:
Ref. S. García, J. Derrac, J.R. Cano and F. Herrera, Prototype Selection for Nearest Neighbor
Classification: Taxonomy and Empirical Study.IEEE Transactions on Pattern Analysis and Machine
Intelligence 34:3 (2012) 417-435 doi: 10.1109/TPAMI.2011.142
Selección de Instancias
Tolerancia al ruido
Requerimientos de cómputo
Selección de Instancias
Ejemplos gráficos:
Ejemplos gráficos:
Ejemplos gráficos:
Selección Muestreo
de
Prototipos
Selección Selección
Algoritmos Muestreo
Basada en Basada en
Evolutivos Aleatorio
Reglas NN Eliminación
Ordenada
Bibliografía: J.R. Cano, F. Herrera, M. Lozano. Using Evolutionary Algorithms as Instance Selection for Data
Reduction in KDD: An Experimental Study. IEEE Trans. on Evolutionary Computation 7:6 (2003) 561-575.
Selección de Instancias
Ejemplos gráficos:
Multiedit Drop2
Ib3 CHC
Bibliografía: J.R. Cano, F. Herrera, M. Lozano. Using Evolutionary Algorithms as Instance Selection for Data
Reduction in KDD: An Experimental Study. IEEE Trans. on Evolutionary Computation 7:6 (2003) 561-575.
Selección de Instancias
T1 T2 T3 Tt
IS IS IS IS
Referencia: J.R. Cano, F. Herrera, M. Lozano. Stratification for Scaling Up Evolutionary Prototype Selection.
Pattern Recognition Letters 26:7 (2005) 953-963.
Selección de Instancias
Número Número
Número
de de
Nombre de
Instanci Atributo
s Clases
as
Kdd
494022 41 23
Cup’99
Selección de Instancias
Alg. de
Selección de
Prototipos
atributo: color
A4 ?
A1? A6?
Comprehensibilidad:
Árboles de Tamaño reducido
Bibliografía: J.R. Cano, F. Herrera, M. Lozano, Evolutionary Stratified Training Set Selection for
Extracting Classification Rules with Trade-off Precision-Interpretability. Data and Knowledge
Engineering 60 (2007) 90-108, doi:10.1016/j.datak.2006.01.008.
Selección de Instancias
WEBSITE:
http://sci2s.ugr.es/pr/index.php
Bibliografía:
S. García, J. Derrac, J.R. Cano and F. Herrera,
Prototype Selection for Nearest Neighbor Classification: Taxonomy and Empirical Study.
IEEE Transactions on Pattern Analysis and Machine Intelligence 34:3 (2012) 417-435 doi:
10.1109/TPAMI.2011.142
S. García, J. Luengo, F. Herrera. Data Preprocessing in Data Mining, Springer, 15, 2015
Códigos (Java):
Selección de Instancias (website)
http://sci2s.ugr.es/pr/
Selección de Instancias (website)
http://sci2s.ugr.es/pr/
Reducción de Datos
Reducción de
Datos
Selección de Discretización
Características
Selección de
Instancias
Bibliografía:
S. García, J. Luengo, José A. Sáez, V. López, F. Herrera, A Survey of Discretization
Techniques: Taxonomy and Empirical Analysis in Supervised Learning.
IEEE Transactions on Knowledge and Data Engineering, doi: 10.1109/TKDE.2012.35.
WEBSITE: http://sci2s.ugr.es/discretization/
Discretización
EDAD 5 6 6 9 … 15 16 16 17 20 … 24 25 41 50 65 … 67
COCHE
EN 0 0 0 0 … 0 1 0 1 1 … 0 1 1 1 1 … 1
PROPIEDAD
Distribución de peso
16
14
12
50 - 58 kg
Frecuencia
10
8
6
59-67 kg
4 > 68 kg
2
0
50 52 54 56 58 60 62 64 66 68 70 72 74
peso
Discretización
Algoritmos no supervisados:
• Intervalores de igual amplitud
• Intervalos de igual frecuencia
• Clustering …..
Algoritmos supervisados:
• … (múltiples propuestas)
Contador
4
2 2 2 0 2 2
[64,67) [67,70) [70,73) [73,76) [76,79) [79,82) [82,85]
Igual amplitud
Discretización
Discretización:
igual amplitud puede producir
desequilibrios
Contador
1
[0 – 200,000) … …. [1,800,000 –
Salario en una empresa 2,000,000]
Discretización
Contador
1
[0 – 200,000) … …. [1,800,000 –
Salario en una empresa 2,000,000]
¿Qué podemos hacer para conseguir una mejor distribución?
Discretización
Valores de la temperatura
64 65 68 69 70 71 72 72 75 75 80 81 83 85
Contador
4 4 4
2
[64 .. .. .. .. 69] [70 .. 72] [73 .. .. .. .. .. .. .. .. 81] [83 .. 85]
Algoritmos no supervisados:
• Intervalores de igual amplitud
• Intervalos de igual frecuencia
• Clustering …..
Algoritmos supervisados:
• … (múltiples propuestas)
Formas de evaluación:
1. Introducción. Preprocesamiento
2. Integración, Limpieza y Transformación
3. Datos Imperfectos
4. Reducción de Datos
5. Comentarios Finales
Bibliografía:
S. García, J. Luengo, F. Herrera
Data Preprocessing in Data Mining
Springer, 2015
Comentarios Finales
Preprocesa-
Obtención Interpretación
miento
de de
de
Patrones Resultados
Datos
• Reglas de asociación
• Preparación de
• Classificación / predicción • Visualización
Datos
• Análisis de cluster • Validación
• Reducción
Comentarios Finales
Q. Yang, X. Wu
10 Challenging problems in data mining research.
International Journal of Information Technology & Decision Making 5:4 (2006) 597-604
Comentarios Finales
Las Técnicas de Reducción de Datos pueden permitir
mejorar la precisión/interpretabilidad de los métodos de
extracción de conocimiento, además de reducir el tamaño
de la BD y el tiempo de los algoritmos de aprendizaje.
Every problem can need a different preprocessing process, using different tools.
http://sci2s.ugr.es/most-
influential-preprocessing
http://www.keel.es/
Comentarios Finales
Octubre, 2014
Bibliografía
Dorian Pyle
Morgan Kaufmann, 1999