Machine Learning
Machine Learning
Machine
Learning:
50 conceptos clave
para entenderlo
1
Atribución 4.0 Internacional
términos de la licencia.
Atribución Paradigma Digital. Usted debe darle crédito a esta obra de manera
forma tal que sugiera que usted o su uso tienen el apoyo del licenciante.
http://creativecommons.org/licenses/by/4.0/deed.es
Créditos:
Beatriz Blanco.
Alberto Grande.
Francisco Rodes.
Juan Iglesias.
Carlos Navarro.
Manuel Zaforas.
Machine Learning: 50 conceptos clave para entenderlo.
4
En esta edición:
Introducción. 8
Glosario de términos. 10
— 01.
Accuracy. 12
— 02.
Algorithm. 14
— 03.
AutoML. 16
— 04.
Backpropagation. 18
— 05.
Bagging. 20
— 06.
Batch. 22
— 07.
Bias. 24
— 08.
Boosting. 26
— 09.
Classification. 28
— 10.
Clustering. 30
— 11.
Confusion matrix. 34
— 13.
Decision tree. 38
— 14.
Deep Learning. 40
— 16.
Epoch. 44
— 17.
Explainability. 46
— 19.
Feature. 50
— 20.
Feature Engineering. 52
55
—22.
GPT-2. 58
—23.
Gradient Descent. 60
—24.
Hyperparameters. 62
—25.
Learning rate. 64
—27. Loss. 68
—28.
MLOps. 70
—29.
MNIST. 72
—30.
Neural Networks. 74
—31.
NLP. 78
—32.
Overfitting. 80
—33.
Perceptron. 82
—35.
Random Forest. 86
—36.
Regression. 88
Machine Learning: 50 conceptos clave para entenderlo.
—37.
Regression metrics. 90
—38.
Reinforcement Learning. 92
—40.
Sigmoid function. 96
—41.
Singularity. 100
—42.
Softmax. 102
6
—45.
TensorFlow. 108
—47.
Training Set. 112
—48.
Transfer Learning. 114
—49.
Underfitting. 116
—50.
Variance. 118
Autores. 122
—01.
Alberto Grande. 124
—02.
Beatriz Blanco. 125
—03.
Carlos Navarro. 126
—04.
Francisco Rodes. 127
—06.
Juan Iglesias. 129
—07.
Manuel Zaforas. 130
—08.
Marco Russo. 131
Conclusión. 132
77
Introducción:
En los últimos años las técnicas de Machine Learning han
ganado relevancia. Han demostrado tener aplicaciones muy
útiles y un gran impacto en los procesos de negocio de las
empresas.
9
10
— 01
Glosario
de términos.
— 01.01
Accuracy.
(Exactitud)
to al número total de ejemplos. Cuanto más alta sea la exactitud, es decir más
cercano a 1, más acertará nuestro modelo y, por lo tanto, será más preciso.
nes. Existen otras métricas que podemos observar a la hora de evaluar cómo
12
— 01.01 Accuracy.
Predicciones correctas
Exactitud =
Número total de ejemplos
91.6
91.4
91.2
Accuracy of classification.
91
90.8
90.6
90.4
90.2
90.2
1000 2000 3000 4000 5000 6000 7000 8000 9000 10000
13
— 01.02
Algorithm.
(Algoritmo)
Inteligencia Artificial.
fórmulas matemáticas.
autónoma.
14
— 01.02 Algorithm.
que converge.
15
— 01.03
AutoML.
(Auto Aprendizaje Automático)
AutoML recibirá un conjunto de datos preparados y una tarea a realizar, para ello:
• Buscará una estrategia para preprocesar los datos (cómo tratar los datos
16
— 01.03 AutoML.
Business Business
Understanding Understanding
Data
Preparation
Deployment
Data Modeling
Evaluation
Raw data
+
Targets Features Model selection &
Data Model
+ generation & hyperparameters
preprocessing validation
Task selection selection
+
Metric
AutoML
17
— 01.04
Backpropagation.
(Retropropagación)
redes neuronales.
Nos permite optimizar los pesos dentro de la red de neuronas en base al ratio
errores.
capa.
18
— 01.04 Backpropagation.
Error
1. Resultado
Error’
Error
peso’
2. Resultado
peso’’
Error’’
Error’‘’ Error’
Error
3. Resultado
Error’‘’’ Error’’
19
— 01.05
Bagging.
un desequilibrio de clases.
de todas las clases débiles en forma se combinan para hacer una predicción
20
— 01.05 Bagging.
Original Data
Bootstraping
Ensemble classifier
21
— 01.06
Batch.
(Lote)
samples).
cálculo de pesos sin tener que esperar a que el modelo haya completado el
actualizando los pesos y pasando al siguiente lote (batch), hasta que se haya
22
— 01.06 Batch.
3 Batch 1
...
100
101
102
...
.
200 .
... .
... Batch 10
23
— 01.07
Bias.
(Sesgo)
de predecir la variable objetivo con un acierto del 80%, el 20% de error restante
será considerado como el sesgo asociado a ese modelo, dado que las futuras
y’ = b + w 1 x 1 + w 2 x 2 + ... w n x n
24
— 01.07 Bias.
*https://medium.com/thoughts-and-reflections/racial-bias-and-gender-bias-examples-in-ai-systems-7211e4c166a1
25
— 01.08
Boosting.
conjunto de entrenamiento.
ejemplos del mismo. Una vez que el proceso ha terminado, los clasificadores
conjunto de test, según han demostrado diversos autores tanto teórica como
26
— 01.08 Boosting.
Box2
D1 D2
D3
Box 1 Box 3
Box 4
27
— 01.09
Classification.
(Clasificación)
28
— 01.09 Classification.
Classification
29
— 01.10
Clustering.
(Agregación)
del dominio. Se trata de obtener una descripción inicial que separe grupos de
grupo, qué los hace parecidos y por qué, y qué los diferencia de los otros
30
— 01.10 Clustering.
feature 1
feature 2
···
feature n
cluster #1
cluster #3
cluster #2
31
32
“
Creo que a finales de siglo
se podrá hablar de máquinas
pensando sin esperar que
nadie te contradiga.
Alan Turing.
Padre de las ciencias de la computación y
precursor de la IA.
33
— 01.11
Confusion matrix.
(Matriz de confusión)
Una matriz de confusión es una tabla que a menudo se usa para describir el
• Positivos Verdaderos (TP): estos son casos en los que predijimos que sí
enfermedad.
34
— 01.11 Confusion matrix.
predicho
NO SI tot
NO TB = 50 FP = 10 60
real
SI FN = 5 TP = 100 105
tot 55 110
Clasificación errónea (FP + FN) / total ¿Con qué frecuencia está mal?
35
— 01.12
Convolutional Networks.
(Redes convolucionales)
ΣΣ
· · · · · · · ·
· · · · * · · · · = x (m - i) (n-j) y (1 + i) (1 + j)
· · · · · · · · i=0 j=0
xm1 xm2 ··· xmn y y ··· y
m1 m2 mn
36
— 01.12 Convolutional Networks.
x y r
Paso 1
+ x(3,2)*y(3,2) + x(3,3)*y(3,3)
r(1,1) = 0*1 + 1*0 + 0*1 + 0*0 + 1*1 + 0*0 + 0*1 + 1*0 + 0*1 = 1
x y r
Paso 2
+ x(3,3)*y(3,2) + x(3,4)*y(3,3)
r(1,1) = 1*1 + 0*0 + 0*1 + 1*0 + 0*1 + 0*0 + 1*1 + 0*0 + 0*1 = 2
37
— 01.13
Decision tree.
(Árbol de decisión)
abajo compuesta por nodos, ramas y hojas. El nodo superior representa la raíz
en una hoja. Además, el número de niveles que hay entre la raíz y la hoja más
observaciones atraviesan el árbol desde la raíz hasta que llegan a una hoja,
38
— 01.13 Decision tree.
Nodo raíz
Profundidad
máxima is age > 9.5? survived
0.73 36%
Hoja
died survived
0.05 2% 0.89 2%
Decision tree
39
— 01.14
Deep Learning.
(Aprendizaje profundo)
Los algoritmos siguen una lógica de procesos por capas que simulan el
algo nuevo, cómo hablar, montar en bici, etc; los algoritmos buscan esta
y modelos de coches.
40
— 01.14 Deep Learning.
Input
CAR
NOT CAR
41
— 01.15
Dimensionality Reduction.
(Reducción de la dimensionalidad)
variables principales.
almacenamiento requerido.
Entre las técnicas más importantes tenemos: PCA (Análisis del componente
singulares).
42
— 01.15 Dimensionality Reduction.
Classifier performance.
0
0
Dimensionality (number of features).
Individual variance
2.5
2
Variance ratio.
1.5
0.5
0
0 5 10 15 20
Principal components.
43
— 01.16
Epoch.
(Época)
datos de entrenamiento.
datos de entrenamiento.
44
— 01.16 Epoch.
Loss.
1
train
0.9 validation
0.8
0.7
0.6
0.5
0.4
Épocas.
45
— 01.17
Explainability.
(Explicabilidad)
46
— 01.17 Explainability.
Loan seniority > 4y Loan Type = Pro Capital > 203 k€ Interest rate > 3,1 %
Complexity = 0,73 Complexity = 0,69 Complexity = 0,63 Complexity = 0,58
Complexity = 0,71
Complexity = 0,74
Complexity = 0,81
Complexity = 0,77
Complexity = 0,67
Complexity = 0,71
Complexity = 0,53
Complexity = 0,42
prediction 0,81 = 0,65 (trainset mean complexity) + 0,07 (gain from Capital)
- 0,03 (loss from Interest rate) + 0,12 (gain from loan type)
47
— 01.18
48
— 01.18 Exploratory Data Analysis.
10
9
8
Puntuación
7
6
5
4
3
2
1
Acción Comedia
Acción
60
40
20
0
Contador
Comedia
60
40
20
0
1 2 3 4 5 6 7 8 9 10
Acción
Comedia
0 2 4 6 8 10
Puntuación
49
— 01.19
Feature.
(Atributo o Característica)
sus propiedades son los atributos que nos permiten asignar dicho precio en
50
— 01.19 Feature.
CRIM ZN INDUS CHAS NOX RM AGE DIS RAD TAX PTRATIO B LSTAT
0 0.00632 18.0 2.31 0.0 0.538 6.575 65.2 4.0900 1.0 296.0 15.3 396.90 4.98
1 0.02731 0.0 7.07 0.0 0.469 6.421 78.9 4.9671 2.0 242.0 17.8 396.90 9.14
2 0.02729 0.0 7.07 0.0 0.469 7.185 61.1 4.9671 2.0 242.0 17.8 392.83 4.03
3 0.03237 0.0 2.18 0.0 0.458 6.998 45.8 6.0622 3.0 222.0 18.7 394.63 2.94
4 0.06905 0.0 2.18 0.0 0.458 7.147 54.2 6.0622 3.0 222.0 18.7 396.90 5.33
5 0.02985 0.0 2.18 0.0 0.458 6.430 58.7 6.0622 3.0 222.0 18.7 394.12 5.21
6 0.08829 12.5 7.87 0.0 0.524 6.012 66.6 5.5605 5.0 311.0 15.2 395.60 12.43
7 0.14455 12.5 7.87 0.0 0.524 6.172 96.1 5.9505 5.0 311.0 15.2 396.60 19.15
8 0.21124 12.5 7.87 0.0 0.524 5.631 100.0 6.0821 5.0 311.0 15.2 386.63 29.93
9 0.17004 12.5 7.87 0.0 0.524 6.004 85.9 6.5921 5.0 311.0 15.2 386.71 17.10
10 0.22489 12.5 7.87 0.0 0.524 6.377 94.3 6.3467 5.0 311.0 15.2 392.52 20.45
11 0.11747 12.5 7.87 0.0 0.524 6.009 82.9 6.2267 5.0 311.0 15.2 396.90 13.27
12 0.09378 12.5 7.87 0.0 0.524 5.889 39.0 5.4509 5.0 311.0 15.2 390.50 15.71
13 0.62976 0.0 8.14 0.0 0.538 5.949 61.8 4.7075 4.0 307.0 21.0 396.90 8.26
14 0.63796 0.0 8.14 0.0 0.538 6.096 84.5 4.4619 4.0 307.0 21.0 380.02 10.26
15 0.62739 0.0 8.14 0.0 0.538 5.834 56.5 4.4986 4.0 307.0 21.0 395.62 8.47
51
— 01.20
Feature Engineering.
(Ingeniería de atributos)
intentando modelar.
matemática, pero hay otras) y muchas veces se dice que es más arte que
52
— 01.20 Feature Engineering.
01/01/2020 215 0
02/01/2020 231 0
03/01/2020 292 1
04/01/2020 295 1
05/01/2020 246 0
06/01/2020 288 0
07/01/2020 253 0
08/01/2020 235 0
09/01/2020 261 0
10/01/2020 273 1
11/01/2020 278 1
12/01/2020 265 0
53
54
“
Si se requieren 200 años
para lograr la inteligencia
artificial, y finalmente hay
un libro de texto que explica
cómo se hace, la parte más
difícil de ese libro de texto
será en la que se explica por
qué la gente no lo pensó
hace 200 años.
John McCarthy.
Padre de la IA, fue de los primeros en acuñar el
término y creador del lenguaje LISP.
55
— 01.21
Generative adversarial
networks (GAN).
(Redes generativas adversarias)
de la otra red.
56
— 01.21 Generative adversarial networks (GAN).
Training set
Discriminator
Real
Fake image
Generator
57
— 01.22
GPT-2.
significa que genera texto al predecir palabra por palabra, qué palabra
previamente.
en el juego AI Dungeon.
58
— 01.22 GPT-2.
59
— 01.23
Gradient Descent.
(Descenso del gradiente)
algoritmo de optimización.
una actualización.
60
— 01.23 Gradient Descent.
GRADIENT DESCENT
COST
WINNER!
61
— 01.24
Hyperparameters.
(Hiperparámetros)
configuración cuyo valor no puede ser estimado por los datos y tiene que ser
son distintos para cada modelo. y en una red neuronal, el número de capas y
partir de los datos) para que el desempeño del modelo sea el mejor posible. Este
que genere mejor desempeño del modelo. Un ejemplo de parámetros son los
62
— 01.24 Hyperparameters.
Hyperparameters
n_iter
Model Parameters
lest_size
max_depth
m random_state
n_neighbors
yi =
Σ
j=0
xijwj alpha c η gamma
w0 w1 n_components
metric
w2 wm kernel
n_folds
penalty cv
63
— 01.25
Learning rate.
(Ratio o tasa de aprendizaje)
gradientes.
Se trata de un valor escalar positivo que durante cada iteración del proceso de
los datos en cuestión y, por lo tanto, con qué velocidad “aprende”. De este modo,
valores elevados pueden conducir a que el modelo converja en una solución sub-
óptima.
refinamiento de una red neuronal. Para ello, se suele graficar el error a lo largo de
64
— 01.25 Learning rate.
0.1
0.01
0.001
Loss
0.0001
0.010
0.008
0.006
0.004
0.002
0.000
Epochs
65
— 01.26
Las redes LSTM son un tipo de red neuronal recurrente ( Recurrent Neural
Network - RNN).
La idea detrás de las redes LSTM para lograr una memoria a un plazo mayor,
66
— 01.26 Long Short-Term Memory (LSTM).
Standard Neural
x y
Network
Standard Recurrent
x tanh y
Neural Network
x x
tanh
x
x x y LSTM Neural Network
σ σ tanh σ
redes de neuronas.
67
— 01.27
Loss.
(Pérdida)
de la calidad del ajuste del modelo utilizado, con respecto a los valores reales
68
— 01.27 Loss.
en problemas de regresión.
problemas de regresión.
margen de seguridad.
69
— 01.28
MLOps.
tiene que cumplir un modelo de Machine Learning para ser apto para producción:
aislados y contenedores.
70
— 01.28 MLOps.
Reproducible Trazable
MLOps.
Colaborativo Adaptativo
71
— 01.29
MNIST.
científicos usan MNIST como datos de ejemplo para plantear nuevos enfoques
y técnicas.
MNIST fue creado en 1998 por Yann LeCun, Corinna Cortes y Christopher J.C.
Burges. Yann LeCun es uno de los padres de la visión por computador y del
72
— 01.29 MNIST.
Yann LeCun.
73
— 01.30
Neural Networks.
(Redes neuronales)
Una red neuronal toma una entrada, la pasa a través de múltiples capas
74
— 01.30 Neural Networks.
Input
WH2
WH
1
H2 Hidden H1
WO 2
WO
3
WO 4
WO
1
O2 Output O1
75
76
“
Creo que la gente necesita
comprender que el
aprendizaje profundo está
haciendo que muchas cosas,
entre bastidores, sean mucho
mejores. El aprendizaje
profundo ya está funcionando
desde hace años en las
búsquedas de Google.
Geoffrey Hinton.
Investigador de IA en Google Brain y profesor de la
Universidad de Toronto.
77
— 01.31
NLP.
(Procesado de Lenguaje Natural)
de IA como Deep Learning. Entre ellas, podemos destacar las redes LSTM.
78
— 01.31 NLP.
79
— 01.32
Overfitting.
(Sobreajuste)
los patrones presentes en los datos. Entonces, decimos que el modelo “ha
modelo son:
80
— 01.32 Overfitting.
81
— 01.33
Perceptron.
(Perceptrón)
Se trataría de un sistema (ya sea hardware o software) que toma uno o más
y calcula un único valor de salida. La función suele ser no lineal, como ReLU,
sigmoide o tanh.
82
— 01.33 Perceptron.
Inputs Weights
x1 x1
x1 x1 Activation
Sum function
x1 x1
Σ
z
σ a
·
·
·
x1 x1
Frank Rosenblatt
83
— 01.34
Principal Component
Analysis (PCA).
(Análisis del Componente Principal)
encuentra un nuevo conjunto de ejes que están mejor alineados con los datos.
Al proyectar nuestros datos sobre los nuevos ejes, podemos escoger los
información.
84
— 01.34 Principal Component Analysis (PCA).
85
— 01.35
Random Forest.
(Bosques Aleatorios)
Mientras, los árboles de decisión pueden sufrir una varianza alta, los bosques
entrenamiento.
limita las características que se pueden usar para construir los árboles,
lo que obliga a los árboles a ser diferentes. Esto, a su vez, puede elevar el
rendimiento.
86
— 01.35 Random Forest.
Random Forest
···
Majority - Voting
Final-Class
87
— 01.36
Regression.
(Regresión)
Existen varios algoritmos para poder resolver este tipo de problemas. Entre ellos,
predicciones.
88
— 01.36 Regression.
15
10
-20 -10 10 20 30 40 50 60
89
— 01.37
Regression metrics.
(Métricas de Regresión)
90
— 01.37 Regression metrics.
(Y pred - Y ref ) 2
RMSE = Σ
N
^
SSRES Σi ( yi - yi)2
R2 = 1 - =1-
SSTOT Σi ( yi - yi)2
91
— 01.38
Reinforcement Learning.
(Aprendizaje por refuerzo)
El aprendizaje por refuerzo es uno de los tres tipos en los que se suelen
un estado.
acción.
92
— 01.38 Reinforcement Learning.
Agente
Acción
Recompensa Estado
Entorno
WIN
DOWN UP UP DOWN UP UP
LOSE
UP UP DOWN DOWN DOWN DOWN UP
LOSE
DOWN UP UP DOWN UP UP
WIN
93
— 01.39
El cálculo de la derivada es, de hecho, muy simple: para todos los valores
f ( x ) = x+ = max ( 0 , x ) ,
94
— 01.39 Rectified Linear Unit (ReLU).
2
f (3.45) = 3.45
1 3.45
0.5 0
f (6.9) = 1
0.2 f (-0.5) = 0
ReLU
10
0
-10 -5 0 5 10
95
— 01.40
Sigmoid function.
(Función sigmoidea)
1
f(t)=
1 + e-t
red neuronal.
96
— 01.40 Sigmoid function.
1
sig (t) =
1 + e-t sig (t)
1.0
0.8
0.6
0.4
0.2
-8 -6 -4 -2 2 4 6 8
97
98
“
La inteligencia artificial es la
nueva electricidad.
Andrew Ng.
Investigador de IA en la Universidad de Stanford y
unos de los fundadores de Google Brain.
99
— 01.41
Singularity.
(Singularidad)
inteligencia humana.
Algunos autores y figuras públicas, como Stephen Hawking y Elon Musk, han
100
— 01.41 Singularity.
Singularidad
IA
Inteligencia
Inteligencia humana
Tiempo
101
— 01.42
Softmax.
intervalo (0,1) de cada clase objetivo sobre todas las clases objetivo posibles.
Más tarde, las probabilidades calculadas serán útiles para determinar la clase
T
ex wj
P(y =j | x) =
Σ K
k=1
T
ex wx
102
— 01.42 Softmax.
X0
X1 net0 y0
Softmax
X2 net1 y1
· ·
· · ·
· · ·
·
net9 y9
X783
+1
bias b
0.5
-5 0 5 10 15
103
— 01.43
Supervised/unsupervised
learning.
(Aprendizaje supervisado/no supervisado)
produce una función inferida, que puede usarse para mapear nuevos ejemplos.
comunes de este tipo serían los algoritmos de clustering, aunque existen otros
de recompensa.
se aplican cuando solo una parte del conjunto de datos está etiquetado y es
104
— 01.43 Supervised/unsupervised learning.
Dimensionally
Classification.
reduction.
Unsupervised Supervised
learning. learning.
Machine
Learning.
Clustering. Regression.
Reinforcement
learning.
105
— 01.44
en las dos clases, sino que lo hace de una manera que maximiza el margen:
entrenamiento.
106
— 01.44 SVM (Support Vector Machine).
x2
x1
x2
O
pt
im
al
hy
per
pl
an
e
Maximum margin
x1
107
— 01.45
TensorFlow.
TensorFlow fue creada por el equipo de Google Brain y liberada en 2015 bajo
licencia Apache 2.0. Hoy en día es una de las herramientas más extendidas en
de neuronas.
también se puede usar para otro tipo de algoritmos que requieran tareas de
108
— 01.45 TensorFlow.
109
— 01.46
su comportamiento futuro.
Existen varios métodos para modelar una serie temporal con el fin de realizar
110
— 01.46 Time series analysis.
Values
Forecast
400
350
300
250
200
150
100
50
0
1 5 10 15 20 25 30 35
1200
1000
800
600
400
200
0
1966 1968 1970 1972
111
— 01.47
Training Set.
(Conjunto de Entrenamiento)
En Machine Learning, conjunto de entrenamiento son los datos con los que
112
— 01.47 Training Set.
Testing
Training Set
Set
Validation
Training Set
Set
113
— 01.48
Transfer Learning.
(Aprendizaje por Transferencia)
partida para otro modelo de un dominio diferente pero similar. Por ejemplo,
las primeras capas de modelos de redes neuronales, los cuales suelen ser
En este tipo de técnicas son en las que se basan los productos que ofrecen
114
— 01.48 Transfer Learning.
Model 1 Model 2
115
— 01.49
Underfitting.
(Subajuste)
los patrones presentes en los datos. Entonces, decimos que el modelo “ha
son:
patrones.
116
— 01.49 Underfitting.
117
— 01.50
Variance.
(Varianza)
del algoritmo.
Desde otro punto de vista, el algoritmo trata de aproximar una función que
concreto, por lo que cabe esperar que el modelo resultante tenga cierta
similar (caso ideal) y otros cuyo resultado sería distinto (varianza alta).
De este modo, los modelos con una varianza alta prestarán mucha atención
predicciones sobre observaciones que no haya visto antes (b) y, por lo tanto,
incurrirán en Overfitting.
118
— 01.50 Variance.
varianza alta.
119
120
“
La inteligencia artificial
está sin duda viviendo
una etapa dorada. Todos
interaccionamos con
sistemas de inteligencia
artificial en nuestro día a
día, todos los días. La AI
ya impregna y enriquece
nuestra vida cotidiana.
Nuria Oliver.
Investigadora en IA y una de las pioneras de
la IA en España.
121
122
— 02
Autores.
Alberto
Grande.
Innovation.
en sistemas productivos.
Carlos
Navarro.
Data Engineering.
en microservicios.
Francisco
Rodes.
Data Science.
Paradigma Digital.
José Manuel
Carral.
Data Engineering.
133
134
Think Big.
[email protected]
Technology with a purpose
to improve the world.