Calificación
Calificación
Calificación
SUPERVISADO:
REGRESIÓN
Material elaborado por Cristina Santa Cruz
González
MICROSOFT OFFICE
USER
e4you.org/es
ÍNDICE
En primer lugar, debe quedar claro que cualquier modelo de Machine Learning se
fundamenta en extraer la información más útil y relevante de un conjunto de datos
para obtener un determinado objetivo. Si los datos que utilizamos para entrenar un
modelo no poseen la suficiente información para conseguir nuestro objetivo, es decir,
determinar correctamente la variable objetivo, da igual la complejidad que le añadas a
tu modelo que los resultados nunca van a ser buenos. Un ejemplo de esto sería
entrenar un modelo con un dataset que posee información sobre n distintas
características de tres tipos de plantas muy similares y queremos que nuestro modelo
nos determine cualquier tipo de planta. Esto no tiene sentido.
En la primera parte del curso nos introducimos en los algoritmos de machine learning a
través de problemas de clasificación, donde a partir de un conjunto de atributos o
variables explicativas se conseguía determinar una variable objetivo (target)
correspondiente a un valor categórico (tratábamos de predecir una etiqueta discreta).
Ahora nos centraremos en los modelos de regresión los cuales siguen una estructura
semejante a los problemas anteriores de clasificación, pero siendo ahora su variable
objetivo un valor numérico continuo.
3. ALGORITMOS
a. Regresión Lineal
𝑦 = 𝛽𝑜 + 𝛽1 𝑥1 +. . . +𝛽𝑝 𝑥𝑝 + 𝜖 = 𝛽𝑜 + ∑𝑝𝑖=1 𝛽𝑖 𝑥𝑖 + 𝜖
𝑦 = 𝑋𝑇 𝛽 + 𝜖
con
Por lo tanto, los valores 𝛽0 , 𝛽1 , . . . , 𝛽𝑝 son los parámetros del modelo, es decir, los
números que hay que ajustar para poder reproducir los datos experimentales
observados.
Objetivo
En ella los puntos rojos representan los datos reales observados, la línea azul la
regresión lineal calculada y las líneas verticales rojas los errores encontrados
correspondientes a la distancia de cada punto observado respecto a lo predicho
mediante la recta de regresión calculada (línea azul).
Si ahora tenemos en cuenta dos variables explicativas en vez de calcular una recta de
regresión estaríamos calculando un plano. Un ejemplo de esto se muestra en el
siguiente gráfico de 3 dimensiones.
𝜖 = [𝜖1 ⋅⋅⋅ 𝜖𝑛 ]𝑇
𝜖𝑗 = 𝑦𝑗 − 𝛽𝑜 − ∑ 𝛽𝑖 𝑥𝑗𝑖 𝑗 = 1, . . . , 𝑛 .
𝑖=1
𝜖 = ∑𝑝𝑖=1 𝜖𝑖2,
𝑝
|𝜖|2 ∑𝑖=1 𝜖𝑖2
= =
𝑛 𝑛
donde
siendo 𝛽̂𝑖 las estimaciones de los parámetros del modelo conseguidas a partir de la
muestra de observaciones.
Para solventar algunos de los problemas del modelo de regresión lineal, en especial el
sobreajuste (overfitting), surgen distintos métodos de regularización y, por
consiguiente, los denominados modelos regularizados que veremos a continuación
(Ridge, Lasso o ElasticNet). Además, estos métodos también consiguen reducir la
varianza y atenuar el efecto de correlación entre las variables explicativas reduciendo
así la influencia en el modelo de los predictores (variables explicativas) menos
relevantes.
|𝜖|2
𝑓𝑢𝑛𝑐𝑖ó𝑛 𝑑𝑒 𝑐𝑜𝑠𝑡𝑒(𝑅𝑒𝑔𝑢𝑙𝑎𝑟𝑖𝑧𝑎𝑐𝑖ó𝑛) = + 𝜆 ⋅ 𝑓(𝛽𝑖 )
𝑛
siendo 𝑓 una función con la que se mide la complejidad del modelo. Esta función varía
en función del método de regularización que se aplique. Por otra parte, se incorpora el
hiperparámetro 𝜆 con el que se calibra el grado de regularización que se aplica.
Cuanto mayor es el valor de este hiperparámetro más importante es la reducción de la
complejidad del modelo.
Un dato muy importante para tener en cuenta es que estos métodos de regularización
actúan sobre la magnitud de los parámetros del modelo por lo que todos estos
parámetros deben estar en la misma escala. Por esta razón es necesario estandarizar o
normalizar las variables explicativas antes de entrenar dichos modelos.
Se crea para eludir los efectos adversos del problema de colinealidad en un modelo
lineal estimado por mínimos cuadrados.
𝑝
|𝜖|2
𝑓𝑢𝑛𝑐𝑖ó𝑛 𝑑𝑒 𝑐𝑜𝑠𝑡𝑒(𝑅𝑖𝑑𝑔𝑒) = + 𝜆 ∑ 𝛽𝑖 2
𝑛
𝑖=1
donde 𝑓 es la norma euclídea (𝐿2). Por lo tanto, lo que penaliza esta regularización es
la suma al cuadrado de los parámetros del modelo 𝛽𝑖 .
Sin embargo, este método también posee una desventaja relevante. La penalización,
aunque fuerza a los coeficientes a tender a cero, estos nunca llegan a anularse (sólo se
anularían si 𝜆 = ∞ ). Esto supone que la interpretación del modelo no sea del todo
correcta pues, aunque con la regularización se consigue minimizar la influencia sobre
el modelo de las variables explicativas que están menos relacionadas con la variable
objetivo, estas variables nunca desaparecen con este método.
𝑝
|𝜖|2
𝑓𝑢𝑛𝑐𝑖ó𝑛 𝑑𝑒 𝑐𝑜𝑠𝑡𝑒(𝐿𝑎𝑠𝑠𝑜) = + 𝜆 ∑ |𝛽𝑖 |
𝑛
𝑖=1
Esta es otra técnica de regresión lineal regularizada, como Ridge, con una leve
diferencia en la penalización que trae consecuencias importantes. En especial, a partir
de un cierto valor del hiperparámetro de complejidad 𝜆 el estimador de Lasso produce
estimaciones nulas para algunos parámetros 𝛽𝑖 y no nulas para otros. De esta manera,
la regularización Lasso es capaz de realizar una especie de selección de variables en
forma continua, debido a la norma L1, permitiendo reducir la variabilidad de las
estimaciones, debido a la reducción de los coeficientes, al mismo tiempo que mejorar
la interpretabilidad de dichos modelos, debido precisamente a la eliminación de
algunos parámetros irrelevantes.
c. Regresión polinómica:
Como se puede observar, a medida que el grado 𝑘 del polinomio que se usa para
aproximar es mayor y el número de variables explicativas 𝑝 crece, el número de
parámetros 𝛽𝑗 que debemos ajustar se hace inmensamente elevado, lo que supone
que sea muy costoso dicho cálculo. Por este motivo es aconsejable usar este método
cuando no hay muchas variables explicativas y limitar el grado del polinomio 𝑘 a un
número bajo (grado 2 o 3).
𝑦 = 𝑙𝑜𝑔 (𝑎𝑥 2 + 𝑏) .
y, por lo tanto, hemos encontrado una expresión lineal que se podría resolver
rápidamente con alguno de los métodos vistos anteriormente.
El inconveniente de este proceso de cambio de variables es que las métricas con las
que se miden los errores entre lo real y lo conseguido a través del modelo cambian,
entorpeciendo la optimización del modelo.
Extendiendo la idea vista con los árboles de decisión a los bosques aleatorios de
clasificación (Random Forest Classifier) se construyen los bosques aleatorios de
regresión (Random Forest Regressor) y lo mismo ocurre con lo BRT (Boosted
Regression Tree).
Existen distintas métricas que nos permiten medir la validez de los modelos. Estas
métricas son distintas según sea el modelo de regresión o de clasificación. En nuestro
caso, aprendizaje supervisado de regresión, existen las siguientes métricas, las cuales
se deben aplicar a la hora de comparar los resultados encontrados usando el modelo
entrenado para predecir con los datos de testeo.
∑𝒏𝒊=𝟏 𝝐𝒊 𝟐
𝑴𝑺𝑬 =
𝒏
donde 𝜖 = 𝑦𝑝𝑟𝑒𝑑𝑖𝑐ℎ𝑜 − 𝑦𝑟𝑒𝑎𝑙 .
Se usa el cuadrado para que en la métrica tenga en cuenta de la misma forma las
cantidades sobreestimadas como las infraestimadas de la variable objetivo. Tiene la
ventaja de que su derivada es continua y por lo tanto suele corresponder con la
magnitud que los algoritmos minimizan. Las unidades de esta métrica están al
cuadrado de la magnitud predicha, por ejemplo, si predecimos una longitud en metros,
con esta métrica se obtendrán metros cuadrados, con lo que es difícil de interpretar su
valor.
APRENDIZAJE SUPERVISADO: REGRESIÓN 13
2. RMSE (Root Mean Square Error):
La raíz del error cuadrático medio: es la raíz cuadrada de la métrica anterior (MSE).
∑𝒏𝒊=𝟏 𝝐𝒊 𝟐
𝑹𝑴𝑺𝑬 = √
𝒏
∑𝒏𝒊=𝟏 | 𝜖 |𝑖
𝑀𝐴𝐸 =
𝑛
Esta métrica posee también unidades consistentes con la magnitud a predecir. Sin
embargo, como el valor absoluto es una función discontinua es menos útil a la hora de
realizar el proceso de minimización.
II) Visualizaciones
Otra forma de analizar los resultados es de forma visual a través de un histograma de
los errores cometidos utilizando el modelo. Lo ideal es que este diagrama esté
centrado en el cero y cuanto más estrecho mejor, pues esto significa que los errores
cometidos no son muy grandes.
Para más información sobre el tema se anima al lector a leer la siguiente bibliografía
donde se incluyen explicaciones de como implementar algunos de los modelos de
regresión vistos anteriormente en el lenguaje de programación R.
● Russell, S. J., Norvig, P., & Davis, E. (2010). Artificial intelligence: a modern
approach. 3rd ed. Upper Saddle River, NJ: Prentice Hall.
● Fernando Tusell, Análisis de Regresión. Introducción Teórica y Práctica basada
en R, Bilbao, octubre 2011.
● Carrasco Carrasco, María (2016). Técnicas de Regularización en Regresión:
Implementación y Aplicaciones. Universidad de Sevilla, España.