Calificación

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 17

APRENDIZAJE

SUPERVISADO:
REGRESIÓN
Material elaborado por Cristina Santa Cruz
González

MICROSOFT OFFICE
USER
e4you.org/es
ÍNDICE

1. Repaso algoritmos de Machine Learning _________________________________ 2


2. Introducción modelos de regresión ______________________________________ 3
3. Algoritmos _________________________________________________________ 3
4. Clasificadores como regresores ________________________________________ 12
5. Evaluación de modelos de regresión ____________________________________ 13
Bibliografía __________________________________________________________ 16

APRENDIZAJE SUPERVISADO: REGRESIÓN 1


1. REPASO ALGORITMOS DE MACHINE LEARNING
Dentro del Machine Learning se pueden distinguir tres apartados: el aprendizaje
supervisado (en el que se proporciona un objetivo claro que se desea encontrar), el no
supervisado (en el que el objetivo está por descubrir) y el de por refuerzo. A su vez,
dentro del aprendizaje supervisado se puede distinguir según sea la variable objetivo
entre modelos de regresión o de clasificación siendo un valor numérico continuo o uno
categórico la variable objetivo respectivamente. En este capítulo nos centraremos en
el primer tipo, es decir, en los modelos de regresión.

En primer lugar, debe quedar claro que cualquier modelo de Machine Learning se
fundamenta en extraer la información más útil y relevante de un conjunto de datos
para obtener un determinado objetivo. Si los datos que utilizamos para entrenar un
modelo no poseen la suficiente información para conseguir nuestro objetivo, es decir,
determinar correctamente la variable objetivo, da igual la complejidad que le añadas a
tu modelo que los resultados nunca van a ser buenos. Un ejemplo de esto sería
entrenar un modelo con un dataset que posee información sobre n distintas
características de tres tipos de plantas muy similares y queremos que nuestro modelo
nos determine cualquier tipo de planta. Esto no tiene sentido.

En este caso, y en cualquier otro caso de algoritmo de aprendizaje automático


(Machine Learning) supervisado, se pasa por dos etapas: entrenamiento del modelo y
análisis de validez del modelo. Para ello, se parte de un dataset el cual es necesario
dividirlo en tres subconjuntos: datos de entrenamiento, datos de validación y datos de
testeo. El porcentaje que se usa para dividir el dataset original depende del problema,
pero generalmente suele ser inicialmente dividir el dataset en dos: 80% datos que se
utilizan para entrenar el modelo, de los cuales el 70-80% se usa como datos de
entrenamiento (train data) y un 30-20% como datos de validación (validation data), y
el restante 20% como datos de testeo, los cuales no se manipulan en ningún momento
del entrenamiento del modelo. Estos últimos nos servirán para la fase de análisis de
validez del modelo. Todo lo anterior se resumen en el siguiente esquema:

APRENDIZAJE SUPERVISADO: REGRESIÓN 2


2. INTRODUCCIÓN MODELOS DE REGRESIÓN

En la primera parte del curso nos introducimos en los algoritmos de machine learning a
través de problemas de clasificación, donde a partir de un conjunto de atributos o
variables explicativas se conseguía determinar una variable objetivo (target)
correspondiente a un valor categórico (tratábamos de predecir una etiqueta discreta).
Ahora nos centraremos en los modelos de regresión los cuales siguen una estructura
semejante a los problemas anteriores de clasificación, pero siendo ahora su variable
objetivo un valor numérico continuo.

Dentro de la regresión podemos encontrar multitud de algoritmos. Están tanto los


tradicionales como la regresión lineal, con regularizaciones como la de Lasso, la de
Ridge o la denominada Elastic Net, así como regresiones no lineales. Por otro lado,
también existen algoritmos semejantes a los vistos en la primera parte del tema
donde, con unas modificaciones, pasan de predecir categorías discretas (clasificación)
a variables continuas (regresión).

Aunque hayamos dicho que la estructura entre algoritmos de machine learning de


aprendizaje supervisado (Clasificación y Regresión) siguen una estructura parecida, la
principal diferencia entre ambos son la variable objetivo. Esto supone que las métricas
de evaluación de dichos modelos tienen que ser distintas. Anteriormente, en la
clasificación, se usaban métricas basadas en contar aciertos y fallos en el etiquetado
final de la variable objetivo. Esto es inviable en modelos de regresión ya que al
predecir una variable continua es muy poco probable que se consiga predecir el
número observado en la vida real de forma exacta. Por este motivo, al final del
capítulo veremos algunas de las métricas más habituales que se usan para evaluar la
validez de los modelos creados, las cuales buscarán minimizar los errores entre lo
predicho y lo observado.

3. ALGORITMOS
a. Regresión Lineal

En estadística, la regresión lineal es una aproximación para modelizar la relación que


existe entre una variable escalar dependiente "𝑦" y una o más variables explicativas
independientes denotadas como "𝑥𝑖 ".

APRENDIZAJE SUPERVISADO: REGRESIÓN 3


Es decir, tenemos:
● Una o más variables explicativas: 𝑥1 , 𝑥2 , . . . , 𝑥𝑝 . Estas a veces se denominan
atributos o características (features).
● Una variable respuesta u objetivo: 𝑦. A veces denominado target.

y buscamos una relación lineal entre lo anterior de la forma

𝑦 = 𝛽𝑜 + 𝛽1 𝑥1 +. . . +𝛽𝑝 𝑥𝑝 + 𝜖 = 𝛽𝑜 + ∑𝑝𝑖=1 𝛽𝑖 𝑥𝑖 + 𝜖

donde 𝛽0 es el término independiente (ordenada en el origen o intercept) que


corresponde al valor esperado de la variable “𝑦” cuando todas las variables
explicativas “𝑥𝑖 ” son nulas, los 𝛽𝑖 con 1 ≤ 𝑖 ≤ 𝑝 marcan la relación lineal que existe
entre cada "𝑥𝑖 " con "𝑦" . Por último, se añade el término 𝜖 con el que se marca el error
de esta aproximación, el cual se tratará de minimizar buscando que sea lo más cercano
a cero posible.
De forma matricial lo anterior se puede expresar como

𝑦 = 𝑋𝑇 𝛽 + 𝜖

con

Por lo tanto, los valores 𝛽0 , 𝛽1 , . . . , 𝛽𝑝 son los parámetros del modelo, es decir, los
números que hay que ajustar para poder reproducir los datos experimentales
observados.

En la práctica, estos valores se desconocen, por lo que, lo que se busca es obtener


estimaciones de estos a partir de una muestra, es decir, se parte de un conjunto de
observaciones, n, de un fenómeno el cual está descrito por p características y a partir
de estas características se quiere encontrar una característica extra denominada
objetivo 𝑦.

APRENDIZAJE SUPERVISADO: REGRESIÓN 4


Datos de entrada

Objetivo

Variables explicativas de la variable objetivo:


Es decir, de esta forma se generaliza a p variables explicativas el problema típico de
regresión en dos dimensiones. Un ejemplo de regresión en base a una única variable
explicativa se representa en la siguiente gráfica.

En ella los puntos rojos representan los datos reales observados, la línea azul la
regresión lineal calculada y las líneas verticales rojas los errores encontrados
correspondientes a la distancia de cada punto observado respecto a lo predicho
mediante la recta de regresión calculada (línea azul).

Si ahora tenemos en cuenta dos variables explicativas en vez de calcular una recta de
regresión estaríamos calculando un plano. Un ejemplo de esto se muestra en el
siguiente gráfico de 3 dimensiones.

APRENDIZAJE SUPERVISADO: REGRESIÓN 5


Por lo tanto, el propósito de este tipo de algoritmos es descubrir qué variables
explicativas tienen más impacto en la variable respuesta y extraer relaciones (𝛽𝑖 ) entre
estas que permitan predecir la respuesta deseada, 𝑦, a partir de las condiciones que
conocemos de las variables explicativas 𝑥𝑖 . Es importante señalar que la magnitud de
los parámetros 𝛽𝑖 dependen de las unidades en las que se mida su variable explicativa
asociada, por lo que su magnitud no está asociada con la importancia de dicha
variable. Para poder hacer un estudio de la influencia sobre la variable objetivo sería
necesario estandarizar todas las variables explicativas antes de ajustar el modelo,
proceso que no siempre es necesario.

Como se ha mencionado anteriormente, para ajustar los parámetros de este modelo


se buscarán aquellos con los que se consiga minimizar los errores entre los valores
reales esperados y los conseguidos mediante dicho modelo, es decir, minimizar
mediante alguna norma el vector

𝜖 = [𝜖1 ⋅⋅⋅ 𝜖𝑛 ]𝑇

donde en cada predicción tenemos un error


𝑝

𝜖𝑗 = 𝑦𝑗 − 𝛽𝑜 − ∑ 𝛽𝑖 𝑥𝑗𝑖 𝑗 = 1, . . . , 𝑛 .
𝑖=1

La norma más habitual es la euclídea

𝜖 = ∑𝑝𝑖=1 𝜖𝑖2,

aunque existen otras como veremos en el apartado de métricas. El resolver este


problema de ajuste de parámetros usando la norma euclídea es lo que se denomina

APRENDIZAJE SUPERVISADO: REGRESIÓN 6


método de mínimos cuadrados ordinario (OLS), ya que lo que se busca es
minimizar la suma de los cuadrados de los errores del modelo.

En resumen, la función de coste a minimizar en este problema es


𝑛
1
𝑓𝑢𝑛𝑐𝑖ó𝑛 𝑑𝑒 𝑐𝑜𝑠𝑡𝑒(𝐿𝑖𝑛𝑒𝑎𝑙) = min ∑(𝑦𝑖 − 𝑦̂𝑖 )2
𝑛
𝑖=1

𝑝
|𝜖|2 ∑𝑖=1 𝜖𝑖2
= =
𝑛 𝑛
donde

𝑦̂𝑖 = 𝛽̂𝑜 + ∑𝑝𝑖=1 𝛽̂𝑖 𝑥𝑖

siendo 𝛽̂𝑖 las estimaciones de los parámetros del modelo conseguidas a partir de la
muestra de observaciones.

Este tipo de algoritmos posee distintos pros y contras.

Entre sus ventajas están:


● Tiene una sólida base matemática y estadística.
● Es computacionalmente sencillo, es decir, tiene un entrenamiento rápido y
poco costoso.
● Suele dar una idea rápida de las relaciones entre variables.
● Cuando tiene pocos atributos es robusto frente al sobreajuste (overfitting).

Entre sus desventajas están:


● Parte de que los datos cumplen varias hipótesis como independencia entre las
variables explícitas o la normalidad de los datos (los valores residuales 𝜖 , es
decir, los errores entre los valores reales y los predichos usando el modelo
lineal deben seguir una distribución normal de media cero y desviación típica
constante).
● Es muy sensible a valores atípicos.
● No puede ajustarse cuando el número de variables explicativas es superior al
número de observaciones.
● Cuando existen muchos atributos es proclive al sobreajuste (overfitting).
● Solo captura relaciones de naturaleza lineal por lo que no será adecuado en
muchos casos reales.
APRENDIZAJE SUPERVISADO: REGRESIÓN 7
b. Métodos de regularización

Para solventar algunos de los problemas del modelo de regresión lineal, en especial el
sobreajuste (overfitting), surgen distintos métodos de regularización y, por
consiguiente, los denominados modelos regularizados que veremos a continuación
(Ridge, Lasso o ElasticNet). Además, estos métodos también consiguen reducir la
varianza y atenuar el efecto de correlación entre las variables explicativas reduciendo
así la influencia en el modelo de los predictores (variables explicativas) menos
relevantes.

La regularización busca incorporar en el estudio del modelo la complejidad del mismo,


ya que cuanto mayor sea el número de parámetros más complejo será el modelo. Esto,
de forma general, se puede expresar matemáticamente modificando la función de
coste del modelo mediante la expresión

|𝜖|2
𝑓𝑢𝑛𝑐𝑖ó𝑛 𝑑𝑒 𝑐𝑜𝑠𝑡𝑒(𝑅𝑒𝑔𝑢𝑙𝑎𝑟𝑖𝑧𝑎𝑐𝑖ó𝑛) = + 𝜆 ⋅ 𝑓(𝛽𝑖 )
𝑛

siendo 𝑓 una función con la que se mide la complejidad del modelo. Esta función varía
en función del método de regularización que se aplique. Por otra parte, se incorpora el
hiperparámetro 𝜆 con el que se calibra el grado de regularización que se aplica.
Cuanto mayor es el valor de este hiperparámetro más importante es la reducción de la
complejidad del modelo.

Cuando 𝜆 = 0 estamos en el caso de modelo lineal simple sin regularización (OLS).

Un dato muy importante para tener en cuenta es que estos métodos de regularización
actúan sobre la magnitud de los parámetros del modelo por lo que todos estos
parámetros deben estar en la misma escala. Por esta razón es necesario estandarizar o
normalizar las variables explicativas antes de entrenar dichos modelos.

Ahora veremos algunos métodos de regularización: Ridge, Lasso y ElasticNet.

APRENDIZAJE SUPERVISADO: REGRESIÓN 8


i. Regularización de Ridge:

Se crea para eludir los efectos adversos del problema de colinealidad en un modelo
lineal estimado por mínimos cuadrados.

La función de coste que hay que minimizar en este método es

𝑝
|𝜖|2
𝑓𝑢𝑛𝑐𝑖ó𝑛 𝑑𝑒 𝑐𝑜𝑠𝑡𝑒(𝑅𝑖𝑑𝑔𝑒) = + 𝜆 ∑ 𝛽𝑖 2
𝑛
𝑖=1

donde 𝑓 es la norma euclídea (𝐿2). Por lo tanto, lo que penaliza esta regularización es
la suma al cuadrado de los parámetros del modelo 𝛽𝑖 .

El método Ridge tiende a contraer los parámetros de regresión, 𝛽𝑖 , al incluir el


término de penalización en la función objetivo: cuanto mayor sea λ, mayor
penalización y, por tanto, mayor contracción de los coeficientes pero sin que estos
lleguen a cero.

La principal ventaja de este método es la reducción de la varianza. El que un modelo


tenga una varianza elevada supone que pequeños cambios en los datos de
entrenamiento tengan un gran impacto en el resultado del modelo, efecto no
deseable. Además, este método también permite que, aunque el número de
observaciones con las que se entrena el modelo sea similar, e incluso menor, que el
número de variables explicativas (p>n), el error del mismo no sea muy grande.

Sin embargo, este método también posee una desventaja relevante. La penalización,
aunque fuerza a los coeficientes a tender a cero, estos nunca llegan a anularse (sólo se
anularían si 𝜆 = ∞ ). Esto supone que la interpretación del modelo no sea del todo
correcta pues, aunque con la regularización se consigue minimizar la influencia sobre
el modelo de las variables explicativas que están menos relacionadas con la variable
objetivo, estas variables nunca desaparecen con este método.

APRENDIZAJE SUPERVISADO: REGRESIÓN 9


ii. Regularización de Lasso:

La función de coste que hay que minimizar en este método es

𝑝
|𝜖|2
𝑓𝑢𝑛𝑐𝑖ó𝑛 𝑑𝑒 𝑐𝑜𝑠𝑡𝑒(𝐿𝑎𝑠𝑠𝑜) = + 𝜆 ∑ |𝛽𝑖 |
𝑛
𝑖=1

donde 𝑓 es la norma 1 (𝐿1) o también denominada norma de la suma. Por lo tanto, lo


que se penaliza en esta regularización es la suma del valor absoluto de los parámetros
del modelo 𝛽𝑖 .

Esta es otra técnica de regresión lineal regularizada, como Ridge, con una leve
diferencia en la penalización que trae consecuencias importantes. En especial, a partir
de un cierto valor del hiperparámetro de complejidad 𝜆 el estimador de Lasso produce
estimaciones nulas para algunos parámetros 𝛽𝑖 y no nulas para otros. De esta manera,
la regularización Lasso es capaz de realizar una especie de selección de variables en
forma continua, debido a la norma L1, permitiendo reducir la variabilidad de las
estimaciones, debido a la reducción de los coeficientes, al mismo tiempo que mejorar
la interpretabilidad de dichos modelos, debido precisamente a la eliminación de
algunos parámetros irrelevantes.

Por lo tanto, al igual que en la regularización de Ridge, en Lasso el grado de


penalización está controlado por el hiperparámetro 𝜆. Cuanto mayor es su valor más
predictores (variables explicativas) quedan excluidos.

iii. Regularización de Elastic net

La diferencia práctica más importante entre la regularización de Lasso y la de Ridge es


que la de Lasso llega a anular algunos coeficientes, seleccionando así un número
determinado de predictores, mientras que la de Ridge no excluye ningún predictor. Por
lo tanto, mientras que Ridge es capaz de reducir la influencia de todos los parámetros
a la vez y de forma proporcional, Lasso selecciona sólo algunos parámetros dándoles
todo el peso y excluyendo el resto. Dependiendo del problema es más recomendable
usar una u otra regularización. Para conseguir el equilibrio óptimo entre estas dos
opciones se puede emplear lo que se conoce como penalización ElasticNet, la cual no
es más que una combinación de ambas estrategias.

APRENDIZAJE SUPERVISADO: REGRESIÓN 10


Su función de coste es
𝑝 𝑝
|𝜖|2
𝑓𝑢𝑛𝑐𝑖ó𝑛 𝑑𝑒 𝑐𝑜𝑠𝑡𝑒(𝐸𝑙𝑎𝑠𝑡𝑖𝑐𝑁𝑒𝑡) = + 𝑟 𝛼 ∑ |𝛽𝑖 | + (1 − 𝑟)𝛼 ∑ 𝛽𝑖 2
𝑛
𝑖=1 𝑖=1

donde 𝑟 y 𝛼 son los hiperparámetros del modelo.

c. Regresión polinómica:

Otra de las debilidades de la regresión lineal es precisamente su carácter lineal. Existen


multitud de problemas de la vida real donde la relación entre dos variables no se
puede expresar de forma lineal. De este modo surgen los denominados métodos de
regresión polinómica donde se introducen términos de orden superior al grado uno
(correspondiente al caso lineal). La base matemática de este tipo de métodos es el
desarrollo de Taylor con el cual se pueden aproximar una gran cantidad de funciones
mediante polinomios.

Por lo tanto, en este tipo de regresión se usa la expresión

𝑦 = 𝑓(𝑥) = 𝛽0 + 𝛽1 𝑥1 +. . . +𝛽𝑝 𝑥𝑝 + 𝛽𝑝+1 𝑥12 +. . . +𝛽2𝑝𝑥𝑝2


+ 𝛽2𝑝+1 𝑥1 𝑥2 +. . . +𝛽2𝑝+𝑠 𝑥1𝑘 +. . .

siendo 𝑦 la variable objetivo, 𝑥𝑖 las variables explicativas y 𝛽𝑗 los distintos


parámetros del modelo.

Como se puede observar, a medida que el grado 𝑘 del polinomio que se usa para
aproximar es mayor y el número de variables explicativas 𝑝 crece, el número de
parámetros 𝛽𝑗 que debemos ajustar se hace inmensamente elevado, lo que supone
que sea muy costoso dicho cálculo. Por este motivo es aconsejable usar este método
cuando no hay muchas variables explicativas y limitar el grado del polinomio 𝑘 a un
número bajo (grado 2 o 3).

APRENDIZAJE SUPERVISADO: REGRESIÓN 11


d. Regresión No lineal

La regresión no lineal es un método utilizado para encontrar un modelo no lineal de la


relación entre una variable dependiente (la variable objetivo) y un conjunto de
variables independientes (las variables explicativas). A diferencia de la regresión lineal
tradicional, que se limita a estimar modelos lineales, la regresión no lineal puede
estimar modelos con relaciones arbitrarias entre las variables explicativas y la objetivo.
En verdad, este tipo de regresión también engloba la regresión polinómica, pero
debido a su importancia, se ha optado por mencionar en un nuevo grupo. Un ejemplo
de este tipo de regresión es

𝑦 = 𝑙𝑜𝑔 (𝑎𝑥 2 + 𝑏) .

El principal problema de estos modelos es que el ajuste de sus parámetros es mucho


más costoso utilizando algoritmos de estimación iterativa.
Es de destacar que, en muchos de estos casos, mediante la aplicación de una
transformación de variables adecuada, se puede reducir el problema a una regresión
lineal. En el ejemplo anterior si se aplica el siguiente cambio de variables: 𝑦1 = 𝑒 𝑦 ,
𝑥1 = 𝑥 2 se obtiene:
𝑦1 = 𝑎 𝑥1 + 𝑏

y, por lo tanto, hemos encontrado una expresión lineal que se podría resolver
rápidamente con alguno de los métodos vistos anteriormente.

El inconveniente de este proceso de cambio de variables es que las métricas con las
que se miden los errores entre lo real y lo conseguido a través del modelo cambian,
entorpeciendo la optimización del modelo.

4. CLASIFICADORES COMO REGRESORES


Todos los algoritmos vistos en el apartado anterior proceden del habitual problema de
regresión visto desde el punto de vista de una formulación matemática pura. Sin
embargo, existen otras metodologías que se pueden aplicar para resolver estos tipos
de problemas. Ahora veremos como muchos de los algoritmos vistos en la primera
parte de este tema, modelos de clasificación, con algunas modificaciones se pueden
adaptar para que también sirvan para resolver estos tipos de problemas.

APRENDIZAJE SUPERVISADO: REGRESIÓN 12


En primer lugar, veremos cuales son las modificaciones que hay que implementar en
los árboles de decisión para que funcionen como regresores. Como vimos, este tipo de
algoritmos se basan la creación de distintas ramas y nodos haciendo que en cada nodo
hoja se predijera una etiqueta determinada. Ahora lo que se busca es que cada nodo
hoja prediga un valor numérico concreto. Esto se consigue sustituyendo la noción de
entropía, que se utilizaba para la clasificación, con alguna noción cuantitativa del error
(métricas que veremos en el siguiente apartado) con las que se consigue reducir la
varianza de la distribución de los errores en cada nodo. De esta forma, estos
algoritmos pasan a denominarse árboles de regresión.

Extendiendo la idea vista con los árboles de decisión a los bosques aleatorios de
clasificación (Random Forest Classifier) se construyen los bosques aleatorios de
regresión (Random Forest Regressor) y lo mismo ocurre con lo BRT (Boosted
Regression Tree).

5. EVALUACIÓN DE MODELOS DE REGRESIÓN


I) Métricas

Existen distintas métricas que nos permiten medir la validez de los modelos. Estas
métricas son distintas según sea el modelo de regresión o de clasificación. En nuestro
caso, aprendizaje supervisado de regresión, existen las siguientes métricas, las cuales
se deben aplicar a la hora de comparar los resultados encontrados usando el modelo
entrenado para predecir con los datos de testeo.

1. MSE (Mean Square Error):


El error cuadrático medio es el promedio de los cuadrados de los errores.

∑𝒏𝒊=𝟏 𝝐𝒊 𝟐
𝑴𝑺𝑬 =
𝒏
donde 𝜖 = 𝑦𝑝𝑟𝑒𝑑𝑖𝑐ℎ𝑜 − 𝑦𝑟𝑒𝑎𝑙 .

Se usa el cuadrado para que en la métrica tenga en cuenta de la misma forma las
cantidades sobreestimadas como las infraestimadas de la variable objetivo. Tiene la
ventaja de que su derivada es continua y por lo tanto suele corresponder con la
magnitud que los algoritmos minimizan. Las unidades de esta métrica están al
cuadrado de la magnitud predicha, por ejemplo, si predecimos una longitud en metros,
con esta métrica se obtendrán metros cuadrados, con lo que es difícil de interpretar su
valor.
APRENDIZAJE SUPERVISADO: REGRESIÓN 13
2. RMSE (Root Mean Square Error):

La raíz del error cuadrático medio: es la raíz cuadrada de la métrica anterior (MSE).

∑𝒏𝒊=𝟏 𝝐𝒊 𝟐
𝑹𝑴𝑺𝑬 = √
𝒏

con 𝜖 = 𝑦𝑝𝑟𝑒𝑑𝑖𝑐ℎ𝑜 − 𝑦𝑟𝑒𝑎𝑙 .

Gracias a esta raíz se consigue esquivar el inconveniente de la métrica anterior, es


decir, conseguir tener unas unidades consistentes con las de la magnitud a predecir.
De esta forma se consigue una métrica con resultados fácilmente interpretables.

3. MAE (Mean Absolute Error):

El error absoluto medio: es la media de los errores absolutos encontrados.

∑𝒏𝒊=𝟏 | 𝜖 |𝑖
𝑀𝐴𝐸 =
𝑛
Esta métrica posee también unidades consistentes con la magnitud a predecir. Sin
embargo, como el valor absoluto es una función discontinua es menos útil a la hora de
realizar el proceso de minimización.

II) Visualizaciones
Otra forma de analizar los resultados es de forma visual a través de un histograma de
los errores cometidos utilizando el modelo. Lo ideal es que este diagrama esté
centrado en el cero y cuanto más estrecho mejor, pues esto significa que los errores
cometidos no son muy grandes.

APRENDIZAJE SUPERVISADO: REGRESIÓN 14


Por último, está el diagrama predicho-observado gracias al cual se comparan
fácilmente los resultados predichos utilizando el modelo de regresión elegido frente a
los resultados reales que han sido observados. Utilizando este gráfico podemos ver la
dispersión de los resultados siendo la gráfica óptima, y, por lo tanto, el resultado
óptimo, la línea recta 𝑦 = 𝑥 , es decir, las gráficas perfectas son aquellas que tienen las
dos coordenadas iguales, y por lo tanto que se encuentran en la diagonal del primer
cuadrante de coordenadas. Por consiguiente, un buen modelo será aquel que posea
poca dispersión en torno a la diagonal. Cuánto más concentrado esté, mejor.

APRENDIZAJE SUPERVISADO: REGRESIÓN 15


BIBLIOGRAFÍA

Para más información sobre el tema se anima al lector a leer la siguiente bibliografía
donde se incluyen explicaciones de como implementar algunos de los modelos de
regresión vistos anteriormente en el lenguaje de programación R.
● Russell, S. J., Norvig, P., & Davis, E. (2010). Artificial intelligence: a modern
approach. 3rd ed. Upper Saddle River, NJ: Prentice Hall.
● Fernando Tusell, Análisis de Regresión. Introducción Teórica y Práctica basada
en R, Bilbao, octubre 2011.
● Carrasco Carrasco, María (2016). Técnicas de Regularización en Regresión:
Implementación y Aplicaciones. Universidad de Sevilla, España.

APRENDIZAJE SUPERVISADO: REGRESIÓN 16

También podría gustarte