chap5_regularisatiion

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 15

RÉGULARISATION

Introduction
• Lorsque les variables sont fortement corrélées ou que leur nombre dépasse
celui des observations, la régression linéaire devient mal définie, ce qui
peut entraîner du surapprentissage.
• La régularisation consiste à minimiser simultanément l'erreur
d'entraînement et la complexité du modèle en ajoutant un terme de
pénalité aux coefficients du modèle.
• La régularisation consiste à apprendre un modèle en minimisant une
fonction de coût :
1
𝑓=arg min σ𝑛𝑖=1 𝐿(h(𝑥Ԧ 𝑖),𝑦𝑖)+𝜆Ω(h)
h∈𝐹 𝑛
• Ω(ℎ) est un terme de contrainte, qui pénalise des solutions complexes ou sur-
ajustées. Ce terme contrôle la taille ou la complexité des coefficients.
• 𝜆 est un hyperparamètre qui contrôle l'importance du terme de régularisation par
rapport à l'erreur d'entraînement.
La régularisation Ridge (L2)
• La régularisation Ridge est l'une des formes les plus courantes de
régularisation. Elle est utilisée pour résoudre des problèmes où il y a de la
multicolinéarité ou lorsque le modèle risque de surajuster les données.
• La régularisation Ridge fonctionne en ajoutant une pénalité basée sur la
norme ℓ2 des coefficients 𝛽. Cette norme est simplement la somme des
carrés des coefficients :
𝑝
Ωridge(𝛽)= 𝛽 2 = σ𝑗=0 𝛽𝑗2
2

• La régression Ridge cherche à minimiser la somme des erreurs au carré


(comme dans une régression linéaire classique), mais avec un terme de
pénalité qui impose une contrainte sur la taille des coefficients 𝛽:
arg min +1 ∥𝑦−𝑋𝛽∥
Ԧ 2 2
2 +𝜆∥𝛽∥2
𝛽∈𝑅𝑝
La régularisation Ridge (L2)
• Pour résoudre ce problème d'optimisation, on calcule le gradient de
cette fonction par rapport à 𝛽, et on annule ce gradient pour trouver
les coefficients 𝛽∗ qui minimisent la fonction de coût.
β∗=(λIp​ +XTX)−1XTy​
• Cette solution montre que, contrairement à une régression linéaire
classique où la solution est simplement (𝑋𝑇𝑋)−1𝑋𝑇𝑦, Ԧ la régularisation
Ridge ajoute le terme 𝜆𝐼𝑝, qui rend la matrice inversible même si 𝑋𝑇𝑋
ne l'est pas, ce qui permet d'obtenir une solution unique.
La régularisation Ridge (L2)
• Dans une régression linéaire non régularisée, lorsque vous multipliez
une variable par une constante 𝛼, le coefficient 𝛽𝑗 correspondant est
divisé par cette constante 𝛼. Cela compense le changement d'échelle, et
le modèle reste inchangé en termes de prédiction.
• Supposons que vous ayez une régression linéaire qui prédit le prix d'une maison
en fonction de la taille (en mètres carrés). L’équation de régression:
Prix=𝛽0+𝛽1×Taille
• imaginons que vous décidez de changer l'échelle de la variable taille en la
mesurant en centimètres carrés. Cela revient à multiplier la variable "taille" par
une constante 𝛼=100. Dans ce cas, pour que le modèle reste cohérent, le
𝛽1
nouveau coefficient 𝛽1′ devra être ajusté en fonction de cette constante α: 𝛽1′=
𝛼
La régularisation Ridge (L2)
• Avec la régularisation Ridge, la situation est différente, car le terme de
régularisation 𝜆∥𝛽∥22 dépend des coefficients et donc de l'échelle des
variables. Si vous multipliez une variable 𝑥𝑗​ par une constante 𝛼, cela affecte
non seulement la partie de l'équation liée à l'erreur de prédiction, mais aussi
la partie pénalisée par la régularisation. Cela crée un effet plus complexe
parce que la régularisation 𝜆∥𝛽∥22 ​ pénalise les coefficients grands.
• Prenons le même exemple de la régression sur la taille d'une maison, mais cette fois-ci,
appliquons la régularisation Ridge : 𝐽(𝛽)=∥𝑦−𝑋𝛽∥
Ԧ 2 2
2 +𝜆∥𝛽∥2
• Si vous multipliez la variable taille par une constante 𝛼, alors, comme dans la régression
non régularisée, le coefficient 𝛽1​ sera ajusté et divisé par 𝛼.
• Mais la pénalité sur 𝛽1 , qui dépend de 𝛽12​ , sera également modifiée. Cela signifie que
l'effet de la régularisation sur la variable sera influencé par le changement d'échelle. Si 𝛼
est très grand, la régularisation Ridge pénalisera différemment 𝛽1​ par rapport aux autres
coefficients.
• Cela rend l'effet de la régularisation plus complexe, car elle ne s'ajuste pas de
manière aussi simple qu'une régression sans régularisation.
La régularisation Ridge (L2)
standardisation
• Pour éviter ces ajustements complexes dus aux différences d'échelle, on recommande de
standardiser les variables avant d'appliquer la régularisation Ridge.
• La standardisation consiste à transformer chaque variable pour qu'elle ait une moyenne de 0 et
un écart-type de 1.
xj − xഥj
xj′​ =
ecart−type(xj)
• xഥj est la moyenne de la variable 𝑥𝑗 , et ecart-type(𝑥𝑗) est une mesure de la dispersion des valeurs autour de la
moyenne.
• Cela permet de mettre toutes les variables sur une même échelle, de sorte que la régularisation
pénalise toutes les variables de manière équitable, sans que les variables à grande échelle
dominent la pénalisation.
• Il est souligné que la standardisation doit être faite uniquement sur les données d'entraînement,
et non sur les données de test ou de validation, pour éviter le surapprentissage.
• Aussi, La régularisation Ridge pénalise les grands coefficients 𝛽 et essaie de réduire l'importance
des coefficients qui varient trop. Lorsqu'il y a des variables fortement corrélées, la régularisation
Ridge tend à les "traiter ensemble" et à leur donner des coefficients similaires.
La régularisation Ridge (L2)
chemin de régularisation
• Le chemin de régularisation montre comment les coefficients
de régression 𝛽 évoluent lorsque le paramètre de
régularisation 𝜆 change.
• 𝜆 est le paramètre qui contrôle la force de la régularisation
dans la régression Ridge. Plus 𝜆 est grand, plus la
régularisation est forte, ce qui tend à réduire la taille des
coefficients.
• Lorsque 𝜆 est petit, les coefficients prennent des valeurs proches
de celles obtenues sans régularisation. Cela signifie que chaque
variable a un coefficient qui peut être assez grand, car il n'y a pas
de forte pénalisation.
• À mesure que 𝜆 augmente, les coefficients de régression
diminuent progressivement, car la régularisation Ridge commence
à "forcer" les coefficients à devenir plus petits.
• Lorsque 𝜆 devient très grand, la régularisation devient si forte que
tous les coefficients tendent vers zéro.
La régularisation Ridge (L2)
interprétation géométrique de la régularisation Ridge
• La régression Ridge cherche à minimiser la fonction de coût
∥𝑦−𝑋𝛽∥
Ԧ 2 2
2 +𝜆∥𝛽∥2
• ce problème d'optimisation peut être réécrit comme un problème
d'optimisation sous contrainte sur la taille des coefficients 𝛽.
• Minimiser ∥𝑦−𝑋𝛽∥
Ԧ 2 2
2 tel que ∥𝛽∥2 ​ ≤𝑡
• Cela signifie que la solution 𝛽 doit rester à l'intérieur d'une "balle" de rayon 𝑡
autour de zéro dans l'espace des coefficients.
• La figure illustre cette idée en deux dimensions avec deux coefficients 𝛽1
et 𝛽2 :
• L'ellipse représente les contours de l'erreur de prédiction ∥𝑦−𝑋𝛽∥
Ԧ 2
2 ​.
• Le cercle (ou la boule) de rayon 𝑡 représente la contrainte de régularisation Ridge,
c'est-à-dire la zone dans laquelle les coefficients 𝛽1 et 𝛽2 doivent rester pour
respecter la contrainte ∥𝛽∥22​ ≤𝑡.
• Solution sans contrainte : Si on résolvait la régression sans régularisation, la
solution se trouverait quelque part sur l'une des ellipses de contour, là où l'erreur
de prédiction est minimale.
• Solution avec contrainte (Ridge) : En régression Ridge, la solution doit être
contenue dans la "balle" de régularisation, c'est-à-dire que ∥𝛽12+𝛽22∥≤𝑡2 . Cela
force la solution à se trouver sur le bord de cette balle, là où l'ellipse de la solution
non régularisée et la balle se tangent.
La régularisation Lasso
• Dans certains cas, toutes les variables ne sont pas nécessaires pour
expliquer la variable cible, et certaines peuvent être écartées.
• Le Lasso pousse certains coefficients 𝛽𝑗 à devenir exactement égaux à zéro,
ce qui élimine des variables du modèle. Cela donne un modèle "sparse"
(parcimonieux) dans lequel seules les variables significatives sont
conservées.
• Le Lasso utilise la norme ℓ1 des coefficients 𝛽 comme pénalité.
𝑝 La fonction
de pénalité pour le Lasso est la suivante : ΩLasso(𝛽)=∥𝛽∥1=σ𝑗=0 ∣𝛽𝑗∣
• Le Lasso est particulièrement utile lorsque vous pensez que certaines
variables ne sont pas nécessaires ou qu'il existe une forte corrélation entre
les variables explicatives.
• En mettant certains coefficients à zéro, le Lasso produit un modèle plus simple et
potentiellement plus facile à interpréter.
La régularisation Lasso
• Le Lasso est un modèle de régression où les coefficients 𝛽 sont ajustés en minimisant à la
fois :
• L'erreur de prédiction (comme dans une régression classique),
• Une pénalité sur la somme des valeurs absolues des coefficients (la norme ℓ1).
• L'expression mathématique du Lasso : arg min ∥𝑦−𝑋𝛽∥
Ԧ 2
2 +𝜆∥𝛽∥1
𝛽
• Le terme Lasso signifie Least Absolute Shrinkage and Selection Operator. Cela décrit les
deux objectifs principaux de la méthode :
• Shrinkage (réduction) : Le Lasso réduit les coefficients des variables en appliquant une pénalité sur
leur somme des valeurs absolues.
• Selection (sélection) : En réduisant certains coefficients à zéro, le Lasso effectue une sélection des
variables, excluant celles qui ont peu d'impact sur la prédiction.
• Le Lasso utilise la norme ℓ1​ , qui comporte des valeurs absolues. Celles-ci ne sont pas
différentiables en zéro, ce qui empêche d'appliquer les méthodes classiques de dérivée
comme dans Ridge.
• Il n'y a pas de solution explicite pour le Lasso comme pour Ridge. On doit utiliser des algorithmes
d'optimisation pour résoudre le problème du Lasso.
• Ces algorithmes, comme la descente par coordonnées, permettent d'ajuster les coefficients de
manière itérative et de trouver une solution optimale même si elle n'est pas unique.
La régularisation Lasso
chemin de régularisation
• Reprenons l’exemple précèdent:
• Lorsque 𝜆 est très petit, les coefficients prennent des valeurs proches
de celles d'une régression non régularisée (pas de pénalisation).
• À mesure que 𝜆 augmente, les coefficients diminuent, car le Lasso
commence à pénaliser les coefficients plus grands.
• À un certain point, certains coefficients deviennent exactement égaux à
zéro. Cela signifie que les variables correspondantes sont éliminées du
modèle.
• Finalement, pour des valeurs élevées de 𝜆, tous les coefficients
deviennent nuls, et le modèle n'utilise plus aucune variable explicative
pour prédire.
• Si plusieurs variables sont fortement corrélées, elles peuvent
contribuer de manière similaire à la prédiction. Le Lasso a
tendance à choisir l'une des variables corrélées et à attribuer un
coefficient nul aux autres.
• La régularisation peut choisir l'une ou l'autre des variables corrélées, et
cela peut changer d'une fois à l'autre lors de l'optimisation.
• Ce comportement rend le Lasso parfois instable, car si vous répétez
l'entraînement du modèle, vous pourriez obtenir une solution
différente en fonction des variables corrélées sélectionnées.
La régularisation Lasso
interprétation géométrique de la régularisation Lasso
• Le Lasso peut être reformulé comme un problème
d'optimisation sous contrainte, où l'on cherche à minimiser
l'erreur de prédiction tout en imposant une contrainte sur la
somme des valeurs absolues des coefficients 𝛽:
arg min ∥𝑦−𝑋𝛽∥
Ԧ 2
2 +𝜆∥𝛽∥1
𝛽
• La figure illustre cette idée en deux dimensions avec deux
coefficients 𝛽1​ et 𝛽2 :
• Les ellipses représentent les niveaux d'erreur de la fonction
quadratique ∥𝑦−𝑋𝛽∥Ԧ 2
2 ​ . Si nous n'imposions pas de contrainte sur les
coefficients, la solution se trouverait au centre des ellipses, là où
l'erreur quadratique est minimale.
• Le losange représente la contrainte imposée par le Lasso, qui est une
balle ℓ1​ , c'est-à-dire la région définie par ∣𝛽1∣+∣𝛽2∣≤𝑡. Cela impose
une limite sur la taille des coefficients. Dans le cas du Lasso, la
solution doit se trouver à l'intérieur du losange défini par la norme ℓ1.
• La solution optimale sera le point où une ellipse (une ligne de niveau
de l'erreur quadratique) tangente au losange.
La régularisation Elastic Net
• La régularisation ℓ1(Lasso) est utile pour produire des modèles
parcimonieux. Cependant, le Lasso peut rencontrer des difficultés lorsque :
• Les variables sont corrélées. Elle sélectionne une seule parmi les variables corrélées
et attribue des coefficients nuls aux autres. Cela peut être un problème si plusieurs
de ces variables sont importantes pour la prédiction.
• D'un autre côté, la régularisation ℓ2(Ridge) est plus efficace pour répartir
les poids entre les variables corrélées, ce qui aide à stabiliser le modèle,
mais Ridge ne met pas les coefficients à zéro, donc ne fait pas de sélection
de variables.
• Elastic Net combine les avantages des deux approches :
• Il sélectionne les variables importantes (comme le Lasso).
• Il répartit les coefficients de manière plus équilibrée entre les variables corrélées
(comme Ridge).
La régularisation Elastic Net
• La régularisation Elastic Net combine les pénalités de ℓ1 et ℓ2 avec un paramètre de
pondération 𝛼 :Ωenet(𝛽)=(1−𝛼)∥𝛽∥1+𝛼∥𝛽∥22
• α est un paramètre qui contrôle le poids entre ces deux régularisations :
• Si 𝛼=0, Elastic Net devient le Lasso pur.
• Si 𝛼=1, Elastic Net devient le Ridge pur.
• Pour 0<𝛼<1, Elastic Net combine les deux régularisations.
• L'objectif du modèle Elastic Net est de minimiser l'erreur de prédiction, tout en
pénalisant les coefficients via la combinaison des régularisations ℓ1 et ℓ2 :
arg min ∥𝑦−𝑋𝛽∥22+𝜆((1−𝛼)∥𝛽∥
Ԧ 2
1 +𝛼∥𝛽∥2 )
𝛽
• L'Elastic Net met certains coefficients à zéro (comme Lasso), mais il répartit les poids de
manière plus équilibrée entre les variables corrélées (comme Ridge).
• Cela le rend particulièrement utile lorsque les variables explicatives sont fortement
corrélées ou lorsque vous souhaitez combiner la sélection de variables (Lasso) avec la
stabilisation des coefficients (Ridge).

Vous aimerez peut-être aussi