2019 ML TD3
2019 ML TD3
2019 ML TD3
Exercice 1 – Apéro
Q 3.1 On considère un ensemble de données X muni d’étiquettes binaires Y = {0, 1}. En régression
logistique, on considère que
le log-rapport
des probas conditionnelles p(y|x) peut être modélisé par une
p(y|x)
application linéaire : log (1−p(y|x)) = θ.x.
• Quel est le but ?
• Quelle étiquette prédire pour x si θ.x > 0 ?
• Que vaut p(y|x) ? Tracer la fonction p(y|x) en fonction de θ.x.
ML – Machine Learning– 2020fev page 2
Q 5.1 Rappelez la fonction coût au sens des moindres carrés sur un problème d’apprentissage binaire.
Proposer quelques exemples pour montrer que les échantillons correctement classés participent à la
fonction coût.
Q 5.2 En faisant appel à vos connaissances sur le perceptron, proposez une nouvelle fonction coût ne
pénalisant que les points mals classés.
Q 5.3 En imaginant une fonction f de complexité infinie (capable de modéliser n’importe quelle
frontière de décision), tracez à la main la frontière de décision optimale au sens des coûts définis
précédemment pour le deux problèmes jouets de la figure 1. Ces frontières sont-elles intéressantes ?
Quels problèmes se posent ?
Exercice 6 – Perceptron
Q 6.1 Soit w = (2, 1) le vecteur de poids d’une séparatrice linéaire. Dessinez cette séparatrice dans
le plan. Précisez sur le dessin les quantités < w, x > par rapport à un exemple x bien classé et mal
classé. Que se passe-t-il pour le produit scalaire dans le cas d’un exemple mal classé avec la mise-à-jour
w ← w + yx ?
Q 6.2 Comment sont les classifieurs suivants par rapport à celui de la question précédente : w1 =
(1, 0.5), w2 = (200, 100), w3 = (−2, −1) ?
Q 6.3 Montrez que l’algorithme du perceptron correspond à une descente de gradient. La solution
est-elle unique ?
ML – Machine Learning– 2020fev page 3
1.5 1
0.5
0.5
0
0
-0.5
-0.5
-1
-1
-1.5 -1 -0.5 0 0.5 1 1.5 0 0.5 1 1.5 2 2.5 3 3.5 4
Q 6.4 Quel problème peut-il se poser pour certaines valeurs de w ? Comment y rémédier ?
Q 6.5 Donner un perceptron qui permet de réaliser le AND logique entre les entrées binaires x1 et x2
(positif si les deux sont à 1, négatif sinon) et un autre pour le OR logique.
Q 6.6 Nous allons augmenter l’expressivité du modèle en étendant l’espace de représentation ini-
tial dans le cas 2D : x = [x1 , x2 ]. SoitPla transformation φ suivante : φ(x) = [1, x1 , x2 , x21 , x22 , x1 x2 ],
considérons le modèle linéaire f (xi ) = j φj (xi )wj .
• Quelle est la dimension du vecteur w dans ce cas ?
• A quoi correspond la projection phi ?
• Retracer les frontières de décision optimales sur la figure en utilisant cette nouvelle représentation.
• Pouvons nous retrouver les frontières linéaires de la question précédente dans ce nouvel espace ?
Dans l’affirmative, donner les coefficients wj associés.
Q 6.7 Les frontières sont-elles plus intéressantes en utilisant la première ou la seconde représentation
des données ? Pouvez vous comparer grossièrement l’amplitude de la fonction coût (au sens des moindres
carrés par exemple) dans les cas linéaires et quadratiques ? Qu’en déduire ? Sur quel élément vous basez
vous pour mesurer la qualité du modèle créé ?
Q 6.8 Afin d’augmenter l’expressivité de notre classe de séparateur, nous nous tournons vers les
représentations gaussiennes. Nous créons une grille de points pi,j sur l’espace 2d, puis nous mesurons
||x−pi,j ||2
la similarité gaussienne du point x par rapport à chaque point de la grille : s(x, pi,j ) = Ke− σ .
La nouvelle représentation de l’exemple est le vecteur contenant pour chaque dimension la similarité
de l’exemple à un point de la grille.
• Quelle est la dimension du vecteur w ?
• Donnez l’expression littérale de la fonction de décision.
• Quel rôle joue le paramètre σ ?
Q 6.9 Introduction (très) pragmatique aux noyaux
• Que se passe-t-il en dimension 3 si nous souhaitons conserver la résolution spatiale du maillage ?
• Afin de palier ce problème, nous proposons d’utiliser la base d’apprentissage à la place de la
grille : les points servant de support à la projection seront ceux de l’ensemble d’apprentissage.
Exprimer la forme littérale de la fonction de décision dans ce nouveau cadre. Quelle est la nouvelle
dimension du paramètre w ?
• Que se passe-t-il lorsque σ tend vers 0 ? vers l’infini ? A-t-on besoin de toutes les dimensions de
w ou est-il possible de retrouver la même frontière de decision en limitant le nombre de données
d’apprentissage ? A quoi cela correspond-il pour ||w|| ?