MVA Approximation CybenkoThm Slides PDF
MVA Approximation CybenkoThm Slides PDF
MVA Approximation CybenkoThm Slides PDF
2020
1 Introduction
Compromis approximation-estimation-optimisation
Expressivité des réseaux de neurones ?
Autres exemples d’approximation
1 Introduction
Compromis approximation-estimation-optimisation
Expressivité des réseaux de neurones ?
Autres exemples d’approximation
1 Introduction
Compromis approximation-estimation-optimisation
Expressivité des réseaux de neurones ?
Autres exemples d’approximation
1 Introduction
Compromis approximation-estimation-optimisation
Expressivité des réseaux de neurones ?
Autres exemples d’approximation
Questions naturelles :
Quelles fonctions peut-on approcher avec un réseau à k couches cachées ?
Une seule couche cachée est-elle suffisante ?
L’expressivité augmente-t-elle avec la profondeur ?
Pour un nombre de neurones donné, vaut-il mieux un réseau peu profond et large
ou un réseau profond et étroit ?
1 Introduction
Compromis approximation-estimation-optimisation
Expressivité des réseaux de neurones ?
Autres exemples d’approximation
Soit f : [a, b]d → R continue et ε > 0. Par uniforme continuité de f , il existe δ > 0 tel que
kx − y k∞ É δ ⇒ |f (x ) − f (y )| É ε.
On découpe [a, b]d en N d cubes Ai de largeur (b − a)/N ≈ δ avec N = d(b − a)/δe.
Sur chaque cube Ai , on approche f par la valeur f (ci ) en son centre ci . On a alors :
¯
Nd
¯
¯ ¯
sup ¯f (x ) − f (ci )1Ai (x )¯ É ε .
¯ X ¯
x ∈[a,b] d ¯ i =1
¯
Théorème
Toute fonction réelle continue sur [a, b]d peut-être arbitrairement bien approchée (au
sens de la norme infinie) par une fonction constante par morceaux.
1
Z 2π
bf (n) = f (x )e−inx dx (n ∈ Z)
2π 0
N
bf (n)einx
X
SN (x ) =
n=−N
Théorème
L’ensemble des fonctions de la forme
N
cn einx (avec cn ∈ C et c−n = cn∗ pour tout 0 É n É N )
X
x 7→
n=−N
Le 13-ème problème de Hilbert, formulé dans une liste de 23 problèmes en 1900 par
David Hilbert, cherche à savoir si on peut exprimer une solution x (a, b, c ) de l’équation
x 7 + ax 3 + bx 2 + cx + 1 = 0
1 Introduction
Compromis approximation-estimation-optimisation
Expressivité des réseaux de neurones ?
Autres exemples d’approximation
1 Introduction
Compromis approximation-estimation-optimisation
Expressivité des réseaux de neurones ?
Autres exemples d’approximation
Théorème (Cybenko’89)
Soit σ : R → R continue et sigmoïdale (lim−∞ σ = 0 et lim+∞ σ = 1).
¡ N1 des
Alors, l’ensemble ¢ réseaux de neurones feedforward à 1 couche cachée est
dense dans C [0, 1]d , R .
Soit f : [0, 1] → R une fonction L-Lipschitz et ε > 0. Il est facile de construire à la main
un réseau g : [0, 1] → R à 1 couche cachée tel que kg − f k∞ É ε.
On invoque un théorème de
¢ Hahn-Banach qui fournit une forme linéaire
continue L sur C [0, 1]d , R telle que L(f0 ) = 1 mais L = 0 sur N1 .
¡
1 Introduction
Compromis approximation-estimation-optimisation
Expressivité des réseaux de neurones ?
Autres exemples d’approximation
Théorème (Hornik’91)
Soit K ⊂ Rd un compact. Supposons que σ : R → R est continue, bornée et
non-constante. Alors, l’ensemble des réseaux de neurones feedforward à 1 couche
cachée est dense dans C (K , R).
Théorème (Hornik’91)
Soit µ une mesure de Borel positive sur Rd , de masse finie. Supposons que
σ : R → R est bornée et non-constante. Alors, l’ensemble des réseaux de neurones
feedforward à 1 couche cachée est dense dans Lp (Rd , R, µ) pour tout 1 É p < +∞.
Théorème (Barron’93)
Soit σ : R → R une fonction sigmoïdale. Pour toute f : Rd → R comme ci-dessus, tout
r > 0 et toute mesure de probabilité µ sur Br = {x : kx k2 É r }, il existe un réseau gN à 1
N
vi σ 〈wi , x 〉 + bi + v0 tel que
X ¡ ¢
couche cachée gN (x ) =
i =1
(2rCf )2
Z
¡ ¢2
f − gN dµ É .
Br N
1 Introduction
Compromis approximation-estimation-optimisation
Expressivité des réseaux de neurones ?
Autres exemples d’approximation
1 Introduction
Compromis approximation-estimation-optimisation
Expressivité des réseaux de neurones ?
Autres exemples d’approximation
Questions naturelles :
Quelles fonctions peut-on approcher avec un réseau à k couches cachées ?
Une seule couche cachée est-elle suffisante ?
L’expressivité augmente-t-elle avec la profondeur ?
Pour un nombre de neurones donné, vaut-il mieux un réseau peu profond et large
ou un réseau profond et étroit ?
Theorem
Si σ est "universelle" et au plus polynomiale, il existe c , C > 0 telles que : pour toute dimension
d > C, il existe une probabilité µ sur Rd et g : Rd → R vérifiant :
© p ª
1 g est à valeurs dans [−2, 2], supportée sur x : kx k É C d et implémentable par un
réseau à 2 couches cachées de largeur polynomiale en d ;
2 toute fonction f : Rd → R implémentable par un réseau à 1 couche cachée de largeur au
plus cecd vérifie h i
Ex ∼µ (f (x ) − g (x ))2 Ê c .
En clair : il existe des fonctions représentables aisément par un réseau à 2 couches cachées,
mais qu’on ne peut pas approcher par un réseau à 1 couche cachée, sauf à considérer une
couche cachée de taille exponentielle en la dimension d’entrée d.