Cours Bayesien
Cours Bayesien
Cours Bayesien
LABSIR Samy
1/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application
1 Motivations
2 Approche bayesienne
Rappel approche fréquentiste
Principe bayesien
Modèles a priori
3 Estimation bayesienne
Estimation analytique
Estimation par simulation
2/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application
1 Motivations
2 Approche bayesienne
Rappel approche fréquentiste
Principe bayesien
Modèles a priori
3 Estimation bayesienne
Estimation analytique
Estimation par simulation
3/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application
Motivations : historique
4/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application
Introduction-Motivations
Exemple introductif
Une machine à sous disposant d’un bouton donne 1EUR avec une probabilité p
et 0 EUR sinon. On cherche à estimer cette probabilité.
Un informateur nous préviens que 30% des machines à sous ont une probabilité
θ1 de donner 1EUR, le reste a une probabilité θ2 .
Paradigme bayésien : estimer le paramètre p décrivant la distribution de
probabilité des observations ( suite de 1EUR ou EUR) à partir de l’information
apportée.
5/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application
1 Motivations
2 Approche bayesienne
Rappel approche fréquentiste
Principe bayesien
Modèles a priori
3 Estimation bayesienne
Estimation analytique
Estimation par simulation
6/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application
Estimation fréquentiste
Estimer θ en maximisant f (x1 , . . . , xN |θ) Estimateur maximum de vraisemblance.
Cas gaussien
N
P
− 12 (xi −θ)2
2σ
→ On suppose {xi }N 2
i=1 ∼ N (θ, σ ) → f (x1 , . . . , xN |θ) ∝ exp
i=1
N
1 P
→ Estimateur MV de θ : θ̂ = xi
N i=1
7/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application
Approche bayesienne
Principe générique
→ On dispose d’une information a priori sur le paramètre inconnu θ.
→ Cette information prend la forme d’une loi sur l’espace des paramètres Θ notée
π et nommée loi a priori.
→ θ devient une variable aléatoire et on note θ ∼ π.
→ Les notions de l’approche fréquentiste sont remplacées par des notions de
probabilités, d’indépendance et de densités de probabilité conditionnelles à θ.
Modèle Bayésien
Donné par l’information de deux lois :
Loi de la donnée xi ∼ f (x |θ)
Loi de θ ∼ π(θ)
→ Détermination de la distribution a posteriori de θ sachant les observation
x = {x1 , . . . xN } par la règle de Bayes.
P(A ∪ B)
Si A et B deux évenements d’un univers Ω, P(A|B) = (1)
P(B)
8/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application
4 cas possibles :
• Si θ et x sont des variables aléatoires ( v.a.) discrètes :
9/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application
Remarque importante
Si nous cherchons à inférer selon θ :
→ Cas fréquentiste : θ n’est pas probabiliste : moins informatif.
→ Cas bayésien : possibilité d’établir des intervalles de confiance sur θ.
10/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application
Modèles a priori
Lois conjuguées
Une famille de F est dite conjuguée spour la loi si la distribution a posteriori
appartient à F
11/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application
σ 2 µo + N τ 2 µML 2 τ 2 σ2
θM = σM =
N τ 2 + σ2 N τ 2 + σ2
12/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application
Loi de Jeffreys
p
π(θ) ∝ I(θ) (8)
Où I(θ) correspond à l’information de Fisher : quantité d’information qu’apporte le
modèle f (x|θ) sur θ.
∂ 2 logf (x|θ)
I(θ) = −E (9)
∂2θ
Exemple
Si x ∼ N (µ, σ 2 ), la loi de Jeffreys sur θ = (µ, σ 2 ) est π(θ) ∝ σ −2
13/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application
1 Motivations
2 Approche bayesienne
Rappel approche fréquentiste
Principe bayesien
Modèles a priori
3 Estimation bayesienne
Estimation analytique
Estimation par simulation
14/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application
Estimation bayesienne
Estimation bayesienne
• 3 possibilités pour estimer θ :
→ Moyenne a posteriori : estimateur EAP E(θ|x )
−1 1
→ Médiane a posteriori : estimateur MeAP Fθ|x (2)
→ Maximum a posteriori : estimateur MAP arg max π(θ|x).
θ
• Avantage estimateur EAP : optimal au sens du risque quadratique a posteriori.
• Supposons δ un certain estimateur de θ, alors
15/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application
σ 2 µo + N τ 2 µML 2 τ 2 σ2
θ̂ = σM =
N τ 2 + σ2 N τ 2 + σ2
2 fournit un intervalle de confiance sur l’estimateur θ̂.
→ La variance a posteriori σM
0.7 1.4
0.6 1.2
0.5 1
0.4 0.8
0.3 0.6
0.2 0.4
0.1 0.2
0 0
-2 -1 0 1 2 3 4 5 -2 -1 0 1 2 3 4 5 6
1.5 4.5
3.5
1 3
2.5
0.5 1.5
0.5
0 0
-3 -2 -1 0 1 2 3 4 -2 -1 0 1 2 3 4 5
17/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application
Rappel :
π(θ) f (x|θ)
π(θ|x) = R (11)
π(θ) f (x|θ) dθ
θ∈Θ
18/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application
Méthodes de Monte-Carlo
Rappel
→ Soit p(θ) une distribution de θ et g : Θ → E une fonction intégrable.
→ On se place dans le cas où Θ = Rp . L’idée est d’approcher l’intégrale :
Z
I(θ) = g(θ) p(θ) dθ (12)
θ∈Rp
par :
N
1 X
Î(θ) = g(θ i ) (13)
N
i=1
où {θ i }N
i=1 sont N échantillons tirés selon la loi p(θ).
Pourquoi ?
ˆ est un estimateur non biaisé et convergent de I(θ)
→ I(θ)
→ Il converge asymptotiquement selon une loi normale.
19/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application
20/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application
N
1 X
Î(θ) = wi g(θ i ) (16)
N
i=1
oN
p(θ i )
n
où {θ i }N
i=1 est un ensemble d’échantillons tirés selon p(θ) et wi =
sont les poids d’importance. q(θ i ) i=1
Remarque
→ Si la densité p est judicieusement choisie, la variance de de Î est plus faible que
la variance de l’estimateur MC classique.
21/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application
Méthodes MCMC
Principe
→ MCMC : Monte Carlo Markov Chain.
→ Déterminer une chaine de Markov selon son noyau g(θ i+1 |θ i ) tel que sa
distribution invariante correspond à la distribution d’intérêt p(θ).
→ Tirer des échantillons selon g tel que {θ 1 , . . . θ N } suit "environ " la loi p(θ).
Chaine de Markov :
• Suite de variables aléatoires (θ1 , . . . , θN ) ( cas continu ) respectant la propriété :
22/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application
Question
→ Comment construire cette suite d’échantillons ?
→ Deux algorithmes d’échantillonage stochastique
• Algorithme de Metroplois-Hastings.
• Algorithme de Gibbs.
23/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application
Algorithme de Metropolis-Hastings
Principe
• Algorithme itératif construisant une suite d’échantillons suivant la distribution a
posteriori π(θ|.)
→ 1 : tirage d’un échantillon initial θ 0
→ 2 : pour i = 1, ..., N
• Proposition d’un échantillon θ ? selon le noyau de Markov q(.|θ i−1 ).
• Calcul du taux d’acceptation de cet échantillon :
π(θ ? |.) q(θ i |θ ? )
α = min 1, (22)
π(θ i−1 |.) q(θ ? |θ i )
24/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application
Algorithme de Gibbs
Principe
• Simulation d’échantillons {θ 1 , . . . , θ N } en les tirant selon les conditionnelles
π j (.|θ −j ) de chaque variable θj de θ i
• pour i = 1, . . . , N
• pour j = 1, . . . , p
θij ∼ gj (.|θi1 , . . . , θij−1 , θi−1
j+1 p
, . . . , θi−1 )
Remarque
• Il est possible de montrer que l’algorithme de Gibbs est un cas particulier de
l’algorithme de Metropolis-Hastings.
25/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application
1 Motivations
2 Approche bayesienne
Rappel approche fréquentiste
Principe bayesien
Modèles a priori
3 Estimation bayesienne
Estimation analytique
Estimation par simulation
26/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application
27/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application
→ Expression de la vraisemblance :
n−1
P
− 12 (xk+1 −a xk )2
1 2σ
p(x|a, γ) = √ exp k=1 (25)
2 π σ2
1
→ Définitions de deux lois a priori sur a et γ = :
σ2
βoαo −
γ
π(γ) = exp βo γ (αo −1) 1R+ (γ) (27)
Γ(αo )
28/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application
(a−α)2 N−1 −β
γ
π(a, γ|x) ∝ exp−γ 2 γ( 2
+αo −1)
exp o (28)
n−1
P n−1
P
avec α = xk xk+1 / xk2
k=1 k=1
Par conséquent :
29/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application
Algorithme utilisé
Procédure
→ Initialisation : a1 ∼ U[−1,1] (a), γ1 ∼ Γ(αo , βo )
→ Pour i = 2, ..., N
• ai ∼ N (.; α, γi−1 )
N−1 2 βo
• γi ∼ Γ(.; 2
+ αo , )
2 + (ai−1 − α)2 βo
fin
→ Sorties : {ai , γi }N N N
i=1 ∼ π(a, γ|x), {ai }i=1 ∼ π(a|x), {γi }i=1 ∼ π(γ|x).
30/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application
Simulations
1.6
1.4
1.2
0.8
0.6
0.4
0 100 200 300 400 500
31/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application
Simulations
32/32