Cours Bayesien

Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application
Introduction aux statistiques

et à l’estimation bayésienne
LABSIR Samy
1er mai 2020
1/32
1 Motivations
2 Approche bayesienne
Rappel approche fréquentiste
Principe bayesien
Modèles a priori
3 Estimation bayesienne
Estimation analytique
Estimation par simulation
4 Méthodes bayesiennes : application

Modèle autorégressif
Simulations
2/32
1 Motivations
Principe bayesien
Modèles a priori

Simulations
3/32
Motivations : historique
→ 17ieme siècle : premiers travaux de

statistiques bayésiennes par Bayes et
Laplace.
→ 19ième - 20ième siècle : méthodes
fréquentistes supplantent largement
les méthodes bayésiennes
notamment à cause des calculs
infaisables analytiquement.
→ Début années 80 : retour "en force"
de la statistique bayésienne grâce
aux machines de calculs numériques.
Thomas Bayes ( 1702-1761)
4/32
Introduction-Motivations
Statistique bayésienne : principe

Determiner la distribution d’un paramètre à partir d’observations statistiques, tout en
prenant en compte une information a priori sur ce paramètre.
Exemple introductif
Une machine à sous disposant d’un bouton donne 1EUR avec une probabilité p
et 0 EUR sinon. On cherche à estimer cette probabilité.
Un informateur nous préviens que 30% des machines à sous ont une probabilité
θ1 de donner 1EUR, le reste a une probabilité θ2 .
Paradigme bayésien : estimer le paramètre p décrivant la distribution de
probabilité des observations ( suite de 1EUR ou EUR) à partir de l’information
apportée.
5/32
1 Motivations
Principe bayesien
Modèles a priori

Simulations
6/32
Soient {x1 , . . . , xN } ∈ RN un ensemble d’observations ( variables aléatoires )

paramétré par θ ∈ R.
Quelle information apporte les observations vis-à-vis du paramètre ?
Distribution de probabilité des observations sachant θ : f (x1 , . . . , xN |θ) fonction
de vraisemblance.
Estimation fréquentiste
Estimer θ en maximisant f (x1 , . . . , xN |θ) Estimateur maximum de vraisemblance.
Cas gaussien
N
P
− 12 (xi −θ)2
2σ
→ On suppose {xi }N 2
i=1 ∼ N (θ, σ ) → f (x1 , . . . , xN |θ) ∝ exp
i=1
N
1 P
→ Estimateur MV de θ : θ̂ = xi
N i=1
7/32
Approche bayesienne
Principe générique
→ On dispose d’une information a priori sur le paramètre inconnu θ.
→ Cette information prend la forme d’une loi sur l’espace des paramètres Θ notée
π et nommée loi a priori.
→ θ devient une variable aléatoire et on note θ ∼ π.
→ Les notions de l’approche fréquentiste sont remplacées par des notions de
probabilités, d’indépendance et de densités de probabilité conditionnelles à θ.
Modèle Bayésien
Donné par l’information de deux lois :
Loi de la donnée xi ∼ f (x |θ)
Loi de θ ∼ π(θ)
→ Détermination de la distribution a posteriori de θ sachant les observation
x = {x1 , . . . xN } par la règle de Bayes.
P(A ∪ B)
Si A et B deux évenements d’un univers Ω, P(A|B) = (1)
P(B)
8/32
4 cas possibles :
• Si θ et x sont des variables aléatoires ( v.a.) discrètes :
P(x = xi |θ) P(θ = θi )

P(θ = θi |x = xi ) = (2)
P(x = xj )
• Si θ est une va. discrète et x une v.a. continue :

f (x|θ = θi ) P(θ = θi )
P(θ = θi |x) = (3)
f (x)
• Si θ est une va. continue et x une v.a. discrète :

P(x = xi |θ) f (θ)
f (θ|x = xi ) = (4)
P(x = xi )
• Si θ est une va. continue et x une v.a. continue :

f (x|θ) π(θ)
f (θ|x) = (5)
f (x)
On définit la loi marginale comme la loi des observations

R
→ Cas continu : f (x) = f (x|θ) π(θ)dθ
θ∈θ
P
→ Cas discret : : P(x) = P(x = xj |θ) P(θ = θi )
i∈card(θ)
9/32
→ La loi marginale correspond à la constante de normalisation de la loi a

posteriori.
→ Lorsque nous connaissons la forme de cette loi, il n’est pas utile de la calculer.
π(θ|x) ∝ f (x|θ) π(θ) (6)
Remarque importante
Si nous cherchons à inférer selon θ :
→ Cas fréquentiste : θ n’est pas probabiliste : moins informatif.
→ Cas bayésien : possibilité d’établir des intervalles de confiance sur θ.
10/32
Modèles a priori
→ Comment choisir un bon modèle a priori ?
1− Choix basé sur une intuition du stastisticien

2− Choix basé sur la faisabilité des calculs lois conjuguées.
3− Choix basé sur le manque d’information sur le paramètre loi non informative
(Jeffreys).
Lois conjuguées
Une famille de F est dite conjuguée spour la loi si la distribution a posteriori
appartient à F
Lois conjuguées : exemples

f (x|θ) π(θ) π(θ|x)
B(x, n, θ) Be(α, β) Be(α + x, β + n − x)
Γ(µ, θ) Γ(α, β) Γ(α + µ, β + x)
11/32
Exemple : cas gaussien

→ Supposons θ distribuée selon une loi π(θ) = N (θo , τ 2 )
θo peut être vu comme le paramètre le plus probable a priori et τ comme son
incertitude associée.
→ Chaque observation xi est supposée distribuée selon π(xi |θ) = N (θ, σ 2 )
→ Distribution a posteriori calculable analytiquement et gaussienne.
2
π(θ|x) = N (θM , σM ) (7)
σ 2 µo + N τ 2 µML 2 τ 2 σ2
θM = σM =
N τ 2 + σ2 N τ 2 + σ2
12/32
Loi de Jeffreys
p
π(θ) ∝ I(θ) (8)
Où I(θ) correspond à l’information de Fisher : quantité d’information qu’apporte le
modèle f (x|θ) sur θ.
∂ 2 logf (x|θ)
I(θ) = −E (9)
∂2θ
→ I(θ) est un indicateur de la quantité d’information apporté par le modèle f (x|θ).

→ Intuitivement, les valeurs de θ pour lesquelles I(θ) est plus grande sont les plus
probables a priori.
Exemple
Si x ∼ N (µ, σ 2 ), la loi de Jeffreys sur θ = (µ, σ 2 ) est π(θ) ∝ σ −2
13/32
1 Motivations
Principe bayesien
Modèles a priori

Simulations
14/32
Estimation bayesienne
Un des objectifs de la statistique bayésienne est d’estimer un paramètre inconnu

θ ∈ Rp à partir de son information a priori.
Estimation bayesienne
• 3 possibilités pour estimer θ :
→ Moyenne a posteriori : estimateur EAP E(θ|x )
−1 1
→ Médiane a posteriori : estimateur MeAP Fθ|x (2)
→ Maximum a posteriori : estimateur MAP arg max π(θ|x).
θ
• Avantage estimateur EAP : optimal au sens du risque quadratique a posteriori.
• Supposons δ un certain estimateur de θ, alors
θEAP = arg min Eθ|x [kθ − δ(x)k2 ] (10)

δ∈R
15/32
Retour sur le cas gaussien

→ Dans le cas gaussien, les trois estimateurs MAP, MeAP et EAP sont identiques.
σ 2 µo + N τ 2 µML 2 τ 2 σ2
θ̂ = σM =
N τ 2 + σ2 N τ 2 + σ2
2 fournit un intervalle de confiance sur l’estimateur θ̂.
→ La variance a posteriori σM
→ Influence du nombre d’observations.
0.7 1.4
0.6 1.2
0.5 1
0.4 0.8
0.3 0.6
0.2 0.4
0.1 0.2
0 0
-2 -1 0 1 2 3 4 5 -2 -1 0 1 2 3 4 5 6
Distribution a posteriori pour Distribution a posteriori pour

θo = 0, τ = σ = 1, et N = 2 θo = 0, τ = σ = 1, et N = 10
16/32
→ Influence de la variance a priori
1.5 4.5
3.5
1 3
2.5
0.5 1.5
0.5
0 0
-3 -2 -1 0 1 2 3 4 -2 -1 0 1 2 3 4 5
Distribution a posteriori pour Distribution a posteriori pour θo = 0,

θo = 0, τ = 0.5, σ = 1, et N = 10 τ = 0.1, σ = 1, et N = 10
17/32
Rappel :
π(θ) f (x|θ)
π(θ|x) = R (11)
π(θ) f (x|θ) dθ
θ∈Θ
→ f (x|θ) modèle des données.

→ π(θ) modèle a priori.
R
→ f (x) = π(θ)f (x|θ) dx loi marginale.
θ∈Θ
Quand θ de grande dimension, la loi marginale n’est pas calculable analytiquement,

tout comme la moyenne a posteriori :
Z
E(θ|x) = θ f (x|θ) dθ
θ∈Θ
→ Utilisation des méthodes de Monte-Carlo pour approcher ces intégrales.
18/32
Méthodes de Monte-Carlo
Rappel
→ Soit p(θ) une distribution de θ et g : Θ → E une fonction intégrable.
→ On se place dans le cas où Θ = Rp . L’idée est d’approcher l’intégrale :
Z
I(θ) = g(θ) p(θ) dθ (12)
θ∈Rp
par :
N
1 X
Î(θ) = g(θ i ) (13)
N
i=1
où {θ i }N
i=1 sont N échantillons tirés selon la loi p(θ).
Pourquoi ?
ˆ est un estimateur non biaisé et convergent de I(θ)
→ I(θ)
→ Il converge asymptotiquement selon une loi normale.
Î(θ) − I(θ) → N (0, K) avec K : variance de l’erreur d’estimation. (14)
19/32
Méthodes de Monte-Carlo avancées
Lorsqu’il n’est pas possible d’échantillonner selon p(θ), la méthode de Monte-Carlo

usuelle ne peut s’appliquer. Deux possibilités :
→ Construire une suite d’échantillons à partir d’une densité d’importance :

Echantillonnage par importance.
→ Construire une suite d’échantillons à partir d’une chaine de Markov dont la
distribution est p(θ) : Méthodes MCMC.
20/32
Echantillonnage par importance

Principe
→ Trouver une distribution p(θ) dont le support est inclus dans q(θ) et dont nous
pouvons obtenir des échantillons. L’idée est alors d’écrire l’intégrale précédente
par θ par Z
p(θ)
I(θ) = g(θ) q(θ)dθ (15)
θ∈Θ
q(θ)
Par conséquent, un estimateur de θ est fourni par :
N
1 X
Î(θ) = wi g(θ i ) (16)
N
i=1
oN
p(θ i )
n
où {θ i }N
i=1 est un ensemble d’échantillons tirés selon p(θ) et wi =
sont les poids d’importance. q(θ i ) i=1
Remarque
→ Si la densité p est judicieusement choisie, la variance de de Î est plus faible que
la variance de l’estimateur MC classique.
21/32
Méthodes MCMC
Principe
→ MCMC : Monte Carlo Markov Chain.
→ Déterminer une chaine de Markov selon son noyau g(θ i+1 |θ i ) tel que sa
distribution invariante correspond à la distribution d’intérêt p(θ).
→ Tirer des échantillons selon g tel que {θ 1 , . . . θ N } suit "environ " la loi p(θ).
Chaine de Markov :
• Suite de variables aléatoires (θ1 , . . . , θN ) ( cas continu ) respectant la propriété :
p(θi |θi−1 , . . . , θ 1 ) = p(θi |θi−1 ) (17)

| {z }
Noyau de Markov
• La distribution invariante de cette chaine vérifie :

Z
g(θ) = g(θ0 ) p(θ|θ0 )dθ0 (18)
θ 0 ∈Θ
22/32
MCMC : détermination de la loi a posteriori

Principe en inférence bayésienne
f (x|θ) π(θ)
π(θ|x) = (19)
f (x)
→ Echantillonner π(θ|x) par une chaine de Markov dont elle est sa distribution
invariante.
→ Soit (θ 1 , . . . , θ N ) une chaine de Markov vérifiant cette propriété. π(.|x ) peut
être approchée par :
N
1 X
π̂(θ|x) = δ(θ − θ i ). (20)
N
i=1
et la moyenne a posteriori par :

N
1 X
Ê(θ|x) ' θi . (21)
N
i=1
Question
→ Comment construire cette suite d’échantillons ?
→ Deux algorithmes d’échantillonage stochastique
• Algorithme de Metroplois-Hastings.
• Algorithme de Gibbs.
23/32
Algorithme de Metropolis-Hastings
Principe
• Algorithme itératif construisant une suite d’échantillons suivant la distribution a
posteriori π(θ|.)
→ 1 : tirage d’un échantillon initial θ 0
→ 2 : pour i = 1, ..., N
• Proposition d’un échantillon θ ? selon le noyau de Markov q(.|θ i−1 ).
• Calcul du taux d’acceptation de cet échantillon :

π(θ ? |.) q(θ i |θ ? )
α = min 1, (22)
π(θ i−1 |.) q(θ ? |θ i )
• On assigne θ i à θ ? avec une probabilité α, θ i reste fixée à θ i−1 avec une

probabilité 1 − α.
→ 3 : N échantillons {θ i }N
i=1 approchant π(θ|.).
24/32
Algorithme de Gibbs
Principe
• Simulation d’échantillons {θ 1 , . . . , θ N } en les tirant selon les conditionnelles
π j (.|θ −j ) de chaque variable θj de θ i
• pour i = 1, . . . , N
• pour j = 1, . . . , p
θij ∼ gj (.|θi1 , . . . , θij−1 , θi−1
j+1 p
, . . . , θi−1 )
Remarque
• Il est possible de montrer que l’algorithme de Gibbs est un cas particulier de
l’algorithme de Metropolis-Hastings.
25/32
1 Motivations
Principe bayesien
Modèles a priori

Simulations
26/32
Méthodes bayesiennes : application
Estimation des paramètres d’un modèle autorégressif

• Modèle autorégressif d’ordre 1 :
xk+1 = a xk + bk+1 bk+1 ∼ N (0, σ 2 ), |a| < 1 ∀k ∈ {1, . . . n − 1} (23)
• a et σ 2 sont des paramètres inconnus à estimer.

• Soit x = [x1 , . . . , xn ]> l’ensemble des observations, nous cherchons à déterminer
la distribution a posteriori suivante :
p(a, σ 2 |x) ∝ p(x|a, σ 2 ) p(a, σ 2 ), (24)
admettant une forme analytique compliquée.

• Méthode utilisée :
→ génération d’échantillons {ai , σi 2 }N
i=1 par un algorithme MCMC.
27/32
Expression des distributions
→ Expression de la vraisemblance :
n−1
P
− 12 (xk+1 −a xk )2
1 2σ
p(x|a, γ) = √ exp k=1 (25)
2 π σ2
1
→ Définitions de deux lois a priori sur a et γ = :
σ2
• Distribution uniforme pour a :
π(a) = U[−1,1] (a) (26)
• Distribution gamma Γ(αo , βo ) pour γ :
βoαo −
γ
π(γ) = exp βo γ (αo −1) 1R+ (γ) (27)
Γ(αo )
→ avantage de la distribution gamma : elle est conjuguée selon une vraisemblance

gaussienne → : π(a|x, γ) est également une distribution gamma.
28/32
Expressions des distributions
→ Expression de la distribution a posteriori
(a−α)2 N−1 −β
γ
π(a, γ|x) ∝ exp−γ 2 γ( 2
+αo −1)
exp o (28)
n−1
P n−1
P
avec α = xk xk+1 / xk2
k=1 k=1
Par conséquent :
π(a|x, γ) = N (a; α, γ) (29)

(
N −1 2 βo

π(γ|x, a) = Γ γ, + αo , 2
(30)
2 2 + (a − α) βo
→ Utilisation d’un algorithme de Gibbs pour échantillonner selon π(a|x, γ) et

π(a|x, γ) afin d’en déduire π(a, γ|x)
29/32
Algorithme utilisé
Procédure
→ Initialisation : a1 ∼ U[−1,1] (a), γ1 ∼ Γ(αo , βo )
→ Pour i = 2, ..., N
• ai ∼ N (.; α, γi−1 )
N−1 2 βo
• γi ∼ Γ(.; 2
+ αo , )
2 + (ai−1 − α)2 βo
fin
→ Sorties : {ai , γi }N N N
i=1 ∼ π(a, γ|x), {ai }i=1 ∼ π(a|x), {γi }i=1 ∼ π(γ|x).
30/32
Simulations
→ Résultats obtenus pour un modèle autorégressif simulé avec a = 0.5 et γ = 1 et

n = 1000.
→ Tracé des moyennes a posteriori estimées au cours des itérations (N = 500).
1.6
1.4
1.2
0.8
0.6
0.4
0 100 200 300 400 500
Evolution des moyennes a posteriori de a et γ.
31/32
Simulations
→ Allure des distributions "marginales" a posteriori π(a|x) et π(γ|x) fournies par

leurs histogrammes.
Histogramme des échantillons {ai }N

i=1 Histogramme des échantillons {γ i }N
i=1
32/32

Cours Bayesien

Transféré par

Informations du documentcliquez pour développer les informations du document

Droits d'auteur :

Formats disponibles

Cours Bayesien

Transféré par

Informations du document

Description originale:

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Bayesien

Transféré par

Droits d'auteur :

Formats disponibles

Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Introduction aux statistiques

1er mai 2020

4 Méthodes bayesiennes : application

4 Méthodes bayesiennes : application

→ 17ieme siècle : premiers travaux de

Statistique bayésienne : principe

4 Méthodes bayesiennes : application

Rappel approche fréquentiste

Soient {x1 , . . . , xN } ∈ RN un ensemble d’observations ( variables aléatoires )

P(x = xi |θ) P(θ = θi )

• Si θ est une va. discrète et x une v.a. continue :

• Si θ est une va. continue et x une v.a. discrète :

• Si θ est une va. continue et x une v.a. continue :

On définit la loi marginale comme la loi des observations

→ La loi marginale correspond à la constante de normalisation de la loi a

π(θ|x) ∝ f (x|θ) π(θ) (6)

→ Comment choisir un bon modèle a priori ?

1− Choix basé sur une intuition du stastisticien

Lois conjuguées : exemples

Exemple : cas gaussien

→ I(θ) est un indicateur de la quantité d’information apporté par le modèle f (x|θ).

4 Méthodes bayesiennes : application

Un des objectifs de la statistique bayésienne est d’estimer un paramètre inconnu

θEAP = arg min Eθ|x [kθ − δ(x)k2 ] (10)

Retour sur le cas gaussien

→ Influence du nombre d’observations.

Distribution a posteriori pour Distribution a posteriori pour

→ Influence de la variance a priori

Distribution a posteriori pour Distribution a posteriori pour θo = 0,

Estimation par simulation

→ f (x|θ) modèle des données.

Quand θ de grande dimension, la loi marginale n’est pas calculable analytiquement,

→ Utilisation des méthodes de Monte-Carlo pour approcher ces intégrales.

Î(θ) − I(θ) → N (0, K) avec K : variance de l’erreur d’estimation. (14)

Méthodes de Monte-Carlo avancées

Lorsqu’il n’est pas possible d’échantillonner selon p(θ), la méthode de Monte-Carlo

→ Construire une suite d’échantillons à partir d’une densité d’importance :

Echantillonnage par importance

Par conséquent, un estimateur de θ est fourni par :

p(θi |θi−1 , . . . , θ 1 ) = p(θi |θi−1 ) (17)

• La distribution invariante de cette chaine vérifie :

MCMC : détermination de la loi a posteriori

et la moyenne a posteriori par :

• On assigne θ i à θ ? avec une probabilité α, θ i reste fixée à θ i−1 avec une

4 Méthodes bayesiennes : application

Méthodes bayesiennes : application

Estimation des paramètres d’un modèle autorégressif

xk+1 = a xk + bk+1 bk+1 ∼ N (0, σ 2 ), |a| < 1 ∀k ∈ {1, . . . n − 1} (23)

• a et σ 2 sont des paramètres inconnus à estimer.

p(a, σ 2 |x) ∝ p(x|a, σ 2 ) p(a, σ 2 ), (24)

admettant une forme analytique compliquée.

Expression des distributions

• Distribution uniforme pour a :

π(a) = U[−1,1] (a) (26)

• Distribution gamma Γ(αo , βo ) pour γ :

→ avantage de la distribution gamma : elle est conjuguée selon une vraisemblance

Expressions des distributions