Cours Bayesien

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 32

Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Introduction aux statistiques


et à l’estimation bayésienne

LABSIR Samy

1er mai 2020

1/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

1 Motivations

2 Approche bayesienne
Rappel approche fréquentiste
Principe bayesien
Modèles a priori

3 Estimation bayesienne
Estimation analytique
Estimation par simulation

4 Méthodes bayesiennes : application


Modèle autorégressif
Simulations

2/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

1 Motivations

2 Approche bayesienne
Rappel approche fréquentiste
Principe bayesien
Modèles a priori

3 Estimation bayesienne
Estimation analytique
Estimation par simulation

4 Méthodes bayesiennes : application


Modèle autorégressif
Simulations

3/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Motivations : historique

→ 17ieme siècle : premiers travaux de


statistiques bayésiennes par Bayes et
Laplace.
→ 19ième - 20ième siècle : méthodes
fréquentistes supplantent largement
les méthodes bayésiennes
notamment à cause des calculs
infaisables analytiquement.
→ Début années 80 : retour "en force"
de la statistique bayésienne grâce
aux machines de calculs numériques.
Thomas Bayes ( 1702-1761)

4/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Introduction-Motivations

Statistique bayésienne : principe


Determiner la distribution d’un paramètre à partir d’observations statistiques, tout en
prenant en compte une information a priori sur ce paramètre.

Exemple introductif
Une machine à sous disposant d’un bouton donne 1EUR avec une probabilité p
et 0 EUR sinon. On cherche à estimer cette probabilité.
Un informateur nous préviens que 30% des machines à sous ont une probabilité
θ1 de donner 1EUR, le reste a une probabilité θ2 .
Paradigme bayésien : estimer le paramètre p décrivant la distribution de
probabilité des observations ( suite de 1EUR ou EUR) à partir de l’information
apportée.

5/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

1 Motivations

2 Approche bayesienne
Rappel approche fréquentiste
Principe bayesien
Modèles a priori

3 Estimation bayesienne
Estimation analytique
Estimation par simulation

4 Méthodes bayesiennes : application


Modèle autorégressif
Simulations

6/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Rappel approche fréquentiste

Soient {x1 , . . . , xN } ∈ RN un ensemble d’observations ( variables aléatoires )


paramétré par θ ∈ R.
Quelle information apporte les observations vis-à-vis du paramètre ?
Distribution de probabilité des observations sachant θ : f (x1 , . . . , xN |θ) fonction
de vraisemblance.

Estimation fréquentiste
Estimer θ en maximisant f (x1 , . . . , xN |θ) Estimateur maximum de vraisemblance.

Cas gaussien
N
P
− 12 (xi −θ)2

→ On suppose {xi }N 2
i=1 ∼ N (θ, σ ) → f (x1 , . . . , xN |θ) ∝ exp
i=1

N
1 P
→ Estimateur MV de θ : θ̂ = xi
N i=1

7/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Approche bayesienne

Principe générique
→ On dispose d’une information a priori sur le paramètre inconnu θ.
→ Cette information prend la forme d’une loi sur l’espace des paramètres Θ notée
π et nommée loi a priori.
→ θ devient une variable aléatoire et on note θ ∼ π.
→ Les notions de l’approche fréquentiste sont remplacées par des notions de
probabilités, d’indépendance et de densités de probabilité conditionnelles à θ.

Modèle Bayésien
Donné par l’information de deux lois :
Loi de la donnée xi ∼ f (x |θ)
Loi de θ ∼ π(θ)
→ Détermination de la distribution a posteriori de θ sachant les observation
x = {x1 , . . . xN } par la règle de Bayes.

P(A ∪ B)
Si A et B deux évenements d’un univers Ω, P(A|B) = (1)
P(B)

8/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

4 cas possibles :
• Si θ et x sont des variables aléatoires ( v.a.) discrètes :

P(x = xi |θ) P(θ = θi )


P(θ = θi |x = xi ) = (2)
P(x = xj )

• Si θ est une va. discrète et x une v.a. continue :


f (x|θ = θi ) P(θ = θi )
P(θ = θi |x) = (3)
f (x)

• Si θ est une va. continue et x une v.a. discrète :


P(x = xi |θ) f (θ)
f (θ|x = xi ) = (4)
P(x = xi )

• Si θ est une va. continue et x une v.a. continue :


f (x|θ) π(θ)
f (θ|x) = (5)
f (x)

On définit la loi marginale comme la loi des observations


R
→ Cas continu : f (x) = f (x|θ) π(θ)dθ
θ∈θ
P
→ Cas discret : : P(x) = P(x = xj |θ) P(θ = θi )
i∈card(θ)

9/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

→ La loi marginale correspond à la constante de normalisation de la loi a


posteriori.
→ Lorsque nous connaissons la forme de cette loi, il n’est pas utile de la calculer.

π(θ|x) ∝ f (x|θ) π(θ) (6)

Remarque importante
Si nous cherchons à inférer selon θ :
→ Cas fréquentiste : θ n’est pas probabiliste : moins informatif.
→ Cas bayésien : possibilité d’établir des intervalles de confiance sur θ.

10/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Modèles a priori

→ Comment choisir un bon modèle a priori ?

1− Choix basé sur une intuition du stastisticien


2− Choix basé sur la faisabilité des calculs lois conjuguées.
3− Choix basé sur le manque d’information sur le paramètre loi non informative
(Jeffreys).

Lois conjuguées
Une famille de F est dite conjuguée spour la loi si la distribution a posteriori
appartient à F

Lois conjuguées : exemples


f (x|θ) π(θ) π(θ|x)
B(x, n, θ) Be(α, β) Be(α + x, β + n − x)
Γ(µ, θ) Γ(α, β) Γ(α + µ, β + x)

11/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Exemple : cas gaussien


→ Supposons θ distribuée selon une loi π(θ) = N (θo , τ 2 )
θo peut être vu comme le paramètre le plus probable a priori et τ comme son
incertitude associée.
→ Chaque observation xi est supposée distribuée selon π(xi |θ) = N (θ, σ 2 )
→ Distribution a posteriori calculable analytiquement et gaussienne.
2
π(θ|x) = N (θM , σM ) (7)

σ 2 µo + N τ 2 µML 2 τ 2 σ2
θM = σM =
N τ 2 + σ2 N τ 2 + σ2

12/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Loi de Jeffreys
p
π(θ) ∝ I(θ) (8)
Où I(θ) correspond à l’information de Fisher : quantité d’information qu’apporte le
modèle f (x|θ) sur θ.  
∂ 2 logf (x|θ)
I(θ) = −E (9)
∂2θ

→ I(θ) est un indicateur de la quantité d’information apporté par le modèle f (x|θ).


→ Intuitivement, les valeurs de θ pour lesquelles I(θ) est plus grande sont les plus
probables a priori.

Exemple
Si x ∼ N (µ, σ 2 ), la loi de Jeffreys sur θ = (µ, σ 2 ) est π(θ) ∝ σ −2

13/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

1 Motivations

2 Approche bayesienne
Rappel approche fréquentiste
Principe bayesien
Modèles a priori

3 Estimation bayesienne
Estimation analytique
Estimation par simulation

4 Méthodes bayesiennes : application


Modèle autorégressif
Simulations

14/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Estimation bayesienne

Un des objectifs de la statistique bayésienne est d’estimer un paramètre inconnu


θ ∈ Rp à partir de son information a priori.

Estimation bayesienne
• 3 possibilités pour estimer θ :
→ Moyenne a posteriori : estimateur EAP E(θ|x )
−1 1
→ Médiane a posteriori : estimateur MeAP Fθ|x (2)
→ Maximum a posteriori : estimateur MAP arg max π(θ|x).
θ
• Avantage estimateur EAP : optimal au sens du risque quadratique a posteriori.
• Supposons δ un certain estimateur de θ, alors

θEAP = arg min Eθ|x [kθ − δ(x)k2 ] (10)


δ∈R

15/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Retour sur le cas gaussien


→ Dans le cas gaussien, les trois estimateurs MAP, MeAP et EAP sont identiques.

σ 2 µo + N τ 2 µML 2 τ 2 σ2
θ̂ = σM =
N τ 2 + σ2 N τ 2 + σ2
2 fournit un intervalle de confiance sur l’estimateur θ̂.
→ La variance a posteriori σM

→ Influence du nombre d’observations.

0.7 1.4

0.6 1.2

0.5 1

0.4 0.8

0.3 0.6

0.2 0.4

0.1 0.2

0 0
-2 -1 0 1 2 3 4 5 -2 -1 0 1 2 3 4 5 6

Distribution a posteriori pour Distribution a posteriori pour


θo = 0, τ = σ = 1, et N = 2 θo = 0, τ = σ = 1, et N = 10
16/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

→ Influence de la variance a priori

1.5 4.5

3.5

1 3

2.5

0.5 1.5

0.5

0 0
-3 -2 -1 0 1 2 3 4 -2 -1 0 1 2 3 4 5

Distribution a posteriori pour Distribution a posteriori pour θo = 0,


θo = 0, τ = 0.5, σ = 1, et N = 10 τ = 0.1, σ = 1, et N = 10

17/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Estimation par simulation

Rappel :
π(θ) f (x|θ)
π(θ|x) = R (11)
π(θ) f (x|θ) dθ
θ∈Θ

→ f (x|θ) modèle des données.


→ π(θ) modèle a priori.
R
→ f (x) = π(θ)f (x|θ) dx loi marginale.
θ∈Θ

Quand θ de grande dimension, la loi marginale n’est pas calculable analytiquement,


tout comme la moyenne a posteriori :
Z
E(θ|x) = θ f (x|θ) dθ
θ∈Θ

→ Utilisation des méthodes de Monte-Carlo pour approcher ces intégrales.

18/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Méthodes de Monte-Carlo
Rappel
→ Soit p(θ) une distribution de θ et g : Θ → E une fonction intégrable.
→ On se place dans le cas où Θ = Rp . L’idée est d’approcher l’intégrale :
Z
I(θ) = g(θ) p(θ) dθ (12)
θ∈Rp
par :
N
1 X
Î(θ) = g(θ i ) (13)
N
i=1

où {θ i }N
i=1 sont N échantillons tirés selon la loi p(θ).

Pourquoi ?
ˆ est un estimateur non biaisé et convergent de I(θ)
→ I(θ)
→ Il converge asymptotiquement selon une loi normale.

Î(θ) − I(θ) → N (0, K) avec K : variance de l’erreur d’estimation. (14)

19/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Méthodes de Monte-Carlo avancées

Lorsqu’il n’est pas possible d’échantillonner selon p(θ), la méthode de Monte-Carlo


usuelle ne peut s’appliquer. Deux possibilités :

→ Construire une suite d’échantillons à partir d’une densité d’importance :


Echantillonnage par importance.
→ Construire une suite d’échantillons à partir d’une chaine de Markov dont la
distribution est p(θ) : Méthodes MCMC.

20/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Echantillonnage par importance


Principe
→ Trouver une distribution p(θ) dont le support est inclus dans q(θ) et dont nous
pouvons obtenir des échantillons. L’idée est alors d’écrire l’intégrale précédente
par θ par Z
p(θ)
I(θ) = g(θ) q(θ)dθ (15)
θ∈Θ
q(θ)

Par conséquent, un estimateur de θ est fourni par :

N
1 X
Î(θ) = wi g(θ i ) (16)
N
i=1

oN
p(θ i )
n
où {θ i }N
i=1 est un ensemble d’échantillons tirés selon p(θ) et wi =
sont les poids d’importance. q(θ i ) i=1

Remarque
→ Si la densité p est judicieusement choisie, la variance de de Î est plus faible que
la variance de l’estimateur MC classique.

21/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Méthodes MCMC

Principe
→ MCMC : Monte Carlo Markov Chain.
→ Déterminer une chaine de Markov selon son noyau g(θ i+1 |θ i ) tel que sa
distribution invariante correspond à la distribution d’intérêt p(θ).
→ Tirer des échantillons selon g tel que {θ 1 , . . . θ N } suit "environ " la loi p(θ).

Chaine de Markov :
• Suite de variables aléatoires (θ1 , . . . , θN ) ( cas continu ) respectant la propriété :

p(θi |θi−1 , . . . , θ 1 ) = p(θi |θi−1 ) (17)


| {z }
Noyau de Markov

• La distribution invariante de cette chaine vérifie :


Z
g(θ) = g(θ0 ) p(θ|θ0 )dθ0 (18)
θ 0 ∈Θ

22/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

MCMC : détermination de la loi a posteriori


Principe en inférence bayésienne
f (x|θ) π(θ)
π(θ|x) = (19)
f (x)
→ Echantillonner π(θ|x) par une chaine de Markov dont elle est sa distribution
invariante.
→ Soit (θ 1 , . . . , θ N ) une chaine de Markov vérifiant cette propriété. π(.|x ) peut
être approchée par :
N
1 X
π̂(θ|x) = δ(θ − θ i ). (20)
N
i=1

et la moyenne a posteriori par :


N
1 X
Ê(θ|x) ' θi . (21)
N
i=1

Question
→ Comment construire cette suite d’échantillons ?
→ Deux algorithmes d’échantillonage stochastique
• Algorithme de Metroplois-Hastings.
• Algorithme de Gibbs.
23/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Algorithme de Metropolis-Hastings

Principe
• Algorithme itératif construisant une suite d’échantillons suivant la distribution a
posteriori π(θ|.)
→ 1 : tirage d’un échantillon initial θ 0
→ 2 : pour i = 1, ..., N
• Proposition d’un échantillon θ ? selon le noyau de Markov q(.|θ i−1 ).
• Calcul du taux d’acceptation de cet échantillon :
 
π(θ ? |.) q(θ i |θ ? )
α = min 1, (22)
π(θ i−1 |.) q(θ ? |θ i )

• On assigne θ i à θ ? avec une probabilité α, θ i reste fixée à θ i−1 avec une


probabilité 1 − α.
→ 3 : N échantillons {θ i }N
i=1 approchant π(θ|.).

24/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Algorithme de Gibbs

Principe
• Simulation d’échantillons {θ 1 , . . . , θ N } en les tirant selon les conditionnelles
π j (.|θ −j ) de chaque variable θj de θ i
• pour i = 1, . . . , N
• pour j = 1, . . . , p
θij ∼ gj (.|θi1 , . . . , θij−1 , θi−1
j+1 p
, . . . , θi−1 )

Remarque
• Il est possible de montrer que l’algorithme de Gibbs est un cas particulier de
l’algorithme de Metropolis-Hastings.

25/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

1 Motivations

2 Approche bayesienne
Rappel approche fréquentiste
Principe bayesien
Modèles a priori

3 Estimation bayesienne
Estimation analytique
Estimation par simulation

4 Méthodes bayesiennes : application


Modèle autorégressif
Simulations

26/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Méthodes bayesiennes : application

Estimation des paramètres d’un modèle autorégressif


• Modèle autorégressif d’ordre 1 :

xk+1 = a xk + bk+1 bk+1 ∼ N (0, σ 2 ), |a| < 1 ∀k ∈ {1, . . . n − 1} (23)

• a et σ 2 sont des paramètres inconnus à estimer.


• Soit x = [x1 , . . . , xn ]> l’ensemble des observations, nous cherchons à déterminer
la distribution a posteriori suivante :

p(a, σ 2 |x) ∝ p(x|a, σ 2 ) p(a, σ 2 ), (24)

admettant une forme analytique compliquée.


• Méthode utilisée :
→ génération d’échantillons {ai , σi 2 }N
i=1 par un algorithme MCMC.

27/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Expression des distributions

→ Expression de la vraisemblance :
n−1
P
− 12 (xk+1 −a xk )2
1 2σ
p(x|a, γ) = √ exp k=1 (25)
2 π σ2
1
→ Définitions de deux lois a priori sur a et γ = :
σ2

• Distribution uniforme pour a :

π(a) = U[−1,1] (a) (26)

• Distribution gamma Γ(αo , βo ) pour γ :

βoαo −
γ
π(γ) = exp βo γ (αo −1) 1R+ (γ) (27)
Γ(αo )

→ avantage de la distribution gamma : elle est conjuguée selon une vraisemblance


gaussienne → : π(a|x, γ) est également une distribution gamma.

28/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Expressions des distributions

→ Expression de la distribution a posteriori

(a−α)2 N−1 −β
γ
π(a, γ|x) ∝ exp−γ 2 γ( 2
+αo −1)
exp o (28)

n−1
P n−1
P
avec α = xk xk+1 / xk2
k=1 k=1

Par conséquent :

π(a|x, γ) = N (a; α, γ) (29)


(
N −1 2 βo
 
π(γ|x, a) = Γ γ, + αo , 2
(30)
2 2 + (a − α) βo

→ Utilisation d’un algorithme de Gibbs pour échantillonner selon π(a|x, γ) et


π(a|x, γ) afin d’en déduire π(a, γ|x)

29/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Algorithme utilisé

Procédure
→ Initialisation : a1 ∼ U[−1,1] (a), γ1 ∼ Γ(αo , βo )
→ Pour i = 2, ..., N
• ai ∼ N (.; α, γi−1 )
N−1 2 βo
• γi ∼ Γ(.; 2
+ αo , )
2 + (ai−1 − α)2 βo
fin
→ Sorties : {ai , γi }N N N
i=1 ∼ π(a, γ|x), {ai }i=1 ∼ π(a|x), {γi }i=1 ∼ π(γ|x).

30/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Simulations

→ Résultats obtenus pour un modèle autorégressif simulé avec a = 0.5 et γ = 1 et


n = 1000.
→ Tracé des moyennes a posteriori estimées au cours des itérations (N = 500).

1.6

1.4

1.2

0.8

0.6

0.4
0 100 200 300 400 500

Evolution des moyennes a posteriori de a et γ.

31/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Simulations

→ Allure des distributions "marginales" a posteriori π(a|x) et π(γ|x) fournies par


leurs histogrammes.

Histogramme des échantillons {ai }N


i=1 Histogramme des échantillons {γ i }N
i=1

32/32

Vous aimerez peut-être aussi