0% ont trouvé ce document utile (0 vote)
211 vues32 pages

Cours Bayesien

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1/ 32

Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Introduction aux statistiques


et à l’estimation bayésienne

LABSIR Samy

1er mai 2020

1/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

1 Motivations

2 Approche bayesienne
Rappel approche fréquentiste
Principe bayesien
Modèles a priori

3 Estimation bayesienne
Estimation analytique
Estimation par simulation

4 Méthodes bayesiennes : application


Modèle autorégressif
Simulations

2/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

1 Motivations

2 Approche bayesienne
Rappel approche fréquentiste
Principe bayesien
Modèles a priori

3 Estimation bayesienne
Estimation analytique
Estimation par simulation

4 Méthodes bayesiennes : application


Modèle autorégressif
Simulations

3/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Motivations : historique

→ 17ieme siècle : premiers travaux de


statistiques bayésiennes par Bayes et
Laplace.
→ 19ième - 20ième siècle : méthodes
fréquentistes supplantent largement
les méthodes bayésiennes
notamment à cause des calculs
infaisables analytiquement.
→ Début années 80 : retour "en force"
de la statistique bayésienne grâce
aux machines de calculs numériques.
Thomas Bayes ( 1702-1761)

4/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Introduction-Motivations

Statistique bayésienne : principe


Determiner la distribution d’un paramètre à partir d’observations statistiques, tout en
prenant en compte une information a priori sur ce paramètre.

Exemple introductif
Une machine à sous disposant d’un bouton donne 1EUR avec une probabilité p
et 0 EUR sinon. On cherche à estimer cette probabilité.
Un informateur nous préviens que 30% des machines à sous ont une probabilité
θ1 de donner 1EUR, le reste a une probabilité θ2 .
Paradigme bayésien : estimer le paramètre p décrivant la distribution de
probabilité des observations ( suite de 1EUR ou EUR) à partir de l’information
apportée.

5/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

1 Motivations

2 Approche bayesienne
Rappel approche fréquentiste
Principe bayesien
Modèles a priori

3 Estimation bayesienne
Estimation analytique
Estimation par simulation

4 Méthodes bayesiennes : application


Modèle autorégressif
Simulations

6/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Rappel approche fréquentiste

Soient {x1 , . . . , xN } ∈ RN un ensemble d’observations ( variables aléatoires )


paramétré par θ ∈ R.
Quelle information apporte les observations vis-à-vis du paramètre ?
Distribution de probabilité des observations sachant θ : f (x1 , . . . , xN |θ) fonction
de vraisemblance.

Estimation fréquentiste
Estimer θ en maximisant f (x1 , . . . , xN |θ) Estimateur maximum de vraisemblance.

Cas gaussien
N
P
− 12 (xi −θ)2

→ On suppose {xi }N 2
i=1 ∼ N (θ, σ ) → f (x1 , . . . , xN |θ) ∝ exp
i=1

N
1 P
→ Estimateur MV de θ : θ̂ = xi
N i=1

7/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Approche bayesienne

Principe générique
→ On dispose d’une information a priori sur le paramètre inconnu θ.
→ Cette information prend la forme d’une loi sur l’espace des paramètres Θ notée
π et nommée loi a priori.
→ θ devient une variable aléatoire et on note θ ∼ π.
→ Les notions de l’approche fréquentiste sont remplacées par des notions de
probabilités, d’indépendance et de densités de probabilité conditionnelles à θ.

Modèle Bayésien
Donné par l’information de deux lois :
Loi de la donnée xi ∼ f (x |θ)
Loi de θ ∼ π(θ)
→ Détermination de la distribution a posteriori de θ sachant les observation
x = {x1 , . . . xN } par la règle de Bayes.

P(A ∪ B)
Si A et B deux évenements d’un univers Ω, P(A|B) = (1)
P(B)

8/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

4 cas possibles :
• Si θ et x sont des variables aléatoires ( v.a.) discrètes :

P(x = xi |θ) P(θ = θi )


P(θ = θi |x = xi ) = (2)
P(x = xj )

• Si θ est une va. discrète et x une v.a. continue :


f (x|θ = θi ) P(θ = θi )
P(θ = θi |x) = (3)
f (x)

• Si θ est une va. continue et x une v.a. discrète :


P(x = xi |θ) f (θ)
f (θ|x = xi ) = (4)
P(x = xi )

• Si θ est une va. continue et x une v.a. continue :


f (x|θ) π(θ)
f (θ|x) = (5)
f (x)

On définit la loi marginale comme la loi des observations


R
→ Cas continu : f (x) = f (x|θ) π(θ)dθ
θ∈θ
P
→ Cas discret : : P(x) = P(x = xj |θ) P(θ = θi )
i∈card(θ)

9/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

→ La loi marginale correspond à la constante de normalisation de la loi a


posteriori.
→ Lorsque nous connaissons la forme de cette loi, il n’est pas utile de la calculer.

π(θ|x) ∝ f (x|θ) π(θ) (6)

Remarque importante
Si nous cherchons à inférer selon θ :
→ Cas fréquentiste : θ n’est pas probabiliste : moins informatif.
→ Cas bayésien : possibilité d’établir des intervalles de confiance sur θ.

10/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Modèles a priori

→ Comment choisir un bon modèle a priori ?

1− Choix basé sur une intuition du stastisticien


2− Choix basé sur la faisabilité des calculs lois conjuguées.
3− Choix basé sur le manque d’information sur le paramètre loi non informative
(Jeffreys).

Lois conjuguées
Une famille de F est dite conjuguée spour la loi si la distribution a posteriori
appartient à F

Lois conjuguées : exemples


f (x|θ) π(θ) π(θ|x)
B(x, n, θ) Be(α, β) Be(α + x, β + n − x)
Γ(µ, θ) Γ(α, β) Γ(α + µ, β + x)

11/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Exemple : cas gaussien


→ Supposons θ distribuée selon une loi π(θ) = N (θo , τ 2 )
θo peut être vu comme le paramètre le plus probable a priori et τ comme son
incertitude associée.
→ Chaque observation xi est supposée distribuée selon π(xi |θ) = N (θ, σ 2 )
→ Distribution a posteriori calculable analytiquement et gaussienne.
2
π(θ|x) = N (θM , σM ) (7)

σ 2 µo + N τ 2 µML 2 τ 2 σ2
θM = σM =
N τ 2 + σ2 N τ 2 + σ2

12/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Loi de Jeffreys
p
π(θ) ∝ I(θ) (8)
Où I(θ) correspond à l’information de Fisher : quantité d’information qu’apporte le
modèle f (x|θ) sur θ.  
∂ 2 logf (x|θ)
I(θ) = −E (9)
∂2θ

→ I(θ) est un indicateur de la quantité d’information apporté par le modèle f (x|θ).


→ Intuitivement, les valeurs de θ pour lesquelles I(θ) est plus grande sont les plus
probables a priori.

Exemple
Si x ∼ N (µ, σ 2 ), la loi de Jeffreys sur θ = (µ, σ 2 ) est π(θ) ∝ σ −2

13/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

1 Motivations

2 Approche bayesienne
Rappel approche fréquentiste
Principe bayesien
Modèles a priori

3 Estimation bayesienne
Estimation analytique
Estimation par simulation

4 Méthodes bayesiennes : application


Modèle autorégressif
Simulations

14/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Estimation bayesienne

Un des objectifs de la statistique bayésienne est d’estimer un paramètre inconnu


θ ∈ Rp à partir de son information a priori.

Estimation bayesienne
• 3 possibilités pour estimer θ :
→ Moyenne a posteriori : estimateur EAP E(θ|x )
−1 1
→ Médiane a posteriori : estimateur MeAP Fθ|x (2)
→ Maximum a posteriori : estimateur MAP arg max π(θ|x).
θ
• Avantage estimateur EAP : optimal au sens du risque quadratique a posteriori.
• Supposons δ un certain estimateur de θ, alors

θEAP = arg min Eθ|x [kθ − δ(x)k2 ] (10)


δ∈R

15/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Retour sur le cas gaussien


→ Dans le cas gaussien, les trois estimateurs MAP, MeAP et EAP sont identiques.

σ 2 µo + N τ 2 µML 2 τ 2 σ2
θ̂ = σM =
N τ 2 + σ2 N τ 2 + σ2
2 fournit un intervalle de confiance sur l’estimateur θ̂.
→ La variance a posteriori σM

→ Influence du nombre d’observations.

0.7 1.4

0.6 1.2

0.5 1

0.4 0.8

0.3 0.6

0.2 0.4

0.1 0.2

0 0
-2 -1 0 1 2 3 4 5 -2 -1 0 1 2 3 4 5 6

Distribution a posteriori pour Distribution a posteriori pour


θo = 0, τ = σ = 1, et N = 2 θo = 0, τ = σ = 1, et N = 10
16/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

→ Influence de la variance a priori

1.5 4.5

3.5

1 3

2.5

0.5 1.5

0.5

0 0
-3 -2 -1 0 1 2 3 4 -2 -1 0 1 2 3 4 5

Distribution a posteriori pour Distribution a posteriori pour θo = 0,


θo = 0, τ = 0.5, σ = 1, et N = 10 τ = 0.1, σ = 1, et N = 10

17/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Estimation par simulation

Rappel :
π(θ) f (x|θ)
π(θ|x) = R (11)
π(θ) f (x|θ) dθ
θ∈Θ

→ f (x|θ) modèle des données.


→ π(θ) modèle a priori.
R
→ f (x) = π(θ)f (x|θ) dx loi marginale.
θ∈Θ

Quand θ de grande dimension, la loi marginale n’est pas calculable analytiquement,


tout comme la moyenne a posteriori :
Z
E(θ|x) = θ f (x|θ) dθ
θ∈Θ

→ Utilisation des méthodes de Monte-Carlo pour approcher ces intégrales.

18/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Méthodes de Monte-Carlo
Rappel
→ Soit p(θ) une distribution de θ et g : Θ → E une fonction intégrable.
→ On se place dans le cas où Θ = Rp . L’idée est d’approcher l’intégrale :
Z
I(θ) = g(θ) p(θ) dθ (12)
θ∈Rp
par :
N
1 X
Î(θ) = g(θ i ) (13)
N
i=1

où {θ i }N
i=1 sont N échantillons tirés selon la loi p(θ).

Pourquoi ?
ˆ est un estimateur non biaisé et convergent de I(θ)
→ I(θ)
→ Il converge asymptotiquement selon une loi normale.

Î(θ) − I(θ) → N (0, K) avec K : variance de l’erreur d’estimation. (14)

19/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Méthodes de Monte-Carlo avancées

Lorsqu’il n’est pas possible d’échantillonner selon p(θ), la méthode de Monte-Carlo


usuelle ne peut s’appliquer. Deux possibilités :

→ Construire une suite d’échantillons à partir d’une densité d’importance :


Echantillonnage par importance.
→ Construire une suite d’échantillons à partir d’une chaine de Markov dont la
distribution est p(θ) : Méthodes MCMC.

20/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Echantillonnage par importance


Principe
→ Trouver une distribution p(θ) dont le support est inclus dans q(θ) et dont nous
pouvons obtenir des échantillons. L’idée est alors d’écrire l’intégrale précédente
par θ par Z
p(θ)
I(θ) = g(θ) q(θ)dθ (15)
θ∈Θ
q(θ)

Par conséquent, un estimateur de θ est fourni par :

N
1 X
Î(θ) = wi g(θ i ) (16)
N
i=1

oN
p(θ i )
n
où {θ i }N
i=1 est un ensemble d’échantillons tirés selon p(θ) et wi =
sont les poids d’importance. q(θ i ) i=1

Remarque
→ Si la densité p est judicieusement choisie, la variance de de Î est plus faible que
la variance de l’estimateur MC classique.

21/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Méthodes MCMC

Principe
→ MCMC : Monte Carlo Markov Chain.
→ Déterminer une chaine de Markov selon son noyau g(θ i+1 |θ i ) tel que sa
distribution invariante correspond à la distribution d’intérêt p(θ).
→ Tirer des échantillons selon g tel que {θ 1 , . . . θ N } suit "environ " la loi p(θ).

Chaine de Markov :
• Suite de variables aléatoires (θ1 , . . . , θN ) ( cas continu ) respectant la propriété :

p(θi |θi−1 , . . . , θ 1 ) = p(θi |θi−1 ) (17)


| {z }
Noyau de Markov

• La distribution invariante de cette chaine vérifie :


Z
g(θ) = g(θ0 ) p(θ|θ0 )dθ0 (18)
θ 0 ∈Θ

22/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

MCMC : détermination de la loi a posteriori


Principe en inférence bayésienne
f (x|θ) π(θ)
π(θ|x) = (19)
f (x)
→ Echantillonner π(θ|x) par une chaine de Markov dont elle est sa distribution
invariante.
→ Soit (θ 1 , . . . , θ N ) une chaine de Markov vérifiant cette propriété. π(.|x ) peut
être approchée par :
N
1 X
π̂(θ|x) = δ(θ − θ i ). (20)
N
i=1

et la moyenne a posteriori par :


N
1 X
Ê(θ|x) ' θi . (21)
N
i=1

Question
→ Comment construire cette suite d’échantillons ?
→ Deux algorithmes d’échantillonage stochastique
• Algorithme de Metroplois-Hastings.
• Algorithme de Gibbs.
23/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Algorithme de Metropolis-Hastings

Principe
• Algorithme itératif construisant une suite d’échantillons suivant la distribution a
posteriori π(θ|.)
→ 1 : tirage d’un échantillon initial θ 0
→ 2 : pour i = 1, ..., N
• Proposition d’un échantillon θ ? selon le noyau de Markov q(.|θ i−1 ).
• Calcul du taux d’acceptation de cet échantillon :
 
π(θ ? |.) q(θ i |θ ? )
α = min 1, (22)
π(θ i−1 |.) q(θ ? |θ i )

• On assigne θ i à θ ? avec une probabilité α, θ i reste fixée à θ i−1 avec une


probabilité 1 − α.
→ 3 : N échantillons {θ i }N
i=1 approchant π(θ|.).

24/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Algorithme de Gibbs

Principe
• Simulation d’échantillons {θ 1 , . . . , θ N } en les tirant selon les conditionnelles
π j (.|θ −j ) de chaque variable θj de θ i
• pour i = 1, . . . , N
• pour j = 1, . . . , p
θij ∼ gj (.|θi1 , . . . , θij−1 , θi−1
j+1 p
, . . . , θi−1 )

Remarque
• Il est possible de montrer que l’algorithme de Gibbs est un cas particulier de
l’algorithme de Metropolis-Hastings.

25/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

1 Motivations

2 Approche bayesienne
Rappel approche fréquentiste
Principe bayesien
Modèles a priori

3 Estimation bayesienne
Estimation analytique
Estimation par simulation

4 Méthodes bayesiennes : application


Modèle autorégressif
Simulations

26/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Méthodes bayesiennes : application

Estimation des paramètres d’un modèle autorégressif


• Modèle autorégressif d’ordre 1 :

xk+1 = a xk + bk+1 bk+1 ∼ N (0, σ 2 ), |a| < 1 ∀k ∈ {1, . . . n − 1} (23)

• a et σ 2 sont des paramètres inconnus à estimer.


• Soit x = [x1 , . . . , xn ]> l’ensemble des observations, nous cherchons à déterminer
la distribution a posteriori suivante :

p(a, σ 2 |x) ∝ p(x|a, σ 2 ) p(a, σ 2 ), (24)

admettant une forme analytique compliquée.


• Méthode utilisée :
→ génération d’échantillons {ai , σi 2 }N
i=1 par un algorithme MCMC.

27/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Expression des distributions

→ Expression de la vraisemblance :
n−1
P
− 12 (xk+1 −a xk )2
1 2σ
p(x|a, γ) = √ exp k=1 (25)
2 π σ2
1
→ Définitions de deux lois a priori sur a et γ = :
σ2

• Distribution uniforme pour a :

π(a) = U[−1,1] (a) (26)

• Distribution gamma Γ(αo , βo ) pour γ :

βoαo −
γ
π(γ) = exp βo γ (αo −1) 1R+ (γ) (27)
Γ(αo )

→ avantage de la distribution gamma : elle est conjuguée selon une vraisemblance


gaussienne → : π(a|x, γ) est également une distribution gamma.

28/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Expressions des distributions

→ Expression de la distribution a posteriori

(a−α)2 N−1 −β
γ
π(a, γ|x) ∝ exp−γ 2 γ( 2
+αo −1)
exp o (28)

n−1
P n−1
P
avec α = xk xk+1 / xk2
k=1 k=1

Par conséquent :

π(a|x, γ) = N (a; α, γ) (29)


(
N −1 2 βo
 
π(γ|x, a) = Γ γ, + αo , 2
(30)
2 2 + (a − α) βo

→ Utilisation d’un algorithme de Gibbs pour échantillonner selon π(a|x, γ) et


π(a|x, γ) afin d’en déduire π(a, γ|x)

29/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Algorithme utilisé

Procédure
→ Initialisation : a1 ∼ U[−1,1] (a), γ1 ∼ Γ(αo , βo )
→ Pour i = 2, ..., N
• ai ∼ N (.; α, γi−1 )
N−1 2 βo
• γi ∼ Γ(.; 2
+ αo , )
2 + (ai−1 − α)2 βo
fin
→ Sorties : {ai , γi }N N N
i=1 ∼ π(a, γ|x), {ai }i=1 ∼ π(a|x), {γi }i=1 ∼ π(γ|x).

30/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Simulations

→ Résultats obtenus pour un modèle autorégressif simulé avec a = 0.5 et γ = 1 et


n = 1000.
→ Tracé des moyennes a posteriori estimées au cours des itérations (N = 500).

1.6

1.4

1.2

0.8

0.6

0.4
0 100 200 300 400 500

Evolution des moyennes a posteriori de a et γ.

31/32
Motivations Approche bayesienne Estimation bayesienne Méthodes bayesiennes : application

Simulations

→ Allure des distributions "marginales" a posteriori π(a|x) et π(γ|x) fournies par


leurs histogrammes.

Histogramme des échantillons {ai }N


i=1 Histogramme des échantillons {γ i }N
i=1

32/32

Vous aimerez peut-être aussi