Public2015 A2

Agrégation externe de mathématiques
Épreuve de modélisation, option A : Probabilités et Statistiques
(Texte public)
Résumé : Nous abordons certaines questions relatives à l’inférence statistique de données
issues de modèles de survie, lorsque ces données sont censurées, c’est à-dire partiellement
observées.
Mots clefs : Loi exponentielle, loi du Chi-deux, simulation de variables aléatoires, intervalle
de confiance, test.
I Il est rappelé que le jury n’exige pas une compréhension exhaustive du texte. Vous êtes
laissé(e) libre d’organiser votre discussion comme vous l’entendez. Des suggestions de
développement, largement indépendantes les unes des autres, vous sont proposées en fin
de texte. Vous n’êtes pas tenu(e) de les suivre. Il vous est conseillé de mettre en lumière
vos connaissances à partir du fil conducteur constitué par le texte. Le jury appréciera
que la discussion soit accompagnée d’exemples traités sur ordinateur.
1. Introduction
On souhaite mesurer l’influence d’un traitement médical sur des malades. Pour cela, on
observe la réalisation de n variables aléatoires qui mesurent l’intervalle de temps entre la
prise du traitement et la rechute de la maladie (ou pire) de chaque patient d’un groupe de n
personnes malades. L’efficacité du traitement peut se "lire" sur la fonction de risque instan-
tané de ce temps de "survie", selon la terminologie, que l’on définit ci-dessous. On va s’inté-
resser plus particulièrement au cas où, pour des raisons expérimentales, certaines données
sont "censurées", dans un sens que l’on précisera ci-dessous.
1.1. Fonction de risque instantané

Si T est une variable aléatoire positive, absolument continue, de densité continue sur
]0, +∞[, on définit sa fonction de risque instantané λ(t ) à l’instant t par
1
(1) λ(t ) = lim P{t ≤ T < t + h | T ≥ t },
h→0,h>0 h
lorsque cela a un sens. On parle indifféremment de la fonction de risque instantané de T ou

de la loi de T .
Pour alléger la terminologie et les notations, nous ne distinguerons pas une variable aléa-
toire de sa réalisation. Nous nous autorisons l’abus de langage (et de notation) consistant à
dire que l’on a "observé une variable aléatoire T ".
Page 1/5
(Texte public) Option A : Probabilités et Statistiques
Lemme 1. La fonction de risque instantané caractérise la loi de T . La densité f de T s’obtient

à partir de (1) par la formule
Z t
f (t ) = λ(t ) exp − λ(u)d u .
¡ ¢
0
2. Inférence statistique en l’absence de censure
2.1. Estimation de la fonction de risque instantané constante

On observe un n-échantillon (T1 , . . . , Tn ) de temps de rechute de malades après la prise
d’un traitement médical. Les variables aléatoires Ti sont indépendantes et ont la même fonc-
tion de risque instantané, supposée constante égale à λ, quantité inconnue.
Pour estimer λ à partir de l’observation des Ti , le principe du maximum de vraisemblance
consiste à définir la fonction de vraisemblance
(2) λ 7→ L n (λ; T1 , . . . , Tn ) = f λ (T1 ) · · · f λ (Tn )
où f λ (x) = λ exp(−λx) désigne la densité commune des Ti . Puis, la valeur λ̂(T1 , . . . , Tn ) qui
maximise L n (λ; T1 , . . . , Tn ), lorsqu’elle est bien définie, fournit un estimateur de λ, appelé
estimateur du maximum de vraisemblance de λ. Ainsi, l’estimateur du maximum de vrai-
semblance est la valeur de λ qui maximise la densité conjointe
f λ (t 1 ) · · · f λ (t n )
du n échantillon au point (t 1 , . . . , t n ) = (T1 , . . . , Tn ). Dans notre cas,
L n (λ; T1 , . . . , Tn ) = λn exp [−λVn (T1 , . . . , Tn )] ,
Pn
avec Vn (t 1 , . . . , t n ) = i =1 t i .
Lemme 2. L’estimateur du maximum de vraisemblance est bien défini et vaut

n
λ̂n (T1 , . . . , Tn ) = .
Vn (T1 , . . . , Tn )
2.2. Construction d’intervalles de confiance

La transformée de Laplace de λT j est donnée par
ξ 7→ E{e −ξλT j } = (1 + ξ)−1 ,
de sorte que la transformée de Laplace de λVn (T1 , . . . , Tn ) est ξ 7→ (1 + ξ)−n . Donc la variable
aléatoire λVn (T1 , . . . , Tn ) suit une loi Gamma de paramètres n et 1. De manière équivalente,
2λVn (T1 , . . . , Tn ) suit une loi du Chi-deux à 2n degrés de liberté. Ces remarques permettent
de construire des intervalles de confiance (non-asymptotiques) pour la valeur λ.
Lemme 3. Pour tout α ∈]0, 1[, notons χ2α (2n) un quantile d’ordre α de la loi du Chi-deux à 2n
degrés de liberté, c’est-à-dire tout nombre vérifiant
P{Z ≤ χ2α (2n)} = α,
Page 2/5
où Z est une variable aléatoire qui suit la loi du Chi-deux à 2n degrés de liberté. Alors, les
intervalles
1
[0, λ̂n (T1 , . . . , Tn )χ21−α (2n)],
2n
1
[ λ̂n (T1 , . . . , Tn )χ2α (2n), +∞[,
2n
et
1 1
[ λ̂n (T1 , . . . , Tn )χ2α/2 (2n), λ̂n (T1 , . . . , Tn )χ21−α/2 (2n)]
2n 2n
sont des intervalles de confiance pour λ au niveau de confiance 1 − α.
3. Inférence statistique en présence de censure

On suppose désormais que les n patients sont soumis au traitement, mais que l’on arrête
l’expérience lorsque les d premiers patients rechutent. En effet, si n est grand et que le trai-
tement est efficace, le protocole consistant à attendre que les n patients aient tous rechuté
peut se révéler trop long dans la pratique.
On réordonne par ordre croissant les d premiers instants de rechute parmi les observa-
tions (T1 , . . . , Tn ), que l’on écrit
T(1,n) ≤ T(2,n) ≤ . . . ≤ T(d ,n) .
Les inégalités sont en fait strictes presque-sûrement et les variables (T(1,n) , T(2,n) , . . . , T(d ,n) )
constituent l’observation de l’expérience censurée.
Il s’agit désormais de mesurer la perte d’information de l’expérience censurée, où l’on
observe (T(1,n) , T(2,n) , . . . , T(d ,n) ) contre l’expérience non censurée, où l’on observe (T1 , . . . , Tn ),
mais plus difficile à réaliser dans la pratique.
Lemme 4. La fonction de vraisemblance censurée L cn,d (λ; T(1,n) , . . . , T(d ,n) ) est donnée par
λd n! h i
L cn,d (λ; T(1,n) , . . . , T(d ,n) ) = c
exp −λVn,d (T(1,n) , . . . , T(d ,n) ) ,
(n − d )!
où
d
c
X
Vn,d (t 1 , . . . , t d ) = t i + (n − d )t d .
i =1
De, plus, l’estimateur du maximum de vraisemblance est bien défini et vaut
d
λ̂cn,d (T(1,n) , . . . , T(d ,n) ) = c .
Vn,d (T(1,n) , . . . , T(d ,n) )
La preuve du lemme s’obtient en calculant la densité conjointe des d premières valeurs

réordonnées de (T1 , . . . , Tn ), que nous notons g (t 1 , . . . , t d ), définie sur 0 ≤ t 1 ≤ t 2 < . . . ≤ t d .
Pour cela, nous proposons le raisonnement infinitésimal (et informel) suivant : on parti-
tionne l’axe des temps en les intervalles [0, t 1 [, [t 1 , t 1 + d t 1 [, [t 1 + d t 1 , t 2 [, . . ., [t d , t d + d t d [,
[t d + d t d , +∞[. Puis, on "lance" au hasard n points dans ces intervalles, suivant le schéma
Page 3/5
multinômial suivant : on affecte respectivement les probabilités 0, 1/n, 0, . . . , 1/n, (n − d )/n,

pour chaque intervalle, écrit dans cet ordre. Ceci donne lieu à la probabilité infinitésimale
n! d
exp [−(n − d )λt d ] λ exp (−λt i ) d t i ,
Y
(n − d )! i =1
d’où l’on déduit la densité

λd n! h
c
i
(3) g (t 1 , . . . , t d ) = exp −λVn,d (t 1 , . . . , t d ) .
(n − d )!
Le lemme découle alors facilement de la formule (3).
Pour construire un intervalle de confiance de λ à partir de λ̂cn,d (T1 , . . . , Tn ), on a besoin,
c
comme précedemment, de la loi de Vn,d (T(1,n) , . . . , T(d ,n) ). Le changement de variable
(4) u i = (n − i + 1)(t i − t i −1 ), i = 1, . . . , d
où l’on a posé t 0 = 0, a pour jacobien (n − d )!/n!. Il s’ensuit que la loi conjointe des variables
aléatoires Ui = (n − i + 1)(T(i ,n) − T(i −1,n) ), pour i = 1, . . . , d et en convenant T(0,n) = 0, a pour
densité
d
λe −λui
Y
(u 1 , . . . , u d ) 7→
i =1
pour u i ∈ R+ . Donc
d
c
X
2λVn,d (T(1,n) , . . . , T(d ,n) ) = 2λ Ui
i =1
suit une loi du Chi-deux à 2d degrés de liberté, et la construction d’un intervalle de confiance
est la même que pour le cas non-censuré. Il est remarquable que, dans ce cas précis où la
fonction de risque instantané est constante, la même précision statistique est obtenue en
observant d patients jusqu’à ce qu’ils aient tous rechuté, ou n patients jusqu’au temps de
rechute des d premiers.
4. Vers un test d’exponentialité dans le cas de censure
La transformation (4) du paragraphe précédent permet d’aller plus loin dans l’analyse de
la fonction de risque instantané. En écrivant, pour i = 1, . . . , d
U1 U2 Ui
T(i ,n) = + +...+ ,
n n −1 n −i +1
on montre que
1X i 1
E{T(i ,n) } = .
λ j =1 n − j + 1
Ceci suggère une méthode simple pour tester l’hypothèse que la fonction de risque instan-
tanée λ(t ) est constante en présence de censure : le nuage de points des variables T(i ,n) en
fonction des ij =1 (n − j + 1)−1 pour i = 1, . . . , d est grossièrement sur une droite.
P
Page 4/5
Suggestions pour le développement

I Soulignons qu’il s’agit d’un menu à la carte et que vous pouvez choisir d’étudier certains
points, pas tous, pas nécessairement dans l’ordre, et de façon plus ou moins fouillée.
Vous pouvez aussi vous poser d’autres questions que celles indiquées plus bas. Il est très
vivement souhaité que vos investigations comportent une partie traitée sur ordinateur
et, si possible, des représentations graphiques de vos résultats.
— On pourra préciser les preuves des lemmes 1, 2 et 3.
— On pourra donner une preuve de la convergence de λ̂n (T1 , . . . , Tn ) vers λ (dans un sens
que l’on précisera) et exhiber la loi limite de αn (λ̂n (T1 , . . . , Tn ) − λ), pour une certaine
normalisation αn → +∞ lorsque n → ∞, que l’on pourra préciser.
— On pourra simuler les variables (T1 , . . . , Tn ), et se convaincre de la pertinence de l’esti-
mateur du maximum de vraisemblance ainsi que des intervalles déduits dans le lemme
3 (en présence ou absence de censure).
— On pourra donner une preuve précise du lemme 4 (sans nécessairement suivre la mé-
thode suggérée).
— On pourra mettre en oeuvre le test d’exponentialité du paragraphe 4, en réfléchissant
(en particulier) à la simulation d’une variable aléatoire positive dont la fonction de
risque instantané λ(t ) n’est pas constante.
Page 5/5

Public2015 A2

Transféré par

Droits d'auteur :

Formats disponibles

Public2015 A2

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Public2015 A2

Transféré par

Droits d'auteur :

Formats disponibles

Agrégation externe de mathématiques

Épreuve de modélisation, option A : Probabilités et Statistiques

1.1. Fonction de risque instantané

lorsque cela a un sens. On parle indifféremment de la fonction de risque instantané de T ou

Lemme 1. La fonction de risque instantané caractérise la loi de T . La densité f de T s’obtient

2. Inférence statistique en l’absence de censure

2.1. Estimation de la fonction de risque instantané constante

Lemme 2. L’estimateur du maximum de vraisemblance est bien défini et vaut

2.2. Construction d’intervalles de confiance

3. Inférence statistique en présence de censure

La preuve du lemme s’obtient en calculant la densité conjointe des d premières valeurs

multinômial suivant : on affecte respectivement les probabilités 0, 1/n, 0, . . . , 1/n, (n − d )/n,

d’où l’on déduit la densité

4. Vers un test d’exponentialité dans le cas de censure

Suggestions pour le développement

Vous aimerez peut-être aussi