Probastat Section3
Probastat Section3
Probastat Section3
Distribution conjointe
On peut simultanément définir plus d'une variable aléatoire à partir d'une même
expérience aléatoire. La présente section aborde l'étude simultanée de deux
variables aléatoires X et Y définies à partir d'une même expérience aléatoire dont
l'ensemble fondamental des résultats est Ω = {ω1, ω2, ... , ωn}.
Soit SX = {x1, ... , xk} et SY = {y1, ... , ym} les supports respectifs des variables
aléatoires X et Y.
Pour i = 1, ... , k et j = 1, ... , m; on note la probabilité P(X=xi, Y=yj) par p ij .
k m
On obtient alors: p ij ≥ 0, pour i = 1, ... , k et j = 1, ... , m, et ∑ ∑ pij = 1.
i =1 j = 1
p ij , si x = xi et y = yj , où i = 1, ... , k et j = 1, ... , m;
P(X=x, Y=y) =
0, sinon.
Distributions marginales
À partir du tableau croisé de la distribution conjointe, il suffit de faire les somme des
lignes et celles des colonnes pour déduire les distributions marginales de X et Y.
m m
P( X = x i ) = ∑ P( X = x i , Y = y j ) = ∑ pij = pi• , (somme de la ligne i), i = 1, 2,...,k.
j =1 j =1
k k
P( Y = y j ) = ∑ P( X = x i , Y = y j ) = ∑ pij = p• j , (somme de la colonne j), j = 1, 2,...,m.
i =1 i =1
Y Distribution marginale de X :
y1 y2 ... ym Somme x x1 x 2 ... x k
x1 p11 p12 ... p1m p1• P(X=x) p1• p 2 • ... p k •
X x2 p21 p22 ... p2m p2• ⇒
... ... ... ... ... ... Distribution marginale de Y :
xk pk1 pk2 ... pkm pk• y y1 y 2 ... y m
Somme p•1 p•2 ... p•m 1 P(Y=y) p •1 p • 2 ... p • m
Exemple 3.1.1
Soit X et Y deux variables y
20 21 22
aléatoires discrètes dont la
12 0,063 0,051 0,036
distribution conjointe est x 13 0,077 0,077 0,066
donnée par le tableau ci-contre. 14 0,098 0,140 0,112
15 0,042 0,112 0,126
P( X = x i , Y = y j )
et, pour i = 1, ... , k , P( Y = y j | X = x i ) = , j = 1, ... , m .
P( X = x i )
Exemple 3.2.1
Étudions de nouveau les variables aléatoires X et Y de l’exemple 3.1.1.
y 20 21 22 Somme
P(Y=y|X=12) 0,063 / 0,150 = 0,42 0,051 / 0,150 = 0,34 0,036 / 0,150 = 0,24 1,00
P(Y=y|X=13) 0,077 / 0,220 = 0,35 0,077 / 0,220 = 0,35 0,066 / 0,220 = 0,30 1,00
P(Y=y|X=14) 0,098 / 0,350 = 0,28 0,140 / 0,350 = 0,40 0,112 / 0,350 = 0,32 1,00
P(Y=y|X=15) 0,042 / 0,280 = 0,15 0,112 / 0,280 = 0,40 0,126 / 0,280 = 0,45 1,00
En pratique, une situation très usuelle est celle où l'on connaît la distribution
marginale de la variable X de même que les distributions conditionnelles de Y étant
donné chacune des valeurs que peut prendre X. On peut alors déduire la distribution
conjointe de X et Y puis la distribution marginale de Y.
Exemple 3.2.2
Les tableaux ci-dessous donnent les distributions conditionnelles de Y étant donné
chacune des 3 valeurs que peut prendre X de même que la distribution marginale de
X.
y 0 1 2 3 x P(X=x)
P(Y=y|X=0) 0,4 0,3 0,2 0,1 0 0,4
P(Y=y|X=1) 0,2 0,4 0,3 0,1 1 0,5
P(Y=y|X=2) 0,0 0,2 0,3 0,5 2 0,1
On peut utiliser les distributions conditionnelles pour calculer des espérances et des
variances conditionnelles.
Exemple 3.2.3
Dans l’exemple 3.2.2, la distribution conditionnelle de Y étant donné X=0 est :
y 0 1 2 3
P(Y=y|X=0) 0,4 0,3 0,2 0,1
Définition :
2 variables aléatoires discrètes X et Y, définies à partir du même ensemble
fondamental Ω sont indépendantes en probabilité si et seulement si :
P(X=x, Y=y) = P(X=x) P(Y=y), pour tout x et pour tout y.
Définition équivalente :
On peut également définir l’indépendance à partir des distributions conditionnelles.
Par exemple : les k distributions conditionnelles de Y étant donné que X = xi ,
où i = 1,...,k, sont toutes identiques à la distribution marginale de Y si et seulement si
les variables aléatoires X et Y sont indépendantes en probabilité.
Exemple 3.3.1
Les variables aléatoires de l’exemple 3.1.1 ne sont pas indépendantes en probabilité.
Trois arguments équivalents peuvent être utilisés pour le démontrer. Dans la
pratique, un seul suffit.
Argument 1 (voir l’exemple 3.1.1) : Il existe des valeurs x et y telles que P(X=x, Y=y)
≠ P(X=x) P(Y=y). Par exemple : P(X=12, Y=20) ≠ P(X=12) P(Y=20).
OU
Argument 2 (voir l’exemple 3.2.1) : Les distributions conditionnelles de X étant donné
que Y = y, où y est une valeur possible pour Y, ne sont pas toutes identiques.
OU
Argument 3 (voir l’exemple 3.2.1) : Les distributions conditionnelles de Y étant donné
que X = x, où x est une valeur possible pour X, ne sont pas toutes identiques.
Exemple 3.4.1
Calculons E(XY) pour les variables X et Y de l’exemple 3.1.1.
Distribution conjointe de X et Y.
y
20 21 22
12 0,063 0,051 0,036
x 13 0,077 0,077 0,066
14 0,098 0,140 0,112
15 0,042 0,112 0,126
Covariance
On peut définir la covariance de X et Y par Cov(X,Y) = E( {X − E( X)}{Y − E( Y )} ) .
On peut démontrer que Cov(X,Y) = E(XY) - [E(X) E(Y)] .
Coefficient de corrélation linéaire
On peut définir le coefficient de corrélation linéaire (de Pearson) par:
Cov( X, Y )
ρ( X, Y ) = .
Var ( X) Var ( Y )
Exemple 3.4.2
Utilisons les variables aléatoires X et Y de l’exemple 3.1.1 pour illustrer le calcul de la
covariance et du coefficient de corrélation linéaire.
Le seul calcul à effectuer à partir du tableau de la distribution conjointe est celui que
nous avons effectué dans l’exemple 3.4.1, c’est-à-dire E(XY) = 289,949 . Les autres
calculs proviennent des distributions marginales de X et Y.
x 12 13 14 15
P(X=x) 0,15 0,22 0,35 0,28
E(X) = (12 x 0,15) + (13 x 0,22) + (14 x 0,35) + (15 x 0,28) = 13,76
E(X2) = (122 x 0,15) + (132 x 0,22) + (142 x 0,35) + (152 x 0,28) = 190,38
Var(X) = E(X2) − [E(X)]2 = 190,38 − (13,76)2 = 1,0424
y 20 21 22
P(Y=y) 0,28 0,38 0,34
Exemple 3.4.3
Soit T = 2X − 5 et W = −3Y + 4, où X et Y sont les variables aléatoires pour
lesquelles nous avons calculé Cov(X,Y) et ρ(X,Y) dans l’exemple 3.4.2.
ρ(T, W) = − 0,2038 .
Conséquences de l’indépendance
Si les variables aléatoires X et Y sont indépendantes en probabilité, alors:
1) E(XY) = E(X)E(Y),
2) Cov(X,Y) = 0 ,
3) ρ(X,Y) = 0,
Exemple 3.4.4
Revenons à la question traitée à l’exemple 3.3.1, c’est-à-dire l’identification de
différents arguments pour pouvoir affirmer que les variables X et Y de l’exemple 3.1.1
ne sont pas indépendantes.
Nous pourrions utiliser les résultats des calculs effectués aux exemples 3.4.1 et 3.4.2
pour démontrer que ces variables ne sont pas indépendantes. Les 3 arguments qui
suivent sont équivalents (en pratique, un seul suffit).
Argument 1 :
E(XY) ≠ E(X)E(Y) ⇒ X et Y sont corrélées ⇒ X et Y ne sont pas indépendantes
Argument 2 :
Cov(X,Y) ≠ 0 ⇒ X et Y sont corrélées ⇒ X et Y ne sont pas indépendantes
Argument 3 :
ρ( X, Y ) ≠ 0 ⇒ X et Y sont corrélées ⇒ X et Y ne sont pas indépendantes
Exemple 3.5.1
Soit X et Y deux variables aléatoires telles que
E(X) = 50, σ(X) = 10, E(Y) = 40, σ(Y) = 5 et Cov(X,Y) = 25.
Combinaison linéaire
Soient a, b et c des constantes réelles. On peut démontrer que:
1) E(aX + bY + c) = aE(X) + bE(Y) + c ;
2) Var(aX + bY + c) = a2 Var(X) + b2 Var(Y) + 2ab Cov(X,Y).
Exemple 3.5.2
Soit W = 3X − 4Y + 25, où X et Y sont les variables aléatoires présentées à l’exemple
3.5.1.
Exemple 3.5.3
Développons les formules ci-dessus pour 3 variables aléatoires.
E(X1+X2+X3) = E(X1) + E(X2) + E(X3)
Var(X1+X2+X3) = Var(X1) + Var(X2) + Var(X3)
+ 2 Cov(X1, X2) + 2 Cov(X1, X3) + 2 Cov(X2, X3)
n n
1) E ∑ a i Xi + b = ∑ a i E( Xi ) + b
i =1 i =1
n n n −1 n
2) Var ∑ a i X i + b = ∑ a i2 Var ( X i ) + 2 ∑ ∑ ai a j Cov( X i , X j )
i = 1 i =1 i =1 j = i + 1
Généralisation
Lorsque n variables aléatoires X1, X2, ... , Xn sont non corrélées, c’est-à-dire lorsque
toutes les covariances sont nulles, la variance de leur somme est égale à la somme
de leurs variances. Une telle situation se produit, entre autres, lorsque les n
variables sont indépendantes.
3.6 – PROBLÈMES
a) Montrer quel les valeurs à terme espérées des 2 placements sont les mêmes.
b) Les valeurs à terme espérées des 2 placements étant les mêmes, on peut
considérer que le placement le plus risqué est celui dont l’écart-type de la valeur
à terme est le plus élevé. Lequel des deux placements étudiés est le plus risqué?
d) Sous l’hypothèse que la valeur à terme d’un investissement dans un fonds donné
est totalement indépendante de celle dans l’autre fonds, laquelle des stratégies
décrites en c) est la moins risquée?
e) Étant donné que les facteurs exogènes qui peuvent influencer la valeur à terme
d’un investissement dans un fonds donné ont de forte chances d’influencer de
façon comparable la valeur à terme d’un investissement dans l’autre fonds,
l’hypothèse émise en d) peut être questionnée. Répondre de nouveau à la
question d) en supposant que les variables X et Y sont corrélées et que ρ(X,Y) =
0,8.
a) E(X) = E(Y) = 1,05. Aucun calcul n’est nécessaire compte tenu que les deux
distributions étudiées sont symétriques par rapport à 1,05.
c) Pour toutes les stratégies étudiées, la valeur à terme peut s’écrire aX + bY, où a
et b sont tels que a + b = 2 000. La valeur à terme espérée est donc toujours :
E(aX+bY) = aE(X)+bE(Y) = (a+b)1,05 = 2 100 .
Étant donné qu’on connaît les valeurs de σ2(X) et σ2(Y), il s’agit d’un calcul qui
peut se faire très rapidement dans Minitab ou Excel. On trouve que la stratégie
la moins risquée est celle qui consiste à investir 900$ dans le fonds A et 1100$
dans le fonds B. L’écart-type de la valeur à terme est alors de 97,44$
Stratégie a b Var(aX+bY) σ(aX+bY)
1 0 2000 17465,6 132,157
2 100 1900 15814,7 125,757
3 200 1800 14355,1 119,813
4 300 1700 13086,9 114,398
5 400 1600 12010,0 109,590
6 500 1500 11124,4 105,472
7 600 1400 10430,1 102,128
8 700 1300 9927,2 99,635
9 800 1200 9615,6 98,059
10 900 1100 9495,3 97,444
11 1000 1000 9566,4 97,808
12 1100 900 9828,8 99,140
13 1200 800 10282,5 101,403
14 1300 700 10927,5 104,535
15 1400 600 11763,9 108,462
16 1500 500 12791,6 113,100
17 1600 400 14010,6 118,366
18 1700 300 15421,0 124,181
19 1800 200 17022,7 130,471
20 1900 100 18815,7 137,170
21 2000 0 20800,0 144,222
D’où : σ(aX+bY) = a 2 σ 2 ( X) + b 2 σ 2 ( Y ) + 2a b ρ( X, Y ) σ( X) σ( Y )
Étant donné qu’on connaît les valeurs de ρ(X,Y), σ2(X) et σ2(Y), il s’agit de calculs
qui peuvent se faire très rapidement dans Minitab ou Excel. On trouve que la
stratégie la moins risquée est celle qui consiste à investir 600$ dans le fonds A et
1400$ dans le fonds B. L’écart-type de la valeur à terme est alors de 129,75$ .
Explication : pour déduire une probabilité donnée, par exemple P(X2 = 0), il suffit
d'additionner les probabilités correspondantes dans le tableau construit en a).
P(X2 = 0) = 120/720 + 120/720 + 120/720 + 72/720 = 432/720.