Biostatistiques. Sakrani

République Algérienne Démocratique et Populaire
Ministère de l’Enseignement Supérieur et de la Recherche

Scientifique
Université 8 Mai 1945 – Guelma
Faculté de Mathématiques et de l’Informatique et Sciences de
la Matière
Département de Mathématiques
Polycopié de cours :
Biostatistiques
3ème Année Licence LMD, Immunologie
Dr. MENACEUR Amor
Guelma 2017
Table des matières
1 Statistiques descriptives à 1 ou 2 variables 1

1.1 Statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Population et échantillon . . . . . . . . . . . . . . . . . . . . . 2
1.3 Séries statistiques à une variable . . . . . . . . . . . . . . . . . 3
1.3.1 Dé…nitions-Tableaux statistiques . . . . . . . . . . . . 3
1.3.2 Paramètre de position et valeurs centrales . . . . . . . 4
1.3.3 Paramètre de dispersion . . . . . . . . . . . . . . . . . 11
1.3.4 Coe¢ cient d’asymétrie . . . . . . . . . . . . . . . . . . 13
1.4 Séries statistiques à 2 variables . . . . . . . . . . . . . . . . . 16
1.4.1 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4.2 Coe¢ cient de corrélation . . . . . . . . . . . . . . . . . 18
1.4.3 Droite de régression linéaire . . . . . . . . . . . . . . . 18
1.5 Exercices sur le chapitre 1 . . . . . . . . . . . . . . . . . . . . 21
1.6 Série de TD N0 1 (2015-2016) . . . . . . . . . . . . . . . . . . . 23
2 Variables Aléatoires 26
2.1 Loi de probabilité, Fonction de répartition . . . . . . . . . . . 27
2.2 Loi d’une variable aléatoire discrète . . . . . . . . . . . . . . . 27
2.3 Loi d’une variable aléatoire à densité . . . . . . . . . . . . . . 28
2.4 Espérance et variance d’une variable aléatoire . . . . . . . . . 29
2.5 Variance et écart type . . . . . . . . . . . . . . . . . . . . . . 30
2.6 Exemples de variables aléatoires discrètes . . . . . . . . . . . . 31
2.7 Exemples de variables aléatoires continues . . . . . . . . . . . 31
2.9 Série de TD N0 2 (2015-2016) . . . . . . . . . . . . . . . . . . . 38
i
3 Théorie d’estimation 40
3.1 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . 40
3.1.1 Méthode de maximum de vraisemblance . . . . . . . . 41
3.2 Estimation par intervalle . . . . . . . . . . . . . . . . . . . . . 43
3.2.1 Intervalle de con…ance de la moyenne . . . . . . . . . . 44
3.2.2 Intervalle de con…ance de la di¤érence de deux moyennes 47
3.2.3 Intervalle de con…ance d’une proportion . . . . . . . . . 47
3.2.4 Intervalle de con…ance de la variance . . . . . . . . . . 48
3.4 Série de TD N0 3 (2015-2016) . . . . . . . . . . . . . . . . . . . 52
4 Tests statistiques 54
4.1 Test de Student (comparaison de deux moyennes) . . . . . . 54
4.2 Comparaison de deux proportions . . . . . . . . . . . . . . . . 57
4.3 Test de Fisher (comparaison de deux variances) . . . . . . . . 58
4.4 Les Tests du Khi-deux . . . . . . . . . . . . . . . . . . . . . 59
4.5 Test de Kruskal-wallis (Test sur échantillons indépendants) . 61
4.7 Série de TD N0 4 (2015-2016) . . . . . . . . . . . . . . . . . . . 65
4.8 Tables statistiques . . . . . . . . . . . . . . . . . . . . . . . . 66
ii
Chapitre 1
Statistiques descriptives à 1 ou
2 variables
1.1 Statistique
Le terme statistique désigne à la fois un ensemble de données d’observa-
tions, et l’activité qui consiste en leur recueil, leur traitement et leur inter-
prétation. Les termes statistiques, ou statistiques (au pluriel) englobent ainsi
plusieurs notions distinctes :
a. D’une part le recensement de grandeurs d’intérêt comme le nombre
d’habitants d’un pays, le revenu moyen par habitant, le nombre de séropositifs
dans la population Algérienne. Nous voyons que la notion fondamentale qui
se dégage de cette énumération est celle de population. Une population est un
ensemble d’objets, d’êtres vivants ou d’objets abstraits (ensemble des mains
de 5 cartes distribuées au bridge...) de même nature.
b. La statistique en tant que science s’intéresse aux propriétés des popula-
tions naturelles. Plus précisément elle traite de nombres obtenus en comptant
ou en mesurant les propriétés d’une population. Cette population d’objets
doit en outre être soumise à une variabilité, qui est due à de très nombreux
facteurs inconnus (pour les populations d’objets biologiques qui nous inté-
ressent ces facteurs sont les facteurs génétiques et les facteurs environnemen-
taux).
c. A ces deux acceptions du terme statistiques (au pluriel) il faut ajouter
le terme statistique (au singulier) qui dé…nit toute grandeur calculée à partir
d’observations. Ce peut être la plus grande valeur de la série statistique
1
CHAPITRE 1. STATISTIQUES DESCRIPTIVES À 1 OU 2 VARIABLES
d’intérêt, la di¤érence entre la plus grande et la plus petite, la valeur de la

moyenne arithmétique de ces valeurs, etc.
*Les statistiques descriptives visent à représenter des données dont on
veut connaître les principales caractéristiques quanti…ant leur variabilité.
1.2 Population et échantillon

On appelle population P un ensemble généralement très grand, voire in-
…ni, d’individus ou d’objets de même nature. Tous les médecins d’Algérie
constituent une population, de même que l’ensemble des résultats possibles
du tirage du loto. Une population peut donc être réelle ou …ctive. Il est le
plus souvent impossible, ou trop coûteux, d’étudier l’ensemble des individus
constituant une population ; on travaille alors sur une partie de la popula-
tion que l’on appelle échantillon. Pour qu’un échantillon permette l’étude de
la variabilité des caractéristiques d’intérêt de la population, il faut qu’il soit
convenablement sélectionné. On parlera d’échantillon représentatif si les indi-
vidus le constituant ont été tirés au sorti dans la population. Si par exemple
on souhaite déterminer les caractéristiques « moyennes » du poids et de la
taille des prématurés masculins on tirera au hasard un certain nombre de
sujets parmi les naissances de prématurés de l’année.
Chaque individu, ou unité statistique, appartenant à une population est
décrit par un ensemble de caractéristiques appelées variables ou caractères.
Ces variables peuvent être quantitatives (numériques) ou qualitatives (non
numériques) :
Quantitatives : pouvant être classées en variables continues (taille,
poids) ou discrètes (nombre d’enfants dans une famille).
Qualitatives : pouvant être classées en variables catégorielles (couleurs
des yeux) ou ordinales (intensité d’une douleur classée en nulle, faible, moyenne,
importante).
Le but d’une étude statistique est généralement de déterminer certaines
caractéristiques moyennes d’une population qu’on appelle aussi un univers.
Les éléments de cette population peuvent être des individus, des objets réels,
ou des éléments abstraits.
Exemples
1. On souhaite déterminer l’âge moyen des habitants d’une ville.
2. On s’intéresse à la consommation moyenne (par Km) de la “popula-
tion”des voitures qui circulent dans un pays.
2
1.3. SÉRIES STATISTIQUES À UNE VARIABLE
1.3 Séries statistiques à une variable

1.3.1 Dé…nitions-Tableaux statistiques
Un ensemble …ni est dit population. Les éléments de sont appelés
individus. Une application de dans R est dit caractère. Le caractère déter-
mine une partition de suivant ses modalités.
Il est souvent di¢ cile, voire impossible, d’observer toutes les données.
On étudiera alors une partie de la population qu’on appelle échantillon. Une
variable X peut-être discrète ou continue.
Variables discrètes
a) Tableau
Soit ni l’e¤ectif de la valeur xi de la variable X.
p
X
On a ni = n et fi = nni la fréquence correspondante.
i=1
Un tableau statistique est présenté sous la forme :
xi x1 x2 ..........xp total
ni n1 n2 ..........np n
fi f1 f2 ..........fp 1
b) Représentation graphique
Diagramme en batons : On porte fi (ou ni ) en ordonnée en fonctionde xi
Diagramme en batons
3
Variables continues - Données groupées

a) Tableau
Les valeurs de la variable X sont regroupées en classes [xi ; xi+1 [ , (i =
1; 2; :::; p) . Une centre de classe ci est choisi pour la classe i (moyenne arith-
métique des deux extrémités). L’e¤ectif et la fréquence de la classe i sont ni
et fi .
Xk
On note par Fk = fi les fréquences cumulées.
i=1
On représente ces données sous la forme du tableau
classes centre de classe ni fi Fi

[x1 ; x2 [ c1 n1 f1 F1
[x2 ; x3 [ c2 n2 f2 F2
... ... ... ... ...
[xp ; xp+1 [ cp np fp Fp
L’amplitude de la classe i est ai = xi+1 xi . Les classes ne sont pas

toujours d’égale amplitude.
b) Représentation graphique
Histogramme : Le rectangle pour chaque classe a pour longueur l’axe
des abscisses, l’amplitude de cette classe et une surface proportionnelle à la
fréquence de la classe.
1.3.2 Paramètre de position et valeurs centrales

Le but des valeurs centrales est de résumer en une seule valeur l’ensemble
des valeurs d’une distribution statistique. Il existe quatre valeurs de posi-
tions :
1- Le mode (M o),
4
2- La moyenne ( X ou m)
3- La médiane ou le médian (Me ou M d)
4- Les fractiles (Quantiles) (Qn )
Parmi ces valeurs les trois premières sont des valeurs de position centrales :
a) Le mode
Le mode : est la valeur la plus fréquente d’une distribution. Cette valeur
se calcule toujours à partir d’un dénombrement des modalités du caractère. Il
faut donc distinguer le cas des caractères discrets et des caractères continus.
- Caractère qualitatif et caractère discret : Pour un caractère quali-
tatif, ou pour un caractère quantitatif discret ayant un nombre de modalités
inférieur au nombre d’éléments, le mode est la modalité ou la valeur qui a la
fréquence simple la plus élevée (ou l’e¤ectif le plus élevé, ce qui revient au
même).
- Caractère quantitatif continu : Les modalités étant en nombre in…ni,
il est peu probable que deux éléments aient la même valeur. Dans ce cas, le
mode ne peut pas être dé…ni directement, il faut au préalable établir une
partition en classes. Le mode est alors le centre de la classe modale, c’est à
dire de la classe qui a la fréquence moyenne la plus élevée.
Le mode correspond à la valeur lue en abscisse du sommet de l’histo-
gramme. Lorsque celui-ci présente deux pics séparés par un creux, on dit que
la distribution est bimodale.
Application : Cas de calcul des modes :
- Cas 1 : Données rangées : le mode est la valeur de la donnée qui apparaît
le plus fréquemment (celle qui a le plus d’occurrences) :
140; 141; 144; 144; 148; 148; 152; 152;

152; 154; 155; 158; 158; 161; 170; 172
Le mode est 152 car il possède le plus grand nombre d’occurrences (il est
référencé 3 fois).
- Cas 2 : Données condensées : le mode est la valeur de la donnée qui
possède la fréquence la plus élevée (relative ou absolue).
Modalités xi (age en années) 14 16 18 21 22 24 25 total

Fréquences absolues 5 12 10 8 11 7 3 56
Fréquences relatives 0:089 0:214 0:179 0:143 0:196 0:125 0:054 1
5
Dans cette série statistique, le mode est égal à M o = 16 ans

- Cas 3 : Données groupées en classes : la classe modale est la classe
ayant la plus haute fréquence (relative ou absolue). Il est possible de calculer
de façon plus précise le mode en appliquant la formule suivante :
1
M o = ai + L
1 + 2
où
: di¤érence entre l’e¤ectif de la classe modale et l’e¤ectif de la classe
1
précédente.
2 : di¤érence entre l’e¤ectif de la classe modale et l’e¤ectif de la classe
qui suit.
ai : Borne inférieur de la classe modale
L : largeur de la classe modale
b) La moyenne arithmétique
Formalisation mathématique de la moyenne arithmétique, noté X ou m,
est la mesure la plus commune de tendance centrale, elle se dé…nit comme la
somme des scores divisée par le nombre de scores. Par exemple, en biologie
la moyenne peut être résumée par la somme des observations divisée par
l’e¤ectif de l’échantillon étudié :
1X
n
m= xi
n i=1
On e¤ectue une moyenne pondérée en assimilant chaque classe j à son

centre xj et en pondérant par l’e¤ectif nj de la classe.
p
1X
m= nj xj
n j=1
Exemples
1-Soit les valeurs de quatre notes : 10; 12; 13 et 16, la moyenne arithmé-
tique est :
(11 + 12 + 13 + 16)=4 = 13
2-Soit la série statistique suivante :
valeurs 0 1 2 3 4
e¤ectifs 1 2 1 4 2
6
0+2 1+2+4 3+2 4

m= = 2:4
1+2+1+4+2
Remarque 1 Si les données ont été regroupées en classes, on ne peut
calculer la valeur exacte de la moyenne. On peut toutefois en déterminer une
bonne approximation en remplaçant chaque classe par son milieu.
Dans les séries statistiques suivantes déterminer les moyennes
a) Tableau de fréquences
valeurs 12 13 14 15 16
f requences 0:05 0:17 0:43 0:30 0:05
b) Données réparties en classes
Classes [0; 5[ [5; 10[ [10; 15[ [15; 20]

E¤ectifs 7 12 14 2
Autres indicateurs de moyenne :

Il existe des indicateurs de la moyenne autre que la moyenne arithmé-
tique. Néanmoins, ils sont moins utilisés en biostatistique car ils ne présentent
d’intérêt que dans des cas très particuliers. Ils ne feront pas l’objet de ces
modules : la moyenne géométrique, la moyenne harmonique, la moyenne qua-
dratique, la moyenne arithmético-géométrique.
c) La médiane et la classe médiane

Dé…nition générale
On appelle médiane la valeur "du milieu". On dit qu’elle partage la série
statistique en deux moitiés : il y a autant de valeurs en dessous qu’au des-
sus. (C’est la donnée qui permet de diviser une série ordonnée d’une façon
croissante en 2 parties égales (50%; 50%). La médiane ne peut être calculée
que pour les caractères quantitatifs.
-Médiane, pour les données rangées
Les valeurs du caractère X étant classées par ordre croissant, la médiane
est la valeur du caractère qui partage l’ensemble décrit par X en deux sous
ensembles d’e¤ectifs égaux : 50% des éléments ont des valeurs de X supé-
rieures à Me et 50%prennent des valeurs inférieures.
Méthode : Soit une série statistique d’e¤ectif total n, rangée par ordre
croissant (x1 ; x2 ; :::; xn ). Pour déterminer son rang, il y a 2 cas :
-Si n = 2p est pair, Me est le centre de l’intervalle [xp ; xp+1 ] :
7
-Si n = 2p + 1 est impaire, Me est le nombre xp+1 :

Exemple 1
Cas de données discrètes "en vrac" 10; 7; 12; 18; 16; 15; 5; 11; 11; 20; 15; 11; 18; 14
Ordonnons la série par ordre croissant : 5; 7; 10; 11; 11; 11; 12; 14; 15; 15; 16; 18; 18; 20
n = 14 est pair, Me est le centre de l’intervalle [12; 14] (La médiane est
donc la demi somme des 7ème et 8ème termes) alors Me = 13:
-Médiane, pour les données condensées
La dé…nition est la même, elle correspond dans ce cas à la première mo-
dalité ou valeur dont la fréquence relative cumulée dépasse 0:5 ou l’e¤ectif
cumulé dépasse les 50%.
Il faut calculer les fréquences ou les e¤ectifs cumulés dès que celle-ci at-
teint respectivement 0:5 ou 50% il su¢ t de choisir le nombre à mi chemin
entre la modalité ou valeur concernée et la suivante.
Cas d’un tableau d’e¤ectifs
On ordonne le tableau, et on cherche l’élément qui partage la distribution
en deux parties égales : on repère l’élément qui a le rang (N + 1)=2 pour
le caractère X. Si la distribution a un nombre impair d’éléments on trouve
une valeur unique qui est la médiane, si la distribution a un nombre pair
d’éléments, on trouve deux valeurs qui déterminent un intervalle médian : on
prend alors pour médiane le centre de cet intervalle médian.
valeurs e¤ectifs e¤ectifs cumulées

1 6 6
2 11 17
3 25 42
4 19 61
5 15 76
6 5 81
L’e¤ectif total est de 81 or la valeur de rang 81+1

2
= 41
eme
La médiane est donc le 41 terme : médiane = 3
Médiane d’une série statistique continue
Si les données ont été regroupées en classes, on ne peut déterminer la
valeur exacte de la médiane. En revanche, on appellera classe médiane, la
classe qui la contient (et permet donc d’en donner un encadrement).
La classe médiane est la première classe où la fréquence cumulée est
supérieure à 0; 50
8
Exemple 2
valeurs e¤ectifs e¤ectifs cumulées fréquence(fi ) fréquence cumulée(fic )

[0:5[ 10 10 0:2 0:2
[5:8[ 8 18 0:16 0:36
[8:12[ 12 30 0:24 0:6
[12:15[ 11 41 0:22 0:82
[15:20[ 9 50 0:18 1
= 50 = 1 =
Utilisons la colonne des e¤ectifs cumulés pour déterminer la médiane, il

ya 50 notes 50% de l’e¤ectif cumulée 25, la médiane se trouve donc dans
l’intervalle [8:12[
Pour préciser la valeur de la médiane, il faut supposer que toutes les don-
nées sont réparties uniformément (c’est-à-dire que les données sont réparties
sur un continuum). On repère la classe qui contient la médiane, puis on réalise
une interpolation linéaire pour estimer la valeur de celle-ci selon la formule
suivante :
(0:5 fic 1 )
M e = ai + L
fi
ai : Borne inférieure de la classe médiane
fic 1 : Fréquence relative cumulée de la classe qui précède la classe mé-
diane.
fi : Fréquence relative de la classe médiane.
L : largeur, amplitude des classes.
Application pour l’exemple précédent :
(0:5 0:36)
Me = 8 + 4 = 10: 333
0:24
Remarque 2 Autre méthode de calcul de la médiane : il est aussi possible
de déterminer la médiane à l’aide des polygones des e¤ectifs cumulés.
d) Quantiles
Il a été vu précédemment que la médiane partage la distribution des
fréquences en 2 parties égales. Il est possible de partager une distribution de
fréquence en 4 parties égales (quartiles), en 10 parties égales (déciles), en 100
parties égales (centiles), en n parties égales. . . .
9
Dé…nition 1 on appelle quantiles les valeurs du caractère qui dé…nissent

les bornes d’une partition en classes d’e¤ectifs égaux.
1-Les quartiles : sont les trois valeurs qui permettent de découper la
distribution en quatre classes d’e¤ectifs égaux. On les notes Q1 ; Q2 et Q3 :
- Q1 : quartile inférieur, 25% des valeurs de la variable lui sont inférieures
et 75% lui sont supérieures
- Q2 : médiane, 50% des valeurs de la variable lui sont inférieures et 50%
lui sont supérieures
- Q3 : quartile supérieur, 75% des valeurs de la variable lui sont inférieures
et 25% lui sont supérieures.
Remarque 3 Q2 est égal à la médiane.
Les déciles sont les 9 valeurs de X qui permettent de découper la dis-
tribution en dix classes d’e¤ectifs égaux. 0n les note Xd1 ...Xd9 .
2-Détermination des valeurs de la variable à partir d’un rang
centile données.
a) Cas des données rangées :
Ck : rang du centile : Il correspond à la donnée dont le rang est l’entier
Nk Nk Nk
qui suit : 100 si 100 n’est pas un entier. Dans le cas contraire si 100 est un
entier, Ck correspond à la données dont la position (le rang) est a mis chemin
Nk
entre le rang donnée par : 100 et la position suivante :
N : nombre total de valeurs dans la série statistique
k : le rang du centile
b) Cas des données groupées en classes :
La classe contenant Ck correspond à la première classe où la fréquence
cumulée atteint ou dépasse 100 , par référence à la formule du calcul de la
médiane (vue précédemment) il est possible d’écrire la formule suivante de
Ck
100
fic 1
Ck = ai + Li
fi
où : ai : Borne inférieure de la classe contenant Ck
fic 1 : Fréquence relative cumulé de la classe qui précède la classe conte-
nant Ck
fi : Fréquence relative de la classe contenant Ck .
Li : largeur, amplitude de la classe contenant Ck
Exemple 3 Soit la série statistique suivante :
58; 59; 64; 64; 64; 68; 71; 71;
79; 82; 82; 85; 92; 92; 92; 95
10
- Trouver les centiles suivants : C15

- Trouver les quartiles : Q2 et Q3
Pour centile C15 : k = 15, le rang de la donnée est déterminé par la
formule
Nk 16 15
= = 2:4
100 100
La valeur n’est pas un entier, le rang est donc le premier entier suivant
2; 4 ainsi C15 correspond au rang 3, ce dernier correspond à la valeur : 64
Pour centile C50 ou quartile Q2 ou la médiane : k = 50 le rang de la
donnée est déterminé par la formule
Nk 16 50
= =8
100 100
La valeur est un entier, Ck correspond à la données dont la position (le
rang) est a mis chemin entre le rang 8 et le rang 9, ainsi Q2 correspond à la
moyenne des valeurs du au rang 8 (qui correspond à la valeur 71) et le rang
9 (qui correspond à la valeur 79) :
71 + 79
Q2 = = 75
2
Pour centile C75 ou quartile Q3 ou la médiane : k = 75 le rang de la
donnée est déterminé par la formule
Nk 16 75
= = 12
100 100
La valeur est un entier, Ck correspond à la données dont la position (le
rang) est a mis chemin entre le rang 12 et le rang 13, ainsi Q3 correspond à
la moyenne des valeurs du au rang 12 (qui correspond à la valeur 85) et le
rang 13 (qui correspond à la valeur 92) :
85 + 92
Q3 = = 88:5
2
1.3.3 Paramètre de dispersion

Dispersion statistique : On appelle dispersion statistique, la tendance
qu’ont les valeurs de la distribution d’un caractère à s’étaler, à se disperser,
de part et d’autre d’une valeur centrale. On distingue la dispersion abso-
lue (mesurée dans l’unité de mesure du caractère) et la dispersion relative
(mesurée par un nombre sans dimension).
11
a) L’étendue de la variation
L’étendue d’une distribution est égale à la di¤érence entre la plus grande
et la plus petite valeur de la distribution :
Etendue de X = Xmax Xmin
plus l’étendu est grande plus les valeurs sont dispersées.
b) Variance et écart-type :
La variance et écart-type servent à évaluer la dispersion d’une distribu-
tion autour d’une valeur centrale, la moyenne. Soit deux séries de microscopes
produits dans deux usines di¤érentes. Nous désirons juger de la standardisa-
tion de chacune des deux séries. Je choisis de comparer le poids maximal de
chaque microscope.
- Si les écarts à la moyenne sont faibles la production est standardisée.
- Si les écarts à la moyenne sont élevés, la production est peu standardisée.
a - Variance : La variance, notée S 2 est la moyenne du carré des écarts

à la moyenne.
1X
n
2
S = (xi m)2
n i=1
-La variance n’est pas un paramètre de dispersion absolue mais plutôt
une mesure globale de la variation d’un caractère de part et d’autre de la
moyenne arithmétique (quantité d’information). Pour obtenir un paramètre
de dispersion absolue, on e¤ectue la racine carrée de la variance S 2 , appelé
écart-type et que l’on note S:
12
-La variance pour des données rangées ou groupées en classe devient :
1X
k
S2 = ni (xi m)2
n i=1
où ni désigne les e¤ectifs de chaque donnée ou de chaque classe.
b - Ecart-type : L’écart type, noté S est la racine carré de la moyenne
du carré des écarts à la moyenne, c’est à dire la racine carrée de la variance.
c- Simpli…cation des écritures des variances
La formule de la variance peut être remplacée par une formule plus facile
à utiliser (formule pratique de calcul) à savoir :
1X
k
S 2
= ni (xi m)2
n i=1
1X
k
= ni x2i m2
n i=1
1.3.4 Coe¢ cient d’asymétrie

Le coe¢ cient d’asymétrie renseigne sur l’asymétrie et éventuellement la
dérive par rapport à une valeur centrale choisie. La distribution d’une va-
riable est symétrique si les observations sont également dispersées de part et
d’autre d’une valeur centrale. Ainsi, dans le cas de distributions symétriques,
moyenne et médiane sont confondues, sinon elles sont distinctes.
Ce coe¢ cient mesure l’asymétrie d’une distribution, il renseigne sur une
asymétrie négative (dissymétrie à gauche), ou une asymétrie positive (dissy-
métrie à droite), c’est-à-dire il précise si la répartition "penche" d’un côté
ou de l’autre. Selon la valeur centrale choisie (mode, médiane ou moyenne
arithmétique), il existe di¤érentes manières de caractériser et de mesurer une
dissymétrie.
a) Les coe¢ cients d’asymétrie de Yule

Le coe¢ cient de Yule est basé sur les écarts de quartiles, tel que :
(Q3 Q2 ) (Q2 Q1 )
Y =
(Q3 Q2 ) + (Q2 Q1 )
Si : Y = 0 ) symétrie parfaite
13
Y > 0 ) la courbe de fréquence étalée à gouche.

Y < 0 ) la courbe de fréquence étalée à droite.
b) Les coe¢ cients d’asymétrie de Pearson

Analyse la position de deux valeurs centrales (le mode et la moyenne
arithmétique) relativisée par la dispersion de la série :
m Mo
P =
S
Si : p = 0 )symétrie parfaite.
p > 0 )oblique à gauche (ou étalement à droite)= dissymétrie à droite.
p < 0 )oblique à droite (ou étalement à gauche)= dissymétrie à gauche.
14
c) Les coe¢ cients d’asymétrie de Fisher

Ce coe¢ cient a été dé…ni par Fisher comme suit :
m3 (x)
=
[S]3
où
1X
k
ml (x) = ni (xi m)l
n i=1
on a
= 0 : la distridution est symétrique.
< 0 : la distribution est symetrique à droite.
> 0 : la distribution est symetrique à gouche.
Exemple 4
classes ni xi ni xi ni x2i ni x3i
50 60 8 55 440 24200 1331000
60 70 10 65 650 42250 2746250
70 80 16 75 1200 90000 6750000
80 90 14 85 1190 101150 8597750
90 100 10 95 950 90250 8573750
100 110 5 105 525 55125 5788125
110 120 2 115 230 26450 3041750
total 65 / 5185 429425 36828625
on trouve
M0 = 75; Me = Q2 = 79:1; Q1 = 68:2; Q3 = 90:7 et m = 79:8

D’ou
(Q3 Q2 ) (Q2 Q1 )
Y = = 0:03;
(Q3 Q2 ) + (Q2 Q1 )
X Mo 79:8 75
P = = = 0:31
S 15:44
et
m3 (x) 1337:31
= 3 = = 0:36
[S] (15:44)3
La distribution est donc légèrement oblique à gouche.
15
1.4 Séries statistiques à 2 variables

L’objectif de cette étude statistique est d’étudier sur une même popula-
tion de N individus, deux caractères di¤érents (ou modalités di¤érentes) et
de rechercher s’il existe un lien ou corrélation entre ces deux variables.
Exemple de relations possibles entre les variables suivantes : taille et âge ;
diabète et poids ; taux de cholestérol et régime alimentaire ; niche écologique
et population ; ensoleillement et croissance végétale ; toxine et réaction méta-
bolique ; survie et pollution ; e¤ets et doses ; organe 1 et 2 ; organe et fonction
biologique ; . . .
Tableaux statistiques
Lorsqu’il n’y a qu’une observation pour un couple (xi ; yi ) on décrit la série
statistique par le tableau
X x1 x2 ... xi ... xn
Y y1 y2 ... yi ... yn
Le couple (xi ; yi ); i = 1; :::; n ; représente la valeur prise par (X; Y ) dans
eme
la i observation. On représente la distribution sous forme d’un nuage de
points dans R2
Dans certaines distributions statistiques bidimensionnelles il est possible

de calculer les moyennes, les variances et les écart-types marginaux.
Pour les moyennes
1X 1X
n n
x= xi et y = yi
n i=1 n i=1
16
1.4. SÉRIES STATISTIQUES À 2 VARIABLES
Pour les variances
1X 2 1X 2
n n
2
V (x) = x x et V (y) = y y2
n i=1 i n i=1 i
1.4.1 Covariance
Une première approche entre de la relation éventuelle des valeurs d’une
variable X avec des valeurs d’une variable Y est donnée par le calcul de la
covariance
1X
n
Cov(x; y) = (xi x)2 (yi y)2
n i=1
Dans cette formule la « co-variance » apparaît bien comme une combinaison

de la variance de X et celle de Y .
Par analogie aux formules précédentes les formules pratiques de calculs
de la covariance peuvent aussi s’écrire :
1X
n
Cov(x; y) = xi yi xy
n i=1
Propriétés de la covariance
- Cov(x; x) = Sx2
- Cov(x; y) Sx Sy
- Le signe de la Cov est un indicateur de la tendance de la relation sens
positif ou négatif (direction d’étirement du nuage de point). Une covariance
positive indique une tendance « croissante » des valeurs de Y en fonction de
X, une covariance négative une tendance « décroissante »
cov(x; y) > 0 cov(x; y) 0 cov(x; y) < 0
17
1.4.2 Coe¢ cient de corrélation

La covariance n’est pas un indicateur indépendant de l’ordre de grandeur
des variables impliquées (de l’unité employée, par exemple). Le coe¢ cient de
corrélation, noté r, permet de résoudre cette di¢ culté. Ce coe¢ cient pour le
couple (X; Y ) s’écrit selon la formule suivante :
cov(x; y)
r=
S x Sy
où Sx et Sy désignent respectivement l’écart-type de la série statistique X et

celui de la séries statistique Y:
Propriété de r
- Pour r = 1, la droite de la pente est croissante.
- Si 0 < r < 1, la corrélation est positive, X et Y varient dans le même
sens.
- Si 1 < r < 0, la corrélation est négative, X et Y varient dans le sens
contraire.
- Si r = 1, la droite de la pente est décroissante.
- Quand (r = 0), aucune tendance ne peut être déterminée.
1.4.3 Droite de régression linéaire

Une droite de régression linéaire s’écrit selon l’équation :
y = ax + b
Cette approche de corrélation repose sur l’hypothèse que la relation entre

deux variables est de nature linéaire. En faite, il est possible de soupçonner
une relation di¤érente entre ces variables :
- courbe de puissance
- courbe exponentielle
- courbe logarithmique,...etc. . .
Cependant, il existe de nombreuses méthodes permettant de « linéariser
» un grand nombre de ces courbes. Ainsi, on se retrouve souvent dans des
situations où il est alors possible de tester l’existence d’une relation linéaire
entre les variables auxiliaires.
En partant de l’équation y = ax+b, a et b doivent être choisis convenable-
ment de sorte que la droite passe au plus proche (ou par le plus possible) des
18
1.4. SÉRIES STATISTIQUES À 2 VARIABLES
points expérimentaux. Pour ce faire, on utilise la méthode des moindres car-

rés : On cherche les coe¢ cients a et b de la droite qui minimise la somme des
carrés des distances entre les points expérimentaux et la droite de régression
(les points théoriques).
- le coe¢ cient a se détermine comme suit :
cov(x; y)
a=
Sx2
- le coe¢ cient b se détermine comme suit :
y = ax + b
Remarques
0 0 0
1-La droit de régréssion D de x en y a pour x = a y + b où
( 0
a = cov(x;y)
Sy2
0 0
x=ay+b
2-Si r = 1, la droite de régréssion passe par touts les points du nuage.
0 0 0
3-r2 = aa tel que (D ) est la droite de régréssion de y en x et (D ) est la
0 0 0
droite de régréssion de x en y; avec (D) :y = ax + b et (D ) : x = a y + b :
Exemple 5 La tableau ci-dessous donne la consommation en milliers de
calories de douze familles en moyenne par jour. Chaque homme adute est
compté pour une "unité de consommation" ; un enfant est compté pour une
part d’unité, dépendant de son age et de son sexe.
n0 de famille unité de consommation xi calories par jour yi
1 5:3 13
2 7:2 18
3 5:6 9:4
4 7:1 15:4
5 5 7:8
6 3:3 9:3
7 5:2 10:1
8 4:5 7:1
9 4 8:9
10 2 4:4
11 5:7 12:1
12 4:7 11:5
Total 59:6 127
19
Calculons le coe¢ cient de corrélation linéaire. A l’iade de ce tableau, on

peut e¤ectuer les calcule suivants :
n0 de famille unité de consommation xi calories par jour yi x2i yi2 x i yi

1 5:3 13 28:09 169 68:9
2 7:2 18 51:84 324 129:6
3 5:6 9:4 31:36 88:36 52:64
4 7:1 15:4 50:41 237:16 109:34
5 5 7:8 25 60:84 39
6 3:3 9:3 10:89 86:49 30:69
7 5:2 10:1 27:04 102:01 52:52
8 4:5 7:1 20:25 50:41 31:95
9 4 8:9 16 79:21 35:6
10 2 4:4 4 19:36 8:8
11 5:7 12:1 32:49 146:41 68:97
12 4:7 11:5 22:09 132:25 54:05
Total 59:6 127 319:46 1495:5 682:06
59:6
x= 12
= 4:97 5 unité de consommation
127
y= 12
= 10: 583 ) y 10: 6 103 calories.
1 X 2
12
Sx2 = x x2
12 i=1 i
319:46
= 4:972 = 1:95
12
) Sx = 1:4
1 X 2
12
Sy2 = y y2
12 i=1 i
146:41
= 10: 582 = 12:62
12
) Sy = 3:55 (3:55 103 calories)
1 X
12
Cov(x; y) = xi yi xy
12 i=1
682:06
= 4:97 10:58 = 4: 26
12
20
1.5. EXERCICES SUR LE CHAPITRE 1
Le coe¢ cient de corrélation est alors :

cov(x; y)
r =
Sx S y
4:26
= = 0:857
1:4 3:55
La droit de régréssion D de y en x a pour y = ax + b
4: 26
a= = 2: 18
1:95
et
b = 10: 583 2: 18 4:97 = 0:25
on a y = 2:18x 0:25 droite d’estimation de y en x
1.5 Exercices sur le chapitre 1

Exercice 1
D’un échantillon d’étudiants de sexe masculin, on a mesuré la masse de
chacun. Les masses ont été arrondies à l’entier. Les données ont été groupées
en 5 classes :
Masses en kg [55; 59[ [60; 64[ [65; 69[ [70; 74[ [75; 79[
Nombre d’étudiants 14 33 47 26 13
-Calculer les caractéristiques : classe modale, médiane, quartiles, le coe¤-

cients de symétrie de Yule ?
Exercice 2
On donne la série suivante indiquant le nombre de réglettes fabriqueés
dans une usine
Longueur xi (en cm) 5 15 25 35 45
E¤ectifs ni (en milliers) 5 7 8 6 4
-Trouver le mode, la moyenne et l’écart type ?

-Calculer le con¤cient de symétrie de Pearson ?
21
Exercice 3
On a relevé l’âga et la pression systolique de 5 patients qui se sont pré-
sentés dans laboratoire :
x : âge 56 42 72 36 63
y : tension 14:7 12:5 16 11:8 14:9
-Tracer le nuage de points dans un repère orthogonal ?

-Déterminer par la méthode des moindres carrés la droite de régression
de y en x ?
-calculer le coe¢ cient de corrélation linéaire. conclution ?
Exercice 4
Cinq personnes soufrant d’obésité suivent un régime d’amincissement. Le
tableau suivant donne le nombre de Kgs perdus par chacune d’elle pendant
la période de cure suivie
Durée X (en mois ) 3 1 2 4 5

Nombre Y de Kg perdus 6 4 5 9 11
1-Calculer la moyenne arithmétique de la variable X et celle de la variable

Y.
2-Calculer la variance de la variable X et celle de la variable Y .
3- Calculer la covariance des variables statistiques X et Y , donner la
droite de régression de Y en fonction X.
22
1.6. SÉRIE DE TD N0 1 (2015-2016)
1.6 Série de TD N01 (2015-2016)

Université 08Mai 1945 Guelma 2015-2016
3ème année Licence : Immunologie Biostatistiques
Série 1
Exercice 1
Soit le tableau statistique donnant le nombre d’enfants dans 116 familles
Nombre d’enfants 0 1 2 3 4 6
Nombre de familles ni 6 18 25 33 21 13
a) Calculer les fréquences correspondantes ainsi que les fréquences cumu-

lées, tracer la courbe des fréquences cumulées.
b) Trouver le mode, la médiane et les quartiles de cette distribution.
c) Trouver la moyenne et l’écart type de cette distribution.
d) Calculer le coe¢ cients de symétrie de Pearson, puis celui de Yule.
Conclusion.
Exercice 2
Soit le tableau donnant le poids de 133 étudiants :
Poids (Klogramme) Nombre ni d’étudiants

de 56 à moins de 58 5
[58; 60[ 12
[60; 62[ 18
[62; 64[ 39
[64; 66[ 36
[66; 69[ 15
[69; 72[ 8
T otal 133
1) Construire l’histogramme de la distribution ainsi que la courbe des

fréquences cumulées.
2) Calculer les caractéristique : classe modale, médiane, quartiles, moyenne
et écart-type.
Exercice 3
Un pharmacien observe, durant les six (6) premier mois de l’ouverture de
son o¢ cine, le chi¤re d’a¤aire en million de Fcfa. Le résultat de l’observation
23
est résumé dans le tableau suivant où x désigne le numéro du mois et y le

chi¤re d’a¤aire correspondant.
x 1 2 3 4 5 6
y 12 13 15 19 21 22
1-Calculer les moyennes x et y

2-Construire le nuage de points.
3-Calculer la variance S 2 et la covariance COV (x; y)
4-Démontrer que la droite de régression de y en fonction de x est
78
y= x + 9:2
35
5-Calculer une estimation du chi¤re d’a¤aire à la …n du 7ème mois.
Exercice 4
Le tableau suivant donne l’âge x et la moyenne y des maxima de tension
artérielle en fonction de l’âge d’une population féminine.
x 36 42 48 54 60 66
y 11:8 14 12:6 15 15:5 15:1
1) Représenter graphiquement le nuage de points dans le plan muni d’un

repère orthogonal.
2) Calculer la moyenne et la variance des séries statistiques aux caractères
x et y.
3) a- Trouver une équation de la droite de régression de y en fonction de
x.
b- Trouver une équation de la droite de régression de x en fonction y.
c- Représenter les deux droites sur le même graphique que celui utilisé
pour le nuage de points.
4) Calculer le coe¢ cient de corrélation linéaire.
5) Une personne de 70 ans a une tension artérielle de 16; 2. Cela vous
paraît-il normal ?
Exercice 5
On donne la série statistique double de quatre éléments.
x 1:3 1:6
y 4 5 5 6
24
1.6. SÉRIE DE TD N0 1 (2015-2016)
Trouver et sachant que la droite de régression de y en fonction de x

a pour équation y = 5x:
*Exercice 6
Montrer que le coe¢ cient de corrélation r véri…e 1 r 1 :
25
Chapitre 2
Variables Aléatoires
Après avoir réalisé une expérience, on ne s’intéresse bien souvent à une

certaine fonction du résultat et non au résultat en lui-même. Lorsqu’on re-
garde une portion d’ADN, au lieu de vouloir connaitre tout la suite de nucléo-
tides, on peut vouloir juste connaitre le nombre d’apparition d’un “”mot“’.
Ces grandeurs (ou fonctions) auxquelles on s’intéresse sont en fait des fonc-
tions réelles dé…nies sur l’ensemble fondamental et sont appelées variables
aléatoires.
On considère un ensemble muni d’une probabilité P .
Dé…nition 1 Une variable aléatoire X est une fonction de l’ensemble
fondamental à valeurs dans R, X : ! R.
Lorsque la variable X ne prend que des valeurs discrètes, on parle de
variable aléatoire discrète.
Exemple 1 On jette deux dés distincts et on s’intéresse à la somme des
points. On note X cette variable aléatoire, elle est dé…nie par
X: ! R:
(x; y) ! x + y
avec = f(1; 1); (1; 2); :::; (6; 5); (6; 6)g
L’ensemble des valeurs possibles de X est f2; 3; :::; 12g:
26
2.1. LOI DE PROBABILITÉ, FONCTION DE RÉPARTITION
2.1 Loi de probabilité, Fonction de réparti-

tion
La loi de probabilité d’une variable aléatoire permet de connaitre les
chances d’apparition des di¤érentes valeurs de cette variable. On se place
sur l’espace de probabilité ( ; P ).
Dé…nition 2 Soit X une variable aléatoire. La loi de probabilité de X
est dé…nie par la fonction F , appelée fonction de répartition de la variable
X, dé…nie par
F (x) = P (X x)
Remarque 1 On a P (X 2 R) = 1, car P (X 2 R) = P ( ) = 1:
2.2 Loi d’une variable aléatoire discrète

Une variable aléatoire est dite discrète si elle ne prend que des valeurs
discontinues dans un intervalle donné (borné ou non borné). L’ensemble des
nombres entiers est discret. En règle générale, toutes les variables qui ré-
sultent d’un dénombrement ou d’une numération sont de types discrètes.
Exemples Les variables aléatoires
-le nombre de petits par porté pour une espèce animale donnée (chat,
marmotte, ect...)
-le nombre de bactéries dans 100 ml de préparation.
-le nombre de mutations dans une séquence d’ADN de 10kb.
etc.... sont des variables aléatoires discrètes.
La fonction de répartition d’une variable discrète est constante par mor-
ceaux. Si X est une variable discrète à valeurs dans fx1 ; :::; xn g avec
x1 < ::: < xn alors pour x 2 R
X
k
F (x) = P (X = xi )
i=1
avec k tel que xk < x < xk+1 .

Exemple 2 On considère l’évènement w (lancer de 3 pièces). On introduit
une variable aléatoire X dé…nie par X(w) ( nombre de piles de l’évènement
27
CHAPITRE 2. VARIABLES ALÉATOIRES
w). La loi de probabilité de X est :
nombre de piles P (X = xi ) FX
0 1=8 1=8
1 3=8 1=2
2 3=8 7=8
3 1=8 1
Dans le cas d’une variable aléatoire discrète, on utilise un diagramme

en bâtons pour visualiser la distribution de probabilités et une fonction en
escalier pour la fonction de répartition.
Exercice
Soit X une variable aléatoire discrète tel que
= f3; 4; 5; 6g
Déterminer la loi de probabilité X tel que

1 1
P (X = 3) = P (X = 4); P (X 4) = et P (X > 5) =
3 2
2.3 Loi d’une variable aléatoire à densité

Considérons la durée de vie d’une bactérie. On conçoit facilement que la
probabilité que cette durée de vie vaille exactement une certaine valeur est
nulle. Par exemple, il est quasiment impossible qu’une bactérie vive exacte-
ment 1 an 0 mois, 0 heure, 0 minute. La fonction de répartition d’une telle
variable est par conséquent continue. On peut par contre s’intéresser à la
probabilité que la bactérie vive moins d’un an.
28
2.4. ESPÉRANCE ET VARIANCE D’UNE VARIABLE ALÉATOIRE
On ne verra dans ce cours que des variables qui sont soit discrètes soit
continues même s’il existe des variables plus complexes
Dé…nition 3 Une variable aléatoire X est à densité, ou continue, s’il
existe une fonction f dé…nie sur R telle que la fonction de répartition de X
s’écrit
Zx
FX (x) = f (t)dt
1
où f est une fonction intégrable sur R satisfaisant les conditions suivantes :

1. fR (t) 0 pour tout t 2 R;
+1
2. 1 f (t)dt = 1:
Une fonction qui véri…e les conditions 1 et 2 est appelée densité de pro-
babilité.
2.4 Espérance et variance d’une variable aléa-

toire
L’idée intuitive de l’espérance puise son origine dans les jeux de hasard.
Considérons le jeu suivant : on lance un dé plusieurs fois de suite. Supposons
que pour une mise de 1 dinar, on gagne 1 dinar si le résultat obtenu est pair,
2 dinars si le résultat est 1 ou 3, et on perd 3 dinars si le résultat est 5. Est-il
intéressant de jouer à ce jeu ? Quel peut-être le gain moyen ?
Soit X la variable aléatoire correspondant au nombre dinars gagnés ou
perdus. La loi de X est
k 3 1 2
P 1=6 1=2 1=3
29
L’espérance de gain, noté E[X], est alors
E[X] = 3 1=6 + 1 1=2 + 2 1=3 = 2=3
Le joueur gagne donc en moyenne 2=3 de dinars pour une mise de 1 dinar.
Dé…nition 4 L’espérance d’une variable aléatoire X est notée E[X].
Elle représente la valeur moyenne prise par la variable X :
1-Si X est une variable discrète à valeurs dans l’ensemble D = fx1 ; x2 ; :::; xn g,
lorsque la somme est bien dé…nie, son espérance est
X
n
E[X] = xi P (X = xi )
i=1
2-Si X est une variable à densité f , lorsque l’intégrale est bien dé…nie,
son espérance est
Z+1
E[X] = xf (x)dx
1
Lorsqu’une variable X véri…e E[X] = 0, on dit que la variable est centrée.
2.5 Variance et écart type

On a vu que l’espérance correspondait à la valeur moyenne d’une variable
aléatoire. L’écart type représente l’écart moyen (la distance moyenne) entre la
variable et sa moyenne. Elle mesure la dispersion d’une variable, plus l’écart-
type est grand plus la variable prend des valeurs qui peuvent être éloignées les
unes des autres, plus l’écart-type est petit plus la variable prend des valeurs
proches de sa moyenne.
Dé…nition 5 La variance d’une variable aléatoire X, notée S 2 (ou V ar(X)),
est dé…nie par
S2 = E X 2 E[X]2
L’écart type (notée S ou (x)) est la racine carrée de la variance.
Exemple 3 Supposons que la durée de vie T d’une bactérie est modélisée
par (la loi exponentielle ) de densité f (t) = exp( t) pour t 0 pour une
certaine valeur de . La variance de la durée de vie de la bactérie étudiée est
Sx2 = 1= 2 .
30
2.6. EXEMPLES DE VARIABLES ALÉATOIRES DISCRÈTES
2.6 Exemples de variables aléatoires discrètes

1-Loi de Bernoulli de paramètre p notée b(p). Une v.a. X suit une loi
de Bernoulli de paramètre p 2 [0; 1] si elle ne prend que les deux valeurs 0 et
1 avec :
P (X = 1) = p; P (X = 0) = 1 p = q
Son espérance est E[X] = 0 (1 p) + 1 p = p. Sa variance est
S 2 = E[X 2 ] E[X]2
= p p2
= p(1 p):
Exemple 4 Pile ou face avec p = 1=2 si la pièce est équilibrée, p 6= 1=2

si elle est truquée.
2-Loi de Poisson Cette loi intervient dans les processus aléatoires dont
les éventualités sont faiblement probables et survenant indépendamment les
unes des aoutes : cas de phénomènes accidentels, d’anomalies diverses, de
problèmes d’encombrement (…les d’attente), de rupture de stocks, etc...
On dit qu’une v.a. discrète X suit une loi de Poisson de paramètre > 0
si elle prend des valeurs entières positives ou nulles et
k
e
P (X = k) = ;k 2 N
k!
La loi de Poisson de paramètre > 0 est notée P ( ). Son espérance est
E[X] = ; Sa variance est S 2 = :
2.7 Exemples de variables aléatoires continues

1-Loi normale (ou gaussienne)
a) Dé…nition 6 On dit que la v.a. X suit une loi normale N (m; ) si
elle a pour densité la fonction
!
1 (x m)2
f (x) = p exp ;x 2 R
2 2 2
Son espérance est E[X] = m. Sa variance est S 2 = 2 :
b) La distribution normale centrée réduite
31
On dit que la distribution est centrée si son espérance m est nulle ; elle
est dite réduite si sa variance 2 (et son écart-type ) est égale à 1. La
distribution normale centrée réduite N (0; 1) est donc dé…nie par la formule
x2
f (x) = p12 exp 2
;x 2 R
Les probabilités correspondant aux divers intervalles ont été calculées et
regroupées dans une table numérique. Ainsi la table de la loi normale centrée
réduite permet, à partir d’une probabilité donnée, de trouver les bornes
q; +q d’un intervalle symétrique autour de 0, tel que
P( q X q) = 1
et
P (X < q) = P (X > q) =
2
Loi normale centre rduite

N (0; 1)
c)Transformation d’une loi normale quelconque en loi normale

centrée réduite
Soit F la fonction de répartition de loi normal N (m; ), pour calcul
F (a) = P (X a)
on pose X = m + Z alors
X m
Z=
32
2.7. EXEMPLES DE VARIABLES ALÉATOIRES CONTINUES
où Z suit une loi normal N (0; 1):on a
F (a) = P (X a)
X m a m
= P( )
a m
= P (Z )
a m
=
est les valeurs de sont donnés par la table de la loi N (0; 1).
C’est une loi très importante pour plusieurs raisons :
-Elle apparait dans de nombreux problèmes courants (pour les modéliser),
-Bien souvent, on peut approcher une loi par une loi normale.
-De plus, on dispose de la table de ses valeurs à laquelle on se réfere pour
des calculs approchés.
Remarque 2 Soit Z suit une loi normale N (0; 1) et la fonction de
répartition, comme la fonction est symétrique par rapport à l’axe (x = 0)
alors
( x) = 1 (x)
Exemple 5 Soit X une v.a de loi normale N (20; 5), calculer les proba-
bilités
P (X 28); P (X > 28) et P (12 X 28)
m = 20 et = 5
Transformation de X en Z où Z suit une loi normale N (0; 1).
X 20 28 20
P (X 28) = P ( )
5 5
= P (Z 1:6)
= (1:6)
= 0:9452
33
b = 28
P (X > 28) = 1 P (X 28)

= 1 0:9452
= 0:054 8
12 20 X 20 28 20
P (12 X 28) = P ( )
5 5 5
= P ( 1:6 Z 1:6)
= (1:6) ( 1:6)
= (1:6) (1 (1:6))
= 2 (1:6) 1
= 0:8904
a = 12 et b = 28
Exemple 6 La température T dans une chambre Froide suit une loi

N (0; 1) où T est en degrés Celsius, probabilité que la température soit com-
34
prise entre 1:5 et 1:5 degrés
P ( 1:5 X 1:5) = (1:5) ( 1:5)

= 2 (1:5) 1
= 0:8664
Remarque 3 La distribution Gaussienne est une des distributions les

plus utilisées en statistique. Beaucoup de variables biologiques ont un com-
portement approximativement Gaussien.
2-Loi du khi-deux :
Soient X1 ; :::; Xn des v.a. indépendantes de même loi N (0; 1). Posons
Xn
2
= Xi2 : Par dé…nition, la v.a. 2 suit une loi du khi-deux à n degrés
i=1
2
de liberté (abréviation d.d.l.). On note cette loi (n). On a
2
E[ ] = n et S 2 = 2n:
Cette loi et sur tout utile dans les testes statistique.

3-Loi de Student
Soient deux v.a indépendantes X et Y distribution suivant une loi normale
et khi-deux respectivement. La variable
X
T =q
Y
X
suit une loi de student à n degrés de liberté.

On a
n
E[T ] = 0; n>1 et S2 = ; n>2
n 2

Exercice 1
Une urne contient 3 sortes de boules de poids di¤érents : 7 boules de poids
1kg, 5 boules de poids 3kg et 3 boules de poids 5kg. On tire au hasard une
boule de l’urne et on note X son poids.
1. Déterminer la loi de la variable X.
35
2. Calculer l’espérance et la variance de X.

Exercice 2
Considérons deux parents hétérozygotes de génétopye Aa tels que leur
enfants peuvent avoir les génotypes AA, Aa ou aa avec probabilité
P (AA) = 1=4; P (Aa) = 1=2; P (aa) = 1=4:

Supposons qu’ils aient 4 enfants.
1. Quelle est la probabilité qu’exactement l’un deux aient le génotype aa ?
2. Quelle est la probabilité qu’au moins l’un deux ait le génotype aa ?
Exercice 3
La proportion des groupes sanguins en Algeria est environ :
A = 44%; B = 13%; AB = 3%; O = 40%
On considère la répartition de ces di¤érents groupes sur 50 étudiants.

1. Donner la loi de la variable X égale au nombre d’étudiants de groupe
O.
2. Donner la loi de la variable Y égale au nombre d’étudiants de groupe
AB.
3. Calculer P (Y 5), l’espérance et la variance de Y .
Exercice 4.
Dans un pays donné, le taux de cholestérol sérique d’un individu pris au
hasard est modélisé par une loi normale avec une moyenne de 200 mg=100mL
et un écart-type de 20 mg=100mL.
1. Quelle est la probabilité qu’un individu pris au hasard dans ce pays
ait un taux de cholestérol inférieur à 160 mg=100mL ?
2. Quelle proportion de la population a un taux de cholestérol compris
entre 170 et 230 mg=100mL ?
3. Dans un autre pays, le taux moyen de cholestérol sérique est de 190
mg=100mL, pour le même écart-type. Reprendre les questions précédentes.
4. On choisit un individu au hasard dans le premier pays, puis dans le
second. Quelle est la probabilité que le premier individu ait un taux supérieur
au second ?
Exercice 5
Un chercheur a étudié l’âge moyen auquel les premiers mots du vocabu-
laire apparaissent chez les jeunes enfants. Une étude e¤ectuée auprès d’un
millier de jeunes enfants montre que les premiers mots apparaissent, en
36
moyenne, à 11:5 mois avec un écart-type de 3:2 mois. La distribution des

âges étant normale, on souhaite
-Évaluer la proportion d’enfants ayant acquis leurs premiers mots avant
10 mois.
-Évaluer la proportion d’enfants ayant acquis leurs premiers mots entre 8
mois et 12 mois.
37
2.9 Série de TD N02 (2015-2016)

Université 08Mai 1945 Guelma Biostatistiques, 2015-2016
3ème année Licence : Immunologie
Série 2
Exercice 1
On jette deux dés réguliers à quatre fases et on fait la somme X des points
obtenus
1- Donner la loi de la variable aléatoire X obtenue ?
2- Quelle est sa moyenne ? Sa variance ?
3-Calculer : P [X 6 5],P [X > 5] ; P [3 6 X < 5] :
4- Quelle est la fonction de répartition de X ?
Exercice 2 (espérance de vie d’une population)
On suppose que la durée de vie d’un individu dans une population donnée
est modélisée par une v.a.continue X dont la fonction densité de probabilité
est donnée par :
kx2 (100 x)2 si 0 x 100

f (x) =
0 si non
où k est une contante positive.

1. Déterminer la valeur de k.
2. Calculer la probabilité qu’un individu meure entre 60 ans et 70 ans.
3. Quelle est l’espérance de vie d’un individu dans cette population ?
Exercice 3
Un magasin spécialisé reçoit en moyenne 4 clients par jour, le nombre de
clients étant distribué selon une loi de Poisson. Calculer la probabilité que
le magasin soit visité le mercredi par :
1- aucun client ;
2- 5 clients ;
3- au moins 6 clients.
Exercice 4
En 1955, Wechler a proposé de mesurer le QI (Quotient Intellectuel)
des adultes grâce à deux échelles permettant de mesurer les compétences
verbales et les compétences non verbales. On compare le score global de la
personne testée avec la distribution des scores obtenu par un échantillon
38
2.9. SÉRIE DE TD N0 2 (2015-2016)
représentatif de la population d’un âge donné, dont les performances suivent

une loi normale ayant pour moyenne 100 et pour écart-type 15.
1/ Quel est le pourcentage de personnes dont le QI est inférieur à 80 ?
2/ Quelle chance a-t-on d’obtenir
un QI compris entre 100 et 110 ?
un QI compris entre 105 et 110 ?
3/ Un patient obtenant un score de 69 fait-il partie des 5% inférieur de
la distribution ?
4/ En dessous de quel QI se trouve le tiers des individus ?
Exercice 5
Sur un grand nombre de personnes on a constaté que la répartition du
taux de cholestérol suit une loi normale avec les résultats suivants :
- 56% ont un taux inférieur à 165cg ;
- 34% ont un taux compris entre 165cg et 180cg ;
- 10% ont un taux supérieur à 180cg.
Quelle est le nombre de personnes qu’il faut prévoir de soigner dans une
population de 10000 personnes, si le taux maximum toléré sans traitement
est de 182cg ?
39
Chapitre 3
Théorie d’estimation
L’objectif de l’estimation statistique est le suivant : évaluer certaines gran-

deurs associées à une population à partir d’observations faites sur un échan-
tillon. Bien souvent, ces grandeurs sont des moyennes ou des variances. On
prendra soin de distinguer ces grandeurs théoriques (inconnues et à estimer)
de celles observées sur un échantillon.
Exemples de problèmes :
-Quelle est la fréquence (probabilité) de survenue d’un certain cancer chez
les souris ?
-Quelle est l’écart moyen de la glycémie d’un patient autour de sa glycémie
moyenne ?
On apporte deux types de réponses à ces questions : à partir d’un échan-
tillon,
1. On « calcule » une valeur qui semble être la meilleure possible : on
parle d’estimation ponctuelle,
2. On « calcule » un intervalle de valeurs possibles : c’est la notion d’in-
tervalle de con…ance ou d’estimation par intervalle.
Dé…nition 1 On appelle n-échantillon de loi P un suite (X1 ; X2 ; :::; Xn )
de n variables aléatoires indépendantes et de même loi P .
3.1 Estimation ponctuelle

Dé…nition 2 On cherche à estimer une valeur inconnue liée à un certain
phénomène aléatoire, en général, la moyenne m ou la variance S 2 ou encore
l’écart-type de la loi du phénomène.
40
3.1. ESTIMATION PONCTUELLE
Pour ce faire, on dispose d’observations indépendantes du phénomènes,

c.à.d de variables aléatoires X1 ; :::; Xn indépendantes et de même loi (celle du
phénomène). On parle d’un échantillon. On dé…nit à partir de l’échantillon
une nouvelle variable aléatoire notée X dont les valeurs seront proches de
celle de la grandeur à estimer.
a) Estimation de la moyenne (loi de grands nombres)
Soit X1 ; X2 ; :::; Xn sont des variables aléatoires indépendantes de même
moyenne m et de même S 2 (variance), l’estimation de la moyenne
1X
n
m
^ = Xi
n i=1
on appelle la moyenne empirique ( m

^ est un estimateur m):
b) Estimation de la variance
-Dans le cas m ( la moyenne) est connue
1X
n
S^2 = (Xi m)2
n i=1
où S^2 est un estimateur S 2 .

-Dans le cas m (la moyenne ) est inconnue
1 X
n
S^2 = (Xi ^ 2
m)
n 1 i=1
Exemple 1 m : moyenne des poids des nouveaux nés en Alegria. Ici, on

prendra comme estimateur X la variable aléatoire donnée par la moyenne
(arithmétique) observée sur un échantillon de 10 nouveaux nés. On note cet
X
10
1
estimateur en général X = 10 Xi :
i=1
3.1.1 Méthode de maximum de vraisemblance

Soit un paramètre (en générale m ou S ) d’une population à estimer. Il
faut trouver un estimateur T à partir d’un échantillon.
Dé…nition 3 soit x = (x1 ; x2 ; :::; xn ) une réalisation d’un échantillon
X = (X1 ; X2 ; :::; Xn ) de n variables aléatoires, la fonction L(x1 ; x2 ; :::; xn ; )
est donnée par
41
CHAPITRE 3. THÉORIE D’ESTIMATION
Dans le cas discrète
L(x1 ; x2 ; :::; xn ; ) = Ln (x; )

= P (x; )
= P (x1 ; ) P (x2 ; ) ::: P (xn ; )
Dans le cas continue
L(x1 ; x2 ; :::; xn ; ) = Ln (x; )

= f (x; )
= f (x1 ; ) f (x2 ; ) ::: f (xn ; )
tel que L fonction de pour x …xé, s’appelle la vraisemblance de x:

La méthode de maximum de vraisemblance (M.V) consiste à choisir comme
estimateur de ; la valeur particulière de qui maximise la fonction de vrai-
semblance L(x1 ; x2 ; :::; xn ; ):
Cet estimateur T est solution de l’équation :
@L(x1 ; x2 ; :::; xn ; )
=0
@
ou
@l(x1 ; x2 ; :::; xn ; )
=0
@
où l(x1 ; x2 ; :::; xn ; ) = ln(L(x1 ; x2 ; :::; xn ; ))
Remarque 1 Dans le cas discrète :
l(x1 ; x2 ; :::; xn ; ) = ln [L(x1 ; x2 ; :::; xn ; )]

= ln [P (x1 ; ) P (x2 ; ) ::: P (xn ; )]
Xn
= ln [P (xi ; )]
i=1
Dans le cas continue :
l(x1 ; x2 ; :::; xn ; ) = ln [L(x1 ; x2 ; :::; xn ; )]

= ln [f (x1 ; ) f (x2 ; ) ::: f (xn ; )]
Xn
= ln [f (xi ; )]
i=1
42
3.2. ESTIMATION PAR INTERVALLE
Exemple 2 Soit une variable aléatoire X suivant une loi de poisson,

estimer le paramètre de la loi, en utilisant la méthode du M.V.
Pour une variable aléatoire X suivant une loi de poisson on a
x
P (x; ) = e ; x = 0; 1; 2; :::
x!
où est le paramètre inconnue.
Calcul la fonction de vraisemblance
L(x1 ; x2 ; :::; xn ; ) = P (x1 ; ) P (x2 ; ) ::: P (xn ; )

x1 x2 xn
= e e ::: e
x1 ! x2 ! xn !
et
X
n
l(x1 ; x2 ; :::; xn ; ) = ln [P (xi ; )]
i=1
Xn xi
= ln e
i=1
xi !
X
n X
n
= xi ln ( ) ln (xi !) n
i=1 i=1
donc
@l(x1 ; x2 ; :::; xn ; ) X 1
n
= xi : n
@ i=1
1X
n
@l(x1 ; x2 ; :::; xn ; )
=0) = xi = m
@ n i=1
alors estimateur de est m:
3.2 Estimation par intervalle

L’estimation est dit par intervalle si on estime un paramètre inconnu
par une construction d’un intervalle [a; b] on a :
P (a < < b) = 1
43
telle que
- a et b dits limites de con…ance
-1 : niveau de con…ance
- : risque d’erreur
3.2.1 Intervalle de con…ance de la moyenne

On veut estimer la moyenne m d’une population normale à l’aide d’un
échantillon aléatoire.
a) Estimation de la moyenne quand la variance est connue et (pour

un grand échantillon)
Si n 30 (n taille de l’échantillon) la distribution d’échantillonnage de
la moyenne approche la distribution normale ( un loi normale N (m; ) ) .
Soit X une variable aléatoire de loi N (m; )
Théorème 1 Lorsque 2 est connu, un intervalle de con…ance au niveau
1 de m est
x up ; x + up
n n
où la valeur u est lue dans la table normale centrée réduite N (0; 1) telle que
(u) = 1 2 :
Exemple 3 Soit n = 100 ; = 2:5 et x = 11:5
Donner un intervalle de con…ance de niveau 0:95 pour m
Ici, = 0:05 et 1 2 = 0:975. Le quantile d’ordre 0:975 de la loi N (0; 1)
est u = 1:96. L’intervalle de con…ance est :
2:5 2:5
11:5 1:96 p ; 11:5 + 1:96 p
100 100
donc
m 2 [11:01; 11:99]
44
b) Estimation de la moyenne quand la variance est inconnue (pour

un grand échantillon)
Théorème 2 Lorsque 2 est inconnu un intervalle de con…ance au niveau
1 de m est " #
S^ S^
x up ; x + up
n n
où S^ est un estimateur de et la valeur u est lue dans la table normale

centrée réduite N (0; 1) telle que (u) = 1 2 :
Exemple 4 On a e¤ectué 90 mesures de concentration d’une solution de
de ‡uorescéine. On a observé une moyenne empirique x = 4:38 mg=l et un
écart-type empirique S^ = 0:08 mg=l. Donner un intervalle de con…ance pour
la concentration réelle de la solution, aux niveaux de con…ance 0:95 et 0:99.
(u) = 1 0:05
2
= 0:975 on a u = 1:96. L’intervalle de con…ance de niveau
0:95 est :
0:08 0:08
m 2 4:38 1:96 p ; 4:38 + 1:96 p
90 90
on a
m 2 [4:363; 4:397]
Le quantile d’ordre 0:995 de la loi N (0; 1) est 1:96
( (u) = 1 0:01 2
= 0:995 ) u = 2:5758)
L’intervalle de con…ance de niveau 0:99 est :
0:08 0:08
m 2 4:38 2:5758 p ; 4:38 + 2:5758 p
90 90
on a
m 2 [4:358; 4:402]
c) Intervalle de con…ance avec la distribution t

Pour des échantillons de taille n < 30 extraits d’une population suivant
une loi normale d’écart-type inconnu, on utilise la distribution t de Student
pour déterminer l’intervalle de con…ance de la moyenne.
Théorème 3 Lorsque 2 est inconnu, un intervalle de con…ance au ni-
veau 1 de m est
" #
S^ S^
x tn 1; 2 p ; x + tn 1; 2 p
n n
45
où S^ est un estimateur de et la valeur tn 1; 2 est lue dans la table de

Student à k = n 1 dégrés de liberté (ddl) et = 2 .
Exemple 5 Pour n = 10, avec un niveau de con…ance de 95% et un
intervalle symétrique on obtient l’intervalle
" #
S^ S^
x 2; 26 p ; x + 2; 26 p
10 10
Exemple 6 Un examen de probabilité est organisé pour promotion très

nombreuse on extrait un échantillon de 4 notes
12:5; 10; 14:5; 14
Déterminer l’intervalle de con…ance à 95% pour la moyenne de tout la

promotion
n = 4 < 30, en utilisant la distribution t de student on a :
" #
S^ S^
m2 x t3; 0:05 p ; x + t3; 0:05 p
2 n 2 n
et niveau de con…ance 1 = 0:95 ) = 0:05 et ddl = k = 3; on a
t3; 0:05 = t3;0:025 = 3:182

2
et x = 12:75 , S^2 = 4:08 est une estimation de la valeur inconnue 2

, donc
" p p #
4:08 4:08
m 2 12:75 3:182 p ; x + 3:182 p
4 4
m 2 [9:535; 15:964]
Exemple 7 On suppose que le taux de cholestérol X d’un individu choisi

au hasard dans une population donnée suit une loi normale. Sur un échan-
tillon de 20 individus, on constate la moyenne des taux observés est x= 1:55
(gr pour millr). On constate aussi une variance empirique S^2 = 0:25:
Donner un intervalle de con…ance pour la moyenne m au niveau de con…ance
0:95 ?
46
3.2.2 Intervalle de con…ance de la di¤érence de deux

moyennes
Soient (X1 ; X2 ; :::; Xn1 ) un échantillon d’une population suivant la loi nor-
male N (m1 ; 1 ) et (Y1 ; Y2 ; :::; Yn2 ) un échantillon d’une population suivant la
loi normale N (m2 ; 2 ). On pose
n1 n2
1 X 1 X
X= Xi ; Y = Yi et D = X Y
n1 i=1 n2 i=1
Théorème 4 Si 1 et 2 sont connues, un intervalle de con…ance de

m1 m2 au niveau de con…ance 1 est
r r
1 2 1 2
D u + ;D + u +
n1 n2 n1 n2
où la valeur u est lue dans la table normale centrée réduite N (0; 1) telle que
(u) = 1 2 :
3.2.3 Intervalle de con…ance d’une proportion

Dans une certaine population, la proportion d’individus ayant une pro-
priété donnée est égale à p. Soit X le nombre d’individus d’un échantillon de
taille n ayant la propriété.
On ne sait pas déterminer exactement un intervalle de con…ance. On uti-
lise des solutions approchées, qui fonctionnent lorsqu’on dispose d’échantillon
de grande taille. Ainsi, lorsque n est grand ou/et p voisin de 0:5 on peut ap-
procher la loi binomiale par une loi normale.
On considère une population (P ) contenant deux types d’individus A et B
en proportion p et 1 p: Soit X1 ; X2 ; :::; Xn un n-échantillon de loi Bernoulli
B(p):
Théorème 5 Un intervalle de con…ance approché de p au niveau 1
est donnée par
" p p #
T (1 T ) T (1 T )
T u p ;T + u p
n n
où T la fréquence de type A ( T estimateur sans biais de p )

card(A)
T =
n
47
et la valeur u est lue dans la table normale centrée réduite N (0; 1) telle que
(u) = 1 2 :
Exemple 8 Douze des 75 arbres d’un échantillon aléatoire sont contami-
nés par une maladie. Déterminer un intervalle de con…ance au niveau 95%
pour p la proportion d’arbres malades.
12
T = 75 = 0:16 et niveau de con…ance 1 = 0:95 et n = 75.
0:05
(u) = 1 = 0:975
2
Dans la table N (0:1), on trouve u = 1:96:

Intervalle de con…ance de p est
" p p #
0:16(1 0:16) 0:16(1 0:16)
p 2 0:16 1:96 p ; 0:16 + 1:96 p
75 75
on a
p 2 [0:077; 0:243]
Exercice. On a observé un échantillon de taille n = 500 d’adolescents de

15 ans, dans lequel 210 présentent un surpoids. Soit p la proportion d’adoles-
cents de 15 ans qui présentent un surpoids. Donner un intervalle de con…ance
pour p, aux niveaux de con…ance 0:95 et 0:99.
3.2.4 Intervalle de con…ance de la variance

a) Estimation de la variance quand la moyenne est connue
Théorème 6 Lorsque m est connu un intervalle de con…ance au niveau

1 de la variance 2 est
" #
1 X
n
1 X
n
2 2
(xi m) ; (xi m)
n 1; 2 i=1 n 1;1 2 i=1
où les valeurs n 1; 2 et n 1;1 2

est leu dans la table du Khi-deux avec
(n 1 ) dégrées de liberté (ddl).
48
b) Estimation de la variance quand la moyenne est inconnue

A nouveau, comme m est inconnue, l’idée est de la remplacer par son
estimation X: L’intervalle de con…ance de la variance 2 se calcule alors à
partir de l’échantillon de taille n par
" #
(n 1) S^2 (n 1) S^2
;
n 1; 2 n 1;1 2
où S^2 est un estimateur de 2 et les valeurs n 1; 2 et n 1;1 2 est leu dans

la table du Khi-deux avec (n 1) dégrées de libertés (ddl).
Remarque 2 Intervalle de con…ance au niveau 1 d’écart-type est
"s s #
(n 1) S ^ 2 ^
(n 1) S 2
;
n 1; 2 n 1;1 2

Exercice1
Pour étudier la pourriture des pommes de terre, un chercheur injecte à
13 pommes de terre des bactéries qui causent cette pourriture. Il mesure
ensuite la surface pourrie (en mm2 ) sur ces 13 pommes de terre. Il obtient
une moyenne empirique de 7:84 mm2 pour une variance empirique de 14:13.
On modélise la surface pourrie d’une pomme de terre par une loi normale
N (m; ).
1. Calculer un intervalle de con…ance pour m au niveau 0:95 puis 0:99.
2. Calculer un intervalle de con…ance pour 2 au niveau 0:95 puis 0:99.
Exercice 2
On a mesuré le poids de raisin produit par pied sur 10 pieds pris au hasard
dans une vigne. On a obtenu les résultats suivants exprimés en kilogrammes :
2:4 3:4 3:6 4:1 4:3 4:7 5:4 5:9 6:5 6:9
On modélise le poids de raisin produit par une souche de cette vigne par
une variable aléatoire de loi N (m; ).
1. Calculer la moyenne et la variance empiriques de l’échantillon ?
2. Donner un intervalle de con…ance de niveau 0:95 pour m.
3. Donner un intervalle de con…ance de niveau 0:95 pour 2 .
49
4. On suppose désormais que l’écart-type des productions par pied est

connu et égal à 1:4. Donner un intervalle de con…ance de niveau 0:95 pour
m?
5. Quel nombre de pieds au minimum devrait-on observer pour estimer
m au niveau de con…ance 0:99 avec une précision de plus ou moins 500
grammes ?
Exercice 3. Une clinique a proposé une nouvelle opération chirurgicale,
et a connu 40 échecs, sur 200 tentatives. On note p le pourcentage de réussite
de cette nouvelle opération.
1. Quelle estimation de p proposez-vous ?
2. En utilisant l’approximation normale, donner un intervalle de con…ance
pour p de niveau de con…ance 0:95.
3. Combien d’opérations la clinique devrait-elle réaliser pour connaître le
pourcentage de réussite avec une précision de plus ou moins 1%, au niveau
de con…ance 0:95 ?
Exercice 4
Une expérience sur les alphaglobulines (composent les protéines du sérum)
a donné les résultats suivants :
8; 12; 13:5; 16; 20 et 21

Déterminer l’intervalle de con…ance de la moyenne au niveau 99%.
Exercice 5
On considère un lot de pelotes de laine dont, on suppose que les poids (en
grammes) suivent une distribution normale de moyenne m et d’écart type .
On extrait un échantillon de 8 pelotes, et on obtient :
53; 48; 52; 50; 47; 49; 55 et 52

–Déterminer les estimations ponctuelles de la moyenne et l’écart-type.
–Donner un intervalle de con…ance au niveau 95%, pour la moyenne si on
suppose que est inconnue.
Exercice 6
Soit une machine M qui fabrique des comprimés. On considère la popu-
lation de taille très grande, formée de tous les comprimés fabriqués en une
journée par M . Pour étudier le caractère "poids du comprimé" sur cette po-
pulation, on prélève au hasard et de manière non exhaustive un échantillon
de 6 comprimés que l’on pèse. On a obtenu les résultats suivants :
50
Poids en g 0:79 0:8 0:78 0:81 0:65 0:59

Donne une estimation ponctuelle de la moyenne et de l’ecart type du
poids des comprimés dans la population.
Déterminer l’intervalle de con…ance de la moyenne et la varaince au niveau
95%:
51
3.4 Série de TD N03 (2015-2016)

Série 3
Exercice 1
Soient X1 ; X2 ; :::; Xn n variables aléatoires indépendantes suivant une loi
géométrique de paramètre p 2 [0; 1] dé…nie par :
P (xi ; p) = p(1 p)xi 1
Estimer le paramètre p de la loi, en utilisant la méthode de maximum de

vraisemblance.
Exercice 2
Un dosage de sucre dans une solution e¤ectué sur 8 prélèvement provenant
d’une même population a donné les résultats suivants exprimés en g=l.
19:5 19:7 19:8 20:2 20:2 20:3 20:4 20:8
1-Déterminer les estimations ponctuelles de la moyenne et l’écart-type de

cette distribution ?
2-Quel est l’intervalle de con…ance de la moyenne au niveau 95% ?
-Quel est l’intervalle de con…ance de la moyenne au niveau 99% ?
3-Quel est l’intervalle de con…ance de la variance au niveau 95% ?
Exercice 3
Une expérience sur les bêta-globulines ( ) a donné les résultats suivants :
Ci 6 8 10 12 14 16 18 20 22 24 26
ni 2 6 13 17 17 38 10 17 6 5 2
1-Calculer la moyenne de l’échantillon et l’écart type de cette moyenne.

2-Déterminer l’intervalle de con…ance de la moyenne au niveau 95%.
3-Déterminer l’intervalle de con…ance de la moyenne au niveau 90%.
(*) : Les alphaglobulines et les gammaglobulines, les bêta-globulines com-
posent les protéines du sérum.
52
3.4. SÉRIE DE TD N0 3 (2015-2016)
Exercice 4
Le sta¤ médical d’une grande entreprise fait ses petites statistiques sur le
taux de cholestérol de ses employés ; les observations sur 100 employés tirés
au sort sont les suivantes.
taux de cholestérol en cg : e¤ectif d’employés :
120 9
160 22
200 25
240 21
280 16
320 7
1. Estimer la moyenne et l’écart-type pour le taux de cholestérol dans

toute l’entreprise.
2. Déterminer un intervalle de con…ance pour la moyenne au niveau de
con…ance 95%.
3. Déterminer la taille minimum d’échantillon pour que l’amplitude de
l’intervalle de con…ance soit inférieure 10.
53
Chapitre 4
Tests statistiques
Soit une hypothèse H0 concernant une population. Sur la base des résul-
tats d’échantillons extraits de cette population on est amené à accepter ou
rejeter l’hypothèse H0 . Les règles de décision sont appelées tests statistiques.
H0 désigne l’hypothèse dite hypothèse nulle et par H1 on note l’hypothèse
dite hypothèse alternative.
On a H0 vraie et H1 fausse ou bien H0 fausse et H1 vraie.
Tests d’homogénéité
A partir d’un échantillon de taille n1 extrait d’une population P1 et d’un
échantillon de taille n2 extrait d’une population P2 , le test permet de décider :
H0 : 0 = 1
H1 : 0 6 = 1
où 0 et 1 sont les deux valeurs d’un même paramètre des deux populations
P1 et P2 .
4.1 Test de Student (comparaison de deux

moyennes)
Soient X et Y deux variables aléatoires indépendants de moyennes m1 et
m2 et d’écart-type 1 et 2 : On dépose de deux échantillons indépendants
fX1 ; X2 ; :::; Xn1 g tel que Xi suit la même loi N (m1 ; 1 ) et fY1 ; Y2 ; :::; Yn2 g tel
que Yi suit la même loi N (m2 ; 2 ): On cherche à décider si les moyennes m1
et m2 sont signi…cativement di¤érentes ou non, on utilise le test de Student :
a- Si n1 30 , n2 30 et 1 , 2 sont connus.
54
4.1. TEST DE STUDENT (COMPARAISON DE DEUX MOYENNES)
On teste au seuil de signi…cation
H0 : m 1 = m 2
H1 : m1 6= m2
-On accepte H0 (c.à.d il n’ya pas di¤érance signi…cative entre les moyennes
de deux échantillons) si
z 2 ] u; u[
où z = rx y et la valeur u est lue dans la table normale centrée réduite
2 2
1+ 2
n1 n2
N (0; 1) telle que (u) = 1 2 :

-On rejette H0 si z 2
= ] u; u[ (Il ya une di¤érance signi…cative).
Remarque 1 Si 1 et 2 sont inconnues, on les remplace par les estima-
teurs n1 n2
X X
^
S =2 1 2 ^
(xi x) et S =2 1
(yj y)2 respectivement, c.à.d
1 n1 1 2 n2 1
i=1 j=1
x y
z=q 2
S^1 S^2
n1
+ n22
Exemple 1 Une machine remplit des paquets de café, on prélève un

échantillon de paquets de taille n1 = 120 de poids moyen 48:53 g et d’écart
type 2:8 g, le lendemain on prélève un échantillon de taille n2 = 270 de moyen
50:08 g et l’écart type 3:1 g.
Au seuil de signi…cation 5% (risque d’erreur), qu’il existe une di¤érance
signi…cative entre les poids moyens des paquets ?
Echantillon 1 Echantillon 2
n1 = 120 n2 = 270
x = 48:53 y = 50:08
1 = 2:8 2 = 3:1
Il s’agit du test H0 : m1 = m2
48:53 50:08
z = q
(2:8)2 2
120
+ (3:1)
270
= 4:88
55
CHAPITRE 4. TESTS STATISTIQUES
0:05
(u) = 1
2
= 0:975
Dans la table N (0; 1), on trouve u = 1:96; z 2

= [ 1:96; 1:96] donc on rejette
H0 , il ya une di¤érance signi…cative entre les poids moyens des paquets.
b- si n1 < 30 , n2 < 30 et 1 , 2 égaux et inconnus ( 1 = 2 = )
-On accepte H0 (c.à.d il n’ya pas di¤érance signi…cative entre les moyennes
de deux échantillons) si
z2 tn1 +n2 2; 2 ; tn1 +n2 2; 2
où
x y
z= q
1 1
S n1
+ n2
avec s
(n1 1) S^12 + (n2 1) S^22
S=
n1 + n2 2
et la valeur tn1 +n2 2; 2 est lue dans la table de Student à k = n1 + n2 2
dégrées de liberté (ddl) et = 2 .
-On rejette H0 si z 2 = tn1 +n2 2; 2 ; tn1 +n2 2; 2 (Il ya une di¤érance signi-
…cative).
Exemple 2 Le poids d’un médicament conditionné en boites est réparti
suivant une loi normale N (m; ). Deux échantillons de tailles respectives
n1 = 12 et n2 = 18 ont pour moyennes x = 22:235 g et y = 21:988 g et écart
type ( estimateur) S^1 = 0:18 g et S^2 = 0:23 g
Qu’il existe une di¤érance signi…cative entre les poids moyens des deux
échantillons pour un seuil de signi…cation de 5% ?
Echantillon 1 Echantillon 2
n1 = 12 n2 = 18
x = 22:235 y = 21:988
^
S1 = 0:18 S^2 = 0:23
Il s’agit du test H0 : m1 = m2
s
(12 1) (0:18)2 + (18 1) (0:23)2
S= = 0:211 77
12 + 18 2
56
4.2. COMPARAISON DE DEUX PROPORTIONS
donc
(22:235 21:988)
z= q = 3: 129
1 1
0:211 77 12
+ 18
Dans la table de loi de Student, on trouve
tn1 +n2 2; 2 = t28;0:025 = 2:048;
z2= [ 2:048; 2:048] donc on rejette H0 , il ya une di¤érance signi…cative entre

les moyennes des deux échantillons.
4.2 Comparaison de deux proportions

Soient deux population P1 et P2 , on extrait un échantillon de population
P1 de taille n1 et on extrait un échantillon de taille n2 dans la population P2 .
On compare deux proportions inconnues p1 et p2 . On souhaite tester si
ce sont les mêmes. L’hypothèse nulle à tester est H0 : «p1 = p2 » contre H1 :
«p1 6= p2 » .
On dispose de deux séries d’observations, de taille n1 pour p1 qu’on estime
par f1 et de taille n2 pour p2 qu’on estime par f2 .
-On accepte H0 (c.à.d on admet alors l’égalité des proportions) si
z 2 ] u; u[
où
f1 f2
z=r
1 1
f (1 f) n1
+ n2
avec
n1 f1 + n2 f2
f=
n1 + n2
et la valeur u est lue dans la table normale centrée réduite N (0; 1) telle que
(u) = 1 2 :
-On rejette H0 si z 2= ] u; u[ (Il ya une di¤érance signi…cative entre les
proportions des deux échantillons).
Exemple 3 On expérimente un vaccin contre une maladie M sur des
animaux. Un échantillon aléatoire de taille n1 = 80 animaux vaccinés montre
que 42 d’entre eaux ont contracté la maladie. Un échantillon aléatoire de taille
57
n2 = 113 animaux non vaccinés montre que 76 d’entre eaux ont contacté la
maladie.
Peut-on dire au seuil de signi…cation de 5% que le vaccin est ine¢ cace ?
On décide : H0 : p1 = p2
n1 = 80; n2 = 113; f1 = 42
80
76
et f2 = 113 , donc on a :
42 76
80 80
+ 113 113
f= = 0:611
80 + 113
alors
42 76
80 113
z=q = 2: 071 6
1 1
0:611 (1 0:611 ) 80
+ 113
Dans la table N (0; 1), on trouve u = 1:96; z 2 = [ 1:96; 1:96] donc on

rejette H0 , au seuil de signi…cation de 5% la di¤érance entre les proportions
est signi…cative.
4.3 Test de Fisher (comparaison de deux va-

riances)
Soient X et Y deux variables aléatoires indépendants de moyennes m1 et
m2 et d’écart-type 1 et 2 : On dépose de deux échantillons indépendants
fX1 ; X2 ; :::; Xn1 g tel que Xi suit la même loi N (m1 ; 1 ) et fY1 ; Y2 ; :::; Yn2 g tel
que Yi suit la même loi N (m1 ; 1 ): On cherche à décider si les variances 21
et 22 sont signi…cativement di¤érentes ou non, on utilise le test de Fisher :
On pose l’hypothèse H0 : 1 = 2 (les deux populations ont la même
variance) et 8 ^2
< S12 si S^12 > S^22
S^2
F =
: S^22 si S^12 < S^22
2
S^ 1
où S^12 est un estimateur de 2

1 et S^22 est un estimateur de 2
2 c.à.d
n1
X n2
X
1 1
S^12 = (xi x) ; S^22 =
2
(yj y)2
n1 1 i=1
n2 1 j=1
Si F < Fn1 1;n2 1 on accepte H0 (on admet alors l’égalité des variances)
58
4.4. LES TESTS DU KHI-DEUX
Si F > Fn1 1;n2 1 on rejette H0 (il ya di¤érance signi…cative entre les

variances des deux échantillons), avec la valeur Fn1 1;n2 1 est lue dans la
table de Fisher au risque d’erreur et à n1 1 et n2 1 dégrées de liberté
(ddl).
Exemple 4 Reprenons les données des 2 échantillons
Ech 1 7 18 9 9 18 27 12 10 32 6 37
Ech 2 12 15 14 16 22 17 25 9 18 = =
Qu’il existe une di¤érance signi…cative entre les variances des deux échan-
tillons pour un seuil de signi…cation de 5%.
On pose l’hypothèse H0 : 1 = 2
Ech 1 Ech 2
n1 = 11 n2 = 9
x = 16:82 y = 16:44
S12 = 114:96 S22 = 23:78
donc on a
S12 114:96
F = 2
= = 4: 834
S2 23:78
Dans la table de Fisher, on trouve :
0:05
F10;8 = 3:347
0:05
F > F10;8 donc on rejette H0 , il ya une di¤érance signi…cative entre les
variances de deux échantillons.
4.4 Les Tests du Khi-deux

On peut distinguer trois types de test du Khi-deux 2 :
Le test du 2 d’adéquation (H0 : « le caractère X suit-il une loi parti-
culière ? » ),
Le test du 2 d’homogénéité (H0 : « le caractère X suit-il la meme loi
dans deux populations données ? » ) ,
Le test du 2 d’indépendance (H0 : « les caractères X et Y sont-ils
indépendants ? » ).
Ces trois tests ont un principe commun qui est le suivant : on répartit les
observations dans k classes dont les e¤ctifs sont notés n1 = N1 (w); :::; nk =
59
Nk (w). L’hypothèse H0 permet de calculer les e¤ectifs théoriques, notés

n1;th ; :::; nk;th . On rejette H0 si les e¤ectifs observés sont trop di¤erents des
e¤ectifs théoriques.
On accepte H0 si
h2= k 1 m; ; +1
où
X
k
(ni ni;th )2
h=
i=1
ni;th
où la valeurs k 1 m; est leu dans la table du Khi-deux avec (k 1 m)

dégrées de liberté (ddl)( = ) avec k est le nombre de classes et m est le
nombre de paramètres estimés nécessaires au calcul des e¤ectifs théoriques.
On rejette H0 si
h 2 k 1 m; ; +1
Exemple 5 Un croisement entre roses rouges et blanches a donné en
seconde génération des roses rouges, roses et blanches. Sur un échantillon de
taille 600, on a troué les résultats suivants :
couleur e¤ectifs
rouges 141
roses 315
blanches 144
Peut-on a¢ rmer que les résultats sont conformes aux lois de Mendel ?
Il s’agit donc de tester
H0 : prouges = 0:25; proses = 0:5; pblanches = 0:25 au risque disons = 0; 05.
On dresse alors le tableau suivant :
couleur e¤ectifs observés ni e¤ectifs théoriques ni;th

rouges 141 0:25 600 = 150
roses 315 0:5 600 = 300
blanches 144 0:25 600 = 150
Ici on a k = 3 classes et m = 0 (aucun paramètre a estimer pour pouvoir

calculer les e¤ectifs théoriques) donc k 1 m = 2 ; on calcule ensuite
] 2k 1 m; ; +1[ à l’aide de la table du Khi-deux et on obtient 22;0:05 = 5:99.
En¢ n, on calcule
60
4.5. TEST DE KRUSKAL-WALLIS (TEST SUR ÉCHANTILLONS
INDÉPENDANTS)
X
k
(ni ni;th )2
h =
i=1
ni;th
(141 150)2 (315 300)2 (144 150)2
= + +
150 300 150
= 1: 53
donc h 2]5:99;
= +1[ .
On ne rejette pas H0 au risque d’erreur = 0; 05 (On accepte H0 ), on ne
peut pas dire que les observations contredisent la loi de Mendel.
4.5 Test de Kruskal-wallis (Test sur échan-

tillons indépendants)
Le test de Kruskal-Wallis est un test à utiliser lorsque vous êtes en pré-
sence de k échantillons indépendant, a…n de déterminer si les échantillons
proviennent d’une même population ou si au mois un échantillon provient
d’une population di¤érente des autres. Il permet de tester si k échantillons
(k > 2) proviennent de la même population, ou de population ayant des
caractéristiques identiques, au sens d’un paramètre de position.
Principe du test de Kruskal-wallis
Si on désigne par Mi le paramètre de position l’échantillon i, les hypo-
thèses nulle H0 et alternative H1 du test de Kruskal-wallis sont les suivantes :
-H0 : M1 = M2 = ::: = Mk
-H1 : il existe au moins un couple (i; j) tel que Mi 6= Mj
1/Classer les données sous forme de tableau
Noter l’e¤ectif de chaque série
Exemple pratique :
On veut comparer 3 milieux de culture di¤érents A, B et C, pour cela on
compte le nombre de colonies bactériennes dans chaque milieu sur plusieurs
jours.
Milieu J1 J2 J3 J4 J5 J6
A 7 4 3 2 4
B 5 4 4 1 3 5
C 6 7 6 5 7 6
61
na = 5; nb = 6; nc = 6
2/Ranger les données en fonction de leur fréquence dans chaque
série
Dans notre série
Nombre de colonies 1 2 3 4 5 6 7
Fréquence dans A 0 1 1 2 0 0 1
Fréquence dans B 1 0 1 2 2 0 0
Fréquence dans C 0 0 0 0 1 3 2
3/Calculer la somme des fréquences

Dans notre exemple :
Somme des fréquences 1 1 2 4 3 3 3
4/Classer les données en rang par ordre

Somme des fréquences 1 1 2 4 3 3 3
RANG 1 1-2 3-4 5-6-7-8 9-10-11 12-13-14 15-16-17
5/Calculer le rang corrigé qui est la moyenne des rangs pour

chaque fréquence Rc
RANG 1 1-2 3-4 5-6-7-8 9-10-11 12-13-14 15-16-17

Rang corrigé 1 2 3.5 6.5 10 13 16
6/Calculer les fréquences corrigées fc

f c = f:Rc
62
4.5. TEST DE KRUSKAL-WALLIS (TEST SUR ÉCHANTILLONS
INDÉPENDANTS)
Rang corrigé 1 2 3.5 6.5 10 13 16

Fc pour A 0 2 3.5 13 0 0 16
Fc pour B 1 0 3.5 13 20 0 0
Fc pour C 0 0 0 0 10 39 32
X
7/Calculer le total des rangs : Ri = Fc
Ra = 0 + 2 + 3:5 + 13 + 0 + 0 + 16 = 34:5
Rb = 1 + 0 + 3:5 + 13 + 20 + 0 + 0 = 37:5
Rc = 0 + 0 + 0 + 0 + 10 + 39 + 32 = 81
8/Calcul de H
12 X Ri
H= 3 (N + 1)
N (N + 1) ni
N étant l’e¤ectif total
Ri étant le total des rangs corriges
ni étant l’e¤ectif de chaque série
na = 5; Ra = 34:5; nb = 6; Rb = 37:5; nc = 6; Rc = 81
!
12 (34:5)2 (37:5)2 (81)2
H = + + 3 18
17 18 5 6 6
= 7:40
9/ Comparer H avec la valeur du 2 pour (k 1) degré de liberté k étant

le nombre d’échantillons
Si H est supérieur au 2 de la table, il existe donc une di¤érence signi…-
cative entre les séries
Si H est inférieur au de 2 la table, il n’existe pas de di¤érence signi…cative
entre les séries
Pourk 1 = 2, degré de liberté la table du 2 montre 5:99 et H = 7:418
Donc H est supérieur à la valeur du 2 lue, il existe ainsi une di¤érence
signi…cative entre les 3 milieux de culture.
63

Exercice 1
Le pH (degré d’acidité) a été mesuré dans deux types de solutions chi-
miques A et B. Dans la solution A, 6 mesures ont été faites, avec un P H
moyen de 7; 52 et un écart-type estimé de S1 = 0; 024. Dans la solution B, 5
mesures ont été faites, avec un P H moyen de 7; 49 et un écart-type estimé
de S2 = 0; 032.
Déterminer si, au seuil de signi…cation de 5%(risque) , les deux solutions
ont des P H di¤érents (l’hypothèse selon laquelle les moyennes et les variances
des dégrées d’acidités).
0:05
Valeur théorique : F4;5 = 5:192:
Exercice 2
Les QI de 9 enfants d’un quartier d’une grande ville ont pour moyenne
empirique 107 et écart-type empirique 10. Les QI de 12 enfants d’un autre
quartier ont pour moyenne empirique 112 et écart-type empirique 9.
-Tester l’égalité des variances au seuil de 5%.
Exercice 3
Les tensions maximales des muscles gastrocnémiens (exprimées en g) de
la grenouille varient selon que ces muscles sont normaux ou dénervés. Lors
d’une expérience faite sur 10 grenouilles, on a relevé les mesures suivantes :
Muscles normaux 75 96 32 41 50 39 59 45 30
Muscles dénervés 53 67 32 29 35 27 37 30 21
1. Préciser les hypothèses de modélisation.
2. Tester l’hypothèse d’égalité des variances au seuil de 5%.
Exercice 4
Le pourcentage des femmes de 35 ans présentant des rides est de 25%:
Sur 200 femmes de 35 ans ayant suivi un traitement antirides, on a observé
que 40 avaient des rides. Au risque de 5%, peut-on dire que le traitement est
e¢ cace ?
Exercice 5
Pour une certaine maladie, on dispose d’un traitement satisfaisant dans
70% des cas. Un laboratoire propose un nouveau traitement et a¢ rme qu’il
donne satisfaction plus souvent que l’ancien traitement. Sur 200 malades
ayant suivi ce nouveau traitement, on a observé une guérison pour 148 d’entre
eux. En tant qu’expert chargé d’autoriser la mise sur le marché de ce nouveau
traitement, que concluez-vous ?
64
4.7. SÉRIE DE TD N0 4 (2015-2016)
4.7 Série de TD N04 (2015-2016)

Série 4
Exercice 1
Dans une maternité pour deux échantillons de nouveau-nés de sexes dif-
férents on a obtenu les résultats suivants :
51 garçons : taille moyenne 51 cm et écart-type des tailles 3cm
59 …lles : taille moyenne 49 cm et écart-type des tailles 3:2cm
Au risque de 5% peut-on déduire de ces indications une di¤érence signi-
…cative entre les moyennes des tailles des nouveau-nés suivant le sexe ?
Exercice 2
Le tableau suivant présente les taux de calcium chez des malades atteints
d’une insu¢ sance rénale chronique
Malade Echantillon 1 Echantillon 2
1 50 80
2 25 130
3 120 70
4 26 120
5 48 70
6 113 100
7 150 =
-Peut-on admettre au seuil de signi…cation de 5% (risque d’érreur), qu’il
existe une dé¤érance signi…cative entre les moyennes de deux échantillons ?
Exercice 3
On veut tester la signigication des di¤érences des valeurs de la teneur en
protéines totales du grain de blé lorsqu’une des protéines : SG HP M 1 ou
SG HP M 2 est présente.
Les résultats de l’expérience sont résumés dans le tableau suivant :
Ech1(SG HP M 1) 15:63 13:86 16:85 15:88 17:46 15:40 13:40 17:08 17:47
Ech2(SG HP M 2) 14:91 15:57 13:71 14:57 16:37 11:70 16:23 15:87 13:14
-Peut-on admettre au seuil de signi…cation de 5% (risque d’érreur). Tester
l’égalité des moyennes et des varainces ?
65
4.8 Tables statistiques
66
4.8. TABLES STATISTIQUES
67
68
69
70
71
72
73
Bibliographie
[1] Bernard.Ycart ; Méthodes Statistiques pour la Biologie ; Université Jo-

seph Fourier, Grenoble I.
[2] Carrat.F, Mallet. A, Morice .V ; Biostatistique ; Université Pierre et Ma-
rie Curie. 2013 2014.
[3] Dagnelie. P ; Statistique théorique et appliquée ; Tome 1 et 2. Ed, Uni-
versité Larcier et De-Boeck, Belgique.2009:
[4] Gaetan Morin ; Biostatistique ; Tome 1 et 2: 2eme Ed. Scherrer, Ca-
nada.B. 2009
[5] Gilbert Demengel ; Probabilités statistique inférentielle …abilité ; Pre-
mier cycle, IUP, Prépa, BTS, IUT. 2007.
[6] Harvey.J ; Biostate, une approche intuitive. Ed. Univ. De Boeck et Lar-
cier ; Motulsky. .Belgique.1995:
[7] Huguier.M ; Biostatistique au quotidien ; Ed. Elsevier.A. 2003.
[8] Jean-Christophe Breton ; Statistiques ; Université de La Rochelle.
Octobre-Novembre 2008.
[9] Jean-Jacques Ruch ; Statistique : Estimation ; Préparation à l’Agrégation
Bordeaux 1. Année 2012 2013
[10] Khalidi Khaled ; Méthodes statistiques ; Rappels et cours ; O¢ ce des
publication universitaires 1, Place centrale de Ben-Aknoun (Alger).1998.
[11] Nakache.J.P ; Statistique explicative appliquée ; Ed. Technip, France.J.
2003:
74

Biostatistiques. Sakrani

Transféré par

Droits d'auteur :

Formats disponibles

Biostatistiques. Sakrani

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Biostatistiques. Sakrani

Transféré par

Droits d'auteur :

Formats disponibles

République Algérienne Démocratique et Populaire

Ministère de l’Enseignement Supérieur et de la Recherche

3ème Année Licence LMD, Immunologie

Dr. MENACEUR Amor

1 Statistiques descriptives à 1 ou 2 variables 1

d’intérêt, la di¤érence entre la plus grande et la plus petite, la valeur de la

1.2 Population et échantillon

1.3 Séries statistiques à une variable

Variables continues - Données groupées

classes centre de classe ni fi Fi

L’amplitude de la classe i est ai = xi+1 xi . Les classes ne sont pas

1.3.2 Paramètre de position et valeurs centrales

140; 141; 144; 144; 148; 148; 152; 152;

Modalités xi (age en années) 14 16 18 21 22 24 25 total

Dans cette série statistique, le mode est égal à M o = 16 ans

On e¤ectue une moyenne pondérée en assimilant chaque classe j à son

0+2 1+2+4 3+2 4

b) Données réparties en classes

Classes [0; 5[ [5; 10[ [10; 15[ [15; 20]

Autres indicateurs de moyenne :

c) La médiane et la classe médiane

-Si n = 2p + 1 est impaire, Me est le nombre xp+1 :

valeurs e¤ectifs e¤ectifs cumulées

L’e¤ectif total est de 81 or la valeur de rang 81+1

valeurs e¤ectifs e¤ectifs cumulées fréquence(fi ) fréquence cumulée(fic )

Utilisons la colonne des e¤ectifs cumulés pour déterminer la médiane, il

Dé…nition 1 on appelle quantiles les valeurs du caractère qui dé…nissent

- Trouver les centiles suivants : C15

1.3.3 Paramètre de dispersion

Etendue de X = Xmax Xmin

plus l’étendu est grande plus les valeurs sont dispersées.

a - Variance : La variance, notée S 2 est la moyenne du carré des écarts

-La variance pour des données rangées ou groupées en classe devient :

1.3.4 Coe¢ cient d’asymétrie

a) Les coe¢ cients d’asymétrie de Yule

Y > 0 ) la courbe de fréquence étalée à gouche.

b) Les coe¢ cients d’asymétrie de Pearson

c) Les coe¢ cients d’asymétrie de Fisher

M0 = 75; Me = Q2 = 79:1; Q1 = 68:2; Q3 = 90:7 et m = 79:8

1.4 Séries statistiques à 2 variables

Dans certaines distributions statistiques bidimensionnelles il est possible

Pour les variances

Dans cette formule la « co-variance » apparaît bien comme une combinaison

cov(x; y) > 0 cov(x; y) 0 cov(x; y) < 0

1.4.2 Coe¢ cient de corrélation

où Sx et Sy désignent respectivement l’écart-type de la série statistique X et

1.4.3 Droite de régression linéaire

Cette approche de corrélation repose sur l’hypothèse que la relation entre

points expérimentaux. Pour ce faire, on utilise la méthode des moindres car-

Calculons le coe¢ cient de corrélation linéaire. A l’iade de ce tableau, on

n0 de famille unité de consommation xi calories par jour yi x2i yi2 x i yi

Le coe¢ cient de corrélation est alors :

1.5 Exercices sur le chapitre 1

-Calculer les caractéristiques : classe modale, médiane, quartiles, le coe¤-

-Trouver le mode, la moyenne et l’écart type ?

-Tracer le nuage de points dans un repère orthogonal ?

Durée X (en mois ) 3 1 2 4 5

1-Calculer la moyenne arithmétique de la variable X et celle de la variable

1.6 Série de TD N01 (2015-2016)

a) Calculer les fréquences correspondantes ainsi que les fréquences cumu-