Biostatistique
Biostatistique
Biostatistique
Biostatistique
Riad Benchoucha
Ce document est distribué gratuitement
21 octobre 2011
LATEX
Avant-propos
Ce modeste ouvrage, conçu comme un simple résumé, a pour objectif de présenter les bases de
la statistique aux étudiants de première année de médecine, ainsi qu’à tous ceux qui dans d’autres
disciplines, s’intéressent à cette science.
C’est en constatant le manque de livres au niveau de notre université, que j’ai décidé d’apporter ma
contribution. Tout au long de sa réalisation, j’ai été guidé par le souci de m’adresser à un large public et
de présenter les informations de la manière la plus simple et didactique que possible.
Je serais bien évidement heureux que les lecteurs me fassent part de leurs suggestions et critiques afin
que je puisse améliorer et parfaire cet ouvrage. Je reste pour cela joignable par e-mail ([email protected]).
Riad BENCHOUCHA
Étudiant en médecine
I
Chapitre
1
Dans ce chapitre
1.1 Vocabulaire de base
1.2 Série statistique
1.3 Représentations graphiques
Introduction à l’étude de la
statistique descriptive
La statistique descriptive est la branche des statistiques qui regroupe les nom-
breuses techniques utilisées pour décrire, c’est-à-dire de résumer ou représenter,
un ensemble relativement important de données.
1
2 Introduction à l’étude de la statistique descriptive
Variable quantitative : si on peut mesurer cet aspect, c’est-à-dire y faire des opérations, la variable
est dite de nature quantitative. Exemple : le poids
– Si la variable quantitative ne prend que quelques valeurs, dites isolées, elle est discrète.
Exemple : le nombre d’enfants
– Si la variable quantitative prend n’importe quelle valeur d’un intervalle, elle est continue.
Exemple : le poids
Variable qualitative : si l’aspect ne se traduit pas par des nombres, ou n’est pas mesurable, la
variable est de nature qualitative. Exemple : la couleur des yeux.
– Mesurées dans une échelle nominale, les modalités sont exprimables par des noms et ne
sont pas hiérarchisées.
Exemple : la couleur du pelage, les groupes sanguins, les différents nucléotides de l’ADN.
– Mesurées dans une échelle ordinale, les modalités traduisent le degré d’un état caractérisant
un individu sans que ce degré ne puisse être défini par un nombre qui résulte d’une mesure.
Les modalités sont alors hiérarchisées.
Exemple : le stade d’une maladie.
Dans le cas d’une variable discrète, les différentes modalités du caractère étudié seront notées x1 , x2 , x3
, · · · , xi .
B. Variable continue :
Amplitude d’une classe : l’amplitude, ou l’intervalle d’une classe statistique bornée est sa largeur. L’am-
plitude de la classe [a, b[ est b − a. On parle aussi d’étendue d’une classe.
Étendu d’une série statistique : l’étendue d’une série statistique est la différence entre les deux valeurs
extrêmes prises par un caractère quantitatif, on notera : E = xmax − xmin .
Regroupement par classes En règle générale, on choisit des classes de même amplitude. Pour que
la distribution en fréquence ait un sens, il faut que chaque classe comprenne un nombre suffisant de
valeurs (ni ).
1.3 Représentations graphiques 3
1.2.2 Effectif
A. Effectif d’une modalité ou d’une classe
L’effectif d’une modalité xi est égal au nombre d’individus qui prennent cette valeur, on le note ni .
Les différents effectifs seront notés n1 , n2 , n3 , . . . . . . , ni .
B. Effectif total
L’effectif total est égal au nombre d’individus de la population, on le note N. On a donc :
i
X
N = n1 + n2 + n3 + . . . . . . + ni = nk
k=1
1.2.3 Fréquence
La fréquence d’une valeur est le rapport de l’effectif de cette valeur sur l’effectif total.
La fréquence de la modalité xi , notée fi , est donc égale à :
ni
fi =
N
Remarque : si 0 (zéro) est une modalité du caractère, il est d’usage de décaler l’origine.
C. Diagramme cumulatif
Le diagramme cumulatif est obtenu en reliant les bâtons cumulés par une ligne en escalier.
C. Courbe cumulative
La courbe cumulative est obtenue en reliant les points ayant pour abscisse la borne supérieur de la
classe et l’ordonnée nic ou fi c . On joindra le premier point obtenu avec le point (a0 ; 0).
Remarque : une courbe cumulative bien tracée ne comporte pas de cassures et a une forme en s
allongé.
Remarque : les modalité étant non mesurables, on ne met pas de flèche sur l’axe des abscisses.
B. Diagramme circulaire
Le diagramme circulaire ou à secteurs sert à représenter en général un caractère qualitatif nominal.
Chaque secteur angulaire représentant une valeur ou modalité est proportionnel à l’effectif (ou fréquence)
correspondant.
Remarque : on représente souvent les caractères qualitatifs nominaux par un diagramme à bandes
car il est plus facile à dessiner et permet une comparaison dans le temps de plusieurs séries.
1.3 Représentations graphiques 5
Ni
1 2 3 4 5 6 7 8 9 10 Xi
Nic
1 2 3 4 5 6 Xi
Fic
1
1 2 3 4 5 6 7 8 9 10 Xi
FIGURE 1.3 – En couleurs l’histogramme, en noir le
polygone des fréquences. FIGURE 1.4 – Courbe cumulée.
Australie
Autres
Canada
UK
USA
2
Dans ce chapitre
2.1 Paramètres de position
2.2 Paramètres de dispersion
Lorsque l’on est en face d’une série statistique comportant un grand nombre
de termes, il devient difficile d’analyser directement l’ensemble des données.
Nous avons vu que la représentation graphique permettait d’extraire une cer-
taine information. En complément de cette analyse qualitative, le statisticien
est amené à simplifier la distribution observée par des caractéristiques ou para-
mètres, significatives. Nous distinguerons deux types de caractéristiques : celles
de la position et celles de dispersion.
7
8 Les paramètres statistiques
– Pour des données groupées en classes, on peut calculer une valeur approximative de la moyenne
en supposant que tous les individus d’une classe se situent au centre de celle-ci. xi représente alors
le centre de la classe.
x + b = x̄ + b
– Lorsqu’on multiplie chacune des valeurs du caractère par un même réel a, la moyenne est multi-
pliée par a (linéarité de la moyenne arithmétique) :
a × x = a · x̄
– La somme des écarts à la moyenne est nulle :
n
X
(xi − x̄) = 0
i=1
Remarque : On utilisera ces propriétés lors d’un changement de variable statistique (voir section
2.2.6 page 11).
A. Le mode
Le mode M o d’une série statistique est la valeur du caractère la plus fréquente ou dominante dans
l’échantillon.
Dans le cas d’une variable continue, la classe modale correspond à la classe de fréquence maximale
dans la distribution des fréquences. On peut identifier le mode comme la valeur médiane de la classe
modale.
2.1 Paramètres de position 9
B. Quantile d’ordre α
On appelle quantile d’ordre α (α ∈]0; 1[) le nombre noté qα tel qu’il y ait nα des observations qui lui
sont inferieures dans une série ordonnée de taille n.
1 (x + x
nα nα+1 ) si nα ∈ N
qα = 2 (2.1)
xE[nα+1] si nα ∈
/N
Interpolation linéaire
Soit f une fonction définie sur R, [a; b] un intervalle de R et c un nombre réel .
Quand il n’est pas possible de calculer l’image de c par f , on utilise une interpolation linéaire, cela
consiste à remplacer f (c) par g(c) ou g est la fonction affine telle que g(a) = f (a) et g(b) = f (b).
On remplacera alors la courbe représentative de f sur [a; b] par la droite (AB). On dit que l’on a
déterminé f (c) par interpolation linéaire.
g(c)
f(c)
A
a c b
f (b) − f (a)
f (c) ' f (a) + (c − a)
b−a
qα − l1 nα − F1
=
l2 − l1 F2 − F1
Avec :
– l1 et l2 les éxtrémités de la classe contenant qα ;
– F1 la fréquence (ou effectif) cumulée de la classe avant [l1 ; l2 ] ;
– F2 la fréquence (ou effectif) cumulée de la classe [l1 ; l2 ].
10 Les paramètres statistiques
F2
n
F1
l1 q l2
2.2.1 La variance
Soit un échantillon de n valeurs observées x1 , x2 , · · · , xn d’un caractère quantitatif X, x̄ sa moyenne
arithmétique. On définit la variance, notée σ 2 ou var(x) comme la moyenne arithmétique des carrés des
écarts à la moyenne.
n
1X
σ2 = (xi − x̄)2
n
i=1
i i
2 1 X 2
X
σ = nk · (xk − x̄) ; N = nk
N
k=1 k=1
Pour des commodités de calcul, on utilisera la formule développée suivante (théorème de KŒNIG) :
i i
1 X
2 2 2
X
σ = (nk · xk ) − x̄ ; N = nk
N
k=1 k=1
Remarque : La variance et l’écart-type sont des paramètres de dispersion absolue qui mesurent la
variation absolue des données indépendamment de l’ordre de grandeur des données.
2.2 Paramètres de dispersion 11
Qi = Q3 − Q1
L’intervalle interquartile élimine le premier 25% et le dernier 25% soit la tête et la queue, des ob-
servations. On ne garde que les 50% au centre. L’intervalle interquartile est une bonne mesure de la
dispersion des données d’une variable.
x=ay+b
On choisira :
– a l’amplitude de la classe ;
– b le mode.
On écrira y, on calculera ȳ et σy 2 , respectivement la moyenne de la variance de y, puis on utilisera
ces formules :
x̄ = aȳ + b
σx 2 = a2 σy 2
Chapitre
3
Dans ce chapitre
3.1 Principe fondamental de l’analyse combinatoire
3.2 Arrangements
3.3 Permutations
3.4 Combinaisons
L’analyse combinatoire
13
14 L’analyse combinatoire
3.2 Arrangements
3.2.1 Arrangements sans répétition
En mathématiques, lorsque nous choisissons p objets parmi n objets discernables et que l’ordre dans
lequel les objets sont sélectionnés revêt une importance, nous pouvons les représenter par un k-uplet
d’éléments distincts et on en constitue une liste ordonnée sans répétition possible, c’est-à-dire dans
laquelle l’ordre des éléments est pris en compte, si l’on permute deux éléments de la liste, on a une liste
différente, et un élément ne peut être présent qu’une seule fois.
n!
Apn = n(n − 1)(n − 2)...(n − p + 1) =
(n − p)!
Exemple : À un examen, cinq candidats tirent les uns après les autres un sujet dans une urne conte-
nant des questions toutes différentes. Le premier tirage se fera sur un ensemble de 50 questions possibles.
À chaque tirage suivant, la question qui vient d’être tirée est enlevée de l’urne. Ainsi, en faisant passer
les cinq candidats, le tirage se fait d’abord sur 50, puis sur 49, et ainsi de suite jusqu’à 46 qui représente
l’ensemble des questions restantes dans l’urne pour le dernier tirage. L’arrangement va consister à addi-
tioner à chaque modification possible de cet ensemble de départ la nouvelle probabilité de piocher une
question donnée. La solution pour cet exemple est donc un arrangement de 5 (p) à 50 (n).
50!
A550 = 50(49)(48)(47)(46) = = 254 251 200
45!
αnp = np
Exemple : Dans l’exemple précédant, si on remettait la question tirée de nouveau dans l’urne à
chaque tirage, ce serait un arrangement avec répétition de 5 (p) à 50 (n), et la solution vaudrait :
5
α50 = 505 = 312 500 000
3.3 Permutations
3.3.1 Permutations sans répétition
Une permutation de n objets distincts, correspond à toute suite ordonnée de ces n objets distincts ou
tout arrangement n à n de ces objets.
3.4 Combinaisons 15
Pn = n!
Exemple : Pour trois objets, les permutations abc, bca, cab n’en font qu’une, et de même pour bac,
acb, cba puisqu’on peut choisir librement le premier objet.
3.4 Combinaisons
3.4.1 Combinaisons sans répétition
En mathématiques, lorsque nous choisissons p objets parmi n objets distincts (discernables), numé-
rotés de 1 à n et que l’ordre dans lequel les objets sont placés (ou énumérés) n’a pas d’importance, nous
pouvons les représenter par un sous-ensemble à k éléments.
Un tel sous-ensemble à k éléments est appelé une combinaison de p éléments parmi n. Le nombre
de combinaisons que l’on peut faire est noté Cnp ou nk et vaut :
p n n!
Cn = =
k (n − p)! p!
Voici pourquoi :
– Il y a Apn manières de tirer p objets parmi les n en les ordonnants.
– Une fois les p objets tirés, il y a Pp = p! manières de les ordonner.
Apn
– Il y a donc manières de tirer p objets parmi n sans les ordonner.
p!
A. Propriétés
Cnp = Cnn−p
p p−1
Cnp = Cn−1 + Cn−1
n−p
Cnp+1 = · Cnp
p+1
16 L’analyse combinatoire
4
Dans ce chapitre
4.1 Vocabulaire de base
4.2 Lois de probabilités conditionnelles
Calcul de probalilités
17
18 Calcul de probalilités
4.1.3 L’intersection
L’événement A∩B (noté parfois A·B) est réalisé dès que A et B sont réalisés dans la même expérience.
Dans un lancer de dé, si l’événement A est « obtenir un nombre pair » et l’événement B « obtenir un
multiple de 3 », l’événement est l’événement « obtenir un nombre pair ET multiple de 3 », c’est-à-dire
{6}.
Évènement contraire : l’événement contraire de A, noté Ā contient tous les éléments de Ω qui ne sont
pas dans A. C’est l’événement qui est réalisé dès que A n’est pas réalisé.
Événements incompatibles : lorsque deux événements ont une intersection vide, c’est qu’il ne peuvent
pas être réalisés au cours d’une même expérience. On les appelle alors événements incompatibles
ou mutuellement exclusifs.
B. Equiprobabilité
Si on estime que toutes les éventualités sont équiprobables, et si on note |Ω|, le cardinal de Ω, c’est-
à-dire le nombre d’éléments dans Ω, chaque éventualité a une probabilité d’apparition de :
1
P ({ω1 }) = P ({ω2 }) = ... = P ({ωi }) =
|Ω|
Dans ce cas, et uniquement dans ce cas la probabilité de l’événement A est donnée par la formule :
|A|
P (A) =
|Ω|
C. Propriétés élémentaires
Des axiomes on déduit immédiatement les propriétés suivantes :
Propriété 1 : p(Ω) = 1
Propriété 2 : p(∅) = 0
Propriété 3 : p(A) = 1 − p(A)
Propriété 4 : p(A ∪ B) = p(A) + p(B) − p(A ∩ B)
Propriété 5 : p(A − B) = p(A ∩ B̄) = p(A) − p(A ∩ B)
Propriété 7 : p(A ∪ B ∪ C) = p(A) + p(B) + p(c) − [p(A ∩ B) + p(A ∩ C) + p(B ∩ C) + p(A ∩ B ∩ C)]
Lois distributives
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
P (A ∩ B)
P (A/B) =
P (B)
En cas d’équiprobabilité, nous aurons :
|A ∩ B|
P (A/B) =
|B|
20 Calcul de probalilités
B
A
A. Probabilité de l’intersection
Pour deux événements nous avons :
4.2.2 Indépendance
A. Indépendance de deux événements
DÉFINITION
A est indépendant de B si P (A/B) = P (A)
A et B sont indépendants si et seulement si P (A/B) = P (A) et P (B/A) = P (B)
A et B sont indépendants si et seulement si P (A ∩ B) = P (A) · P (B)
B. Indépendance mutuelle
DÉFINITION
Soit A1 , A2 , ..., An des événements, ils sont dits mutuellement indépendants si et seulement
s’ils sont indépendants deux à deux.
C. Formules de BAYES
Les formules de BAYES ont pour but d’exprimer P (A/B) en fonction de P (B/A).
Soit Bi un système complet d’événements.
Première formule X
P (A) = P (A/Bi ) · P (Bi )
i
Deuxième formule
P (A/Bi ) · P (Bi )
P (Bi /A) = P
k P (A/Bk ) · P (Bk )
Table des matières
21
22 TABLE DES MATIÈRES
3 L’analyse combinatoire 13
3.1 Principe fondamental de l’analyse combinatoire . . . . . . . . . . . . . . . . . . . . . . 14
3.2 Arrangements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2.1 Arrangements sans répétition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2.2 Arrangements avec répétition . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.3 Permutations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.3.1 Permutations sans répétition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.3.2 Permutations avec répétition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.3.3 Permutations circulaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.4 Combinaisons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.4.1 Combinaisons sans répétition . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
A. Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.4.2 Cominaisons avec répétition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4 Calcul de probalilités 17
4.1 Vocabulaire de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.1.1 Opérations sur les évenements . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.1.2 L’union . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.1.3 L’intersection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.1.4 Probabilité sur un ensemble fini . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
A. Définition mathématique . . . . . . . . . . . . . . . . . . . . . . . . . 18
B. Equiprobabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
C. Propriétés élémentaires . . . . . . . . . . . . . . . . . . . . . . . . . . 19
D. Rappels utiles sur les opérations appliquées aux ensembles . . . . . . . 19
4.2 Lois de probabilités conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.2.1 Introduction et définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
A. Probabilité de l’intersection . . . . . . . . . . . . . . . . . . . . . . . . 20
4.2.2 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
A. Indépendance de deux événements . . . . . . . . . . . . . . . . . . . . 20
B. Indépendance mutuelle . . . . . . . . . . . . . . . . . . . . . . . . . . 20
C. Formules de BAYES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20