Cours Probabilité PDF
Cours Probabilité PDF
Cours Probabilité PDF
LINF2275
Probabilités et Statistiques: Introduction
• Démarche statistique:
Etude d’un ensemble d’objets (cas, individus, ...) sur lesquels on observe des
caractéristiques appelées «!variables!».
population = ensemble, collection d!’objets équivalents sensés partager des
propriétés communes.
Statistique = étude des propriétés générales des populations plutôt que des
propriétés particulières des individus.
• Ex: contrôle de qualité de pièces usinées:
Pour un certain type (une population) de pièces (fabriquées dans des conditions
déterminées): proportion de pièces défectueuses?
• Echantillonage:
Etude exhaustive d!’une population trop vaste (peut être infinie), difficile et/ou
coûteuse;
étude d’une partie (représentative) ou échantillon
LINF2275 Introduction 2
• Types de variable: (caractéristique, descripteur, attribut)
– qualitative: valeurs = labels d’appartenance à une catégorie
• nominale (sans notion d’ordre, ex: sexe, type de traitement, ...);
• ordinale (ordre sur les labels, ex : faible, moyen, fort);
– quantitative: à valeurs numériques
• entière (nombre fini ou dénombrable de valeurs, ex: nombre d’accidents de la
route par an);
• continue (toutes les valeurs d’un intervalle réel sont observables,
ex: température, pression sanguine, ...).
Variables quantitatives: les opérations arithmétiques (somme, moyenne, ...)
ont un sens;
Variables qualitatives: seules les opérations de comptage ont un sens!
LINF2275 Introduction 3
• Analyse statistique
= étude de la variabilité des caractéristiques des individus.
Des individus apparemment semblables ont généralement des valeurs
différentes pour les différentes variables qui les caractérisent.
LINF2275 Introduction 4
• Tableaux de données:
échantillon de n individus sur lesquels on observe p variables:
Variables
X1 X2 Xj Xp
I 1
n
2
d
i
v i xij
i
d
u n
s
notations vectorielles:
ième observation = vecteur xi!=![xi1, xi2, ..., xip]T
Statistique Probabilités
Observation de phénomènes concrets Modélisation de phénomènes aléatoires
• Observation de données: possibles • Modélisation des déviations entre
imprécisions, erreurs vraies valeurs et valeurs observées
• Distribution des valeurs d’une • Modélisation par des lois de probabilité
variable sur une population théoriques (gaussienne, poisson, …)
• Echantillonage des individus • Propriétés observées = variables
observés par tirage au hasard (assurer aléatoires Ë étude des répartitions,
la représentativité) des liens éventuels
LINF2275 Introduction 6
Probabilités = outils essentiels pour extrapoler:
LINF2275 Introduction 7
• Statistique exploratoire:
(statistique descriptive, analyse de données, "data mining")
But:
synthétiser, structurer (extraire) l'information contenue dans les données
• Outils de validation:
– Inférence: s'appuie sur des modèles probabilistes,
=> démarche analytique,
=> modèles mathématiques relativement "simples",
=> vue simplifiée parfois contestable du phénomène
étudié: les données doivent "coller" suffisamment
au modèle pour que la démarche soit valable.
– Procédure informatique: ne s'appuie que sur les données,
=> rééchantillonnage et vérification (à recommencer x fois),
=> outils informatiques: tests intensifs pour avoir une bonne
perception générale du phénomène
=> nécessite une quantité de données importante
LINF2275 Introduction 10
• Exemple: estimation d'une moyenne, intervalle de confiance
échantillon de n valeurs d'une variable X: x1, x2,..., xn
1 n
moyenne échantillon: x = Â xi dépend de l'échantillon analysé
n i=1
Méthode d'inférence:
suppose une distribution théorique (ex: normale) pour déterminer l'intervalle.
LINF2275 Introduction 11
Outils probabilistes de base (rappels)
• Expérience aléatoire: expérience où le hasard intervient rendant le résultat
imprévisible (Ex: lancer un dé)
ensemble de tous les résultats possibles = univers des possibles = W
(Ex: W = {1, 2, ..., 6})
Evénement: assertion relative au résultat d'une expérience,
se réalise ou non (Ex: obtenir un nbre pair)
= toute partie de W (Ex: {2, 4 , 6})
outils ensemblistes
• Soit C un ensemble d'événements = ensemble de parties de W satisfaisant les
propriétés suivantes (algèbre de Boole):
"A ŒC : son contraire ÿA ŒC (ÿA = W \ A)
(W , C) est un espace
"A1 , A2 ,K, An ŒC : U Ai ŒC
probabilisable
W ŒC
LINF2275 Proba. - rappels 12
• Loi de probabilité P: (W , C)’ [0,1] telle que
P (W) = 1 et "A1 , A2 ,K, An ŒC tels que Ai « A j = ∅ ("i ≠ j ),
on a P(U Ai ) = Â P(Ai )
(W , C, P) est un espace probabilisé
W
• Propriétés élémentaires
P (∅) = 0
A B
P (ÿA) = 1 – P (A)
P (A) ≤ P (B) si A Ã B
P (A » B) = P (A) + P (B) – P (A « B)
/
P (AB) = P (A « B) P (B)
A indépendant de B ssi P (AB) = P (A)
ssi P (A « B) = P (A) P (B)
LINF2275 Proba. rappels 13
• Théorème des probabilités totales:
" A1, A2, ..., An formant une partition de W (Ai « Aj = ∅ " i≠j, et » Ai = W)
"B P(B) = Âi P(B « Ai)
= Âi P(BAi) P(Ai)
en particulier: P(B) = P(BA) P(A) + P(BÿA) P(ÿA)
• Théorème de Bayes:
P(AB) = P(BA) P(A) / P(B)
Généralisation: si A1, A2, ..., An forment une partition de W
P(AiB) = P(BAi) P(Ai) / Âk P(BAk) P(Ak)
Ex d'utilisation: aide au diagnostique:
probabilité d'une affection étant donnés les résultats d'examens médicaux.
P(xi)
Ex: X = nbre d'enfants
des familles européennes
0 1 2 3 4 5 6 7 8 9 10 >10
LINF2275 Proba. - rappel 17
• Fonction de répartition d'une variable aléatoire X:
F(x) = P(X < x) (fct monotone croissante)
d'où: P(a ≤ X < b) = F(b)– F(a)
Ex: fct de répartition d'une variable discrète :
F(x)
1
0 1 2 3 4 5 6 7 8 9 10 x
0 x
LINF2275 Proba. - rappel 18
• Densité de probabilité (variable continue):
f(x) est la fct de densité pour une variable X si pour tout intervalle
[a , b] de ¬ on a: b
f(x)
P(a < X < b)
a b x
• Médiane et percentile:
médiane: valeur x50 telle que P(X ≤ x50) = 0.50
percentile p%: valeur xp telle que P(X ≤ xp) = p%
Lois discrètes:
• Loi discrète uniforme:
X = {1, 2, ..., n} avec P(X = k) = 1/n ...
1 2 3 n
• Loi ou schéma de Bernouilli de paramètre p:
X = {0,1} avec P(X = 1) = p (apparition d'un événement) et
P(X = 0) = 1 – p (non-apparition d'un événement)
Lois continues
• Loi uniforme sur un intervalle [a, b]:
même probabilité sur tout l'intervalle: f(x) = 1/(b – a)
f(x)
1/(b – a)
a b x
– lois conditionnelles: loi d'une variable étant donné la valeur prise par l'autre
loi de X si Y = yj : pi|j = P(X = xi | Y = yj) = pij/ p.j
loi de Y si X = xi : pj|i = P(Y = yj | X = xi) = pij/ pi.
– Indépendance de X et Y: ssi pij = pi. p.j ssi pi|j = pi. ssi pj|i = p.j
Loi conditionnelle : /
fY|x(y) = fXY(y) fX(x) pour fX(x) > 0
indépendance ssi fY|x(y) = fY(y) ssi fX|y(x) = fX(x)
/
corrélation: rXY = cor(X,Y) = cov(X,Y) sX s Y
Propriétés:
1) V(X + Y) = V(X) + V(Y) + 2 cov(X,Y).
2) SI X et Y indépendantes ALORS cov(X,Y) = 0 (car E(X Y) = E(X) E(Y))
! la réciproque est fausse: cov(X,Y) = 0 n'implique pas l'indépendance
3) -1 ≤ rXY ≤ 1
4) r2XY = 1 ssi Y = aX + b sXY et rXY = mesures de relation linéaire
x x
y y cor = 0
-1 < cor < 0
x x
LINF2275 Proba. - rappels 31
• Distribution normale bivariée