Tableau de contingence
Un tableau de contingence est une méthode de représentation de données issues d’un comptage permettant d'estimer la dépendance entre deux caractères. Elle consiste à croiser deux caractères d'une population (par exemple une classe d'âge et un score) en dénombrant l'effectif correspondant à la conjonction « caractère 1 » et « caractère 2 ».
Les effectifs partiels sont rassemblés dans un tableau à double entrée, par ligne pour le premier caractère, et par colonne en fonction du second caractère : c'est le « tableau de contingence ».
Cet outil simple répond à un problème crucial en statistique : la détection d’éventuelles dépendances entre les qualités relevées sur les individus d'une population. L’existence de dépendances conditionnelles suggère en effet la possibilité de stocker les résultats d'un sondage de façon plus condensée[1].
La notion de tableau croisé dynamique, proposée par les tableurs, est une généralisation du tableau de contingence classique.
L'expression tableau de contingence a été introduite par le statisticien britannique Karl Pearson dans un essai intitulé On the Theory of Contingency and Its Relation to Association and Normal Correlation[2], en 1904.
Exemple
[modifier | modifier le code]On pratique des études sur plusieurs caractères, en essayant alors de déterminer s'il existe une quelconque liaison entre eux. Pour cela on étudie les individus recensant plusieurs caractères à la fois.
Par exemple, l’âge et le nombre de fois où l’on tombe malade sont-ils liés ?
Âge / Malade | 0 fois | 1 fois | 2 fois | 3 fois | 4 fois |
---|---|---|---|---|---|
20 ≤ âge < 30 ans | 4 individus | 2 individus | 2 individus | 1 individu | 1 individu |
30 ≤ âge < 40 ans | 4 | 3 | 3 | 1 | 1 |
40 ≤ âge < 50 ans | 7 | 2 | 1 | 0 | 0 |
50 ≤ âge < 60 ans | 3 | 2 | 1 | 1 | 1 |
âge ≥ 60 ans | 0 | 0 | 0 | 1 | 1 |
Application aux probabilités conditionnelles
[modifier | modifier le code]Le tableau de contingence amène naturellement à la notion de probabilité conditionnelle dans le cas discret.
Avec un tableau de p lignes et q colonnes, si l'on note nij l'effectif à l'intersection de la i-ème ligne (avec p lignes) et de la j-ème colonne, le nombre total d'individus triés par le tableau est :
De même, on peut calculer les totaux par ligne et par colonne :
L'effectif partiel nij représente un pourcentage fij de l'effectif total :
On peut regarder ce pourcentage comme une probabilité (puisque ) : c'est la probabilité conjointe qu'un individu de la population étudiée remplisse simultanément le critère associé à la ligne i (Li) et à la colonne j (Cj).
est la probabilité qu'un individu réponde à la condition Li.
est une probabilité conditionnelle : c'est la probabilité qu'un individu réponde à la condition Li sachant qu'il respecte la condition Cj.
et de même :
On a donc :
qui est la formule de Bayes.
- Exemple
Avec l'exemple précédent, n = 42 et l'on a par exemple les résultats suivants :
- P (l'individu a entre 30 et 40 ans) = 12/42 = 2/7
- P (2 arrêts maladie)= 7/42 = 1/6
- P (l'individu a entre 30 et 40 ans | 2 arrêts maladie) = 3/7
- P (2 arrêts maladie | l'individu a entre 30 et 40 ans)= 3/12 = 1/4.
Notes et références
[modifier | modifier le code]Notes
[modifier | modifier le code]- Cf. à ce sujet Steffen L. Lauritzen, Lectures on Contingency Tables, (réimpr. 1979, 1982, 1989) (lire en ligne)
- Karl Pearson, « Mathematical contributions to the theory of evolution », sur The Internet Archive, Dulau & Co.,
Bibliographie
[modifier | modifier le code]- Jérôme Pagès, Statistique générale pour utilisateurs, vol. 1 : Méthodologie, Pr. Univ. de Rennes, coll. « Pratique de la statistique », (réimpr. 2010, 2e éd. revue et augmentée), 264 p. (ISBN 978-2-7535-1215-3 et 2-7535-1215-9)
- Xavier Bry, Analyse factorielle des données, Paris, éd. Economica, , 112 p. (ISBN 2-7178-2859-1)