Sensibilité Spécificité

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 4

95161 - Folio : p32 - Type : pINT 06-10-17 11:42:26

L : 219.992 - H : 306.994 - Couleur : Black


Cyan
Magenta
Yellow

Outils

CONCEPTS ET OUTILS Un test diagnostique est un examen d'imagerie, une échelle binarisée ou un examen
biologique dont le résultat doit permettre de détecter la présence ou de prédire la
survenue d'un état pathologique. Un « nouveau » test doit être évalué selon une mé-
thodologie adaptée avant d'être utilisé en routine. Cette évaluation comporte plusieurs
phases et permettra in fine d'estimer les performances diagnostiques en quantifiant
les indices de précision, notamment la sensibilité, la spécificité, et le rapport des cotes.
La valorisation de ces indices ne suffit pas à valider le test. Les modifications que son
intégration dans la démarche médicale entraîne et l'impact de son utilisation en routine
sur l'état de santé des patients doivent aussi être quantifiés.
Behrouz Kassaï
Julie Manière
Kim-An Nguyen
Inserm, CIC 201,
Service
de pharmacologie
clinique, Hospices
civils de Lyon,
Université Lyon 1
Qu'attendre
Mots clés : test
d'un « test diagnostique » ?
diagnostique,
indices, seuils
DOI : 10.1684/med.2006.0010
Les indices de précision des tests
diagnostiques (1re partie)

La méconnaissance des méthodologies adaptées à


l’évaluation des tests est un obstacle important à la
généralisation de la médecine factuelle au domaine
Les indices de précision
diagnostique [1]. D’importants progrès ont été effec- et combinaisons les plus
tués dans le domaine de la méthodologie d’évaluation simples
des tests ces dernières années avec de réels espoirs
d’une utilisation plus rationnelle de ces examens [2].
– La sensibilité (Se) est la probabilité d’avoir un test
Mais l’absence de cadre réglementaire bien défini
positif quand on est malade : a / (a + c).
pour l’évaluation des tests avant leur généralisation
– La spécificité (Sp) est la probabilité d’avoir un test
reste un obstacle majeur à la généralisation de plans
négatif quand on n’est pas malade : d / (b + d).
de développement clinique rigoureux pour les tests
– La valeur prédictive positive du test (VPP), la pro-
diagnostiques. L’objectif de cet article est d’exposer
babilité d’avoir la maladie quand le test est positif :
les bases méthodologiques de l’évaluation des perfor-
a / (a + b).
mances diagnostiques d’un test.
– La valeur prédictive négative du test (VPN), celle
Dans cette première partie, nous nous intéressons de ne pas avoir la maladie quand le test est négatif :
aux résultats du test : celui-ci peut être positif (« anor- d / (c + d).
mal », c’est-à-dire une valeur observée au-delà du – Les rapports de vraisemblance (en anglais Likeli-
seuil) ou négatif (« normal » c’est-à-dire une valeur ob- hood Ratio, LR) estiment le rapport entre la probabi-
servée en deçà du seuil), et la maladie présente ou lité d’avoir un test positif (ou négatif) chez les sujets
absente. Les résultats de l’application du test diagnos- malades à celle d’avoir un test positif (ou négatif) chez
tique à une population dans l’idéal ou dans le cadre de les sujets sains. Le rapport de vraisemblance positif
son évaluation peuvent être représentés sous la forme est donc LR(+) = (sensibilité) / (1 – spécificité) et né-
d’un tableau 2 × 2 (tableau 1). Une série d’indices a gatif LR(–) = (1 – sensibilité) / spécificité.
été construite à partir des nombres de ce tableau – et – Le « Diagnostic Odds Ratio » (DOR) ou le rapport
parfois d’autres informations – pour caractériser un des cotes diagnostiques est connu comme un indice
test par ses performances. statistique dans l’épidémiologie des études

368 MÉDECINE octobre 2006


95161 - Folio : p33 - Type : pINT 06-10-17 11:42:26
L : 219.992 - H : 306.994 - Couleur : Black
Cyan
Magenta
Yellow

CONCEPTS ET OUTILS
Outils

Tableau 1. Tableau 2 × 2 issu de l’évaluation d’un test diagnostique

Maladie présente Maladie absente


Test + Vrai + (VP) = a Faux + (FP) = b a=b
Test – Faux – (FN) = c Vrai – (VN) = d c+d
Total a+c b+d a+b+c+d
a est le nombre de sujets atteints et pour qui le test est « positif » ; b est le nombre de sujets non atteints par la maladie pour lesquels
le test est « positif » ; c est le nombre de malades pour lesquels le test est « négatif » ; d est le nombre de sujets non atteints pour
lesquels le test est « négatif ».

cas-témoins. Il représente la force de l’association entre le hautes signifient une meilleure performance du test. La va-
facteur de risque et la maladie. Ici, il pourrait être utilisé pour leur = 1 signifie que le test n’a aucune valeur discriminante
montrer la force de l’association entre le résultat d’un test et une valeur › 1 que le test est plus souvent positif chez les
et la maladie. Cet indice cherche à quantifier la performance malades que chez les sujets sains.
d’un test par une seule valeur. Celle-ci n’est pas influencée
par la prévalence, contrairement aux indices précédents. Le théorème de Bayes stipule que la cote d’être malade
DOR est le ratio entre la cote d’être malade (probabilité d’être après un test (+ ou –) est égale à la cote d’être malade avant
malade divisée par la probabilité de ne pas être malade) lors- le test (+ ou –) que multiplie le rapport de vraisemblance
que le test est positif et la cote de ne pas être malade lorsque (+ ou –). La prévalence de la maladie dans la population étu-
le test est négatif. DOR = (VP/FN)/(FP/VN) = ad/bc = [Se/(1 diée permet de calculer la cote d’être malade avant le test
– Se)]/[(1 – Sp)/Sp] = LR+/LR– = [VPP/(1 – VPP)]/[(1 – si elle est connue. La probabilité d’être malade peut être cal-
VPN)/VPN]. La valeur du DOR varie de 0 à l’infini. Les valeurs culée à partir de la cote :

Probabilité d’être malade (test + ou –) = cote d’être malade (test est + ou –)


1 + cote d’être malade (test + ou –)

Fagan a proposé un nomogramme dès 1977 (figure 1) pour causal entre ces deux tests [4]. Par exemple, Hlatky et al. ont
permettre de calculer la probabilité de maladie à partir des montré que pour le diagnostic d’une coronaropathie, en fonc-
résultats d’un test [3]. tion de l’âge, du sexe, du stade de l’exercice atteint, de la
sévérité et de la durée des symptômes, la sensibilité du dé-
calage du segment ST (› 1 mm) à l’électrocardiographie d’ef-
fort comparée à la coronarographique variait entre 41 et 89 %
Qu'en penser ? et la spécificité variait entre 70 et 100 % [6].
Cependant, même pour les vrais tests diagnostiques, la sta-
La sensibilité et la spécificité bilité de la sensibilité et de la spécificité sont théoriques. Les
ne sont pas des valeurs invariables et mesures seront variables en fonction de la pathologie et du
intrinsèques à prévalence de maladie donnée test de référence utilisé, de la population et de la question
clinique posée, de la place du nouveau test dans la démarche
En théorie, ces indices, au contraire de ce qui est enseigné (en plus ou en remplacement d’un autre test) et de la nature
habituellement dans les ouvrages pédagogiques, sont uni- du test (quel appareil, quelle technique, quel étalonnage) [7].
quement constants lorsque la positivité du test de référence La variation de ces indices mettrait en doute le rationnel d’uti-
(qui définit la présence de la maladie) entraîne de façon cau- lisation des tests en pratique clinique courante fondé sur l’hy-
sale la positivité du nouveau test. On distingue en effet : pothèse de Bayes et la constance de la vraisemblance d’un
– Le vrai test diagnostique : il est relié de manière causale test. Néanmoins, cette variation est en grande partie due aux
au test de référence (ou à la maladie). Par exemple, si l’ap- biais de sélection, d’interprétation, de vérification mais aussi
parition d’un cancer du côlon détecté par la colonoscopie en- à l’imperfection du test de référence [8-12].
traînait systématiquement la présence du sang dans les sel-
les, la sensibilité et la spécificité de l’Hémoccult® seraient
Un peu plus sur la variabilité des indices :
constantes car le test détecterait la même proportion d’hé-
les seuils
morragie fécale [4]. Ce cas de figure est assez rare.
– Le test prédictif : il prédit l’apparition de la maladie. La En plus des éléments que nous venons de citer, une part de
majorité des tests que nous utilisons sont de ce type. Un la variation de la précision des tests est due aux différents
exemple de test prédictif est celui de la prédiction de compli- seuils utilisés par les observateurs pour classer les patients
cation cardiaque avant la chirurgie vasculaire par scanner au en positifs ou négatifs. Par exemple, lors d’une étude chez
dypiramidole-thalium [5]. On constate une grande variabilité 1 168 femmes en post-ménopause présentant une hémorra-
des valeurs des indices de précisions évaluées par différen- gie vaginale, l’ultrasonograhie endovaginale a été évaluée
tes études. pour le diagnostic de cancer de l’endomètre avant le cure-
– Le test corrélationnel : la maladie cause la positivité du tage chirurgical [13]. Cette étude a évalué la précision de dif-
test de référence et du nouveau test sans lien forcément férents seuils de l’épaisseur de la tumeur pour définir le

MÉDECINE octobre 2006 369


95161 - Folio : p34 - Type : pINT 06-10-17 11:42:26
L : 219.992 - H : 306.994 - Couleur : Black
Cyan
Magenta
Yellow

CONCEPTS ET OUTILS
Outils

Figure 1. Le nomogramme de Fagan.

Figure 2. Courbe ROC (sensibilité en fonction de 1-spécificité ou Receiver Operating Characteristic) d’évaluation de différents seuils d’épais-
seur de la tumeur mesurée par l’ultrasonograhie endovaginale comparée à l’examen anatomo-pathologique après curetage.

cancer. La figure 2 montre que lorsque le seuil de positivité Une part de subjectivité importante persiste lors de la défi-
est strict (< 20 mm), la spécificité est importante car la plu- nition d’un seuil de positivité, d’où l’importance d’utiliser une
part des tumeurs de grande épaisseur sont des cancers (fai- courbe ROC pour fixer ce seuil et des courbes ROC résu-
ble nombre de faux positifs). En revanche, la sensibilité est mées pour synthétiser les résultats de plusieurs études [14].
faible car un grand nombre des tumeurs avec une épaisseur
< 20 mm classées en tumeurs non cancéreuses sont des Le problème du test de référence
faux négatifs. Un seuil plus souple (< 5 mm) sera au contraire Pour évaluer un test diagnostique, sa précision doit être
plus sensible et moins spécifique. La courbe Receiver Ope- comparée à un test de référence, l’« étalon-or » (« gold stan-
rating Characteristic (ROC) permet ainsi de tenir compte de dard »), qui déterminera la maladie de façon fiable. Cepen-
l’effet seuil et de la corrélation négative entre la sensibilité dant, les tests de référence ne sont jamais parfaits et entraî-
et la spécificité. La définition du seuil sera effectuée selon le nent donc des erreurs de classification de la maladie. Les
contexte clinique, pour privilégier l’un ou l’autre de ces deux biais causés par ces erreurs de classification dépendent de
indices ou choisir le meilleur couple en terme de précision. la prévalence de la maladie et de la corrélation entre les

370 MÉDECINE octobre 2006


95161 - Folio : p35 - Type : pINT 06-10-17 11:42:26
L : 219.992 - H : 306.994 - Couleur : Black
Cyan
Magenta
Yellow

CONCEPTS ET OUTILS
Outils

erreurs du nouveau test et celles du test de référence. Les on répétait le test chez un même patient. Par exemple, le
erreurs des deux tests sont indépendantes quand elles ne test de référence pour le diagnostic de thrombose veineuse
surviennent pas sur les mêmes patients, et à l’inverse, sont profonde est la phlébographie qui est invasive, douloureuse,
corrélées lorsqu’elles surviennent chez les mêmes patients. et moyennement fiable avec un faible taux de concordance
Quand la précision du test de référence et la relation entre entre deux observateurs (Kappa variant de 0,57 à 0,90) [16].
les erreurs des deux tests sont connues, ces biais pourraient La précision de la phlébographie n’a pas été évaluée.
être corrigés [15] mais les méthodes de correction avec les
erreurs corrélées ne sont pas encore développées. Malheu- Nous reviendrons dans la seconde partie de cet article, dans
reusement, la précision du test de référence est souvent in- le prochain numéro de Médecine, sur les différents problè-
connue car il a mal été évalué. La précision d’un test, ou mes méthodologiques que pose l’évaluation des tests dia-
robustesse, est sa capacité à reproduire le même résultat si gnostiques.

Références :

1. Reid MC, Lachs MS, Feinstein AR. Use of methodological standards in diagnostic test research. Getting better but still not good. Jama. 1995;274(8):645-51.
2. Buntinx F, Knottnerus JA. Are we at the start of a new era in diagnostic research? J Clin Epidemiol. 2006;59(4):325-6.
3. Fagan TJ. Letter: Nomogram for Bayes theorem. N Engl J Med. 1975;293(5):257.
4. Choi BC. Causal modeling to estimate sensitivity and specificity of a test when prevalence changes. Epidemiology. 1997;8(1):80-6.
5. Wong T, Detsky AS. Preoperative cardiac risk assessment for patients having peripheral vascular surgery. Ann Intern Med. 1992;116(9):743-53.
6. Hlatky MA, Pryor DB, Harrell FE Jr, Califf RM, Mark DB, Rosati RA. Factors affecting sensitivity and specificity of exercise electrocardiography. Multivariable analysis. Am J Med.
1984;77(1):64-71.
7. Irwig L, Bossuyt P, Glasziou P, Gatsonis C, Lijmer J. Designing studies to ensure that estimates of test accuracy are transferable. BMJ. 2002;324(7338):669-71.
8. Diamond GA. Reverend Bayes’ silent majority. An alternative factor affecting sensitivity and specificity of exercise electrocardiography. Am J Cardiol. 1986;57(13):1175-80.
9. Diamond GA. Affirmative actions : can the discriminant accuracy of a test be determined in the face of selection bias? Med Decis Making. 1991;11(1):48-56.
10. Mulherin SA, Miller WC. Spectrum bias or spectrum effect? Subgroup variation in diagnostic test evaluation. Ann Intern Med. 2002;137(7):598-602.
11. Ransohoff DF, Feinstein AR. Problems of spectrum and bias in evaluating the efficacy of diagnostic tests. N Engl J Med. 1978;299(17):926-30.
12. Knottnerus JA, Leffers P. The influence of referral patterns on the characteristics of diagnostic tests. J Clin Epidemiol. 1992;45(10):1143-54.
13. Karlsson B, Granberg S, Wikland M, Ylostalo P, Torvid K, Marsal K, et al. Transvaginal ultrasonography of the endometrium in women with postmenopausal bleeding – a Nordic
multicenter study. Am J Obstet Gynecol. 1995;172(5):1488-94.
14. Moses LE, Shapiro D, Littenberg B. Combining independent studies of a diagnostic test into a summary ROC curve: data-analytic approaches and some additional considerations.
Stat Med. 1993;12(14):1293-316.
15. Walter SD, Irwig L, Glasziou PP. Meta-analysis of diagnostic tests with imperfect reference standards. J Clin Epidemiol 1999;52(10):943-51.
16. Picolet H, Leizorovicz A, Revel D, Chirossel P, Amiel M, Boissel JP. Reliability of phlebography in the assessment of venous thrombosis in a clinical trial. Haemostasis. 1990;20(6):362-7.

En résumé : qu'attendre d'un test diagnostique ?


Les performances d’un même test diagnostique varient en fonction :
h de la prévalence de la maladie
h du lien physiopathologique avec le test de référence
h du test de référence utilisé
h du seuil, donc de l’étalonnage
h de sa place dans la démarche

MÉDECINE octobre 2006 371

Vous aimerez peut-être aussi