Biostats : Connaître la précision d’un test diagnostic en pratique courante


personne tenant un ipad noir
2030 : le kinésithérapeute de garde conclut en première intention à une fort probable entorse du croisé antérieur. À l’aide d’un algorithme présent sur sa tablette, de quelques signes cliniques et d’un Lachman positif.  

En prenant son temps, un article largement compréhensible paru dans le Journal Of Physiotherapy sur un sujet compliqué mais d’avenir.


Pour connaître la validité des tests méniscaux, il faut les comparer avec un examen de référence (« gold standard »), considéré comme le meilleur test disponible pour la condition concernée (condition cible) mais qui peut être difficile à administrer, coûteux ou même invasif. 

Cependant, tout élément de l’histoire (un signe physique comme l’oedème, un antécédent de traumatisme récent, …) ou un questionnaire peuvent également être considérés comme des tests diagnostic et permettre de comparer la précision du test étudié.

De plus, alors que la plupart des recherches se concentrent sur des tests uniques, la précision diagnostique peut utiliser une batterie de tests (cas de la recherche d’une douleur sacro-iliaque).

Comment interpréter les résultats de la recherche diagnostique ? Quels tests utiliser dans la pratique clinique ? Pour quelle raison ? 

Sensibilité & spécificité. Le problème du oui ou du non

Classiquement, le test peut être considéré comme positif ou négatif et on le confronte avec la présence ou non de la condition recherchée (ex : présence ou non d’une lésion méniscale à l’IRM).

La représentation se fait à l’aide d’un tableau 2×2 :

Comparaison du test avec le gold standard Présence au gold standard de la condition recherchée Absence au gold standard de la condition recherchée
Test + 75 175
Test – 50 200
  • La sensibilité correspond au rapport des vrais positifs sur l’ensemble des sujets testés, ici 75 / (75 + 50) soit 60% 
  • La spécificité correspond au rapport des vrais négatifs sur l’ensemble des sujets testés, soit ici 200/ (175+200) soit 53%. 

Le problème de la valeur seuil 

Le test est binaire, dichotomique, car il sous-entend qu’il n’a pas d’autre solution que d’être positif, ou négatif, ce qui élimine les p’têt ben qu’oui, les tests un peu positifs, juste par le choix du seuil (par exemple, dire qu’on est vieux à 62 ans et jeune à 61 ans et 364 jours les années non bissextiles).  

Ce problème a été contourné par la possibilité de classer plusieurs seuils croissants ou utiliser une variable continue (évoluant selon une courbe de régression).

Le problème de l’échantillon à partir duquel on fait l’étude

Vérifier que le signe de Lasègue permet de mettre en évidence une hernie discale et le comparer avec les résultats d’un IRM dans un échantillon de patients admis dans une clinique pour lombo-sciatalgie paralysante risque de ne pas pouvoir être extrapolé dans le tout venant d’une population de patients allant chez le kiné du coin. 

Ce problème peut être contourné par le calcul des ratios de vraisemblance, qui ne sont pas liés à la prévalence de la pathologie dans l’échantillon, mais qui restent peu parlant. Perso, j’ai adopté des codes couleurs, mais ce n’est qu’un pis-allé. 

Sans titre

Le problème de l’étude de validité 

Est-ce que toutes les études sur la précision des tests de diagnostic se valent ?

Comme d’autres études, elles peuvent être de qualité méthodologique élevée ou faible. Des outils tels que le QUADAS-2 (Quality Assessment of Diagnostic Accuracy Studies 2) peuvent être utilisés pour évaluer la qualité des études classiques de précision des tests de diagnostic. Cet outil comprend quatre domaines : la sélection des patients, le test d’index (ex : le tableau 2×2 précédent), le choix du test de référence, le déroulé de l’étude (flow & timing). 

Pour un clinicien occupé, il suffit de considérer qu’une étude de précision diagnostique sera probablement fiable si elle répond aux critères suivants :

  • Un échantillon de patients consécutif ou aléatoire a été recruté
  • L’étude évite les exclusions inappropriées
  • Le test analysé et le test de référence sont évalués indépendamment (c’est-à-dire sans qu’un examinateur connaisse le résultat de l’autre test)
  • Le seuil d’un test positif est clair
  • Tous les participants ont reçu les deux tests
  • Le délai entre la réalisation du test analysé et du test de référence est clairement approprié (c’est-à-dire que le résultat de l’un ou l’autre test ne devrait pas changer pendant cette période)

Avec un peu de chance, le test est très spécifique ou très sensible 

La probabilité de maladie, en cas de résultat positif ou négatif (probabilité post-test), est généralement obtenue en calculant, de façon compliquée pour un praticien, le rapport de vraisemblance du résultat du test et en utilisant des formules basées sur le théorème de Bayes, ou un nomogramme, pour convertir la probabilité estimée du diagnostic suspecté avant que le résultat du test ne soit connu (probabilité pré-test) en une probabilité post-test, qui tient compte du résultat. Les rapports de probabilité indiquent combien de fois plus de chances d’obtenir un résultat de test est attendu chez un patient atteint de la pathologie par rapport à une personne indemne de la pathologie et mesurent ainsi la capacité d’un test à modifier les probabilités pré-test (NDR : vous l’avez deviné, uniquement ce qui est écrit en italique dans ce paragraphe sort directement de mon néo-cortex).

David Sackett et d’autres ont fait valoir que de tels calculs sont inutiles lorsqu’un test est très sensible ou très spécifique (Cool !). Dans cette situation, le rapport de probabilité d’un test négatif sera généralement très faible, et le rapport de probabilité d’un test positif sera généralement très important. 

Un test négatif écartera donc la possibilité d’une maladie et un résultat positif la rendra possible. Deux moyens mnémotechniques permettent de saisir les propriétés de ces tests : le SnNOut et le SpPIn. 

Ce concept est devenu de plus en plus populaire et de nombreux sites web de médecine factuelle répertorient ces tests.

SpPIn et SnNOut sont dans un bateau

Ces termes ont été introduits dans les années 1990 pour faciliter l’interprétation de la sensibilité et de la spécificité, lorsque l’une ou l’autre est élevée.

SnNOut

SnNOut signifie « Sensitivity high and test Negative rules disease Out« .  C’est un moyen mnémotechnique pour indiquer qu’une absence de signes (N) dans un test très sensible (Sn) est déterminant pour exclure la pathologie recherchée (Out).

Les tests de dépistage tels que le Canadian Spine Rule (pour identifier la possibilité d’une fracture cervicale en service d’urgence et se passer de radiographie) ou la règle d’Ottawa pour la cheville, sont utilisés pour écarter les pathologies graves et déterminer si des tests supplémentaires sont nécessaires. 

Par conséquent, il est très important que les tests de dépistage ne ratent pas les personnes ayant reçu le diagnostic (c’est-à-dire que les tests de dépistage doivent avoir une sensibilité élevée). 

Cependant, il est moins important que lorsqu’un test de dépistage est positif, la personne ait réellement le diagnostic (c’est-à-dire qu’il n’est pas crucial que les tests de dépistage aient également une spécificité élevée), puisqu’au pire, le patient passe une radiographie pour rien dans les cas présents.

SpPIn

SpPIn signifie « Specificity high and test Positive rules disease In« . C’est un moyen mnémotechnique pour indiquer que la présence de signes (P) dans un test très spécifique (Sp) est déterminant pour considérer que la pathologie recherchée existe bel et bien (In).

C’est le cas du test de Lachman qui, lorsqu’il est couplé à d’autres signes cliniques, permet de cliniquement mettre en évidence une entorse du croisé antérieur (voir plus bas).

C’est quoi une valeur haute de spécificité ou sensibilité ?

Il n’est ni possible ni judicieux de fournir des valeurs exactes de sensibilité et de spécificité qui soient considérées comme « élevées » (ou du moins suffisamment élevées pour respecter les règles SpPIn et SnNOut), car ces valeurs dépendent des conséquences cliniques. 

Chez une personne souffrant de lombalgie, la conséquence de l’absence de diagnostic de syndrome de la queue de cheval est très différente de la conséquence de l’absence d’une hernie discale, de sorte qu’une sensibilité plus élevée serait nécessaire dans un test concernant la 1° condition. 

Pour les troubles musculo-squelettiques, les valeurs supérieures ou égales à 90% avec des intervalles de confiance raisonnablement étroits sont souvent considérées comme suffisamment élevées pour une utilité clinique.

Modèles de diagnostic

soccer-football-sport-ball-159698.jpegDans la pratique clinique quotidienne, la stratégie de diagnostic repose rarement, voire jamais, sur une seule variable ou un seul test clinique. En principe, chaque variable ou test diagnostique contribue à la probabilité éventuelle qu’un patient souffre d’une maladie ou d’un état particulier ; en d’autres termes, le processus de diagnostic est un processus à plusieurs variables.

Ainsi, l’effusion, la sensation de claquement, le dérobement du genou et le Lachman ont montré des associations avec une lésion du LCA. Le Lachman, associé aux trois signes cliniques précédents, permet la bascule en SpPIn en augmentant la spécificité à 99% et en diminuant la sensibilité à 16 %, ce qui devrait permettre à un examinateur de conclure à une entorse sans recours à une IRM.

Interprétation

Les modèles de diagnostic utilisent généralement une analyse de régression, et la contribution de chaque variable ou test individuel est souvent exprimée sous la forme d’un coefficient de régression (ß) pour une mesure continue, ou d’un rapport de cotes (OR pour odds-ratio) pour une mesure dichotomique.

Par exemple, si le test est une mesure qualitative dichotomique (par exemple, le sexe) avec un OR de 1,2 pour les hommes, cela signifie que la probabilité d’un trouble est légèrement plus élevée chez les hommes (personne ayant un résultat positif pour un sexe donné), par rapport aux femmes (résultat négatif).

Si le test donne une variable quantitative continue (par exemple, l’âge) avec un OR de 1,2, cela signifie que la probabilité de trouble augmente légèrement avec chaque année d’augmentation de l’âge du patient.

Pour évaluer la valeur diagnostique d’un modèle de diagnostic, la courbe représentant la fonction d’efficacité du récepteur (courbe ROC pour receiver operating characteristic) est utilisée. 

radar

A l’origine, il s’agissait de faire la différence entre la présence réelle d’avions au radar de celle du bruit de fond.

Il s’agit d’un graphique illustrant la sensibilité du modèle par rapport à la spécificité (techniquement, le taux de fausse positivité, c’est-à-dire la spécificité) à différents points de coupure. L’aire sous la courbe (AUC pour Area Under the Curve) indique l’efficacité avec laquelle l’ensemble du modèle peut discriminer entre les personnes avec et sans la condition particulière. 

Receiver-operating-characteristic-curve-analysis-AUC-area-under-curve-baPWV.png

  • Un modèle avec une AUC de 1 est un modèle parfait (c’est-à-dire qu’il peut identifier tous les patients atteints de la maladie sans produire de faux positifs ou de faux négatifs). 
  • En revanche, un modèle avec une AUC de 0,5 n’a aucune valeur (c’est-à-dire qu’il ne peut pas du tout faire la distinction entre les personnes atteintes ou non). 
  • Avec une AUC comprise entre 0,6 et 0,7, le modèle est considéré comme « raisonnable » et avec une AUC ≥ 0,7, le modèle est considéré comme « bon ». 

Cependant, comme plus haut, l’utilisation clinique et les conséquences du modèle de diagnostic doivent être prises en compte.

Problème : l’interprétation des coefficients ß, des OR ou d’une AUC est peu pratique pour les cliniciens

Des modèles de diagnostic portant sur plusieurs variables (signes, tests, mesures, …) ont été inventés pour convertir en tableau utilisable par le clinicien pour calculer la probabilité d’un certain diagnostic pour un patient particulier. 

Par exemple, chez les patients souffrant de douleurs à l’épaule, un nomogramme a été élaboré qui comprend un élément d’histoire (sexe masculin) combiné à trois tests d’examen physique (lift-off test positif, test de Jobe et rapport entre les rotations latérales entre l’épaule affectée et l’épaule non affectée), qui peuvent prédire une déchirure de la coiffe des rotateurs avec une précision de 83 % [Jain 2018].

Bientôt, vous n’aurez plus qu’à rentrer les conclusions des signes cliniques et tests et votre apps sur tablette vous donnera le résultat probable….

Tableau provenant de l’article [Jain 2018]

Modèles de diagnostic basés sur le cumul de tests cliniques 

Il est tentant de cumuler différents tests en espérant que le poids des tests cumulés sera plus important que celui d’un test isolé. En pratique quotidienne, le processus de diagnostic consiste presque toujours en un ensemble de tests, et les deux choses les plus importantes pour un clinicien sont : 

  • La probabilité d’un diagnostic basé sur tous les tests
  • La contribution supplémentaire de chaque test (c’est-à-dire déterminer s’il vaut la peine d’ajouter ce test à la batterie de tests précédents). 

IMG_2625Malheureusement, il existe souvent des différences considérables entre les études quant aux variables (tests) qui ont été jugées pertinentes et incluses, quant aux échantillons, de sorte que la comparaison entre les études est difficile.

L’utilisation de clusters pour le diagnostic des douleurs sacro-iliaques chez les personnes souffrant de lombalgies, en évaluant uniquement la combinaison des tests d’examen physique en est un exemple. Celui de Laslett est le plus connu, mais il en existe trois autres et tous ces modèles indiquent que trois tests spécifiques sur cinq doivent être positifs. Il reste que les tests inclus ont été validés à partir de groupes différents, ce qui pour les auteurs pose problème. Dans l’idéal, les modèles développés dans une étude doivent ensuite être validés dans une nouvelle population, ce qui rarement le cas.


Références bibliographiques 

Nitin B. Jain, Run Fan, Laurence D. Higgins et al. Does My Patient With Shoulder Pain Have a Rotator Cuff Tear? A Predictive Model From the ROW Cohort. Orthop J Sports Med. 2018 Jul; 6(7): 2325967118784897.

Article en accès libre.

Daniel Pewsner, Markus Battaglia, Christoph Minder et al. Ruling a diagnosis in or out with “SpPIn” and “SnNOut”: a note of caution. BMJ 2004; 329

Article en accès libre. 

Arianne Verhagen, Mark Hancock. Research Note: Diagnostic test accuracy studies. J Physiother. 2021 Jan;67(1):69-71. doi: 10.1016/j.jphys.2020.12.004.

Article en accès libre en cliquant sur le lien du titre. 

Autres articles méritant un coup d’oeil parus ce mois-ci sur les biostats

What makes a great clinical trial? Exploring the features of five important physiotherapy trials

Variability in experimental pain studies: nuisance or opportunity?

Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l’aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l’aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s