Un test devrait être reproductible chez le même patient lorsqu’il est réalisé par 2 ou plus de deux examinateurs (reproductibilité en inter-examinateurs), ou, à l’extrême rigueur, par un même examinateur à l’occasion de deux examens échelonnés dans le temps (reproductibilité intra-examinateur).
Supposons que deux examinateurs se prononcent sur une observation qualitative, par exemple, la différence de longueur des membres inférieurs, l’un cliniquement, en observant la dénivellation des malléoles médiales, l’autre en tirant à pile ou face. Ils tomberont vraisemblablement d’accord dans certains cas, uniquement par hasard, par chance, mais ce qui nous intéresse, ce sont les cas ou le hasard ne rentre pas en compte dans l’agrément entre deux examinateurs, pour savoir si cet examen est fiable.
Lorsqu’un test donne des valeurs qualitatives dichotomiques (par exemple oui/non) ou ordonnées (par exemple faible, moyenne, forte), le test de kappa de Cohen doit être utilisé pour mesurer l’agrément entre examinateurs, au delà du « simple » hasard et des concordances obtenues par chance.
Si vous ne comprenez franchement pas de quoi il retourne, Kappa évoquant pour vous jusqu’à lors plutôt une agence photo, vous pouvez consulter le site de P. Bonnardel Le Coefficient de Kappa
Pour les vicieux qui, déplorant de ne pouvoir les lire en guatémaltèque ou en cyrillique, se documentent sur les statistiques en anglais, il y a aussi (relativement abordable) :
Julius Sim, Chris C Wright. The Kappa Statistic in Reliability Studies: Use, Interpretation, and Sample Size Requirements. Physical Therapy March 2005 85:257-268
Piette P. Métrologie appliquée à la kinésithérapie : mesures, tests et bilans, concepts fondamentaux. EMC – Kinésithérapie-Médecine physique-Réadaptation 2016;0(0):1-15 [Article 26-007-A-40]