
Degré de signification
La réalisation du test statistique en lui-même (c’est-à-dire sa partie « mathématique ») permet de calculer le degré de signification, ou « petit p ». Si p>α, on ne rejette pas H0 et la différence est dite non significative. Si p<α, on rejette H0 et la différence est dite significative. Précisons que si α est une caractéristique du test, fixée par l’expérimentateur, p est une caractéristique du groupe étudié.
A l’issue d’un test statistique, le simple fait de conclure à une différence significative entre groupes ne permet pas de mesurer la confiance qu’on peut placer dans cette conclusion. Le degré de signification permet de donner un poids à cette conclusion. C’est la probabilité d’observer la différence que l’on a effectivement observée entre les groupes, si H0 est vraie. En d’autres termes, s’il n’y a pas de différence « vraie » entre les groupes, la probabilité d’observer la différence que l’on a effectivement observée est égale à p.
Par conséquent, lorsque l’on conclut à une différence significative entre les groupes, plus p est petit, plus on peut avoir confiance en cette conclusion.
Différence statistiquement significative et cliniquement significative
Lorsque la conclusion d’un test statistique est que la différence entre les groupes comparés est significative, cela veut dire que cette différence n’est pas liée au hasard (au risque α près), mais à une différence « vraie » entre les groupes. Pour autant, cela ne dit rien de l’ampleur de cette différence. Cette ampleur sera caractérisée par la taille de l’effet (ou magnitude de l’effet, ou effect size).
Par exemple, une différence de régression de la douleur mesurée par EVA de 0,2 points peut être statistiquement significative, y compris avec un p très faible (0,0001 par exemple). Pour autant, une différence de 0,2 sur une échelle de 10 est-elle cliniquement significative ?
Enfonçons le clou : le test statistique a pour fonction d’aider à déterminer si les différences que l’on observera forcément entre les groupes au cours de l’étude sont liées au hasard (fluctuations d’échantillonnage), ou à une différence réelle entre les groupes. Il ne permet pas d’estimer l’ampleur de la différence entre les groupes. Pour cela, on utilisera d’autres outils, comme les intervalles de confiance par exemple.
Une formation de marin ne serait tout de même pas de trop, non ? 🙂
J’aimeJ’aime
Je suis un spécialiste du je ne comprends pas, là vous m’avez fait un nœud au cerveau
J’aimeJ’aime