Abonnez-vous à Universalis pour 1 euro

PSYCHOMÉTRIE

Article modifié le

La fidélité et l’erreur de mesure des scores

Une fois l’échelle de mesure construite, il importe d’évaluer les qualités du score total qu’elle permet de calculer. Une des qualités essentielles attendues du score à un test est sa précision. Pour bien comprendre cette notion, il est nécessaire de partir du postulat de base de la théorie classique. Ce postulat est résumé dans l’équation suivante :

X = V+E

Abonnez-vous à Universalis pour 1 euro

X est le score observé au test. Inévitablement, ce score est entaché d’erreurs (E) qui peuvent provenir soit du sujet (par exemple, des erreurs dues à de l’inattention, de l’impulsivité ou à un trou de mémoire), soit de l’examinateur (par exemple, des erreurs dues à des variations dans la présentation des questions ou dans la cotation des réponses). En conséquence, le score observé n’est qu’un reflet approximatif du vrai score (V), ou score exact, qui est le score qu’obtiendrait le sujet évalué si la mesure était sans erreur. Le score exact nous est inconnu. Mais nous pouvons veiller à ce que le score observé soit le plus proche possible du score exact en réduisant au maximum les possibilités d’erreur de mesure. C’est le but de la standardisation des tests. En contrôlant au maximum les conditions de passation des tests – les consignes, le matériel et les critères de cotation –, on diminue les possibilités de variation des scores d’une passation à l’autre, dues à des facteurs autres que le trait mesuré. Il est impossible d’éliminer totalement l’impact de variables parasites sur les scores observés, mais les tests les mieux standardisés permettent de réduire notablement cet impact.

Erreur-type de mesure - crédits : Encyclopædia Universalis France

Erreur-type de mesure

Abonnez-vous à Universalis pour 1 euro

L’erreur de mesure dont il est ici question est aléatoire. Le plus souvent, elle est de faible amplitude, mais il peut arriver qu’elle soit plus importante. Parfois l’erreur est favorable au sujet examiné, et son score observé est alors supérieur à son score exact. Parfois, c’est le phénomène inverse qui se produit. Selon la théorie classique, les erreurs de mesure ont une amplitude qui se distribue normalement autour de 0. Dès lors, les scores observés se distribuent selon une courbe de Gauss autour du score exact.

Le coefficient de fidélité nous fournit une information à propos du degré de précision d’un test ou, en d’autres termes, de l’importance des erreurs qui entachent ses scores. Plusieurs techniques peuvent être utilisées pour déterminer un coefficient de fidélité. La méthode test-retest est la plus ancienne et la plus simple. Elle consiste à faire passer deux fois le test par un même groupe de sujets dans un intervalle de temps relativement court, puis à calculer la corrélation entre les deux séries de scores. La logique sous-jacente à cette méthode est que, si les scores vrais des sujets sont stables, les différences entre les scores observés lors des deux passations ne peuvent provenir que des erreurs de mesure. Plus les scores des deux passations sont similaires, plus la corrélation entre les deux séries sera élevée et plus le test sera jugé fidèle. On considère généralement qu’un coefficient de 0,80 est le minimum requis pour un test. La part de variance des scores vrais dans les scores observés doit en effet être suffisamment élevée pour que ces derniers méritent d’être interprétés.

La méthode test-retest souffre malheureusement de plusieurs faiblesses. Outre sa lourdeur, elle ne garantit pas que les variations observées d’une passation à l’autre soient uniquement dues à des erreurs de mesure. On ne peut en effet pas exclure que la caractéristique mesurée change entre les deux passations. C’est, par exemple, le cas de la dépression qui peut évoluer rapidement et de manière différente d’un individu à l’autre. Par ailleurs, on observe des phénomènes d’apprentissage, lors de la passation de certains tests cognitifs, qui peuvent modifier de manière différentielle la compétence mesurée. La méthode de bissection (en anglais split-half) permet de surmonter certains de ces problèmes. Avec cette méthode, une seule passation suffit. L’ensemble des items est divisé en deux parties égales qui donnent lieu à deux scores distincts, dont la corrélation est ensuite calculée. Comme pour la méthode précédente, on considère que les différences entre les deux séries de scores sont dues à des erreurs de mesure. Ce raisonnement est correct pour autant que les deux ensembles d’items soient équivalents, ce qui est loin d’être simple à réaliser. Par exemple, dans de nombreux tests cognitifs, les items sont rangés par ordre de difficulté. Il est évident que la première moitié des items et la seconde moitié ne constitueront pas deux ensembles équivalents. Dans ce cas, le problème peut être surmonté grâce à la méthode pair-impair qui consiste à placer les items pairs dans un ensemble et les items impairs dans le second ensemble.

Abonnez-vous à Universalis pour 1 euro

La méthode des covariances permet de contourner le problème de la constitution de deux ensembles d’items équivalents. Au sein de cette méthode, le coefficient alpha développé par Cronbach (1951) est sans aucun doute le plus connu et le plus utilisé aujourd’hui. Le coefficient alpha considère un test de n items comme constitué de n tests d’un seul item. Si ces items mesurent bien une caractéristique commune, la covariance entre les items sera élevée. Si, en revanche, des variables parasites influencent indûment certains items, ceux-ci ne varieront pas de concert avec les autres items du test, ce qui diminuera la valeur du coefficient alpha. La formule du coefficient alpha (α) est présentée ci-dessous. Dans cette formule, j représente le nombre d’items, sj2 est la somme des variances de chacun des j items et sx2 la variance du score total au test.

α=jj-1 1-sj2sx2

Le coefficient alpha est une mesure de la consistance interne d’un test, c’est-à-dire du degré auquel l’ensemble des items mesure une même caractéristique, laquelle est reflétée par le score vrai. Un alpha faible signifie que des erreurs de mesure viennent interférer avec la mesure du score vrai. Le mode de calcul de l’alpha contient sa propre faiblesse. En effet, celui-ci est dépendant de la longueur du test. Plus le test comprend d’items, moins l’impact des erreurs de mesure au niveau de certains items sera grand. Par exemple, si un questionnaire comprend soixante items, il sera nettement moins probable d’observer un alpha inférieur à 0,80 que si le questionnaire ne comprend que dix items.

Abonnez-vous à Universalis pour 1 euro

Quel que soit son mode de calcul, le coefficient de fidélité est une information générale à propos du degré de précision des mesures que peut fournir un test. Dans la pratique des tests, on utilise une information calculée à partir du coefficient de fidélité : l’erreur-type de mesure (SE). La formule permettant de calculer SE est présentée ci-dessous. Dans cette formule, rxx' est le coefficient de fidélité etSE est l’écart-type de la distribution des résultats à partir de laquelle rxx' a été calculé.

SE= sx1 - rxx'

L’erreur-type de mesure apparaît dans la figure 2, où elle représente l’écart-type de la distribution des scores observés. Elle constitue une information sur l’amplitude des erreurs lors d’une mesure quelconque. Connaissant l’erreur-type de mesure d’un test, il est possible de construire un intervalle de confiance autour du score observé, au sein duquel il existe une certaine probabilité que se trouve le score vrai de la personne testée. Si, par exemple, nous construisons un intervalle de – 1SE et + 1SE autour du score observé, nous pouvons affirmer que, selon les fréquences d’occurrence sous la courbe normale, il y a approximativement 68 p. 100 de chances que le score vrai s’y trouve. Si nous souhaitons une probabilité plus élevée, il suffit d’élargir l’intervalle de confiance en utilisant les valeurs de référence de la distribution normale. L’usage de l’intervalle de confiance est recommandé dans la pratique des tests (American Educational Research Association et al., 1999), car il permet de relativiser les scores observés. Il rappelle aux utilisateurs des tests que les résultats observés ne sont que des approximations et qu’un certain degré d’erreur affecte toujours les caractéristiques mesurées, quelle que soit la qualité du test utilisé.

Accédez à l'intégralité de nos articles

  • Des contenus variés, complets et fiables
  • Accessible sur tous les écrans
  • Pas de publicité

Découvrez nos offres

Déjà abonné ? Se connecter

Écrit par

Classification

Média

Erreur-type de mesure - crédits : Encyclopædia Universalis France

Erreur-type de mesure

Autres références

  • PSYCHOMÉTRIE (tests et échelles d'évaluation en psychiatrie)

    • Écrit par
    • 3 674 mots

    La psychométrie désigne la technique d’évaluation standardisée des phénomènes psychiques. Apparue à la fin du xixe siècle, elle s’est développée à partir du début du xxe siècle, à l’initiative de psychologues, principalement pour la mesure des performances intellectuelles de l’enfant...

  • ALZHEIMER MALADIE D'

    • Écrit par
    • 1 872 mots
    Cestroubles peuvent être évalués par un test psychométrique le MMSE (Mini Mental State Evaluation) établi sur une échelle de 30 points. Un score inférieur à 24 fait soupçonner la démence. Les résultats des tests sont interprétés en fonction du niveau socio−économique des patients et de leur degré de...
  • APPROCHES TRANSVERSALE ET LONGITUDINALE EN PSYCHOLOGIE DU DÉVELOPPEMENT

    • Écrit par
    • 1 044 mots

    S’informer sur le développement des enfants et des adolescents impose de pouvoir comparer leurs comportements aux différents âges. Pour cela, diverses approches méthodologiques sont possibles.

    Selon une première approche « transversale », les groupes d’âge à comparer sont constitués par des...

  • ATTENTION

    • Écrit par
    • 1 929 mots
    Deux grands principes méthodologiques guident la mesure de l’attention, la « chronométrie mentale »et la « méthode soustractive ». Selon la chronométrie, il faut enregistrer les temps de réponse à un stimulus, parce que l’attention module le traitement de l’information en l’accélérant,...
  • ATTITUDE

    • Écrit par
    • 4 176 mots
    • 2 médias
    Parce qu'elle implique l'idée de degré ou d'intensité, la notion d'attitude soulève un problème méthodologique important : celui de la détermination de cette intensité. On parle alors de la « mesure des attitudes ». À première vue, le problème prend l'allure d'un défi. Comment, en effet, mesurer ce...
  • Afficher les 35 références

Voir aussi