Numéro |
Pédagogie Médicale
Volume 19, Numéro 2, Mai 2018
|
|
---|---|---|
Page(s) | 95 - 107 | |
Section | Références | |
DOI | https://doi.org/10.1051/pmed/2019018 | |
Publié en ligne | 17 juillet 2019 |
S’instrumenter pour évaluer☆
Tools for assessment
1
Université de Montréal, Faculté des sciences de l’éducation, Département d’administration et fondements de l’éducation,
Montréal,
Québec, Canada
2
Université du Québec en Outaouais, Département des sciences de l’éducation,
Gatineau,
Québec, Canada
* Correspondance et offprints : Nathalie LOYE, Université de Montréal, Faculté des sciences de l’éducation, C.P. 6128, succursale Centre-Ville, Montréal, Québec, Canada. Mailto : nathalie.loye@montreal.ca
Reçu :
17
Mai
2019
Accepté :
20
Juin
2019
commentaires éditoriaux formulés aux auteurs le 15 juin 2019
Problématique : La démarche d’évaluation nécessite de planifier, de collecter des données, de les interpréter et de porter un jugement avant de prendre une décision. Elle repose toujours sur des instruments d’évaluation qui peuvent prendre une variété de formes. Objectif : Cet article a pour but de présenter et d’illustrer plusieurs instruments d’évaluation, et de les mettre en perspective avec la démarche évaluative. Les instruments sont présentés de façon indépendante ; ils permettent de collecter des données quantitatives et qualitatives. La possibilité de combiner ces données pour porter un jugement évaluatif est abordée, mais n’est pas détaillée. Exégèse : Nous présentons d’abord la démarche évaluative constituée de cinq étapes. Après quelques considérations sur les nuances qui existent entre évaluer et mesurer, nous nous intéressons aux objets à évaluer à partir de la définition de la compétence et de la pyramide de Miller. Par la suite, nous proposons deux modèles visant à accompagner le développement d’instruments d’évaluation, ce qui nous amène à présenter deux catégories d’instruments d’évaluation. La première catégorie regroupe les instruments que nous qualifions de classiques comme les tests. La seconde catégorie rassemble quelques instruments associés à l’évaluation des compétences et qui sont largement utilisés dans le domaine de la pédagogie médicale.
Abstract
Background: Assessing requires planning, data collection, interpretation and judgment before finely making a decision. It is always based on a variety of assessment tools. Objective: This article aims to present and illustrate numerous tools for assessment and to link these tools with the assessment process. The tools are individually presented. They can collect quantitative and qualitative data. The possibility of combining these data to make an evaluative judgment is addressed albeit, not thoroughly detailed. Analysis: We first present the assessment process consisting of five stages. After a few considerations about the nuances between assessment and measurement, we highlight objects to be assessed using the definition of Miller’s pyramid. Subsequently, we propose two models to support the development of assessment tools, which lead us to present two categories of assessment tools. The first category comprises what we called classic tools, namely exams and tests. The second category is more concerned with instruments associated with competencies and skills’ assessment that are widely used in the field of medical education.
Mots clés : démarche d’évaluation / instruments d’évaluation / items / tâches complexes / grilles d’évaluation
Key words: assessment process / assessment tools / items / complex tasks / rubrics
© EDP Sciences / Société Internationale Francophone d’Education Médicale, 2019
Introduction
La démarche évaluative relative aux apprentissages d’un étudiant est classiquement constituée de cinq étapes, que sont la planification, la collecte des données, l’interprétation des données, le jugement et la prise de décision. Elles sont suivies des actions diverses qui en découlent, comme par exemple donner un feedback à l’étudiant, valider la réussite à un cours ou un stage ou encore admettre un étudiant dans un programme. Cette démarche est immuable, même si les étapes peuvent parfois être regroupées [1] ou si les cultures de l’évaluation se déclinent et varient au gré des milieux de formation, des pays, ou encore des disciplines ou de l’objet (contenus ou compétences) à évaluer. Cette démarche est la même quelles que soient les visées de l’évaluation [2], la sensibilité évaluative de chacun ou encore le contexte. Par exemple, évaluer le matin si mettre un parapluie dans son sac avant de quitter la maison est une bonne idée nécessite de définir de quelles informations on a besoin pour se décider (regarder le ciel, écouter la météo), de collecter ces informations, de les interpréter, de porter notre jugement et enfin de prendre ou pas un parapluie sur la base du résultat. Il en va de même pour toute évaluation.
La problématique générale de la démarche évaluative
Les instruments au cœur de la démarche évaluative
Ainsi, l’évaluation repose toujours sur des instruments puisque ce sont eux qui permettent de collecter les données et, dans une certaine mesure, de guider l’interprétation et le jugement. Ceux-ci sont formels dans les milieux de formation, mais peuvent aussi être informels (comme c’est le cas avec l’exemple du parapluie) ; ils font référence aux manières de collecter les informations jugées pertinentes, de les interpréter et de formuler un jugement sur la base de ces données. Leur nature et leur forme peuvent varier selon, respectivement, la nature de ce qui est à évaluer, la personne à qui incombe la responsabilité de l’évaluation, la forme des résultats à obtenir et même selon l’expertise en évaluation de celui ou ceux qui les conçoivent et les utilisent. Cela signifie que l’instrumentation est au cœur de la démarche évaluative.
Les nuances entre collecter des données et mesurer
Avant d’élaborer sur ce qu’implique de s’instrumenter pour évaluer, il convient de s’arrêter rapidement sur les nuances entre collecter des données et mesurer. Trop souvent, le seul fait de collecter des données avec un instrument est confondu avec celui de mesurer quelque chose par la simple action d’encoder les données avec des nombres [3]. Si cette manière de faire est cohérente avec une règle graduée pour mesurer la longueur d’un objet, parce qu’alors la lecture directe nous donne la mesure de cette longueur, elle ne l’est pas en sciences humaines lorsqu’il s’agit de mesurer des traits psychologiques, des apprentissages, en d’autres mots ce qu’il y a dans la tête d’un apprenant. Pourquoi ? Tout simplement parce que la règle graduée est construite à partir d’une unité de mesure clairement définie et qui a la même signification pour tout le monde. Un point attribué à une bonne réponse dans un examen, une cote obtenue à l’aide d’une grille d’évaluation ne correspondent évidemment pas à une unité de mesure universelle et acceptée par tous. Ainsi, un test, un examen, une grille d’évaluation ou de correction sont des outils de collecte de données inhérents à la démarche évaluative. Ils ne sont pas par contre naturellement des instruments de mesure, à cause de leur instabilité, de leur dépendance au contexte incompatible avec la notion de mesure [3]. Pour que les données collectées puissent fournir une mesure, il est nécessaire de convenir d’un modèle de mesure et de l’appliquer. Réfléchir à ces modèles dépasse de loin la portée de cet article, mais le lecteur intéressé est invité à consulter l’abondante littérature consacrée à ce sujet, par exemple en lisant l’ouvrage de Bertrand et Blais [4].
Une diversité d’objets à évaluer
À la base d’une réflexion sur les instruments d’évaluation se pose la question de ce qui est à évaluer et de son niveau taxonomique. Dans les sciences de la santé, la définition de la notion de compétence proposée par Tardif [5] et la pyramide de Miller [6] permettent souvent de circonscrire les apprentissages à réaliser et à évaluer [7]. Ainsi, pour Tardif, une compétence est « un savoir-agir complexe, prenant appui sur la mobilisation et la combinaison efficaces d’une variété de ressources internes et externes, à l’intérieur d’une famille de situations » (p. 22). Cette définition soulève des questionnements quant au nombre de situations nécessaires pour pouvoir attester d’un niveau de compétence, aux données à collecter pour évaluer, au statut des connaissances qui forment le socle de la profession, aux limites que comporte le fait d’évaluer la compétence à un moment donné avec un nombre limité de situations, etc. De son côté, la pyramide de Miller permet de positionner assez simplement l’objet à évaluer en fonction du niveau cognitif requis. En superposant « savoir », « savoir comment », « démontrer » et « faire », elle permet de réfléchir aux types de situations et de tâches propices à l’évaluation à chacun des niveaux, et aux instruments nécessaires pour mettre en place la démarche évaluative.
Ainsi, « savoir » et « savoir comment » font référence à des connaissances déclaratives conformes, par exemple, aux apprentissages réalisables dans le cadre d’un cours ou d’une formation, et évaluables à l’aide d’instruments d’évaluation relativement classiques comme des examens, des tests, des ensembles de questions appelant une bonne réponse ou pour lesquels la bonne réponse fait assez facilement consensus. Ces niveaux s’accommodent de l’addition des résultats (points) de plusieurs examens portant sur des morceaux distincts de la matière abordée pour former un tout, qui fournit un résultat global chiffré, souvent en calculant une moyenne. Les instruments qui permettent de collecter des données sont donc les questions des examens ainsi que les supports permettant de récolter les réponses. Les barèmes ou clés de corrections permettent ensuite d’interpréter les résultats, en permettant en gros d’attribuer le ou les points à chaque réponse et de les additionner pour former ce qu’on appelle un score. Il est possible de voir dans cette manière de procéder un processus naïf de mesure, qui présuppose que tous les points obtenus dans tous les examens ont la même valeur et peuvent par addition, ou moyenne, former une mesure de ce que l’étudiant a appris dans le cours.
« Démontrer » conduit à s’intéresser aux compétences. C’est à ce niveau que l’apprentissage, mais aussi l’évaluation, nécessitent de résoudre des tâches complexes lors de séances pratiques, souvent dans des environnements simulés de manière plus ou moins réaliste. Ici, il n’est souvent plus question de consensus simple quant à la bonne réponse. La tâche est en effet susceptible d’être résolue de plusieurs manières par les étudiants et peut comporter une dose d’incertitude. L’évaluation nécessite donc en général davantage qu’une simple grille de correction pour collecter les données. Elle repose sur la définition des manifestations à observer en fonction des critères qui définissent la compétence, ce qui s’opérationnalise parfois dans des grilles d’évaluation. Ainsi, les instruments d’évaluation sont constitués des situations, des tâches qui s’y inscrivent, des critères, des manifestations observables à collecter et des grilles qui permettent de le faire et de guider le jugement que l’évaluateur porte sur leur valeur en fonction de dimensions à définir.
« Faire » permet enfin la mise en œuvre de la compétence telle que définie par Tardif. C’est le caractère réel des situations et des tâches qui la différencie du niveau précédent. Aux contextes réalistes se substitue un contexte réel, ce qui limite le contrôle exercé par l’évaluateur sur le processus d’évaluation.
Les stages (externat, internat ou résidence, par exemple) sont propices à l’évaluation des compétences en situation réelle. Là encore, l’évaluation nécessite une instrumentation pour guider ce qui doit être observé dans l’action et faire ensuite l’objet d’une interprétation afin d’aboutir à un jugement.
L’un des enjeux liés à l’évaluation des compétences professionnelles en santé, autant aux niveaux « démontrer » que « faire », est la forte dépendance des tâches évaluatives à la spécificité des contenus qui sont visés. Ainsi, il est en général impossible de proposer suffisamment de tâches pour couvrir un domaine d’expertise, et le fait de réussir une tâche est un faible prédicteur du fait d’en réussir une autre [8]. Dès lors, une manière d’espérer attester un niveau de compétences pour un candidat consiste à combiner de nombreuses prises d’informations de natures différentes, dans une variété de tâches complexes au fil des contenus et du temps dans une démarche d’évaluation continue [9].
Il y a donc une différence fondamentale entre la perspective qui consiste à définir les contenus visés par un examen et d’en faire un échantillonnage jugé pertinent, et le fait de proposer des tâches complexes pour évaluer des compétences professionnelles. Dans le premier cas, une certaine généralisation permet de tirer des informations sur la quantité de contenu maîtrisée, alors que dans le second il est difficile, voire impossible, de conclure à un niveau de compétence d’un candidat sur la base d’un seul temps d’évaluation portant sur une seule ou sur un petit nombre de tâches complexes. En effet, elles ne pourront jamais constituer un pourcentage représentatif de l’ensemble des possibles.
La meilleure option consiste alors à garder des traces de tâches résolues au fil du temps, de manière à multiplier les regards portés sur le développement de la compétence. Une telle approche, de plus en plus influente, s’inscrit dans la perspective programmatique de l’évaluation [10], au regard de laquelle aucune évaluation isolée n’est suffisante pour prendre des décisions avec des enjeux élevés pour l’étudiant. En revanche, prises collectivement, ces tâches complexes permettent à un comité d’évaluation de déterminer périodiquement le niveau de compétences de chaque étudiant et de fournir des preuves concrètes de son évolution, y compris en contexte d’enjeux élevés. Un grand avantage est la possibilité de combiner des informations autant de nature quantitative que qualitative pour documenter de manière fiable et défendable le jugement évaluatif porté sur le niveau de compétences de l’étudiant. L’approche programmatique est complémentaire des évaluations nationales [10]. En effet, ces dernières sont en général effectuées lors d’une seule occasion d’évaluation, à un moment précis, ce qui a pour effet de sacrifier en partie la complexité, l’authenticité ou le niveau d’incertitude pour augmenter le nombre de tâches. De tels résultats pourraient néanmoins parfaitement s’intégrer dans l’approche programmatique pour compléter le processus d’évaluation.
Un dernier point mérite d’être abordé ici et concerne les enjeux attachés à l’évaluation. En effet, les principes proposés dans la suite de ce texte doivent être nuancés selon la nature des décisions qui découlent de l’évaluation. Une évaluation certificative ponctuelle associée à des décisions administratives lourdes d’implication pour un candidat doit reposer sur des instruments développés avec soin, avec un souci constant d’en assurer la validité. La standardisation de ces instruments, des modalités de passation et de correction correspond en outre au fait d’assurer des conditions identiques (ou dans certains cas au moins comparables) pour tous les sujets lors d’une même passation ou au fil des passations [11]. Ceci est évidemment primordial afin de prendre des décisions équitables dans un souci constant de justice. A contrario, la marge de manœuvre et la possibilité d’expérimenter des instruments sont bien plus grandes lorsque l’objectif est de guider l’apprentissage (assessment as/for learning, évaluation formative [2]). Ces cas de figure renvoient tous deux à la notion de validité qui, elle aussi, va au-delà de l’intention de cet article, mais doivent évidemment être l’objet d’un grand intérêt pour tout formateur qui développe des instruments d’évaluation ou pour toute entité administrative qui fait porter ses décisions sur les résultats de l’évaluation [12,13]. Assurer la validité des données d’évaluation sur lesquelles reposent des décisions lourdes de conséquences requiert beaucoup de rigueur et de méthode, alors qu’en contexte d’évaluation en soutien à l’apprentissage elle peut être établie de manière plus pragmatique. Cependant, le fait de combiner une variété de résultats d’évaluation de toutes natures dans une perspective programmatique éclaire ces questions d’un jour nouveau, ce qui selon nous est conforme aux modèles actuels de validation des instruments d’évaluation [12].
Les trois sections qui suivent proposent une réflexion sur quelques instruments d’évaluation. Il est d’abord question d’une démarche pour développer des instruments d’évaluation. Par la suite, une section concerne les instruments que nous qualifions de classiques, comme les tests, les examens. La troisième section s’intéresse aux situations d’évaluation de compétences qui prennent la forme de tâches complexes selon des formats plus ou moins ouverts.
Les instruments pour évaluer
Une démarche pour développer des instruments
Il existe une vaste littérature pour guider les approches classiques de création de tests. De manière générale, l’idée est de formuler un ensemble de questions (souvent appelées items) qui constituent un instrument apte à bien différencier un candidat fort, d’un candidat moyen ou d’un candidat faible. La démarche en 12 étapes proposée par Downing et Haladyna [14] (voir tableau I) illustre comment développer des tests à l’issue desquels les sujets peuvent être placés sur une échelle de mesure de leur habileté constituée au regard de leur performance à ces tests, mesurée par exemple par leur score total individuel. Il existe également des démarches de développement d’instruments d’évaluation plus souples et applicables à peu près à n’importe quelle situation évaluative. C’est le cas du modèle Evidence-Centered-Design de Mislevy et ses collègues [15], qui est aussi présenté dans le tableau I (pour une présentation détaillée du modèle en français, voir Loye [12]). Le tableau I met assez bien en évidence la logique de développement d’instruments d’évaluation qui, pour les deux modèles, repose sur : 1) la définition précise de ce qui doit être évalué ; 2) l’identification du type de questions, de tâches, d’observations à collecter ; 3) la manière d’interpréter les données collectées (en identifiant les bonnes réponses ou les caractéristiques de ce qui est attendu) puis : 4) la manière de constituer un résultat (quantitatif ou qualitatif). Chaque étape doit permettre de réunir des traces (evidences) qui permettent de soutenir la validité des résultats d’évaluation afin de pouvoir prendre des décisions éclairées sur la base de ces résultats.
Deux démarches de développement d’instruments d’évaluation.
Les instruments classiques
La terminologie mérite d’être rapidement précisée dans la mesure où les termes employés font souvent partie du vocabulaire courant qui aplanit les nuances. Par exemple, la différence entre un test et un examen provient du fait que, dans le premier cas, les questions ont fait l’objet d’expérimentations et que les données alors récoltées ont été analysées afin d’établir, par exemple, le niveau de difficulté ou de discrimination des questions. Un enseignant qui élabore un ensemble de questions pour évaluer les étudiants de son cours parlera donc plutôt d’un examen puisqu’il ne procèdera en général pas à de telles expérimentations avant d’utiliser son instrument. Les termes questions et items sont en revanche relativement interchangeables. Les items peuvent se classer en fonction de la nature du travail attendu du correcteur, selon que la réponse doit être choisie ou construite, c’est-à-dire que la correction est objective ou qu’elle nécessite un jugement plus complexe de la part de l’évaluateur.
Les questions fermées, à réponse choisie, aussi appelées questions à choix multiples (QCM), reposent sur une correction objective. C’est ce qui constitue leur principal avantage puisqu’elles sont faciles et rapides à corriger et ne nécessitent pas le recours à des correcteurs experts du contenu. Elles sont constituées d’une courte amorce qui décrit le contexte en évitant les formulations négatives, d’une question ou d’une consigne et d’une liste de trois à cinq choix de réponses, indépendants les uns des autres et présentés verticalement. La logique de rédaction de ces items [16] tient au respect de la grammaire, de l’orthographe et de la ponctuation, et à la précision des formulations. En ce qui a trait aux choix de réponse, il est important de s’assurer de l’unicité de la bonne réponse et de vérifier que les formulations des choix sont comparables, qu’il n’y a pas de réponse évidente, absurde, de piège ou des choix qui s’éliminent les uns les autres. Il est courant de penser qu’au moins quatre choix sont indispensables ; pourtant la difficulté à identifier des distracteurs valables rend souvent préférable l’usage de trois choix puisque le quatrième est souvent sans réelle utilité. D’autres sortes de questions fermées existent. Citons les QCM complexes – qui proposent plusieurs énoncés qui sont ensuite combinés dans les choix de réponses –, les questions d’associations – qui nécessitent d’établir des liens entre deux listes d’énoncés souvent de longueurs différentes –, les questions de réarrangement – pour lesquelles des énoncés doivent être remis dans le bon ordre, ou encore les questions appelant des réponses de type vrai/faux.
La démarche évaluative s’opérationnalise alors par une planification de l’évaluation qui repose sur un tableau de spécifications. Les items sont placés dans ce tableau en fonction des contenus qui peuvent faire l’objet d’une évaluation et du niveau cognitif auquel ils se situent. Par exemple, les items de l’examen d’aptitude du Conseil médical du Canada (EACMC, partie 1) [17] visent à évaluer les connaissances médicales essentielles et la prise de décision clinique des candidats. Chaque item est identifié relativement à deux grandes catégories. La première est axée sur la dimension des soins et couvre le spectre des soins médicaux (promotion de la santé et prévention de la maladie ; affections aiguës ; affections chroniques ; aspects psychosociaux). La seconde porte sur les activités du médecin (évaluation et diagnostic ; prise en charge ; communication ; comportements professionnels).
C’est le fait d’expérimenter les questions qui permet de stabiliser les choix des items et leur nombre dans les tests. Dans les autres cas, les décisions sont souvent assez arbitraires, autant en termes de contenus que de nombre d’items à retenir. La collecte de données prend la forme du numéro ou de la lettre correspondant à la réponse choisie par le candidat pour chaque item. Ces données sont ensuite interprétées par comparaison de chaque réponse à la bonne réponse. Le jugement consiste alors à attribuer le nombre de points que mérite la réponse. À ce titre, le mode d’attribution des points doit avoir été prévu au moment de l’élaboration de l’examen ou du test. Une pratique courante consiste à tenter de contrer l’effet du hasard (par exemple, un candidat a une chance sur quatre de choisir la bonne réponse si un item propose quatre choix) en retirant des points pour une mauvaise réponse. Toutefois, pénaliser les mauvaises réponses à un QCM [7] pose plus de problèmes qu’il n’en résout. En effet, les candidats ont alors tendance à ne pas prendre de risque et à ne pas fournir de réponse, ce qui constitue une source de biais importante dans le processus d’évaluation [18]. Finalement, la décision repose sur un score total qui est comparé à un seuil de réussite. Le tableau II propose une synthèse des formats d’items les plus classiques. Les deux exemples proposés dans la dernière colonne du tableau II se rapportent à la vignette clinique présentée dans l’encadré 1. Elle est tirée du guide de préparation à l’examen professionnel de l’Ordre des infirmières et infirmiers du Québec [19].
Vignette clinique
Mme Gascon, âgée de 48 ans, est hospitalisée pour une cellulite à l’avant-bras gauche. Ses antécédents médicaux sont : diabète de type II, hypertension artérielle, dyslipidémie. Son IMC est de 25 et elle ne fume pas. Depuis son admission, Mme Gascon a fait des épisodes d’hyperglycémie au réveil. Hier, le médecin a donc modifié l’ordonnance médicale :
-
conserver l’insuline Humulin R au repas et ½ dose HS, selon échelle ;
-
conserver l’insuline Humulin N à 16 unités au déjeuner et augmenter Humulin N à 12 unités au souper.
Mme Gascon prend un morceau de fromage et deux craquelins à 21:00.
À 05:00, vous observez que Mme Gascon tremble et que sa peau est moite. Elle vous dit qu’elle ressent des palpitations. Vous vérifiez sa glycémie à l’aide d’un glucomètre : 3,0 mmol/L. Mme Gascon prend 175 ml de jus d’orange.
Quinze minutes plus tard, la glycémie de Mme Gascon est à 3,6 mmol/L. Elle vous dit : « Pouvez-vous aller me chercher un craquelin avec du beurre d’arachide ? C’est ce que je prends pour rétablir ma glycémie lorsque je suis à la maison ».
Les formats d’items les plus courants en fonction de la démarche évaluative.
Les instruments associés à l’évaluation des compétences
L’évaluation des compétences professionnelles dans le domaine des sciences de la santé soulève de nombreux défis. En effet, les compétences cliniques reposent sur un savoir médical, et doivent être combinées à des attitudes professionnelles. Elles sont par exemple définies dans le référentiel CanMeds [20] en fonction de sept rôles que sont l’expert médical, le communicateur, le collaborateur, le leader, le promoteur de la santé, l’érudit et le professionnel. Ainsi, il convient notamment d’évaluer des compétences cliniques, tel le raisonnement clinique qui comporte de multiples dimensions, et une variété de compétences, souvent qualifiées de soft skills. Ceci met bien en évidence le caractère complexe des différentes compétences et le fait que les évaluer nécessite de documenter une variété d’observations dans une variété de contextes, à des moments variés. Ces moments peuvent être artificiellement créés pour nécessité de formation et d’évaluation, mais ils peuvent également être capturés dans des situations complètement authentiques, comme c’est le cas dans des stages ou lors de l’internat ou de la résidence.
Au cœur de l’instrumentation nécessaire pour procéder à l’évaluation se trouve souvent une grille d’évaluation qui peut se limiter à une liste de vérification ou au contraire être beaucoup plus détaillée. Ces grilles sont par exemple reliées à des modalités d’évaluation telles que les examens cliniques objectifs structurés (ECOS). L’usage de la simulation occupe également une place importante dans les formations en santé. Dans ce cas, l’évaluation prend le plus souvent la forme d’une observation suivie d’un débriefing de la part de l’enseignant sans que celui-ci ne repose sur un instrument d’évaluation formel. L’objet de ce débriefing est de susciter une discussion visant à mettre en évidence le vécu des étudiants, à les amener à analyser ce qui s’est passé lors de la simulation afin de procéder à une autocritique, puis à en faire une synthèse [21].
Dans cet article nous nous limiterons à définir rapidement les problèmes à éléments clés (PEC), les problèmes de raisonnement clinique (PRC), les tests de concordance de script (TCS) et les ECOS, puis à les mettre en perspective avec la démarche d’évaluation. Nous fournirons également un exemple de grille.
Les problèmes à éléments clés
Les PEC visent à évaluer le raisonnement clinique dans une approche qui se veut objective [22] et qui repose sur une série de questions à réponses choisies ou courtes. L’évaluation porte sur le recours à ses connaissances par l’étudiant alors qu’il passe à travers les étapes du raisonnement clinique. Les questions le guident afin, par exemple, qu’il recherche des indices cliniques, formule des hypothèses diagnostiques ou définisse les données dont il a besoin pour améliorer son diagnostic. Cette approche se distingue par la prise en considération de la spécificité de chaque cas clinique qui est caractérisé par ses propres éléments clés, et par le fait de faire porter les questions uniquement sur ceux-ci [23], ce qui permet de proposer un nombre plus grand de situations cliniques à l’étudiant. Le lecteur intéressé par la définition des éléments clés et qui souhaite obtenir des exemples est invité à consulter les documents du Conseil médical du Canada qui définissent les objectifs d’évaluation en médecine familiale. Ce document est accessible à l’adresse https://www.cfpc.ca/projectassets/templates/column1a.aspx?id=234&langType=3084.
Les avantages sont de dépasser la seule vérification des connaissances tout en restant dans une démarche plutôt classique d’évaluation. L’accent est mis sur la reconnaissance des éléments clés de chaque situation plutôt que sur l’établissement d’un tableau de spécifications. L’encadré 2 propose un exemple de PEC intégralement tiré du guide de rédaction rédigé par Page en 1999 [23].
Exemple de PEC
Une mère de trois enfants, âgée de 35 ans, vous consulte à votre cabinet à 17h en raison d’une diarrhée aqueuse grave. Lors de l’interrogatoire, elle dit qu’elle est malade depuis environ 24 heures. Elle a eu quinze selles liquides au cours des dernières 24 heures, elle a des nausées, mais elle ne vomit pas. Elle travaille le jour comme cuisinière dans un établissement de soins de longue durée, mais elle a quitté le travail pour venir vous consulter. Votre infirmière a inscrit dans son dossier les données suivantes : tension artérielle au repos à 105/50 mm Hg en position couchée (pouls de 110/minute) et à 90/40 en position debout, et température orale de 36,8 °C. À l’examen clinique, vous observez que ses muqueuses sont sèches et que les bruits intestinaux sont présents. L’examen des urines (examen microscopique) était normal, avec une densité de 1,030.
Question 1
Sur quels problèmes cliniques concentreriez-vous votre attention dans la prise en charge immédiate de cette patiente ? Inscrivez-en jusqu’à trois.
Question 2
Comment devriez-vous traiter cette patiente à ce moment-ci ? Choisissez jusqu’à trois réponses.
1. Médicament antidiarrhéique
2. Médicament antiémétique
3. Solution de NaCl à 0,9 % par voie intraveineuse
4. Solution 2/3 pour 1/3 par voie intraveineuse
5. Gentamicine par voie intraveineuse
6. Métronidazole par voie intraveineuse
7. Solution de lactate Ringer par voie intraveineuse
8. Sonde naso-gastrique et aspiration
9. Rien par la bouche
10. Ampicilline par voie orale
11. Chloramphénicol par voie orale
12. Liquides par voie orale
13. Sonde rectale
14. Renvoi à la maison et suivi diligent
15. Consultation en chirurgie
16. Transfert à l’hôpital
Question 3
Après avoir pris en charge l’affection aiguë de cette patiente, quelles mesures additionnelles, s’il y a lieu, prendriez-vous ? Choisissez jusqu’à quatre réponses ou choisissez le numéro 11, Aucune, si aucune mesure n’est indiquée.
1. Recommandation d’éviter les produits laitiers
2. Coloscopie
3. Mesures de prévention entériques
4. Consultation en gastro-entérologie
5. Administration d’immunoglobulines sériques aux patients de l’établissement de soins de longue durée
6. Consultation d’un spécialiste en maladies infectieuses
7. Déclaration à la Direction de la santé publique
8. Coprocultures
9. Isolement rigoureux de la patiente
10. Absence temporaire du travail
11. Aucune
Le titre de ce problème est « Diarrhée » et les éléments-clés évalués au moyen des questions ci-dessus sont :
1. Reconnaître une déshydratation (évalué) et son degré de gravité (non évalué).
2. Prendre en charge une déshydratation d’une façon appropriée.
3. Estimer la transmissibilité possible de la maladie sous-jacente (dissémination dans la famille/à l’hôpital, possibilité d’une source commune).
Les problèmes de raisonnement clinique
Les PRC visent à évaluer la génération d’hypothèses diagnostiques ainsi que l’identification et l’interprétation des diverses données cliniques disponibles [24]. Chaque problème est constitué d’une vignette clinique qui présente la raison de la visite du patient, et les données issues de son interrogatoire et de son examen physique. Dans un premier temps, l’étudiant doit utiliser ces informations pour proposer les deux diagnostics qu’il juge les plus probables. Dans un deuxième temps, il doit identifier et pondérer dans une liste d’informations cliniques celles qui soutiennent ou au contraire invalident ses deux diagnostics. Un score pour chaque temps est généré, ainsi qu’un score global [25]. Ces instruments d’évaluation du raisonnement clinique visent eux aussi l’évaluation de la compétence dans une perspective d’objectivité et de standardisation. Le caractère artificiel des tâches proposées, et le fait de contrôler l’incertitude qui pourtant fait partie intégrante du raisonnement clinique constituent les limites des PRC. L’encadré 3 propose un exemple de PRC présenté à la 1re conférence internationale de Montréal sur le raisonnement clinique en 2012 [26].
Exemple de PRC
Monsieur Bilodeau (42 ans) vous consulte pour une douleur au genou droit depuis 6 semaines qui fait suite à une mauvaise chute. Il vous raconte que son pied droit a glissé vers l’extérieur alors que son genou a plié brusquement vers l’intérieur. Initialement, il a présenté une douleur à la face interne du genou avec boiterie. Il a quand même été capable de marcher. Le lendemain, le genou était gonflé et la boiterie s’est accentuée. Les mouvements de flexion/extension étaient presque complets, mais le moindre mouvement latéral provoquait une vive douleur en interne. Il a consulté un médecin qui a porté le diagnostic d’entorse. Il a fait attention à ses mouvements dans les semaines qui ont suivi. Malgré tout, il présente encore des sensations de blocage dans son genou qui a tendance à faire encore mal et qui est parfois enflé.
L’examen du genou montre la présence d’un flot à la manœuvre du même nom. Le test du glaçon est négatif. L’articulation n’est pas rouge, mais vous semble un peu chaude. La mise en tension en valgus engendre de l’appréhension et une douleur, sans la moindre instabilité cependant. En stabilisant le fémur droit d’une main et en empaumant le tibia de l’autre, vous procédez à la manœuvre de Lachman, vous notez une certaine laxité et l’absence d’arrêt sec. La palpation du genou démontre une douleur exquise à l’interligne articulaire interne qui reproduit la douleur de consultation.
-
À ce stade, quel est votre diagnostic principal ?
-
Advenant que votre diagnostic principal s’avère incorrect, à quel autre diagnostic penseriez-vous comme hypothèse de rechange ?
Une liste de données cliniques est fournie à l’étudiant sur laquelle il doit :
-
cocher, pour chaque hypothèse (principale et de rechange), un maximum de cinq éléments qui ont influé sur son choix (éléments jugés les plus discriminants) ;
-
inscrire, pour chaque hypothèse (principale et de rechange), si chaque élément sélectionné est en faveur de son diagnostic (+) ou en défaveur de son diagnostic (−).
Les tests de concordance de script
C’est notamment la prise en considération de l’incertitude que permettent les TCS puisqu’ils visent à réconcilier dans un même instrument la liberté de proposer des cas cliniques complexes, la possibilité de tenir compte des divergences possibles d’experts, et un format de réponse objectif de type choix de réponse. L’une des originalités du TCS, basée sur la théorie des scripts [27], tient dans le calcul du score de l’étudiant, qui prend en compte les réponses données par un panel d’experts. Le test est constitué d’un stimulus sous la forme d’un scénario clinique pour lequel même un expert ne pourrait affirmer qu’un seul diagnostic, ou une seule option, est possible [28]. Les questions cherchent ensuite à amener l’étudiant à juger sur une échelle de type Likert en 5 points l’effet qu’a une nouvelle donnée sur l’hypothèse ou option. Un panel d’experts est sollicité pour fournir des réponses aux questions posées, ce sont leurs réponses qui servent de base au calcul du score de l’étudiant. La principale limite de cet instrument d’évaluation tient à la forte dépendance des scores au choix des experts. Ceci pose problème si le but est de donner un score absolu et constitue une limite à sa validité [29]. Cependant, les TCS permettent de classer les étudiants avec une très bonne fidélité. À l’heure actuelle, la tendance est d’utiliser l’approche par concordance dans un but de formation (formation par concordance – FPC) autant que dans un but d’évaluation. L’encadré 4 propose un exemple de question de TCS.
Exemple TCS (M. Veleur, B. Vérillaud, R. Kania, P. Lariboisière)
Vous recevez un patient de 65 ans pour une épistaxis. Le patient est sous aspirine (Kardegic 75 mg/J).
Les examens cliniques objectifs structurés
Les ECOS ont été développés dans les années 1970 [30]. Largement utilisés à l’heure actuelle, ils permettent d’évaluer la performance des étudiants relativement à une variété de compétences cliniques ou de soft skills en lien avec les sept rôles définis dans le référentiel CanMeds [31]. Un ECOS est constitué de 10 à 25 stations standardisées pouvant durer chacune de 5 à 20 minutes [32]. L’étudiant doit passer par chacune des stations qui prennent la forme de mises en scène impliquant éventuellement un patient simulé par un acteur ou un mannequin. L’étudiant doit y résoudre une tâche comme interroger un patient ou un collègue, réaliser un examen physique, interpréter des résultats d’analyse de laboratoire ou encore annoncer une mauvaise nouvelle à un patient. Les scénarios retenus sont basés sur des cas réels. Le caractère objectif des ECOS repose sur l’usage par les évaluateurs de listes de vérification standardisées et adaptées à chaque tâche. Ces listes de vérification comportent un ensemble de manifestations dont les évaluateurs doivent vérifier la présence lors de la prestation de l’étudiant dans la station. Le caractère structuré des ECOS repose quant à lui sur le fait que tous les étudiants passent par les mêmes stations, résolvent les mêmes tâches dans des scénarios strictement standardisés. La principale limite des ECOS provient des coûts associés à leur usage ainsi que de la difficulté à attester leur fidélité [33], notamment lors de l’évaluation de soft skills comme la communication.
Un étudiant qui doit passer un ECOS est informé qu’il devra entrer dans une série de salles et qu’il devra réaliser une tâche dans chacune d’elle. La tâche est décrite dans un court paragraphe que l’étudiant doit lire avant d’entrer. Certaines stations nécessitent le recours à un acteur qui doit être formé, comme c’est le cas dans l’exemple présenté dans l’encadré 5. Dans cet exemple [34], l’acteur devra jouer le rôle du médecin de famille qui travaille dans une petite communauté rurale. L’acteur doit apprendre son rôle, s’approprier le scénario ainsi que la liste des choses qu’il peut ou ne peut pas dire. Il devra jouer son rôle avec chaque étudiant en respectant rigoureusement ce scénario.
Exemple d’ECOS
Instructions au candidat
Vous êtes le fellow de garde à l’unité néonatale.
Un médecin de famille d’un hôpital général (environ 200 km d’où vous êtes) vous appelle concernant un enfant né il y a quelques minutes pour lequel il désire un transfert dès que possible. On vous demande de parler avec le médecin pour le transport et pour l’aider dans la prise en charge de l’enfant en attendant l’arrivée de l’équipe de transport.
Vous avez 11 minutes.
Synthèse relative aux instruments associés à l’évaluation des compétences
Le tableau III vise à regrouper les principales caractéristiques de ces instruments d’évaluation des compétences et à préciser à quoi chaque étape de la démarche d’évaluation correspond pour chacun d’eux.
Les instruments regroupés dans le tableau III se classent dans deux catégories. D’un côté, les PEC, PRC et TCS s’inscrivent dans une logique de tests objectifs dans lesquels les étudiants font part de leurs réponses par écrit, et celles-ci sont quantifiées selon une logique propre à chaque instrument. D’un autre côté, les ECOS proposent des tâches authentiques et standardisées dans lesquelles ils doivent entrer en action, interagir avec l’évaluateur et, le cas échéant, le patient simulé. L’évaluation repose alors sur les observations d’un ou de plusieurs évaluateurs qui utilisent habituellement une grille pour interpréter leurs observations et une autre pour guider leur jugement.
Le format le plus courant de la grille pour guider les observations est une liste de vérification. La figure 1 présente la liste de vérification associée à la station présentée dans l’encadré 5. Dans cette liste, l’évaluateur doit cocher les éléments qu’il a pu observer alors que l’étudiant réalisait la tâche. Une fois l’étudiant sorti, il doit transposer ce résumé de ses observations en cochant les profils les plus représentatifs de l’étudiant dans la grille d’évaluation analytique descriptive présentée dans la figure 2. Dans cette grille, un jugement global est proposé pour chacun des rôles dont l’évaluation a été planifiée et que la station permet de mobiliser.
Les caractéristiques de quatre instruments d’évaluation des compétences en lien avec la démarche d’évaluation.
Figure 1 Exemple de liste de vérification d’une station d’examen clinique objectif structuré (ECOS). |
Figure 2 Exemple de grille d’évaluation analytique descriptive d’une station d’examen clinique objectif structuré ECOS. |
Conclusion
Nous avons abordé différents instruments d’évaluation qui ont tous été mis en parallèle avec les étapes de la démarche d’évaluation. Les instruments classiques comme les examens ou les tests constitués d’items présentent l’avantage d’une correction objective, relativement simple à mettre en œuvre. Ils sont utiles pour évaluer les niveaux inférieurs, c’est-à-dire le « savoir » et le « savoir comment » de la pyramide de Miller. On peut également remarquer la place qu’ils prennent dans des outils d’évaluation plus complexes pour collecter les réponses des étudiants pour le niveau « démontrer ». En effet, les réponses attendues dans les PEC, PRC et TCS prennent la forme de questions à réponses choisies ou courtes. Ainsi, dans tous ces cas, les réponses des étudiants sont comparées aux réponses attendues ou aux réponses d’un panel d’experts dans le cas du TCS afin d’interpréter les données, puis de porter un jugement.
L’ECOS repose sur une logique d’évaluation plus ouverte, et par là même plus authentique. Le fait de mettre les étudiants en action dans des stations permet de les observer alors qu’ils sont en action. Le fait de standardiser les scénarios, de former les acteurs et les évaluateurs et de formaliser des grilles d’observation et d’évaluation permet d’assurer une certaine objectivité à ces évaluations. L’élaboration et l’usage de ces grilles reste toutefois un défi pour les évaluateurs.
Les démarches de développement d’instruments d’évaluation présentées dans le tableau I constituent des balises essentielles. Elles obligent à se poser les questions fondamentales sur lesquelles tout instrument doit reposer. Il faut savoir précisément ce qui doit être évalué, décider du type de données à collecter, prévoir comment elles seront interprétées et la manière de constituer un résultat. Ce questionnement permet à la fois de garder des traces soutenant la validité des instruments et des données, mais également de contribuer à offrir une chance égale à tous les étudiants de réussir, c’est-à-dire d’assurer une évaluation équitable.
Contributions
Nathalie Loye est l’auteure principale de cet article. Sylvie Fontaine a collaboré à la planification préliminaire de l’article et elle a commenté les versions de l’article.
Liens d’intérêt
Aucune des deux auteurs ne déclare de conflit d’intérêts en lien avec le contenu de cet article
Approbation éthique
Non sollicitée, car sans objet
Remerciements
Les auteurs remercient Carlos Brailovski, Bernard Charlin, Chloe Joynt, Chantal Lemay, Ahmed Moussa et Thomas Pennaforte pour les exemples qu’ils ont rendus disponibles afin d’illustrer cet article.
Références
- Jouquan J. L’évaluation des apprentissages des étudiants en formation médicale initiale. Pédagogie Médicale 2002;3:38‐52. [CrossRef] [EDP Sciences] [Google Scholar]
- Fontaine S, Loye N. L’évaluation des apprentissages : une démarche rigoureuse. Pédagogie Médicale 2017;18:189‐198. [CrossRef] [EDP Sciences] [Google Scholar]
- Blais J-G. De la mesure à l’évaluation – Regard sur un domaine en turbulence, in Durand M-J, Loye N, Editors. L’instrumentation pour l’évaluation – La boîte à outils de l’enseignant évaluateur. Montréal (QC) : Marcel Didier, 2014, p. 13‐28. [Google Scholar]
- Bertrand R, Blais J-G. Modèles de mesure : l’apport de la théorie des réponses aux items. Québec : Presses de l’Université du Québec, 2004. [Google Scholar]
- Tardif J. L’évaluation des compétences – Documenter le parcours de développement. Montréal (QC) : Chenelière Éducation, 2006. [Google Scholar]
- Miller GE. The assessment of clinical skills. Acad Med (Suppl.) 1990;65:S63‐S67. [CrossRef] [PubMed] [Google Scholar]
- Pelaccia T. Comment (mieux) former et évaluer les étudiants en médecine et en sciences de la santé ? Louvain la neuve : De Boeck Supérieur, 2016. [Google Scholar]
- Van der Vleuten CPM, Schuwirth LWT, Scheele F, Driessen EW. The assessment of professional competence: Building blocks for theory development. Best Pract Res Clin Obstet Gynaecol 2010;24:703‐719. [CrossRef] [PubMed] [Google Scholar]
- Ross S, Poth CN, Donoff M, et al. Competency-based achievement system. Using formative feedback to teach and assess family medicine residents’ skills. Can Fam Physician 2011;57(9):e323‐e330. [PubMed] [Google Scholar]
- Schuwirth L, van der Vleuten C, Durning SJ. What programmatic assessment in medical education can learn from healthcare. Perspect Med Educ 2017;6:211‐215. [CrossRef] [PubMed] [Google Scholar]
- Phelps RP. Defending standardized testing. Mahwah: Lawrence Erlbaum Associates, 2005. [CrossRef] [Google Scholar]
- Loye N. Et si la validation était plus qu’une suite de procédures techniques ? Mesure et évaluation en éducation 2018;41:97‐124. [CrossRef] [Google Scholar]
- André N, Loye N, Laurencelle L. La validité psychométrique : un regard global sur le concept centenaire, sa genèse et ses avatars. Mesure et évaluation en éducation 2014;37:125‐148. [CrossRef] [Google Scholar]
- Downing SM, Haladyna MH, eds. Handbook of test development. Mahwah, NJ: Lawrence Erlbaum associates, 2006. [Google Scholar]
- Mislevy RJ, Steinberg L, Almond RG. On the structure of educational assessments. Interdisciplinary Research and Perspectives 2003;1:3‐62. [CrossRef] [Google Scholar]
- Haladyna TM. Developing and validating multiple-choice test items. Mahwah: Laurence Erlbaum Associates, 2004. [Google Scholar]
- Le conseil médical du Canada. Examen d’aptitude du Conseil médical du Canada, partie I. 2019 [On-line] Disponible sur https://mcc.ca/fr/examens/eacmc-partie-i/. [Google Scholar]
- Budescu DV, Bo Y. Analyzing test-taking behavior: Decision theory meets psychometric theory. Psychometrika 2015;80:1105‐22. [CrossRef] [PubMed] [Google Scholar]
- Ordres des infirmières et infirmiers du Québec. Guide de préparation à l’examen professionnel de l’Ordre des infirmières et infirmiers du Québec – Supplément 3. Montréal : OIIQ, 2017. [Google Scholar]
- Frank JR, Snell L, Sherbino J, Boucher A. Référentiel de compétences CanMeds 2015 pour les médecins. Ottawa : Collège royal des médecins et chirurgiens du Canada, 2015. [Google Scholar]
- Salas E, Klein C, King H, Salisbury M, Augenstein JS, Birnbach D et al. Debriefing medical teams: 12 evidence-based best practices and tips. Jt Comm J Qual Patient Saf 2008;34:518‐27. [CrossRef] [PubMed] [Google Scholar]
- Page G, Bordage G. The Medical Council of Canada’s key features project: A more valid written examination of clinical decision-making skills. Acad Med 1995;70:2. [Google Scholar]
- Page G. Rédaction de problèmes à éléments-clé pour l’examen d’aptitude au raisonnement clinique : guide à l’intention des membres du comité d’épreuve en résolution de problèmes cliniques pour les aider dans la compréhension et l’élaboration de problèmes à éléments-clé. 1999 [On-line] Disponible sur : https://cdn.uclouvain.be/public/Exports%20reddot/adef/documents/EVA_Res_Ext_Redaction_question_raisonnement_clinique.pdf. [Google Scholar]
- Groves M, Scott I, Alexander H. Assessing clinical reasoning: A method to monitor its development in a PBL curriculum. Med Teach 2002;24:507‐15. [Google Scholar]
- Groves M, Dick M-L, Bilszta J. Analysing clinical reasoning characteristics using a combined methods approach. BMC Med Educ 2013;13:144. [CrossRef] [PubMed] [Google Scholar]
- Ratté F, Thériault JF. Le raisonnement clinique : comprendre et l’évaluer. Première conférence internationale de Montréal sur le raisonnement clinique. Montréal (QC): Actes de la Conférence, 2012. [Google Scholar]
- Charlin B, Boshuizen HPA, Custers EJ, Feltovich PJ. Scripts and clinical reasoning. Med Educ 2007;41:1178‐84. [CrossRef] [PubMed] [Google Scholar]
- Charlin B, Gagnon R, Sibert L, Van Der Vleuten C. Le test de concordance de script, un instrument d’évaluation du raisonnement clinique. Pédagogie Médicale 2002;3:135‐44. [CrossRef] [EDP Sciences] [Google Scholar]
- Lineberry M, Hornos E, Pleguezuelos E, Mella J, Brailovsky C, Bordage G. Experts’ responses in script concordance tests: A response process validity investigation. Med Educ 2019;53:710‐22. [CrossRef] [PubMed] [Google Scholar]
- Harden RM, Stevenson M, Downie WW, Wilson GM. Assessment of clinical competence using objective structured examination. BMJ 1975;1:447‐51. [Google Scholar]
- Kassam A, Cowan M, Donnon T. An objective structured clinical exam to measure intrinsic CanMEDS roles. Med Educ Online 2016;21:31085. [CrossRef] [PubMed] [Google Scholar]
- Onwudiegwu U. OSCE: Design, development and deployement. J West Afr Coll Surg 2018;8:1‐22. [PubMed] [Google Scholar]
- Brannick MT, Erol-Korkmaz HT, Prewett M. A systematic review of the reliability of objective structured clinical examination scores. Med Educ 2011;45:1181‐9. [CrossRef] [PubMed] [Google Scholar]
- Yuen D, Howlett A, Moussa A, Albersheim S, Lawrence S, Finan E et al. OSCE: A preparation package for program directors. Edmondton: The Canadian National Neonatal Perinatal Medicine, 2018. [Google Scholar]
Citation de l’article : Loye N., Fontaine S. S’instrumenter pour évaluer. Pédagogie Médicale 2018:19;95-107
Liste des tableaux
Les formats d’items les plus courants en fonction de la démarche évaluative.
Les caractéristiques de quatre instruments d’évaluation des compétences en lien avec la démarche d’évaluation.
Liste des figures
Figure 1 Exemple de liste de vérification d’une station d’examen clinique objectif structuré (ECOS). |
|
Dans le texte |
Figure 2 Exemple de grille d’évaluation analytique descriptive d’une station d’examen clinique objectif structuré ECOS. |
|
Dans le texte |
Les statistiques affichées correspondent au cumul d'une part des vues des résumés de l'article et d'autre part des vues et téléchargements de l'article plein-texte (PDF, Full-HTML, ePub... selon les formats disponibles) sur la platefome Vision4Press.
Les statistiques sont disponibles avec un délai de 48 à 96 heures et sont mises à jour quotidiennement en semaine.
Le chargement des statistiques peut être long.