Free Access
Issue
Pédagogie Médicale
Volume 24, Number 3, 2023
Article Number 200086
Number of page(s) 11
Section Recherche et Perspectives
DOI https://doi.org/10.1051/pmed/2023007
Published online 13 juillet 2023

© SIFEM, 2023

Introduction

Contexte

Dans le système universitaire français, les études de médecine sont divisées en trois cycles dont le deuxième correspond aux quatrième, cinquième et sixième années d’études. Les objectifs d’apprentissage de cette période sont l’acquisition des connaissances nécessaires à l’exercice de la profession, la formation à la démarche scientifique et l’apprentissage du raisonnement clinique. Le deuxième cycle vise également l’acquisition de sept « compétences génériques » [1] inspirées des rôles décrits dans le référentiel CanMEDS [2]. Depuis quelques années, des réformes successives modifient en profondeur le cursus médical dans les universités françaises. Parmi elles, la réforme du deuxième cycle (fréquemment nommée « R2C ») va prochainement y introduire un outil d’évaluation encore peu utilisé en France dans ce cadre : les examens cliniques objectifs structurés (ECOS).

La R2C a débuté à la rentrée universitaire 2021, avec pour objectif la mise en place d’un cursus rénové basé sur l’approche par compétences [3]. Dans ce cadre, les épreuves classantes nationales informatisées (ECNi), à partir desquelles était organisée l’affectation des étudiants dans chacune des filières spécialisées du troisième cycle, en fonction de leur classement, seront remplacées par une procédure algorithmique d’appariement (matching) entre les choix préférentiels des étudiants et leurs résultats cumulés obtenus dans le cadre de trois dispositifs d’évaluation : un examen dématérialisé national de connaissances théoriques, une appréciation des compétences cliniques et relationnelles et une valorisation du parcours de formation et d’expériences extra-universitaires [4]. L’évaluation des compétences cliniques et relationnelles s’appuiera sur une épreuve de type ECOS cadrée nationalement [3,5].

Problématique et cadre conceptuel

Les ECOS ont connu un développement exponentiel depuis leur formalisation par Harden à la fin des années 1970 [6]. Ils sont aujourd’hui utilisés dans de nombreux pays tout au long de la formation des étudiants en santé, aussi bien dans un but formatif que certificatif [7]. Il s’agit d’un outil standardisé d’évaluation du comportement et de la performance professionnels en situation simulée [7], répondant habituellement aux exigences de la démonstration qui constitue le troisième niveau de la taxonomie de Miller [8].

Lors d’une épreuve de type ECOS, les candidats se déplacent au sein d’un circuit constitué de plusieurs stations chronométrées [7,9,10]. Ils doivent y réaliser des tâches diverses dont ils prennent connaissance juste avant d’entrer dans la station : réalisation d’une anamnèse ou d’un examen physique, annonce d’une mauvaise nouvelle, geste technique, interprétation d’un examen paraclinique, rédaction d’une ordonnance ou d’un certificat, etc. [9,10]. Les examinateurs utilisent généralement des grilles critériées et standardisées ou parfois des échelles d’évaluation [911].

Il est nécessaire de bien distinguer les concepts de compétence et de performance. Parmi les multiples définitions disponibles de la notion de compétence, celle de Tardif est l’une des plus souvent mobilisées dans le champ de l’éducation médicale francophone. C’est celle que nous retiendrons pour le propos de cet article : « un savoir-agir complexe prenant appui sur la mobilisation et la combinaison efficaces d’une variété de ressources internes et externes à l’intérieur d’une famille de situations » [12]. Pour la performance, nous retiendrons la définition de Parent et Jouquan : « une ou plusieurs tâches, exploitées à des fins évaluatives, en tant que produits (ou résultats) d’apprentissages, pour recueillir des indicateurs à partir desquels des inférences peuvent être faites quant à la réalité et à la disponibilité des compétences » [13]. Une compétence n’est donc pas directement « visible » mais les performances sont l’occasion d’en observer différentes manifestations tangibles : il s’agit d’une réalité inférée, généralement supposée à partir du constat de performances ponctuelles qu’elle a rendu possible [14].

En nous en tenant à ces définitions, nous considèrerons dans la suite de notre propos que les ECOS permettent d’évaluer une série de performances des étudiants, en accord avec certains guides de référence à cet égard [7,15], bien que l’on relève que le texte de loi français [3], tout comme certains auteurs [16,17], en parlent encore comme un outil d’évaluation des compétences dans le sillage des descriptions historiques princeps des ECOS [6]. Les recommandations de pratique parmi les plus récentes [11] précisent l’objet des ECOS en le réduisant et indiquent qu’ils sont un outil d’évaluation d’aptitudes ou d’habiletés (skills), ces dernières constituant, au regard de la définition de Tardif précédemment citée, non pas des compétences en tant que telles mais simplement des ressources mobilisables pour la mise en acte de compétences.

La notion de validité se réfère aux preuves qui permettent de justifier l’interprétation qui est faite des résultats d’une évaluation [18]. Elle répond à une double exigence à la fois scientifique et sociale [19]. Kane a proposé dans les années 2000 une approche « basée sur l’argumentation » de l’interprétation de l’usage des scores pouvant s’appliquer aussi bien à un outil d’évaluation quantitatif, qualitatif, qu’à l’ensemble d’un programme d’évaluation [19]. Il y décrit quatre inférences (Figure 1) à argumenter au cours du processus de collecte et d’analyse des preuves de validité, depuis l’administration du test jusqu’à son interprétation :

  • l’inférence de notation fait le lien entre la performance observée (observation) et le score unique attribué à cette performance (score observé). Elle est influencée notamment par la construction de l’instrument et les modalités d’évaluation, et se rapporte à la manière dont le score attribué reflète la performance réalisée ;

  • l’inférence de généralisation fait le lien entre le score observé et son caractère généralisable (score univers). Elle renvoie principalement aux données psychométriques ;

  • l’inférence d’extrapolation fait le lien entre le score univers et sa signification dans la vraie vie (score cible). Elle se rapporte à la manière dont le score obtenu reflète (ou au moins anticipe) la performance réalisée en conditions réelle, en dehors de l’univers du test ;

  • l’inférence d’implication fait le lien entre le score cible et la façon dont il sera interprété pour prendre une décision. Elle s’intéresse donc aux conséquences de l’évaluation sur l’apprenant et plus largement sur la société.

Ce modèle, qui permet d’interroger en profondeur l’interprétation qui sera faite des scores des ECOS nationaux dans le cadre de la R2C et d’identifier les forces et faiblesses d’un tel dispositif visant à certifier les compétences des étudiants, nous semble plus approprié dans ce contexte que d’autres approches plus classiques, comme celle de Messick [15,20].

En prévision de la R2C, plusieurs facultés de médecine françaises ont commencé à mettre en place des ECOS pour leurs étudiants. C’est le cas à la Faculté de médecine, maïeutique, sciences de la santé (FMMS) de l’Université catholique de Lille, où le certificat de compétences cliniques (CCC), nécessaire à la validation du deuxième cycle avant la mise en application de la R2C, prend la forme d’un examen ECOS depuis 2019.

Vignette : Figure 1 Reportez-vous à la légende suivante et au texte qui l'entoure. Figure 1

Représentation schématique du modèle de Kane.

Objectif

L’objectif principal de ce travail est de discuter la validité de l’interprétation des scores d’un examen de type ECOS en deuxième cycle des études médicales, dans le contexte de préparation à la mise en application de la R2C, à partir de l’analyse d’une expérience locale et selon l’approche proposée par Kane. L’objectif secondaire, justifié par le fait que la validité intègre une dimension d’acceptation sociale, est d’étudier le ressenti des participants.

Méthodes

Les ECOS

Des ECOS permettant la validation du CCC se sont tenus à la FMMS sur trois demi-journées les 12 et 13 mars 2020. Pour chaque demi-journée, deux sessions successives et identiques de deux heures étaient organisées sur deux circuits parallèles et identiques de neuf stations. Neuf à 10 étudiants étaient évalués par circuit et par session, soit 36 à 40 étudiants par demi-journée. Il y avait deux évaluateurs par station, tous médecins enseignants à la FMMS et/ou praticiens du Groupement des hôpitaux de l’Institut catholique de Lille. Chaque station durait huit minutes, et chaque inter-station deux minutes. Les signaux indiquant le début et la fin des stations étaient diffusés dans l’ensemble du bâtiment par un réseau de haut-parleurs.

Avant le début de l’épreuve, les candidats émargeaient, déposaient leurs effets personnels dont leurs téléphones portables, se voyaient remettre le document d’information pour la participation à l’étude et remplissaient s’ils le souhaitaient le formulaire de consentement pour le recueil des données. À l’issue de l’épreuve, ils complétaient le questionnaire de satisfaction. Ces formalités étaient assurées par le personnel administratif de la FMMS.

Participants

Nous avons inclus dans cette étude tous les étudiants de sixième année de médecine participant aux ECOS en mars 2020 et ayant donné leur consentement écrit pour le recueil des données.

Données recueillies

Les données recueillies étaient les suivantes :

  • pour l’inférence de généralisation : les scores obtenus aux ECOS de mars 2020 ;

  • pour l’inférence d’extrapolation : les évaluations des stages de deuxième cycle (entre octobre 2017 et décembre 2019) recueillies de manière rétrospective dans les dossiers universitaires des étudiants, et le classement aux ECNi de juillet 2020 ;

  • les inférences de notation et d’implication ne nécessitaient pas de recueil de données quantitatives ;

  • dans le cadre de notre objectif secondaire : l’opinion et la satisfaction des participants à l’issue de l’épreuve de mars 2020. Elles ont été documentées : d’une part, grâce à l’administration d’un questionnaire sollicitant une réponse sur une échelle de Likert à quatre niveaux en lien avec les critères suivants : instructions complètes en amont ; bonne organisation des épreuves ; circuit facile à comprendre et à suivre ; niveau adapté des stations ; diversité des stations ; temps suffisant dans les stations ; attitude bienveillante des jurys ; d’autre part, en sollicitant la mention d’un indice de satisfaction globale sur une échelle numérique de 0 à 10.

Analyses statistiques

Les données psychométriques des ECOS étaient calculées et analysées comme suit :

  • indice de difficulté : P = 1 − (m/Smax) où m est la moyenne des scores de la station et Smax le score maximal possible [21] ;

  • indice de discrimination : D = (2/N) × (F − f) où les étudiants étant répartis en trois tiers selon leur note globale (forts, moyens et faibles), F et f sont le nombre d’étudiants ayant obtenu au moins 50/100 à la station respectivement dans le groupe des « forts » et dans le groupe des « faibles », et N le nombre d’étudiants dans ces deux groupes [22] ;

  • comparaison des scores entre les trois demi-journées par une analyse de variance (test ANOVA), et entre les deux circuits par le test de Student et le test ANOVA après vérification de la distribution normale des notes et de l’homogénéité des variances.

Le lien entre les scores obtenus aux ECOS et les résultats des autres modalités d’évaluation a été testé à l’aide du coefficient de corrélation de Pearson.

Les données étaient pseudonymisées avant d’être analysées. Les analyses étaient réalisées à l’aide du logiciel SPSS® 22.0 (IBM) avec un risque alpha bilatéral fixé à 5 %.

Résultats

L’ensemble de la promotion de sixième année, soit 109 étudiants, a été convoquée aux ECOS. Parmi eux, deux ont été dans l’incapacité de se présenter à l’épreuve. Aucun n’a refusé de participer à l’étude. Au total, 107 étudiants ont donc été inclus.

Validité des ECOS

Nous exposerons dans cette partie les éléments permettant d’étayer chacune des quatre inférences décrite par Kane.

Il n’y avait aucune donnée manquante concernant les scores obtenus aux ECOS et le classement aux ECNi. Pour de nombreux étudiants, il manquait en revanche les évaluations d’un ou de plusieurs stages hospitaliers, celles-ci n’ayant pas été transmises dans les temps aux services administratifs de la faculté.

Inférence de notation

Les scénarios des différentes stations et leurs grilles d’évaluation étaient conçus par des enseignants experts de leur discipline. Ils étaient ensuite relus, modifiés si besoin et validés par l’équipe des référents pédagogiques de la faculté. Chaque grille prenait la forme d’une liste dont chaque item était pondéré selon son importance, l’ensemble étant noté sur 100 points. Les objectifs de chaque station étaient clairement énoncés.

Une formation a été proposée aux évaluateurs quelques semaines avant les ECOS. Ils bénéficiaient d’un laps de temps juste avant le lancement de l’épreuve pour découvrir les grilles, se concerter et clarifier les éventuels points ambigus.

Afin de garantir l’intégrité du processus, les évaluateurs n’ont pris connaissance des sujets que le jour de l’épreuve ; la notation était anonyme, chaque étudiant étant identifié par un numéro. Les organisateurs étaient joignables tout au long de l’épreuve et s’assuraient régulièrement du remplissage correct des grilles. À l’issue des ECOS, les données ont été saisies manuellement par une seule personne puis conservées de manière numérique et sécurisée. Une relecture par une seconde personne a permis de corriger quelques erreurs de saisie. Il n’y a eu aucune donnée manquante.

Plusieurs mesures d’ordre organisationnel étaient prises pour éviter la transmission d’informations entre les étudiants : le bâtiment était fermé et réservé intégralement pour les ECOS ; des mesures ont été prises pour que les deux circuits ne se croisent pas, les étudiants de la première session de chaque demi-journée étant confinés en attendant le lancement de la seconde session, des surveillants étant présents à intervalles réguliers dans les couloirs. Les stations étaient différentes d’une demi-journée à l’autre.

Inférence de généralisation

Les thèmes des stations étaient identiques pour chacune des trois demi-journées : une situation d’urgence, une consultation pédiatrique, une station ciblée sur la relation médecin–patient, un geste technique à réaliser, un examen paraclinique à interpréter et quatre stations basées sur des cas cliniques en rapport avec diverses spécialités médicales. Dans la mesure du possible, les sujets étaient transversaux. En revanche, la mise en œuvre d’une authentique table de spécification était impossible en raison de l’étendue du programme du deuxième cycle qui compte 362 items.

Le jury de chaque station était composé de deux évaluateurs et l’épreuve comportait neuf stations. Des contraintes logistiques nous empêchaient d’augmenter ce chiffre, mais cette organisation nous semblait être un bon compromis au vu des données de la littérature.

La recherche d’une différence entre les scores obtenus par les étudiants ayant suivi l’un ou l’autre des deux circuits (scénarios identiques mais évaluateurs différents) conduit aux résultats présentés dans le tableau I. L’analyse par demi-journée à l’aide du test de Student retrouvait une différence pour la dernière demi-journée mais l’analyse globale par le test ANOVA ne mettait pas en évidence de différence significative de notation.

Les scores totaux des étudiants étaient en moyenne de 579,8 sur 900 pour la première demi-journée, 583,7 pour la deuxième et 582,9 pour la troisième. Ils ne différaient pas de manière significative entre les trois demi-journées malgré les scénarios différents (test ANOVA : F = 0,003 ; p = 0,997).

Les données psychométriques de l’épreuve sont résumées dans le tableau II. Les scores moyens pour chaque station allaient de 44,65 à 78,53 sur 100 points ; l’indice de difficulté était globalement modéré avec des valeurs entre 0,21 et 0,55 ; l’indice de discrimination était supérieur ou égal à zéro pour toutes les stations.

Tableau I

Variabilité des scores obtenus par les étudiants aux ECOS, selon les circuits.

Tableau II

Principales données psychométriques résultant de l’administration des ECOS.

Inférence d’extrapolation

Les scénarios et les grilles d’évaluation étaient développés en veillant à leur authenticité. Une attention particulière était portée à la clarté de la description du cas et de la tâche à accomplir par l’étudiant, au réalisme de la tâche, à son caractère réalisable dans le temps imparti et à sa difficulté. L’environnement immersif reproduisait autant que possible les vraies conditions d’exercice, les étudiants portaient leur blouse et utilisaient du matériel réel. En revanche, pour des raisons budgétaires, il n’y avait pas de patients simulés : le rôle des patients était joué, lorsque cela était nécessaire, par l’un des deux évaluateurs.

Il existait un lien (Figure 2) entre le score aux ECOS et la moyenne des notes (formulées de manière quantitative sur une échelle de 1 à 20) obtenues aux évaluations de fin de stages hospitaliers de deuxième cycle : une meilleure évaluation en stage était associée à un meilleur score aux ECOS (coefficient de corrélation de Pearson : r = 0,203 ; p = 0,036).

Il existait un lien (Figure 3) entre le score aux ECOS et le rang de classement aux ECNi : un meilleur score aux ECOS était associée à un meilleur rang de classement à l’ECNi (coefficient de corrélation de Pearson : r = −0,522 ; p < 0,001).

Vignette : Figure 2 Reportez-vous à la légende suivante et au texte qui l'entoure. Figure 2

Relation entre les scores obtenus aux ECOS et les évaluations de stage (r = 0,203 ; p = 0,036). ECOS : examens cliniques objectifs structurés.

Vignette : Figure 3 Reportez-vous à la légende suivante et au texte qui l'entoure. Figure 3

Relation entre les scores obtenus aux ECOS et les rangs de classement aux ECNi (r = −0,522 ; p < 0,001). ECNi : épreuves classantes nationales informatisées ; ECOS : examens cliniques objectifs structurés.

Inférence d’implication

Ces ECOS constituaient pour les étudiants une épreuve à enjeu élevé. Il s’agissait d’une évaluation sommative, certificative, permettant la validation du CCC et donc du second cycle. Cette notion a guidé nos choix pédagogiques et organisationnels.

La note de passage (assimilée au score) était fixée à 450/900 (soit 10/20) comme pour l’ensemble des examens facultaires à la FMMS. Six étudiants n’ont pas atteint ce seuil et ont dû passer une épreuve orale de rattrapage qu’ils ont tous validée.

Nous n’avons pas, dans le cadre de cette étude, cherché à évaluer l’impact des ECOS sur les apprentissages. À ce jour, nous n’avons pas non plus mené de suivi à long terme des étudiants ayant bénéficié de cette modalité d’évaluation.

Ressenti des participants

Le ressenti des étudiants a été recueilli dès la sortie de l’épreuve. Nous avons récupéré 99 questionnaires dont les résultats sont résumés sur la figure 4. La satisfaction globale moyenne des étudiants était de 8,2 sur 10 (écart-type : 0,93).

Vignette : Figure 4 Reportez-vous à la légende suivante et au texte qui l'entoure. Figure 4

Enquête d’opinion auprès des étudiants concernant leur appréciation du dispositif d’ECOS. ECOS : examens cliniques objectifs structurés.

Discussion

Notre étude concernait un outil d’évaluation de plus en plus répandu dans les formations en sciences de la santé mais dont l’implantation est encore relativement limitée en contexte français. De ce fait, si les travaux sur les ECOS sont nombreux, peu en ont encore documenté l’usage dans le système universitaire français. La R2C en fait un sujet d’actualité qui concernera l’ensemble des facultés de médecine de France dans les années à venir. De plus, notre étude est à notre connaissance la première à discuter de l’utilisation des ECOS dans le contexte particulier de la validation du second cycle des études médicales en s’appuyant sur un cadre conceptuel explicite et reconnu concernant la démarche évaluative.

L’un de nos résultats principaux est la mise en évidence d’un lien significatif entre les scores obtenus aux ECOS et le rang de classement aux ECNi. Ce résultat peut surprendre car les ECNi classent les étudiants selon leurs connaissances théoriques tandis que les ECOS sont conçus pour évaluer leurs performances cliniques. Cela nous interroge sur la pertinence de nos ECOS et l’on peut légitimement se demander s’ils ne mesurent pas davantage les connaissances que les performances. On relève cependant que les dossiers cliniques progressifs (équivalents des formats internationaux de type Patients Management Problem [PMP], Sequential Management Problem [SMP]) ont été introduits aux ECNi en 2016 dans le but de prendre en compte la démarche clinique, au-delà des simples connaissances, ce qui pourrait expliquer en partie la corrélation observée. Une autre hypothèse serait que la corrélation rende compte du fait que les étudiants avec les meilleures connaissances théoriques seraient également les meilleurs en milieu clinique. Sur ce point, la littérature est peu abondante et les résultats sont discordants. Par exemple, une étude parisienne ne retrouve pas de lien entre le score à une évaluation de sémiologie clinique et le classement aux épreuves classantes nationales de 2013 [23], tandis qu’il existe une corrélation positive mais faible entre les notes obtenues aux ECNi, aux examens facultaires de sixième année et aux ECOS organisés à l’Université de Toulouse [24]. L’analyse des résultats des premiers ECOS organisés à l’Université de Montpellier [25] en 2018 dans le cadre d’un CCC « blanc » met en évidence une corrélation avec les résultats des examens facultaires de type ECNi, mais seulement pour les stations basées sur les connaissances et le raisonnement. Une fois la R2C mise en application, les données utilisées pour la procédure d’appariement pourraient permettre de confirmer ou d’infirmer ces résultats à plus grande échelle en recherchant une éventuelle corrélation entre les connaissances théoriques et les performances cliniques des étudiants.

Nos résultats montrent également un lien entre les scores obtenus aux ECOS et les évaluations de stages hospitaliers de deuxième cycle. Bien qu’il existe sur le plan statistique, ce résultat doit être interprété avec prudence car il demeure très faible et peut être biaisé par les nombreuses données manquantes et la coexistence dans notre faculté de deux modèles différents de grilles d’évaluation. De plus, il est établi que l’évaluation en milieu clinique est complexe et que les critères de fiabilité n’y sont généralement pas réunis [26] ; ces limites tiennent à la nature des tâches évaluées, aux difficultés liées à l’environnement, à l’hétérogénéité des évaluateurs et aux biais dont ils sont victimes, en particulier l’effet de halo et le biais de clémence [27]. Pour compenser la faible fiabilité des évaluations certificatives de fin de stage, il aurait pu être intéressant d’y coupler un temps de supervision directe à l’aide d’un outil validé de type mini-CEX [28] ; cette évaluation était prévue mais le contexte sanitaire lié à la COVID-19 nous a empêchés de la mener à bien.

En dépit de ses limites [29], le coefficient alpha de Cronbach est l’un des outils les plus fréquemment utilisés pour l’analyse psychométrique des ECOS [11,30]. Cet indice permet de s’assurer de la cohérence interne d’un instrument d’évaluation. Il n’est ici supérieur au seuil d’acceptabilité de 0,7 que pour l’une des trois demi-journées et, au sein d’une même demi-journée, aucune station ne semble le modifier de façon notable. Ces valeurs relativement peu élevées pourraient s’expliquer par une conception perfectible de nos grilles d’évaluation ou encore par le fait que les ECOS évaluent plusieurs composantes de la pratique clinique, et non une compétence isolée. Par ailleurs aucune station ne semble avoir été trop complexe et les valeurs globalement modérées de l’indice de discrimination sont en cohérence avec l’objectif du CCC qui n’est pas de classer les étudiants.

La recherche d’une variabilité entre les deux circuits d’une même demi-journée (stations identiques mais évaluateurs différents) et entre les trois demi-journées (stations et évaluateurs différents) nous semblait importante car, compte tenu des grands effectifs des facultés de médecine, il semble impossible d’évaluer l’ensemble des étudiants sur une seule demi-journée avec les mêmes sujets et les mêmes jurys. Nous n’avons pas retrouvé de différence entre les trois demi-journées, alors que les sujets différents pouvaient les faire considérer comme trois épreuves distinctes. Il n’existe pas non plus de différence entre les notes des étudiants ayant été évalués par l’un ou l’autre des jurys, sauf pour la dernière demi-journée. Ceci peut s’expliquer soit par une réelle différence de notation entre les évaluateurs, soit plus vraisemblablement par une simple fluctuation d’échantillonnage, cette seconde hypothèse étant renforcée par l’absence de différence à l’analyse des variances. Une étude britannique menée à l’Université de Sheffield entre 2001 et 2004 ne retrouvait pas non plus de biais lors d’ECOS complexes, composés de plusieurs sessions se déroulant sur plusieurs sites [31]. Ces éléments suggèrent qu’il est possible, sous réserve d’une bonne conception de l’outil d’évaluation, de démultiplier les épreuves pour évaluer un grand nombre d’étudiants.

Sur le plan organisationnel, la mise en place d’une épreuve de type ECOS nécessite un investissement important à tous niveaux : humain, matériel et financier, même si nous avons l’avantage du plus petit effectif étudiant de France métropolitaine. Pour permettre la préparation et le bon déroulement de l’épreuve sur deux circuits simultanés, le bâtiment qui abrite la faculté a été totalement fermé pendant deux jours. Le personnel administratif et technique a été mobilisé, des surveillants ont été recrutés. L’ensemble des praticiens de notre groupe hospitalier ont été sollicités, que ce soit en amont pour la conception des sujets ou lors de l’épreuve pour constituer les jurys. La présence simultanée de 36 évaluateurs par demi-journée a été rendue possible par une anticipation importante et un ajustement des plannings hospitaliers. Un travail important de relecture des sujets et des grilles, de planification et de logistique a été mené par les référents pédagogiques de la faculté. Dans la littérature, de nombreux articles rapportent les mêmes constatations et avertissent sur l’importance des ressources devant être mobilisées pour l’organisation d’ECOS [9].

Le nombre de stations était limité à neuf pour des raisons logistiques et leur durée a été fixée de manière à pouvoir organiser deux sessions successives par demi-journée, tout en tenant compte des données de la littérature. L’ajout d’une station « pause » au sein du circuit permettait d’accueillir un étudiant supplémentaire par circuit et par session [9]. Le format retenu pour notre épreuve semble relativement proche de ce qui est envisagé à l’échelon national dans le cadre de la R2C [5], à savoir 10 stations (réparties en deux circuits de cinq stations) de sept minutes minimum avec deux examinateurs par station.

Pour des raisons budgétaires, il ne nous a pas été possible de recruter des acteurs : le rôle du patient était joué le cas échéant par l’un des évaluateurs. Il s’agit d’une limite majeure à la validité de nos ECOS (et une différence notable par rapport à ce qui est désormais envisagé pour les ECOS nationaux des années à venir), car il est prouvé que l’utilisation de patients simulés correctement formés améliore la fiabilité et la reproductibilité d’une épreuve [7,32].

Un autre point d’attention concerne la collecte et la saisie des scores à l’issue de l’épreuve. L’utilisation de grilles de cotation au format papier entraîne une quantité importante de documents à traiter et peut aboutir, en l’absence d’une organisation rigoureuse, à une perte de données ou à des erreurs de saisie. Une informatisation, qu’elle soit partielle avec l’utilisation de grilles à lecture optique, ou totale avec une saisie des scores sur tablettes tactiles par les évaluateurs, pourrait s’avérer utile. Un tel dispositif diminue le temps de retranscription ainsi que le risque de données manquantes ou d’erreurs de retranscription, et facilite la délivrance d’une rétroaction précoce et personnalisée [11,33].

La satisfaction élevée des étudiants témoigne d’une bonne acceptabilité, en dépit d’un stress évident en amont de l’épreuve. La bonne adhésion des participants à cette modalité d’évaluation est retrouvée régulièrement dans la littérature [3436], quel que soit le contexte dans lequel elle s’inscrit. À l’avenir, des ECOS devront être organisés durant les trois années du deuxième cycle afin de préparer au mieux les étudiants en vue des ECOS nationaux ; c’est déjà le cas dans plusieurs facultés dont la FMMS.

Il est à noter qu’il existe un écart entre les modalités organisationnelles et pédagogiques des ECOS organisés à la FMMS en mars 2020 et celles qui s’appliqueront aux ECOS nationaux. Ces différences expliquent principalement par le fait que cette étude a été menée bien avant que les modalités des futurs ECOS nationaux ne soient précisées par les autorités.

Pour terminer, revenons sur le cadre conceptuel qui sous-tend notre analyse. Le modèle de Kane a l’intérêt de présenter une marche à suivre qui permet de se poser les bonnes questions à chaque étape de la conception d’un dispositif évaluatif, de valider certains choix et de mettre en exergue les points à améliorer [19,37]. Il convient d’éviter deux erreurs qui seraient de conclure à une validité de l’outil d’évaluation malgré des défauts importants de l’argument de validité, ou de se satisfaire de preuves faciles à collecter en omettant les hypothèses plus difficiles à argumenter [20]. Nous nous sommes donc efforcés ici de nous intéresser à tous les maillons de la chaîne d’inférences, de manière objective, avec des arguments clairs, détaillés, cohérents et vérifiables [38] :

  • les inférences de notation et de généralisation sont convenablement documentées, les principales recommandations de bonne pratique sont respectées et, dans le contexte de notre expérience locale, il semble que la subdivision de l’épreuve en plusieurs sessions avec des jurys multiples n’ait pas eu de conséquence sur le résultat des étudiants. Nous notons toutefois quelques points qui nécessiteront une attention particulière dans le cadre de la R2C : l’utilisation de patients simulés, la difficulté à réaliser une table de spécification au vu de l’étendue du programme alors qu’il s’agit d’une étape essentielle dans la mise en place de tout dispositif évaluatif [15], et la difficulté à concevoir des grilles d’évaluation pertinentes. Sur ce dernier point, la création d’une banque nationale de vignettes cliniques pourrait s’avérer intéressante, sur le modèle de ce qui existe actuellement pour les dossiers cliniques progressifs de type ECNi ;

  • l’inférence d’extrapolation met en évidence un lien significatif entre les ECOS et les autres formes d’évaluation qui permettent la validation du deuxième cycle ;

  • enfin, il convient de souligner que notre travail souffre d’un manque de preuves de validité concernant l’inférence d’implication ; un suivi à long terme des étudiants à l’issue du second cycle ou l’étude de l’impact des ECOS sur leurs apprentissages [11] pourraient y remédier. Une autre suite à donner à cette étude pourrait être l’application du modèle de Kane non pas aux seuls ECOS, mais à l’ensemble des outils d’évaluation prévus dans la R2C dans le cadre d’une approche programmatique [38].

Conclusion

L’ensemble des éléments discutés en lien avec les résultats de cette étude semble donc en faveur d’une validité satisfaisante de l’interprétation des scores des ECOS dans ce contexte de validation d’un CCC certificatif, non classant, organisé à l’échelon local. Cette approche a permis d’identifier des améliorations possibles, notamment l’utilisation d’une vraie table de spécification, le recours aux patients simulés et l’argumentation de l’inférence d’implication. Appliquer le modèle de Kane aux futurs ECOS nationaux de fin de deuxième cycle pourrait permettre d’identifier des menaces problématiques concernant la validité de l’interprétation des scores de ces examens à enjeu élevé, afin de proposer des solutions pour les surmonter.

Contributions

Guillaume Ficheux a participé à la conception de l’étude, au recueil des données, à l’interprétation des résultats et à la rédaction du manuscrit. Jean-Paul Niguet a participé à l’analyse statistique. Thierry Van der Linden, Hélène Bulckaen, Marie-Laure Charkaluk, Pierrette Perimenis et Françoise Roy Saint-Georges ont participé à la conception de l’étude. Élodie Hernandez et Mathieu Lorenzo ont participé à la conception de l’étude, à l’interprétation des résultats et à la révision du manuscrit.

Approbation éthique

Le protocole de recherche a été approuvé par le Comité interne d’éthique et de recherche du groupement des hôpitaux de l’Institut catholique de Lille (projet no CIER-2020-31). Un enregistrement a été réalisé auprès de la Commission nationale de l’informatique et des libertés par notre déléguée à la protection des données (traitement no 114 FMM).

Liens d’intérêts

Aucun auteur ne déclare de conflit d’intérêts en lien avec le contenu de cet article.

Références

  1. Arrêté du 8 avril 2013 relatif au régime des études en vue du premier et du deuxième cycle des études médicales. NOR : ESRS1308333A. Journal officiel de la République française (no 0095) du 23 avril 2013 [On-line]. Disponible sur : https://www.legifrance.gouv.fr/loda/id/JORFTEXT000027343762. [Google Scholar]
  2. Frank JR, Snell L, Sherbino J, Boucher A. (Rédacteurs). Référentiel de compétences CanMEDS 2015 pour les médecins. Ottawa (ON): Collège royal des médecins et chirurgiens du Canada, 2015 [On-line]. Disponible sur : http://canmeds.royalcollege.ca/fr/referentiel. [Google Scholar]
  3. Arrêté du 2 septembre 2020 portant modification de diverses dispositions relatives au régime des études en vue du premier et du deuxième cycle des études médicales et à l’organisation des épreuves classantes nationales. NOR : ESRS2018628A. Journal officiel de la République française (no 0221) du 10 septembre 2020 [On-line]. Disponible sur : https://www.legifrance.gouv.fr/jorf/id/JORFTEXT000042320018. [Google Scholar]
  4. Arrêté du 19 avril 2022 fixant les modalités d’organisation de la procédure nationale d’appariement pour l’accès au troisième cycle des études de médecine. NOR : SSAH2210663A. Journal officiel de la République française (no 0093) du 21 avril 2022 [On-line]. Disponible sur : https://www.legifrance.gouv.fr/jorf/id/JORFTEXT000045614818. [Google Scholar]
  5. Arrêté du 21 décembre 2021 relatif à l’organisation des épreuves nationales donnant accès au troisième cycle des études de médecine. NOR : ESRS2138083A. Journal officiel de la République française (no 0301) du 28 décembre 2021 [On-line]. Disponible sur : https://www.legifrance.gouv.fr/jorf/id/JORFTEXT000044572679. [Google Scholar]
  6. Harden RM. Assess clinical competence : an overview. Med Teach 1979;1:289‐96. [CrossRef] [PubMed] [Google Scholar]
  7. Khan KZ, Ramachandran S, Gaunt K, Pushkar P. The objective structured clinical examination (OSCE): AMEE guide No. 81. Part 1 : an historical and theoretical perspective. Med Teach 2013;35:e1437‐e1446. [CrossRef] [PubMed] [Google Scholar]
  8. Shumway JM, Harden RM. AMEE guide No. 25: the assessment of learning outcomes for the competent and reflective physician. Med Teach 2003;25(6):569‐84. [CrossRef] [PubMed] [Google Scholar]
  9. Khan KZ, Gaunt K, Ramachandran S, Pushkar P. The objective structured clinical examination (OSCE): AMEE guide No. 81. Part II : organisation and administration. Med Teach 2013;35:e1447‐e1463. [CrossRef] [PubMed] [Google Scholar]
  10. Loye N, Fontaine S. S’instrumenter pour évaluer. Pédagogie Médicale 2018;19:95‐107. [CrossRef] [EDP Sciences] [Google Scholar]
  11. Daniels VJ, Pugh D. Twelve tips for developing an OSCE that measures what you want. Med Teach 2018;40:1208‐13. [CrossRef] [PubMed] [Google Scholar]
  12. Tardif J. L’évaluation des compétences : documenter le parcours de développement. Montréal : Chenelière Education, 2006. [Google Scholar]
  13. Parent F, Jouquan J. Comment élaborer et analyser un référentiel de compétences en santé ? Une clarification conceptuelle et méthodologique de l’approche par compétences. Louvain-la-Neuve : De Boeck Supérieur, 2015. [Google Scholar]
  14. Kahn S, Rey B. La notion de compétence : une approche épistémologique. Education et francophonie 2016;44:4‐18. [Google Scholar]
  15. Boursicot K, Kemp S, Wilkinson T, Findyartini A, Canning C, Cilliers F, et al. Performance assessment: consensus statement and recommendations from the 2020 Ottawa Conference. Med Teach 2021;43:58‐67 [CrossRef] [PubMed] [Google Scholar]
  16. Wass V, Van der Vleuten C, Shatzer J, Jones R. Assessment of clinical competence. Lancet 2001;357:945‐9. [CrossRef] [PubMed] [Google Scholar]
  17. Newble D. Techniques for measuring clinical competence : objective structured clinical examinations. Med Educ 2004;38:199‐203. [CrossRef] [PubMed] [Google Scholar]
  18. Downing SM. Validity: on the meaningful interpretation of assessment data. Med Educ 2003;37:830‐7. [CrossRef] [PubMed] [Google Scholar]
  19. Kane MT. Validating the interpretations and uses of test scores. J Educ Meas 2013;50:1‐73. [Google Scholar]
  20. Cook DA, Brydges R, Ginsburg S, Hatala R. A contemporary approach to validity arguments : a practical guide to Kane’s framework. Med Educ 2015;49:560‐75. [CrossRef] [PubMed] [Google Scholar]
  21. Institut de recherche et de documentation pédagogique. Indice de difficulté (d’un item). 2017 [On-line]. Disponible sur : http://www.irdp.ch/institut/indice-difficulte-item-2115.html. [Google Scholar]
  22. Bertrand C, Dory V, Pelaccia T, Durand E, Vaux J, Charlin B, et al. Choisir un outil d’évaluation. In : Pelaccia T (sous la direction de). Comment (mieux) former et évaluer les étudiants en médecine et en sciences de la santé ? Louvain-la-Neuve : De Boeck Supérieur, 2016:357‐70. [Google Scholar]
  23. Steichen O, Georgin-Lavialle S, Grateau G, Ranque B. Evaluation du savoir-faire en sémiologie clinique des étudiants en fin de deuxième cycle des études médicales. Rev Med Interne 2015;36:312‐8. [CrossRef] [PubMed] [Google Scholar]
  24. Catteau O, Beyne Rauzy O, Mayère A, Savy N. Dispositif d’évaluation pour un certificat d’aptitudes cliniques : quelles mesures pour quelles compétences ? In : 9e Conférence environnements informatiques pour l’apprentissage humain. Juin 2019 ; Paris, France. Recueil des actes du congrès, 2019:157‐6 [On-line]. Disponible sur : https://hal.archives-ouvertes.fr/hal-02435357/document. [Google Scholar]
  25. Maria A, Debien B, Cyteval C, Chanques G, Morin D, Capdevielle D, et al. Mise en place du certificat de compétences cliniques (C3) à travers un parcours de type « ECOS » : expérience de la faculté de médecine Montpellier-Nîmes. 79e Congrès français de médecine interne. Juin 2019 ; Montpellier, France. Rev Med Interne 2019;40(Suppl. 1):A64. [CrossRef] [Google Scholar]
  26. Pangaro L, Cate OT. Frameworks for learner assessment in medicine: AMEE guide No. 78. Med Teach 2013;35:e1197‐e1210. [CrossRef] [PubMed] [Google Scholar]
  27. Pelaccia T, Bayle I. Évaluer les étudiants. In : Pelaccia T (sous la direction de). Comment (mieux) superviser les étudiants en sciences de la santé dans leurs stages et dans leurs activités de recherche ? Louvain-la-Neuve : De Boeck Supérieur, 2018:129‐59. [Google Scholar]
  28. Norcini JJ, Blank LL, Duffy FD, Fortna GS. The Mini-CEX : a method for assessing clinical skills. Ann Intern Med 2003;138:476‐81. [CrossRef] [PubMed] [Google Scholar]
  29. Laveault D. Soixante ans de bons et mauvais usages du alpha de Cronbach. Mesure et Évaluation en Éducation 2012;35:1‐7. [CrossRef] [Google Scholar]
  30. Pell G, Fuller R, Homer M, Roberts T. How to measure the quality of the OSCE: a review of metrics − AMEE guide No. 49. Med Teach 2010;32:802‐1. [CrossRef] [PubMed] [Google Scholar]
  31. Roberts C, Newble D, Jolly B, Reed M, Hampton K. Assuring the quality of high-stakes undergraduate assessments of clinical competence. Med Teach 2006;28:535‐3. [CrossRef] [PubMed] [Google Scholar]
  32. Cleland JA, Abe K, Rethans JJ. The use of simulated patients in medical education: AMEE guide No. 42. Med Teach 2009;31:477‐86. [CrossRef] [PubMed] [Google Scholar]
  33. Daniels VJ, Strand AC, Lai H, Hillier T. Impact of tablet-scoring and immediate score sheet review on validity and educational impact in an internal medicine residency Objective Structured Clinical Exam (OSCE). Med Teach 2019;41:1039‐44. [CrossRef] [PubMed] [Google Scholar]
  34. Sibert L, Grand’Maison P, Charlin B, Grise P. Développement d’un examen clinique objectif structuré pour évaluer les compétences des internes en urologie. Pédagogie Médicale 2000;1:33‐9. [CrossRef] [EDP Sciences] [Google Scholar]
  35. Krusen NE, Martino MN. Occupational therapy students’ perceptions of OSCE : a qualitative descriptive analysis. Journal of Occupational Therapy Education 2020;4:Art. 7. [Google Scholar]
  36. Elbilgahy AA, Eltaib FA, Mohamed RK. Implementation of Objective Structured Clinical Examination (OSCE): perceiving nursing students and teachers attitude & satisfaction. American Journal of Nursing Research 2020;8:220‐6. [Google Scholar]
  37. Loye N. Et si la validation était plus qu’une suite de procédures techniques ? Mesure et Évaluation en Éducation 2019;41:97‐123. [CrossRef] [Google Scholar]
  38. Schuwirth L, Van der Vleuten C. Programmatic assessment and Kane’s validity perspective. Med Educ 2012;46:38‐48. [CrossRef] [PubMed] [Google Scholar]

Citation de l’article : Ficheux G, Niguet J-P, Van der Linden T, Bulckaen H, Charkaluk M-L, Perimenis P, Roy Saint-Georges F, Hernandez É, Lorenzo M. Dans quelle mesure les examens cliniques objectifs structurés (ECOS) sont-ils un outil valide pour l’évaluation des performances cliniques à la fin du second cycle des études médicales ? Analyse d’une expérience lilloise selon le modèle de Kane. Pédagogie Médicale 2023:24;167-177

Liste des tableaux

Tableau I

Variabilité des scores obtenus par les étudiants aux ECOS, selon les circuits.

Tableau II

Principales données psychométriques résultant de l’administration des ECOS.

Liste des figures

Vignette : Figure 1 Reportez-vous à la légende suivante et au texte qui l'entoure. Figure 1

Représentation schématique du modèle de Kane.

Dans le texte
Vignette : Figure 2 Reportez-vous à la légende suivante et au texte qui l'entoure. Figure 2

Relation entre les scores obtenus aux ECOS et les évaluations de stage (r = 0,203 ; p = 0,036). ECOS : examens cliniques objectifs structurés.

Dans le texte
Vignette : Figure 3 Reportez-vous à la légende suivante et au texte qui l'entoure. Figure 3

Relation entre les scores obtenus aux ECOS et les rangs de classement aux ECNi (r = −0,522 ; p < 0,001). ECNi : épreuves classantes nationales informatisées ; ECOS : examens cliniques objectifs structurés.

Dans le texte
Vignette : Figure 4 Reportez-vous à la légende suivante et au texte qui l'entoure. Figure 4

Enquête d’opinion auprès des étudiants concernant leur appréciation du dispositif d’ECOS. ECOS : examens cliniques objectifs structurés.

Dans le texte

Current usage metrics show cumulative count of Article Views (full-text article views including HTML views, PDF and ePub downloads, according to the available data) and Abstracts Views on Vision4Press platform.

Data correspond to usage on the plateform after 2015. The current usage metrics is available 48-96 hours after online publication and is updated daily on week days.

Initial download of the metrics may take a while.