Cees van der Vleuten

Report
Een systemische aanpak
van toetsing
NVMO Hoofdlezing
Maastricht, 15-16 november 2012
Cees van der Vleuten
Universiteit Maastricht
Overzicht
•
•
•
•
Van praktijk naar onderzoek
Van onderzoek naar theorie
Van theorie naar praktijk
Conclusies
Toetsvormen
• MCQ, MEQ, OEQ, SIMP, Writeins, Key Feature, PMP, SCT,
Patiënt examen, OSCE, OSPE,
DOCEE, SP-based test, Video
assessment, MSF, Mini-CEX,
DOPS, assessment center, selfassessment, peer assessment,
incognito SPs………….
De beklimming......
Does
Performance assessment in vivo:
KKB, 360۫ …, Peer, Video, Incognito Pat, Video…….
Shows how
Shows
how
Knows how
Knows
how
Knows
Knows
Performance assessment in vitro:
OSCE, SP-based test…..
(Klinisch) Contextuele toetsen:
MCQ, open vragen, mondeling…..
Feitgerichte toetsen:
MCQ, open vragen, mondeling…..
Karakteristieken van instrumenten
Kosten
Acceptabiliteit
Onderwijsinvloed
Betrouwbaarheid
Validiteit
Validiteit: wat beoordelen we?
• Curricula zijn veranderd van input sturing naar
output sturing
• Van disciplines naar leerdoelen, eindtermen,
en nu competenties
• Van docentsturing naar zelfsturing
Competentie-frameworks
CanMeds
(Canada)







Medical expert
Communicator
Collaborator
Manager
Health advocate
Scholar
Professional
ACGME
(US)






Medical knowledge
Patient care
Practice-based learning
& improvement
Interpersonal and
communication skills
Professionalism
Systems-based practice
GMC
(UK)






Good clinical care
Relationships with
patients and families
Working with
colleagues
Managing the
workplace
Social responsibility
and accountability
Professionalism
Validiteit: wat beoordelen we?
Does
Ongestandaardiseerde
Toetsing (opkomend)
Shows how
Shows
how
Knows how
Knows
how
Knows
Knows
Gestandaardiseerde
Toetsing (ver
uitontwikkeld)
Inzichten over validiteit
• We hebben een veelheid aan toetsmethoden
nodig om de hele competentiepiramide te
dekken
• Nodig zijn gestandaardiseerde èn
ongestandaardiseerde toetsmethodieken
• Kwaliteitscontrole van instrumenten is essentieel
voor gestandaardiseerde beoordeling
• De gebruikers (de mensen) zijn essentieel bij
ongestandaardiseerde beoordeling.
Betrouwbaarheid: hoe precies
beoordelen we?
Korte
Praktijk
ToetsMoncasus
Video
InTijd in
gerichte Simu- de- Patient
Obser- cognito
Hours MCQ1 Essay2 laties1 ling3 examen4 OSCE5 KKB6 vatie7
SPs8
1
0.62
0.68
0.36
0.50
0.60
0.54
0.73
0.62
0.61
2
0.76
0.73
0.53
0.69
0.75
0.69
0.84
0.76
0.76
4
0.93
0.84
0.69
0.82
0.86
0.82
0.92
0.93
0.82
8
0.93
0.82
0.82
0.90
0.90
0.90
0.96
0.93
0.86
1Norcini
et al., 1985
2Stalenhoef-Halling et al., 1990
3Swanson, 1987
4Wass
et al., 2001
5Van der Vleuten, 1988
6Norcini et al., 1999
7Ram
et al., 1999
2002
8Gorter,
Inzichten over betrouwbaarheid
• Acceptabele betrouwbaarheid wordt slechts
bereikt bij een grote steekproef aan
toetselementen en beoordelaars
• Geen enkele methode is inherent beter dan
een andere (ook de nieuwere niet!)
• Objectiviteit is NIET gelijk aan
betrouwbaarheid
• Vele onafhankelijke subjectieve oordelen
maken een objectief oordeel.
Onderwijsinvloeden: Hoe stuurt
toetsing het leren?
• Sturing is complex (zie Cilliers, 2011, 2012)
• Veel negatieve invloeden
– Povere leerstijlen
– Cijferproblematiek (zesjes cultuur, genade-zes, jagen op punten)
– Hoge werkplekbeoordelingen
• Veel reductionisme in toetsing
–
–
–
–
–
Weinig feedback (cijfer is slechte vorm van feedback)
Toetsconcept niet aansluitend op onderwijsconcept
Aggregatie van informatie over niet betekenisvolle eenheden
Weinig longitudinale opvolging
Veel vinken, weinig vonken (OSCE, werkplekbeoordelingen).
Inzichten over onderwijsgevolgen
• Geen enkele toets of beoordeling zonder
betekenisvolle feedback
• Narratieve feedback heeft meer impact dan
scores op complexe vaardigheden
• Feedback alleen is niet genoeg voor gebruik
• Meer longitudinale beoordeling is wenselijk.
Overzicht
• Van praktijk naar onderzoek
• Van onderzoek naar theorie
• Van theorie naar praktijk
• Conclusies
De beperkingen van de enkelvoudige
toetsbenadering
• Geen enkele toets kan alles
• Elke toets heeft beperkingen
• Elke toets houdt een fors compromis in
Implicaties
• Validiteit: een veelheid aan toetsen nodig
• Betrouwbaarheid: veel (gecombineerde)
informatie nodig
• Onderwijsgevolgen: toetsing moeten
(longitudinaal) betekenisvol voor het leren zijn
Toetsprogramma’s
Toetsprogramma’s
• Curriculum programma is goede metafoor;
in een toetsprogramma zijn:
– Onderdelen gepland, gearrangeerd,
gecoördineerd
– Systematisch geëvalueerd en bijgesteld
• Maar hoe doe je dat dan? (de literatuur biedt
bitter weinig houvast!)
Toetsprogramma’s
• Zie Dijkstra et al 2012: 73 generieke richtlijnen
voor toetsprogramma’s
• Nog te doen:
– Verdere validering
– Een handzaam (zelfevaluatie) instrument
Bouwstenen Toetsprogramma’s 1
• Elke toets of beoordeling is één datapunt (Δ)
• Elk datapunt is geoptimaliseerd voor leren
– Informatierijk (kwantitatief, kwalitatief)
– Betekenisvol
– Gevarieerd in vorm
• Summatief versus formatief vervangen we door
een continuüm van wat er op het spel staat
(stakes)
• N datapunten zijn gerelateerd aan aard van
beslissing
Continuüm van wat er op spel staat,
relatie met datapunten en hun functie
Er staat
niets op
spel
Eén
datapunt:
• Gericht op
informatie,
• feedback
Er staat
alles op
spel
Tussentijdse
Voortgangsbeslissingen:
• Meer datapunten
nodig
• Gericht op diagnose,
bijsturing en
voorspelling
Finale
Beslissingen:
• Veel datapunten nodig
• Gericht op een (niet
verassende) zware beslissing
Toetsinformatie als pixels
Klassieke benadering van aggregatie
Methode 1
voor beoordeling
van vaardigheid A
Σ
Methode 2
voor beoordeling
van vaardigheid B
Σ
Methode 3
voor beoordeling
van vaardigheid C
Σ
Methode 4
voor beoordeling
van vaardigheid D
Σ
Betekenisvolle benadering van aggregatie
Competentie Competentie
A
B
Competentie
C
Competentie
D
Σ
Σ
Methode 1
Methode 2
Methode 3
Methode 4
Σ
Σ
Overzicht
• Van praktijk naar onderzoek
• Van onderzoek naar theorie
• Van theorie naar praktijk
• Conclusies
Terug van theorie naar praktijk
• Bestaande toetspraktijken:
– Master Diergeneeskunde Utrecht
– AKO, graduate entry geneeskunde Maastricht
– Jaar 6 geneeskunde Maastricht (later hele Master)
– Huisartsopleiding Nederland
– Sommige specialistenopleidingen zijn hard op weg
– Cleveland Learner Clinic, Cleveland, Ohio
Cleveland Clinic Lerner College of Medicine
(Dannefer et al., 2007)
•
•
•
•
5 jarige opleiding arts/klinisch onderzoeker
Overkoepelende competententiestructuur
Beschreven standaarden per fase van de studie
Alle toetsing formatief en infomatief
– Wekelijkse casustoetsing met open vragen, geen grades
maar feedback
– Veel docent en peer evaluaties in narratieve vorm
– Werkplekbeoordelingen
– OSCEs
Competentie framework
• Research
• Medical Knowledge in the Basic and Clinical
Sciences
• Communication
• Professionalism
• Personal Development
• Clinical Skills
• Clinical Reasoning
• Health Care Systems
• Reflective Practice
Voorbeeld van standaarden
Competency
Year 1
Year 2
Year 5
Research
Demonstrates
ability to critically
review basic
science research
Demonstrates
ability to critically
review clinical
research papers
Analyzes and
effecitively critiques
a broad range of
research papers
Actively participates
in the performance
of laboratory
procedures relevant
to their basic
science research
Applies principles
and skills in medical
biostatistics and
clinical
epdidemiology to
analysis of data
Demonstrates the
ability to generate
research a
hypothesis and
formulate questions
to test it
Demonstrate
knowledge base for
basic and clinical
research, skills set
to conceptualize
and conduct
research
Designs and
performs studies to
test a hypothesis
Cleveland Clinic Lerner College of Medicine
(Dannefer et al., 2007)
• Alle infomatie in een centraal webgebaseerd systeem
• Mentor systeem met longitudinale opvolging,
gesprekken op basis van zelfanalyses
• Voortgangsbeslissingen door onafhankelijke
commissie met zware procedures voor
besluitvorming
Strategy to
establish
trustworthiness
Criteria
Potentiele
Toepassingen in
Toetsing
Credibility
Prolonged engagement
Trainen van beoordelaars
Triangulation
Toenemende inschakeling van
experts op basis van mate van
zekerheid over het oordeel
Peer examination
Benchmarken beoordelaars
Member checking
Incorporeer een zelf-oordeel van
de lerende
Structural coherence
Controle op inconsistenties in
besluitvorming
Time sampling
Gebruik van veel datapunten
Thick description
Gemotiveerde besluitvorming
Dependability
Stepwise replication
Grootte van de commissie
bestaande uit gerespecteerde
leden
Confirmability
Audit
Creëer beroepsmogelijkheid
Transferability
Cleveland Clinic Lerner College of Medicine
(Dannefer et al., 2007)
• Alle infomatie in een centraal webgebaseerd systeem
• Mentor systeem met longitudinale opvolging,
gesprekken op basis van zelfanalyses
• Voortgangsbeslissingen door onafhankelijke
commissie met zware procedures voor
besluitvorming
Cleveland Clinic Lerner College of Medicine
• Opbrengsten:
– Studenten passen zich probleemloos aan na de “testcultuur” waaraan ze gewend zijn
– Hoog presterende studenten (USMLE)
– Studenten zijn de ambassadeurs geworden van het
systeem en waarderen:
•
•
•
•
De rijkheid van het systeem
Het aandacht bieden aan brede vaardigheden
De zelf-controle
De begeleiding
Overzicht
• Van praktijk naar onderzoek
• Van onderzoek naar theorie
• Van theorie naar praktijk
• Conclusies
Conclusies 1
• We moeten af van het exclusief denken in
individuele toetsmethoden
• Een systemische, programmatische aanpak is
daarvoor noodzakelijk, longitudinaal gericht
• Elke toetsmethode kan hierin functioneel zijn (oud
en nieuw; gestandaardiseerd en ongestandaardiseerd)
• Professionele oordeelsvorming is onontbeerlijk
(vergelijkbaar aan de klinische praktijk)
• Subjectiviteit wordt gepareerd met sampling en
met procedurele maatregelen (en niet met
standaardisering of objectivering)
Conclusies 2
• Het toetsprogramma optimaliseert:
– De leerfunctie (door informatierijkheid)
– De beslisfunctie (door combinatie van informatie)
Deze Powerpoint:
www.fdg.unimaas.nl/educ/cees/nvmo
Dank voor uw aandacht!

similar documents