De acht uitgangspunten voor goede toetsing (versie 2025-2026)
In deze bijdrage lichten wij de criteria toe die wij hanteren bij het beoordelen van toetsing. Het zijn de acht voorwaarden die bepalen in hoeverre sprake is van een goede toets. U zult lezen dat sommige criteria hierbij voor ons wel zwaarder wegen en daarnaast onderling kunnen botsen; het gaat om het vinden van het juiste evenwicht. De belangrijkste uitgangspunten: u bent transparant richting uw cursisten over de toetsing en hebt uw toets / toetsing voldoende doordacht.
De toets / toetsing is:
ACHT CRITERIA VOOR GOEDE TOETSING
De wens: een goede toets
U zult het vast ook een keer zelf hebben meegemaakt: u moest een toets maken, u dacht dat u goed geleerd had, maar toch was de toets anders dan u had verwacht. De vragen waren moeilijker, de vragen waren juist makkelijker, andere onderwerpen werden uitgevraagd, de hoeveelheid tijd om de vragen te beantwoorden was te kort, enzovoort.
In de praktijk zeggen we dan dat de toets niet goed was. In de literatuur wordt dit ook wel de rechtvaardigheid van de toets genoemd (of rechtvaardiging). Dat de toets niet rechtvaardig was. Een woord dat u misschien herkent van morele oordelen, als we zeggen dat iemand niet rechtvaardig behandeld wordt of rechtvaardig handelt.
De centrale vraag bij een toets is dan ook: in hoeverre kan de maker van de toets de toets rechtvaardigen? Maar wij geven de voorkeur aan gewone mensentaal en de meer begrijpelijke vraag:
In hoeverre is dit nu een goede toets?
Wat maakt een toets of toetsing volgens literatuur en toezichthouders goed?
De vraag stellen of een toets ook een goede toets is of was (en of de juiste vragen zijn gesteld), is eigenlijk nog maar een matige vraag als niet verder wordt doorgevraagd. Want waar gaan we dan precies naar kijken? Het is beter om eerst te kijken wat wordt bedoeld met "een goede toets". Wat maakt een toets nu een goede toets?
Dit kunnen we om te beginnen beantwoorden door te onderzoeken naar wat andere auteurs hebben geschreven hierover. Drie basiseisen springen hierbij er vaak wel uit: een goede toets moet valide, betrouwbaar en transparant zijn. Zie bijvoorbeeld dit overzicht van CITO, hier bij de Universiteit van Utrecht of hier bij de Universiteit Gent. Met name als het gaat over schriftelijke toetsen / toetsvragen worden deze criteria genoemd.
Helaas zijn er ook andere lijstjes. Dus over wat een toets een goede toets maakt.
Zo reiken Van Berkel, Bax e.a. vijf criteria aan: validiteit, betrouwbaarheid, objectiviteit, transparantie en normering (zie Toetsen in het hoger onderwijs (5e editie, 2023, pagina 83). Het is een boek waar in het hoger onderwijs vaak naar wordt verwezen (bijvoorbeeld hier), dus deze opsomming is niet onbelangrijk. Een oude druk van het boek vindt u overigens hier (met dezelfde criteria).
Maar slecht nieuws: op sites als die van SLO en de Radboud Universiteit vindt u ondertussen weer andere criteria.
We kunnen het ook benaderen vanaf de andere kant en de vraag stellen welke eisen andere instanties stellen aan toetsing bij onderwijsinstellingen. Instanties die toezicht houden op de kwaliteit van toetsing. Of kwaliteitsaudits houden. Waarop beoordelen zij scholen?
Ook dat verschilt.
Het beoordelingskader accreditatiestelsel hoger onderwijs van de NVAO drukt enigszins vergelijkbare kwaliteitseisen uit, maar is
zelf qua opsomming weer minder helder (zie bladzijde 9 van dit beoordelingskader).
De beoordeling moet volgens de NVAO "valide, betrouwbaar en voldoende onafhankelijk [zijn]. De eisen zijn helder voor de studenten. De kwaliteit van de tentaminering en examinering wordt voldoende gewaarborgd en voldoet aan de wettelijke deugdelijkheidsvereisten. De toetsen ondersteunen het eigen leerproces van de student. De examencommissie oefent haar wettelijke taken en bevoegdheden uit."
Acht actuele ontwikkelingen als het gaat over toetsing
Zowel in de literatuur als in de praktijk ziet u dus verschillende criteria
terug. Om het nog lastiger te maken, zijn er daarnaast allerlei
ontwikkelingen die maken dat zelfs deze lijstjes niet meer volledig zijn of dergelijke lijstje minder actueel maken:
Het wordt wat technisch (dus slaat u dit zeker over als dit niet uw interesse
heeft), maar denk aan:
- De opkomst van GenAI / kunstmatige intelligentie (waarbij AI al dan niet weer ingezet mag worden). Dit gaat over de authenticiteit van het werk van een cursist.
- De toenemende mogelijkheden om te frauderen en dit op te sporen dan wel hierop toezicht te houden en op de achtergrond de opkomende verjuridisering van toetsing (vaker rechtszaken over toetsing).
- Het toenemende belang om (juridisch) het niveau te kunnen borgen terwijl diverse onderwijsvernieuwingen dit lastiger maken (bijvoorbeeld door de komst van aangepaste toetsing / persoonlijke leerroutes en toetsing).
- De constatering dat het onmogelijk is om aan alle criteria tegelijkertijd te voldoen (sommige criteria botsen met elkaar en kunnen leiden tot dilemma's bij het maken van een toets).
- De behoefte aan heldere criteria die waarden uitdrukken en makkelijker over te dragen zijn aan (startende) docenten.
- Het besef dat toetsing van één specifiek onderdeel - hoe goed ook getoetst - weinig voorspellend is voor het geheel van handelen van een cursist. Een meer holistische kijk op toetsing wint aan kracht (de nadruk op bepaalde criteria verschuift).
- De erkenning dat het beoordelen van gedrag en werkhouding ook om nauwkeurigheid e.d. vraagt. Als u dit al zou moeten meewegen (zie bijvoorbeeld dit artikel bij Toetsrevolutie).
- Het opkomende besef dat toetsing meerdere functies heeft en het leren voor een cursist bijvoorbeeld niet zou moeten stoppen nadat een toets behaald is. Denk aan ontwikkelingen rond formatief handelen / onderzoekend handelen (wat aan de toets vooraf gaat) of het belang van kwaliteitsbesef.
Acht criteria voor een goede toets
Bovenstaande ontwikkelingen - en gezien de literatuur en onze ervaringen - maken dat wij niet drie of vijf, maar acht criteria hanteren. Acht criteria die ook u kunt gebruiken bij het beoordelen van toetsing. We zullen hieronder deze acht criteria langslopen. We zullen daarbij ook voorbeelden geven.
1. Transparantie
Cursisten moeten inzicht hebben of kunnen krijgen hoe ze getoetst worden: wat getoetst wordt, voor welke toetsvorm is gekozen, waar de normering op is gebaseerd, waar hun cijfer op is gebaseerd, waarom hun uitwerking niet correct is, wat de cesuur is, et cetera.
We hechten er veel waarde aan dat cursisten voorafgaand aan een
training, cursus of opleiding hierover worden geïnformeerd. Eventueel
wordt dit onder de noemer van
kwaliteitsbesef later gedaan, maar cursisten moeten weten wat van
hun verwacht wordt en waarom.
Transparantie geldt ook naar andere docenten en trainers. Zij moeten weten - waar mogelijk vooraf - hoe getoetst wordt zodat hun cursisten niet verrast zullen worden tijdens de toets. Daarnaast moet rekening gehouden worden met overige betrokkenen. Zo moet de toetsing ook inzichtelijk kunnen worden gemaakt aan bijvoorbeeld auditcommissies, subsidieverstrekkers, visitatiepanels of - waar relevant - de onderwijsinspectie.
2. Validiteit
Met een toets kan een docent de kennis, vaardigheden of houding van cursisten meten (of een combinatie hiervan). Hierbij moet de docent natuurlijk wel het juiste meten. De toets moet aansluiten op de leerdoelen van de opleiding, cursus of nascholing en niet iets anders (onbedoeld) toetsen.
Dit kan ten eerste gaan over de inhoud van de toets / vraagstelling.
Een makkelijk en invoelbaar voorbeeld uit het middelbaar onderwijs:
We kunnen spreken van een inhoudelijk minder valide toets (of beter: een niet valide toets) als het leerdoel is 'dat de cursist parate kennis moet tonen van bepaalde onderwerpen uit het arbeidsrecht', maar alleen maar gevraagd wordt naar kennis van het privacyrecht.
Een
variant hiervan is als te weinig vragen worden gesteld gezien het
leerdoel. U hoopt dat een docent aan alle leerdoelen naar verhouding
recht doet. Een voorbeeld uit de sportsector. Stel een opleider wil weten
of een scheidsrechter alle voetbalregels kent (leerdoel), maar dit
aftoetst met alleen vragen naar twee buitenspelregels, dan is dit geen
teken van validiteit. Sprake is van een overhaaste generalisatie.
Ook kan trouwens qua vorm sprake zijn van minder valide toetsing. Als een opleider wil toetsen of een cursist goed kan samenwerken, dan is het qua vorm waarschijnlijk minder valide om hiervoor meerkeuzevragen in te zetten. Het roept in ieder geval wel wat vragen op.
3. Betrouwbaarheid
De betrouwbaarheid van toetsing verwijst naar de mate waarin een toets consistente en nauwkeurige resultaten oplevert. Het betekent dat als dezelfde toets herhaald wordt onder vergelijkbare omstandigheden, de resultaten vergelijkbaar zouden moeten zijn. De vraagstelling en het proces van toetsen moeten zo zijn ingericht dat deze zo objectief mogelijk is en tot consistente beoordelingen leiden.
Twee vragen zijn hierbij belangrijk om te stellen (die ook door SLO terecht wordt aangereikt):
- Komen verschillende beoordelaars tot dezelfde beoordeling?
- Worden vergelijkbare antwoorden / prestaties op dezelfde manier beoordeeld?
Relevante vragen om te stellen:
- Zijn de vragen makkelijk na te kijken of zal per examinator een andere interpretatie aan een antwoord gegeven kunnen worden?
- Is er - waar relevant gezien de toetsvorm - een antwoordmodel?
- Wordt er bij twijfel tussen docenten afgestemd?
- Zijn er genoeg toetsvragen of kan het een toevalstreffer zijn?
- Laten cursisten die het gehaald hebben dezelfde tekortkomingen zien of wijken bepaalde vragen aanwijsbaar af? Met andere woorden: zijn er ook vragen die alleen door cursisten die het niet hebben gehaald goed worden beantwoord?
Met andere woorden: kunt u vertrouwen hebben in het
resultaat of beoordeling? Of had de examinator / trainer / docent net zo goed met
een dobbelsteen kunnen gooien, waarbij iedere gooi weer iets anders oplevert?
4. Haalbaarheid
Helaas hebben opleidingsinstituten en opleiders geen onbeperkte middelen. Of het nu gaat om trainingen, cursussen of nascholing: het geheel - inclusief toetsing - moet wel betaalbaar zijn (liefst nog enigszins winstgevend).
Dit kan maken dat bepaalde toetsvormen niet haalbaar zijn. Niet voor de trainer of niet voor de cursisten.
Misschien geeft een criteriumgericht interview (CGI) bijvoorbeeld de meest valide en betrouwbare resultaten, maar dat het onmogelijk is voor de trainer - of nog beter: collega-trainers die niet betrokken zijn geweest bij het onderwijs - om tientallen CGI's te plannen. Dat maakt deze toetsvorm te duur gezien de prijs van de training.
De valkuil is dit te snel te concluderen. Dan wordt niet bezuinigd op de trainingsdagen (gegeven door een autoriteit in het vakgebied die vol enthousiasme vertelt) maar wel op de toetsing. Terwijl een betrouwbaar opleidingsinstituut hier juist wel rekening mee houdt. Bijvoorbeeld in de prijsstelling en planning.
Ook voor cursisten moet een toets trouwens haalbaar zijn. Als een toets niet binnen de beschikbare tijd te maken is, dan gaat iets bijvoorbeeld niet goed. Hoe betrouwbaar en valide ook. Al zijn er ook auteurs die zeggen dat een niet-haalbare toets ook niet valide is. Omdat wij veel waarde hechten aan dit criterium, zien wij het toch als een apart uitgangspunt.
5. Subjectiviteit
Misschien een verrassend criterium. Natuurlijk moet de beoordeling zo objectief mogelijk zijn. Of beter verwoord: zo hoog mogelijke mate van intersubjectiviteit kennen. Dit raakt het criterium betrouwbaarheid.
Wat met het criterium subjectiviteit wordt bedoeld, is met name dat de beoordeling wel toegerekend moet kunnen worden aan een individuele cursist. Subjectief slaat hier dus om te beginnen op de cursist.
Dit gaat bijvoorbeeld mis als een docent met een groepsopdracht wil toetsen in hoeverre individuele cursist bepaalde kennis of vaardigheden hebben. In zo'n geval is de kans groot dat geen recht wordt gedaan aan individuele verschillen tussen cursisten. Of dat de groep bepalend is voor het resultaat (drie goede cursisten compenseren een minder goede). Ook gaat het op dit criterium niet goed als de toetsing een thuisopdracht betreft die gemaakt kan worden door een collega of vriend/kennis. Dit is helemaal niet wenselijk omdat het ook nog eens leidt tot minder kansengelijkheid (niet iedereen heeft een bekwame collega of kennis / vriend die dit kan doen). In de praktijk zien we dat opleidingen om die reden een criteriumgericht interview (CGI) toevoegen aan de toetsing.
Maar ook moet de beoordeling van de examinator subjectief zijn, namelijk in de zin dat het oordeel onafhankelijk van anderen tot stand moet komen. Dus dat het echt de beoordeling van de docent betreft. Onafhankelijk van anderen (de directie of de organisatie die de training betaalt ziet bijvoorbeeld graag een hoger slagingspercentage), maar ook onafhankelijk van zaken die er niet toe doen (bijvoorbeeld dat een arbeidsovereenkomst ervan afhangt). Al zegt dit ook wat over de validiteit van de toets natuurlijk.
Staat dit criterium overigens kalibratie tussen docenten in de weg? Van kalibratie is immers sprake als docenten afstemmen wat hun oordeel is of hoe ze een antwoord of criterium moeten interpreteren. Om de betrouwbaarheid van een beoordeling te verhogen, wordt dit wel aangeraden.
Het criterium subjectiviteit staat kalibratie echter niet in de weg. Wel stelt het nadere eisen aan de kalibratie.
Als een zaak voor de rechtbank door meerdere rechters wordt afgedaan (een zogenaamde meervoudige kamer) dan is de richtlijn dat de minder ervaren rechter zich eerst uitspreekt. Hiermee wordt voorkomen dat naar de mond wordt gepraat. Gezien dit criterium heeft dit ook bij kalibratie tussen trainers de voorkeur.
U zou bovenstaande subcriteria trouwens ook onder
betrouwbaarheid en validiteit kunnen scharen, maar dit criterium is - in
tijden van GenAI - dermate belangrijk dat het ons inziens een
eigen categorie verdient.
6. Effectiviteit (bruikbaarheid)
Met toetsing streven opleidingsinstituten, opleidingen en/of docenten vaak meerdere doelen na. Welke doelen dit precies zijn, verschilt. Maar in de praktijk en in de literatuur zien we vaak wel dezelfde doelen terug. Vijf voorkomende doelen zijn:
- De toets draagt bij aan het streven om te komen tot onbetwistbare diploma's, getuigschriften of certificaten.
- De toetsing levert ook een bijdrage aan het leren van de cursist.
- De cursist krijgt een realistisch beeld van het vak of opleiding.
- De toetsing sluit aan bij wat de cursist moet leren / doen in de toekomst.
- De toetsing sluit aan bij wat de cursist vooraf - in het kader van
formatief handelen / constructive alignment - heeft gedaan en geleerd.
Een goede toets is zo effectief mogelijk gezien de doelen die de opleider heeft gesteld en uitdraagt.
Als een opleider adverteert met dat de opleiding of cursus aansluit bij het beroep, dan verwachten we dit in de toetsvragen, toetsvorm of toetsontwerp terug te zien. Als echter iets wordt getoetst dat ver van de praktijk af staat, dan maakt dit een minder goede toets.
7. Rechtmatigheid / morele rechtvaardigheid
Het is natuurlijk niet de bedoeling dat een toets tegen het geldend recht ingaat.
Zo zou in het hoger onderwijs het streven moeten zijn om een toets te laten voldoen aan de geldende Onderwijs- en examenregeling (OER). Als in de OER bijvoorbeeld staat dat alle toetsen in het Nederlands moeten zijn, dan mag een toets niet Engelstalig zijn. Maar ook andere regelgeving kan relevant. Zo geldt voor het hoger onderwijs de Wet op het Hoger Onderwijs en Wetenschappelijk Onderzoek (WHW) en voor het middelbaar onderwijs de Wet Educatie en Beroepsonderwijs (WEB).
Nu zijn dit nog concrete regelingen voor het middelbaar en hoger onderwijs, maar ook voor professionele opleidingen en cursussen gelden natuurlijk allerlei regels. Zo mogen vragen niet discriminerend of racistisch zijn. Maar ook niet met de toets zelf (dat bepaalde cursisten geen eerlijke kans krijgen). Waar in het middelbaar onderwijs gelukkig steeds meer aandacht voor is (zie bijvoorbeeld deze bijdrage op Toetsrevolutie). En moeten toetsen - waar relevant - bijvoorbeeld voldoen aan het privacyrecht / AVG. Dit kan relevant zijn als getoetst wordt met behulp van proctoring en digitaal toetsen.
Het is belangrijk om daarom steeds de vraag te stellen: in hoeverre voldoet de toets aan het geldend recht?
Natuurlijk heeft dit ook een beetje een drogreden in zich: een vraag kan immers rechtmatig zijn en toch onrechtvaardig zijn, namelijk in morele zin (niet in toetstechnische zin). Of andersom: een vraag is op zich rechtmatig, maar toch niet moreel te rechtvaardigen. Bijvoorbeeld omdat er allerlei onjuiste vooroordelen in doorklinken. Ook dit zou u dan als een slechte vraag / toets kunnen zien.
8. Weloverwogen / doordacht
Het bovenstaande laat u waarschijnlijk wel inzien dat het in de praktijk onmogelijk is om als opleidingsinstituut aan alle bovenstaande rechtvaardigheidseisen recht te doen. Sterker nog: sommige criteria botsen met elkaar. Het is om die reden minstens zo belangrijk dat u kunt laten zien én uitleggen welke keuzes zijn gemaakt bij toetsing.
Dit criterium herbergt in de praktijk drie onderliggende criteria:
Als opleider moet u geïnformeerd zijn (wat zegt de wetenschap / literatuur over toetsing), moet u doordacht een beslissing hebben genomen (aan welke van bovenstaande criteria u meer of minder recht doet met uw toets) en moet u deze kunnen verantwoorden.
U moet overigens niet alleen transparant hierover kunnen zijn, maar de afweging moet ook van een bepaalde kwaliteit zijn. Anders kunnen we niet spreken van een goede toets.
Ons beoordelingskader
Deze acht criteria - die soms overlappen en soms tegengestelde eisen stellen - wegen niet allemaal even zwaar in onze beoordeling. We geven voorrang aan twee criteria, namelijk dat u transparant bent over de toetsing en dat uw toetsing weloverwogen / doordacht is.
Wij snappen heel goed dat een awareness training van € 400,- andere keuzes qua toetsing met zich meebrengt, dan een meerdaagse opleiding tot certified compliance officer. Net zoals we bij een middag actualiteitentraining Arbeidsrecht ook een andere afsluiting zien dan een post-hbo module Arbeidsrecht waarbij een cursist een certificaat krijgt.
Om onze eigen audits en beoordeling betaalbaar voor u te houden, staan we minder uitgebreid stil bij de rechtmatigheid van uw toetsing. Ondanks dat onze auditors ook jurist moeten zijn voordat ze een audit mogen verrichten, doen we alleen een marginale toets: wat valt meteen op. Onrechtmatige toetsing is dus geen optie. Ook de effectiviteit wordt vaak marginaal getoetst.
Zie ook onze toelichting bij de richtlijnen / normen.
Tot slot
Misschien vindt u bovenstaande acht criteria nog best abstract of algemeen. Om die reden hanteren we bij de audit een aanvullende vragenlijst met meer concrete vragen die u kunt stellen bij een toets. Deze lijst kan u helpen bij het verder nadenken over de acht toetscriteria.
