BIT-leesverslag: Evaluatie 1
1) Titus Geerligs & Tjipke van der Veen (2008), Lesgeven en zelfstandig leren.
Uitgeverij: Van Gorkum, Assen. Hoofdstuk 10.
10.1
In dit hoofdstuk wordt met evalueren bedoeld het beoordelen van leerprestaties. Het boek besteedt ruim tachtig pagina’s aan dit onderwerp. Wat wil je evalueren, hoe wil je evalueren, waarom wil je evalueren en ook het normeren wordt uitgebreid behandeld. Dat dit boek indruk maakt bleek wel toen ik op de “Open Dag” van een school met verschillende docenten sprak over toetsen en normeren. In deze gesprekken werd een paar keer naar het boek “Geerligs” verwezen.
10.2
Bij het evalueren oftewel het beoordelen van leerprestaties komen verschillende aspecten om de hoek kijken:
- meten - het tellen van goede of foute antwoorden
- normeren - waar trek je de grens tussen onvoldoende en voldoende
- waardering - de meetresultaten omzetten in een cijfer
- beslissingen - welke conclusies trek je uit de cijfers.
Samenvattend betekent dit dat je een goede beslissing kunt nemen op basis van een verantwoorde normering en waardering, die weer is gebaseerd op precieze metingen.
10.3
Bij een formatieve evaluatie gebruikt de docent de toetsresultaten om bij leerlingen de zwakke plekken in de leerstof te herkennen. Na een inventarisatie van alle toetsresultaten van alle leerlingen kun je dan als docent beslissen of je klassikaal of in groepjes een gedeelte van de lesstof op een andere manier aanbiedt. Als ik dit tot mij laat doordringen dan lijkt een formatieve evaluatie op de “Diagnostische Toets” die aan het einde van elk hoofdstuk komt bij de methode Getal & Ruimte.
Bij de summatieve evaluatie gaat het om een selectieve beoordeling van bijvoorbeeld schoolonderzoeken, tentamens, eindexamens, waarvan de uitslag belangrijk is voor de toekomst van leerlingen/studenten.
Bij onderwijsevaluatie kunnen de toetsresultaten een beeld geven hoe goed of slecht het onderwijs op de vorige school was.
10.4
Iedereen weet het verschil tussen een mondelinge en schriftelijke toets. Al op de basisschool maak je hier als kleuter en later als kind kennis mee. Denk bijvoorbeeld aan de cito-toetsen die elk jaar in elke groep in het kader van het leerlingvolgsysteem tijdens de hele basisschoolperiode worden gehouden.
10.5
Aanvankelijk dacht ik bij de woorden “evaluatie” en “evaluatiemiddelen” steeds aan het evalueren vàn de toets, terwijl de woorden staan voor de toets zèlf.
Bij evaluatiemiddelen spelen validiteit en betrouwbaarheid een belangrijke rol.
De validiteit van een toets geeft aan de mate waarin de meet wat je zegt te meten.
Variaties hierop zijn vorm- en inhoudsvaliditeit.
Bij betrouwbaarheid gaat het om de mate waarin de leerresultaten precies worden gemeten. Factoren die de betrouwbaarheid negatief beïnvloeden zijn:
- de kwaliteit van een toets - door meerduidige vragen of te weinig vragen.
- de afname situatie - te weinig tijd, lawaai of slechte temperatuur.
- de nakijkprocedure - docenten beoordelen verschillend.
Dat docenten verschillend beoordelen kan door diverse oorzaken komen:
- de norminstabiliteit norm wordt vaak aangepast aan het gemiddelde.
- persoonlijke norm - docenten hebben vaak een persoonlijke norm.
- Halo-effect - uitstraling (negatief) effect van een leerling.
- opvattingseffect - docenten leggen hun eigen prioriteit in de normering.
- volgorde-effect - na slechte tentamens wordt een goede toets zeer goed.
- contaminatie-effect - besmetten van de beoordeling, door willekeurige cijfers.
Je kunt betrouwbaar toetsen als je rekening houdt met:
- een goede kwaliteit van de toets.
- de afnamesituatie goed is.
- de beoordeling geeft volgens een nakijkprocedure.
10.6
Een evaluatiemiddel kun je ook kiezen op basis van bepaalde overwegingen. Het meest verrassende vond ik de overweging dat naast docent, ook medeleerlingen en de leerling zelf als beoordelaar kan optreden. Het boek is opvallend positief over het beoordelen door medestudenten. Of dit in de praktijk ook zo is weet ik niet.
Een andere verrassende overweging vond ik het toekennen van een cijfer voor een groepspresentatie. De docent geeft één cijfer en vervolgens bepalen de leerlingen hun eigen cijfer, maar het gemiddelde moet steeds uitkomen op het cijfer van de docent. Een collega student die les geeft als sportdocent vertelde hierover en vond dit een goed systeem. Wel bleef hij bij de discussie staan als de leerlingen er niet uitkwamen. Zou dit bij het vak wiskunde ook een optie zijn?
10.7
Bij “Mondelinge toetsing” geeft het boek aan dat in vergelijking met een schriftelijke toets, de mondelinge toets slechter scoort. Dat vind ik heel opmerkelijk, want in mijn schooltijd haalde ik juist bij de mondelinge toetsen vreemde talen mijn cijfer op.
Maar als ik verder lees in het boek begrijp ik dat het hier gaat over validiteit en betrouwbaarheid. Als je mondeling wilt toetsen moet je dit goed voorbereiden, omdat het gevaar groot is dat er anders te veel wisselende factoren meespelen die het cijfer kunnen beïnvloeden.
10.8
Bij het maken van open vragen moet je rekening houden met de volgende punten:
- Vragen moet je ondubbelzinnig formuleren.
- De taak van de leerling moet zo volledig mogelijk omschreven worden.
- Controleer of gestelde vragen onafhankelijk van elkaar zijn.
- Complexe vragen splitsen in deelvragen.
- Heb je de juiste vraag gesteld?
o Op parate kennis: korte vragen en invulvragen
o Op cognitief gebied: lange open vragen (essay- of opstelvragen).
- Check of alle vragen kloppen met de moeilijkheidsgraad van de leerstof.
Bij het nakijken van open vragen kunnen docenten door verschillende oorzaken uiteenlopende cijfers geven voor dezelfde open vraag. Dit kun je ondervangen door gebruik te maken van:
- antwoordsleutel - geeft aan wat goed, deels goed of fout is.
- scoringsvoorschrift - beschrijving van het toekennen van punten per vraag.
- waardering voor niet vak relevante fouten: - taalfouten bij wiskunde.
Open vragen hebben voordelen maar ook nadelen.
Pluspunten zijn:
- dat leerlingen zelf een samenhangend antwoord moeten geven.
- dat leerlingen beter moeten leren i.v.m. de open vragen.
- dat de docent de opbouw van de redenering kan volgen.
- dat de taalvaardigheid wordt gemeten.
Minpunten zijn:
- een docent kijkt niet altijd objectief na.
- goede lang beantwoorde vragen leiden vaak tot een hoger cijfer.
- goede kort beantwoorde vragen leiden vaak tot een lager cijfer.
- je stelt minder essayvragen dan korte vragen, grotere kans op onvoldoende.
10.9
Bij een gesloten vraag denk ik direct aan een vraag die maar één goed antwoord heeft. Maar het boek gaat hier veel dieper op in. Variaties van gesloten vragen zijn: rangschikkingvragen, sorteervragen, meerkeuzevragen en juist/onjuist-vragen. Het is belangrijk om vooraf aan de toets andere collega’s te vragen de toets te evalueren.
Ook zou je leerlingen feedback op de vragen kunnen laten geven. Op deze wijze kun je de objectiviteit beter waarborgen. Verder kom ik in deze paragraaf tegen:
p-waarde = aantal leerlingen dat de vraag juist beantwoordde
totaal aantal leerlingen
a-waarde = aantal leerlingen dat de afleider koos
totaal aantal leerlingen
Ik kan me nog herinneren dat ik bij Analyse jaar 2 – didactiek bij een dossieropdracht moest zoeken naar de betekenis van de p-waarde. Ik ben toen gaan zoeken op de sites van NVvW en CITO, maar kon over dit onderwerp nergens iets vinden. Via Google kwam ik toen bij het boek Zicht op toetsen van Henk van Berkel en daar vond ik informatie over de p-waarde.
10.10
Deze paragraaf lijkt wel de theoretische verhandeling van de PO-opdracht van Meetkunde jaar 2 Didactisch deel. Het gaat over het beoordelen van werkstukken. Werkstukken die er gekomen zijn door de onderwijsvernieuwing. Werkstukken die, zoals bij de PO-opdracht leiden tot veel creativiteit en dus verscheidenheid in eindproducten. Logisch dat je dan even stil staat bij beoordelingseffecten en beoordelingsmethoden, want de kans dat subjectiviteit meespeelt en de beoordeling niet doorzichtig is, is reëel aanwezig.
10.11
Een normering opstellen is lastig, zeker als je zoals ik, voor de eerste keer een proefwerk moet maken. Waar trek je de grens bij onvoldoende/voldoende? Kijk je eerst hoe het proefwerk gemaakt is en maak je dan de normering of doe je dat juist vooraf? Het boek geeft drie normering methoden:
1) absoluut
– normering van te voren opgesteld.
2) relatief
- normering achteraf opgesteld, waarbij vooraf het % leerlingen
wordt vastgesteld dat een (on)voldoende zal halen.
3) tussenvorm
- vooraf worden eisen gesteld waaraan leerlingen minimaal
moeten voldoen om een voldoende te halen.
10.12
Eindelijk een paragraaf waar ik over mee kan praten. Het gaat over de waardering van leerprestaties in schoolcijfers. Maar als ik dit gedeelte gelezen heb ben ik wederom verbaasd wat er allemaal over te weten valt. Ook nu geldt voor mij, durf ik in de spiegel te kijken, nadat ik alle proefwerken van een cijfer heb voorzien? Hoeveel leerlingen zouden er na een proefwerk aan mijn bureau staan? En dan nog het rapportcijfer voor wiskunde! Op dit moment zou ik het na al die gelezen informatie niet weten.
Wat ik wel weet is dat ik nooit “persoonlijke gedragsbeschrijvingen” zal vermelden op de extra ruimte op een cijferlijst. Mijn zoon kwam een paar jaar geleden met zijn rapport van de basisschool thuis en daar had de leraar zo’n persoonlijke, negatieve gedragsbeschrijving vermeld. Het rapport laat je aan de opa’s en oma’s zien en die lezen dat ook. Mijn vrouw en ik hebben de leraar gevraagd de bladzijde uit het rapport te vervangen en dat is ook gebeurd.
Ik ben het daarom helemaal eens met het boek dat beschrijft dat een leerling een mens in ontwikkeling is. Een leerling moet zich in een veilige leeromgeving kunnen ontwikkelen en daar past het vastleggen van negatief persoonlijk gedrag op één tijdstip niet bij.
Tot slot:
Ik vond het lastig om bij dit hoofdstuk een “goed” BIT-leesverslag te schrijven. Het hoofdstuk is helder opgebouwd en ik begrijp de essentie. De tekst integreren vond ik lastig. Bij dit onderwerp heb ik geen onuitputtelijke bronnen waar ik over kan beschikken. Als ik docent ben zal ik het boek er regelmatig als naslagwerk bijhouden, want veel (nieuwe)informatie vond ik nuttig om te gebruiken als je een toets moet maken. Maar ook de informatie over de validiteit en betrouwbaarheid heeft mij de ogen geopend ten aanzien van “de toets”. In mijn eigen toetsen wil ik daar later aandacht aan besteden.