AI-docenten betrouwbaarder dan menselijke docenten? Een verrassende ontdekking bij het eindexamen Engels
Een paar weken geleden bereikte ons AI-docenten platform Aisha een bijzondere mijlpaal: Aisha is meer dan 10.000 keer gebruikt door leerlingen in het voortgezet onderwijs. We maken impact 🚀 Maar in dit artikel wil ik het hebben over de betrouwbaarheid van de AI-docenten. Docenten onderschatten namelijk enorm de ontwikkeling van AI.
Een van de meest gehoorde zorgen bij het gebruik van AI in het onderwijs is de betrouwbaarheid. Vorige week kwam er al een heel interessant wetenschappelijk artikel uit waarin AI-agents worden ingezet om de hallucinaties dramatisch te verminderen (link naar paper).
In dit artikel wil ik anekdotisch ingaan op de betrouwbaarheid van AI-docenten. In sommige gevallen zijn AI-docenten nú al betrouwbaarder dan menselijke docenten. En dat gaat in de nabije toekomst veel vaker voorkomen.
Casus Examen Engels VWO
Laat me dit illustreren met een recente ontdekking die mij versteld deed staan. Ik was de AI-docenten aan het testen met het o1-model. Bij het testen van de AI-docent op het VWO Engels examen 2024 gebeurde er iets opmerkelijks. Het maakte namelijk een fout. Dit had ik niet verwacht bij het nieuwste model. Het zou heel goed moeten zijn in Engels. Recent heb ik in het Engels nog een gehele universitaire master scriptie laten genereren. Hoe kan het nou een fout maken op het eindexamen op VWO-niveau? We mogen er toch vanuit gaan dat dit geen probleem zou moeten zijn voor de huidige AI? Maar we mogen er toch ook van uitgaan dat de landelijke eindexamens geen fouten bevatten? Laten we het eens analyseren.
Alle vragen werden goed beantwoord door Aisha, behalve vraag 31, stelling 1, behorend bij tekst 8. Je kunt de gehele tekst hier lezen: vw-1002-a-24-1-b-spr.pdf maar het gaat bij deze vraag om de volgende passage:
“CHRISTMAS WAS OVER. Feeling a shame-faced pleasure in the restoration of normality, Kate stripped the tree of lights and decorations, cut off the main branches and dragged the trunk down to the compost heap at the bottom of the garden. There she stood looking back at the house, empty again now – her mother and sister had left the morning after Boxing Day – seeing the lighted windows and reflected firelight almost as if she were a stranger, shut out. A few specks of cold rain found her eyelids and mouth. All around her the forest waited, humped in silence. Shivering, she ran back up the lawn.”
De vraag luidt:
“Geef aan of de volgende beweringen overeenkomen met de inhoud van de passage. Noteer ‘wel’ of ‘niet’ achter elk nummer op het antwoordblad. 1: Kate voelt zich slecht op haar gemak in haar eigen huis nadat haar familie is vertrokken.”
Wat denk je dat het antwoord is? (niet stiekem meteen doorscrollen hè?! 😉)
Het officiële antwoordblad zeg ‘niet’, terwijl Aisha ‘wel’ zegt. Hierbij de argumentatie van Aisha:
“Bewering 1 Kate voelt zich slecht op haar gemak in haar eigen huis nadat haar familie is vertrokken.
Wat zegt de tekst?
Aan het begin van het fragment is Kate bezig met het afbreken van de kerstboom en het naar buiten slepen van de stam. Ze kijkt daarna vanaf de composthoop terug naar haar huis. Er staat: “There she stood looking back at the house, empty again now … seeing the lighted windows and reflected firelight almost as if she were a stranger, shut out.”
Opvallend is dat er óók staat: “Feeling a shame-faced pleasure in the restoration of normality…” Kate is dus ergens ook opgelucht dat het ‘gewone leven’ terugkeert, maar ervaart tegelijkertijd een gevoel van vervreemding, als een buitenstaander die naar binnen kijkt.
Interpretatie
“Slecht op haar gemak” kan in deze context betekenen dat ze zich niet helemaal thuis voelt, of zich een beetje ongemakkelijk/eenzaam voelt nu de familie weg is. Ze is “shut out,” alsof ze van buiten naar binnen kijkt. Dat wijst op een zekere onwennigheid en mogelijk eenzaamheid. Tegelijkertijd is er dat “shame-faced pleasure” (beschaamd genoegen) in het weer alleen zijn. Dus haar gevoel is dubbel: enerzijds een zekere opluchting en anderzijds een ongemakkelijke afstand tot haar eigen huis.
Conclusie
De bewering stelt nadrukkelijk dat Kate zich slecht op haar gemak voelt, en dat wordt door de tekst wel ondersteund: ze voelt zich in elk geval ‘vreemd’ of ‘buitenstaander’. Ondanks dat er ook opluchting is, overheerst in de passage het gevoel van vervreemding. Eindoordeel: deze bewering is wel in overeenstemming met de tekst. “
Aisha heeft de tekst perfect begrepen. Het snapt precies welke delen belangrijk zijn uit de hele tekst en interpreteert deze goed. De argumentatie geeft volgens mij geweldig aan dat er ruimte voor interpretatie is bij deze vraag.
Dit is bizar toch? Hoeveel menselijke docenten hebben er naar dit examen gekeken? Serieus, hoeveel docenten hebben dit examen bekeken en dit niet opgemerkt? Ik weet niet wat de werkwijze is bij CITO, maar als je een docent dit examen laat maken als test dan komt dit toch naar voren? Misschien vind je het antwoord ‘niet’ beter dan ‘wel’, maar het is het moeilijk te ontkennen dat er ruimte is voor interpretatie – iets wat bij een eindexamenvraag eigenlijk niet zou mogen voorkomen.
Vooruitkijken wat betreft betrouwbaarheid
Dit is natuurlijk slechts één voorbeeld, maar ga er maar vanuit dat dit nog veel vaker gaat voorkomen. Een paar maanden geleden maakte ik deze voorspelling:
“Over drie jaar zijn er AI-tutoren beschikbaar voor elke leerling en elk examenvak in Nederland. Deze AI-tutoren behalen (nagenoeg) perfecte scores op de eindexamens en zijn inhoudelijk beter dan de gemiddelde docent. De AI-tutoren zijn gratis beschikbaar voor elke leerling.”
Mijn verwachting dat Aisha inhoudelijk beter gaat zijn dan de gemiddelde docent binnen 3 jaar gaat naar alle waarschijnlijk kloppen. Enkele maanden na deze uitspraak kregen we namelijk het volledige model van o1 (incl. afbeeldingen interpreteren). Ik ging natuurlijk meteen testen of ze beter scoorden dan het vorige model op de eindexamens:
Frans: van 8.8 naar 9.6
Scheikunde: van 4.5 naar 9.2
Engels: van 9.0 naar 9.6 (enige foutje was de casus die ik hierboven besprak)
Duits: stabiel op 9.3
Dit zijn scores op VWO-niveau – op HAVO en VMBO liggen ze nog hoger. Eerder heb ik de volledige cijferlijst al eens gedeeld op basis van het vorige model. Nagenoeg alle AI-docenten scoorden al 9+ op het eindexamen, behalve bij de bètavakken. De redeneermodellen zijn veel beter in bètavakken, mijn verwachting is dat alle vakken, dus inclusief bètavakken, een 9+ scoren op het eindexamen met het o1-model. Let op, achter de huidige AI-docenten op https://aivoorleerlingen.nl zit nog het slechtere model 4o, op deze manier kunnen we het namelijk volledig gratis aanbieden.
Eigenlijk was ik van plan alle vakken op alle niveaus te testen met dit nieuwe model. Maar toen kwam eind december de aankondiging van ‘o3’, een nog krachtiger AI-model. De resultaten van dit model zijn zo bizar dat ik meteen ben gestopt met het testen van het o1-model. Na de aankondiging van o3 neem ik aan dat iedereen het met me eens is dat het een kwestie is van wanneer, en dus niet meer een kwestie van óf, de AI-docenten inhoudelijk beter worden dan de gemiddelde docent. Sterker nog, na de aankondiging van o3 denk ik dat de AI-docenten inhoudelijk vele malen beter worden dan menselijke docenten. Niet over 10 jaar, maar veel sneller. Oh en dit geldt niet alleen voor het voorgezet onderwijs.
Voor de duidelijkheid: Dat is nu nog absoluut niet geval! Ik denk dat je gemakkelijk allerlei voorbeelden kunt vinden waarbij echte docenten inhoudelijk nog beter zijn dan Aisha op dit moment.
Adoptie
De mijlpaal dat onze AI-docenten al 10.000 keer zijn gebruikt is een mooi teken dat de adoptie aan het groeien is onder leerlingen.
Ik hoop dat ik met dit artikel heb laten zien dat we op middellange termijn ons geen zorgen meer hoeven te maken over de betrouwbaarheid van dit systeem. Er zijn natuurlijk nog wel andere nadelen. AI-docenten kunnen echt niet alles wat menselijke docenten kunnen. En menselijke docenten kunnen echt niet alles wat AI-docenten kunnen. Het vult elkaar echt aan! Zowel menselijke als AI-docenten hebben dus een plaats in ons onderwijs in mijn optiek.
Een ander nadeel wat ik van docenten (nooit van leerlingen) nog hoor over de AI-docenten zijn de privacy issues. Goed om hier even een update over te geven: Omdat we de AI-docenten gratis aanbieden, werken we met tools van partijen waar we geen gebruikersovereenkomst mee hebben en dit gaat via servers in Amerika. We hebben intern ook een versie van Aisha draaien die wel geheel op Europese servers draait waarbij we voldoen aan alle Europese wetgeving. Echter, deze versie kost geld én, misschien nog wel belangrijker, is zwakker. Dit laatste komt doordat we (nog) niet de laatste versie kunnen draaien op Europese servers. We bieden deze versie (nog) niet publiek aan omdat we vinden dat ons gratis initiatief beter is. In de toekomst gaat dit natuurlijk wel komen.
Verder zijn er natuurlijk nog vele andere nadelen te bedenken. Maar ook vele voordelen. Ik denk dat die voordelen makkelijk opwegen tegen de nadelen.
Conclusie
Met dit artikel wilde ik bespreken dat mensen de betrouwbaarheid van AI-docenten onderschatten. De huidige betrouwbaarheid van AI-docenten, maar zeker de betrouwbaarheid van AI-docenten in de nabije toekomst. In dit artikel heb ik laten zien dat een AI-docent een zwakke vraag identificeert in een landelijk examen, iets wat menselijke docenten over het hoofd hebben gezien. Dit soort voorbeelden gaan we steeds vaker zien.
Beste docent, ga er alsjeblieft vanuit dat AI-docenten binnen aanzienbare tijd inhoudelijk beter zijn dan jij bent. Het heeft geen zin om hier tegenin te gaan, dit is verspeelde tijd en energie. Laten we die tijd en energie slim inzetten. Laten we nadenken over hoe we die AI-docenten als tool slim kunnen inzetten om ons onderwijs beter te maken.
Een paar weken geleden bereikte ons AI-docenten platform Aisha een bijzondere mijlpaal: Aisha is meer dan 10.000 keer gebruikt door leerlingen in het voortgezet onderwijs. We maken impact 🚀 Maar in dit artikel wil ik het hebben over de betrouwbaarheid van de AI-docenten. Docenten onderschatten namelijk enorm de ontwikkeling van AI.
Een van de meest gehoorde zorgen bij het gebruik van AI in het onderwijs is de betrouwbaarheid. Vorige week kwam er al een heel interessant wetenschappelijk artikel uit waarin AI-agents worden ingezet om de hallucinaties dramatisch te verminderen (link naar paper).
In dit artikel wil ik anekdotisch ingaan op de betrouwbaarheid van AI-docenten. In sommige gevallen zijn AI-docenten nú al betrouwbaarder dan menselijke docenten. En dat gaat in de nabije toekomst veel vaker voorkomen.
Casus Examen Engels VWO
Laat me dit illustreren met een recente ontdekking die mij versteld deed staan. Ik was de AI-docenten aan het testen met het o1-model. Bij het testen van de AI-docent op het VWO Engels examen 2024 gebeurde er iets opmerkelijks. Het maakte namelijk een fout. Dit had ik niet verwacht bij het nieuwste model. Het zou heel goed moeten zijn in Engels. Recent heb ik in het Engels nog een gehele universitaire master scriptie laten genereren. Hoe kan het nou een fout maken op het eindexamen op VWO-niveau? We mogen er toch vanuit gaan dat dit geen probleem zou moeten zijn voor de huidige AI? Maar we mogen er toch ook van uitgaan dat de landelijke eindexamens geen fouten bevatten? Laten we het eens analyseren.
Alle vragen werden goed beantwoord door Aisha, behalve vraag 31, stelling 1, behorend bij tekst 8. Je kunt de gehele tekst hier lezen: vw-1002-a-24-1-b-spr.pdf maar het gaat bij deze vraag om de volgende passage:
“CHRISTMAS WAS OVER. Feeling a shame-faced pleasure in the restoration of normality, Kate stripped the tree of lights and decorations, cut off the main branches and dragged the trunk down to the compost heap at the bottom of the garden. There she stood looking back at the house, empty again now – her mother and sister had left the morning after Boxing Day – seeing the lighted windows and reflected firelight almost as if she were a stranger, shut out. A few specks of cold rain found her eyelids and mouth. All around her the forest waited, humped in silence. Shivering, she ran back up the lawn.”
De vraag luidt:
“Geef aan of de volgende beweringen overeenkomen met de inhoud van de passage. Noteer ‘wel’ of ‘niet’ achter elk nummer op het antwoordblad. 1: Kate voelt zich slecht op haar gemak in haar eigen huis nadat haar familie is vertrokken.”
Wat denk je dat het antwoord is? (niet stiekem meteen doorscrollen hè?! 😉)
Het officiële antwoordblad zeg ‘niet’, terwijl Aisha ‘wel’ zegt. Hierbij de argumentatie van Aisha:
“Bewering 1 Kate voelt zich slecht op haar gemak in haar eigen huis nadat haar familie is vertrokken.
Wat zegt de tekst?
Aan het begin van het fragment is Kate bezig met het afbreken van de kerstboom en het naar buiten slepen van de stam. Ze kijkt daarna vanaf de composthoop terug naar haar huis. Er staat: “There she stood looking back at the house, empty again now … seeing the lighted windows and reflected firelight almost as if she were a stranger, shut out.”
Opvallend is dat er óók staat: “Feeling a shame-faced pleasure in the restoration of normality…” Kate is dus ergens ook opgelucht dat het ‘gewone leven’ terugkeert, maar ervaart tegelijkertijd een gevoel van vervreemding, als een buitenstaander die naar binnen kijkt.
Interpretatie
“Slecht op haar gemak” kan in deze context betekenen dat ze zich niet helemaal thuis voelt, of zich een beetje ongemakkelijk/eenzaam voelt nu de familie weg is. Ze is “shut out,” alsof ze van buiten naar binnen kijkt. Dat wijst op een zekere onwennigheid en mogelijk eenzaamheid. Tegelijkertijd is er dat “shame-faced pleasure” (beschaamd genoegen) in het weer alleen zijn. Dus haar gevoel is dubbel: enerzijds een zekere opluchting en anderzijds een ongemakkelijke afstand tot haar eigen huis.
Conclusie
De bewering stelt nadrukkelijk dat Kate zich slecht op haar gemak voelt, en dat wordt door de tekst wel ondersteund: ze voelt zich in elk geval ‘vreemd’ of ‘buitenstaander’. Ondanks dat er ook opluchting is, overheerst in de passage het gevoel van vervreemding. Eindoordeel: deze bewering is wel in overeenstemming met de tekst. “
Aisha heeft de tekst perfect begrepen. Het snapt precies welke delen belangrijk zijn uit de hele tekst en interpreteert deze goed. De argumentatie geeft volgens mij geweldig aan dat er ruimte voor interpretatie is bij deze vraag.
Dit is bizar toch? Hoeveel menselijke docenten hebben er naar dit examen gekeken? Serieus, hoeveel docenten hebben dit examen bekeken en dit niet opgemerkt? Ik weet niet wat de werkwijze is bij CITO, maar als je een docent dit examen laat maken als test dan komt dit toch naar voren? Misschien vind je het antwoord ‘niet’ beter dan ‘wel’, maar het is het moeilijk te ontkennen dat er ruimte is voor interpretatie – iets wat bij een eindexamenvraag eigenlijk niet zou mogen voorkomen.
Vooruitkijken wat betreft betrouwbaarheid
Dit is natuurlijk slechts één voorbeeld, maar ga er maar vanuit dat dit nog veel vaker gaat voorkomen. Een paar maanden geleden maakte ik deze voorspelling:
“Over drie jaar zijn er AI-tutoren beschikbaar voor elke leerling en elk examenvak in Nederland. Deze AI-tutoren behalen (nagenoeg) perfecte scores op de eindexamens en zijn inhoudelijk beter dan de gemiddelde docent. De AI-tutoren zijn gratis beschikbaar voor elke leerling.”
Mijn verwachting dat Aisha inhoudelijk beter gaat zijn dan de gemiddelde docent binnen 3 jaar gaat naar alle waarschijnlijk kloppen. Enkele maanden na deze uitspraak kregen we namelijk het volledige model van o1 (incl. afbeeldingen interpreteren). Ik ging natuurlijk meteen testen of ze beter scoorden dan het vorige model op de eindexamens:
Dit zijn scores op VWO-niveau – op HAVO en VMBO liggen ze nog hoger. Eerder heb ik de volledige cijferlijst al eens gedeeld op basis van het vorige model. Nagenoeg alle AI-docenten scoorden al 9+ op het eindexamen, behalve bij de bètavakken. De redeneermodellen zijn veel beter in bètavakken, mijn verwachting is dat alle vakken, dus inclusief bètavakken, een 9+ scoren op het eindexamen met het o1-model. Let op, achter de huidige AI-docenten op https://aivoorleerlingen.nl zit nog het slechtere model 4o, op deze manier kunnen we het namelijk volledig gratis aanbieden.
Eigenlijk was ik van plan alle vakken op alle niveaus te testen met dit nieuwe model. Maar toen kwam eind december de aankondiging van ‘o3’, een nog krachtiger AI-model. De resultaten van dit model zijn zo bizar dat ik meteen ben gestopt met het testen van het o1-model. Na de aankondiging van o3 neem ik aan dat iedereen het met me eens is dat het een kwestie is van wanneer, en dus niet meer een kwestie van óf, de AI-docenten inhoudelijk beter worden dan de gemiddelde docent. Sterker nog, na de aankondiging van o3 denk ik dat de AI-docenten inhoudelijk vele malen beter worden dan menselijke docenten. Niet over 10 jaar, maar veel sneller. Oh en dit geldt niet alleen voor het voorgezet onderwijs.
Voor de duidelijkheid: Dat is nu nog absoluut niet geval! Ik denk dat je gemakkelijk allerlei voorbeelden kunt vinden waarbij echte docenten inhoudelijk nog beter zijn dan Aisha op dit moment.
Adoptie
De mijlpaal dat onze AI-docenten al 10.000 keer zijn gebruikt is een mooi teken dat de adoptie aan het groeien is onder leerlingen.
Ik hoop dat ik met dit artikel heb laten zien dat we op middellange termijn ons geen zorgen meer hoeven te maken over de betrouwbaarheid van dit systeem. Er zijn natuurlijk nog wel andere nadelen. AI-docenten kunnen echt niet alles wat menselijke docenten kunnen. En menselijke docenten kunnen echt niet alles wat AI-docenten kunnen. Het vult elkaar echt aan! Zowel menselijke als AI-docenten hebben dus een plaats in ons onderwijs in mijn optiek.
Een ander nadeel wat ik van docenten (nooit van leerlingen) nog hoor over de AI-docenten zijn de privacy issues. Goed om hier even een update over te geven: Omdat we de AI-docenten gratis aanbieden, werken we met tools van partijen waar we geen gebruikersovereenkomst mee hebben en dit gaat via servers in Amerika. We hebben intern ook een versie van Aisha draaien die wel geheel op Europese servers draait waarbij we voldoen aan alle Europese wetgeving. Echter, deze versie kost geld én, misschien nog wel belangrijker, is zwakker. Dit laatste komt doordat we (nog) niet de laatste versie kunnen draaien op Europese servers. We bieden deze versie (nog) niet publiek aan omdat we vinden dat ons gratis initiatief beter is. In de toekomst gaat dit natuurlijk wel komen.
Verder zijn er natuurlijk nog vele andere nadelen te bedenken. Maar ook vele voordelen. Ik denk dat die voordelen makkelijk opwegen tegen de nadelen.
Conclusie
Met dit artikel wilde ik bespreken dat mensen de betrouwbaarheid van AI-docenten onderschatten. De huidige betrouwbaarheid van AI-docenten, maar zeker de betrouwbaarheid van AI-docenten in de nabije toekomst. In dit artikel heb ik laten zien dat een AI-docent een zwakke vraag identificeert in een landelijk examen, iets wat menselijke docenten over het hoofd hebben gezien. Dit soort voorbeelden gaan we steeds vaker zien.
Beste docent, ga er alsjeblieft vanuit dat AI-docenten binnen aanzienbare tijd inhoudelijk beter zijn dan jij bent. Het heeft geen zin om hier tegenin te gaan, dit is verspeelde tijd en energie. Laten we die tijd en energie slim inzetten. Laten we nadenken over hoe we die AI-docenten als tool slim kunnen inzetten om ons onderwijs beter te maken.