Hoe krachtig is ChatGPT? En wat voor implicaties heeft dat? Uitgebreid experiment in het onderwijs

Blogs

Hoe krachtig is ChatGPT? En wat voor implicaties heeft dat? Uitgebreid experiment in het onderwijs

Hoe krachtig is ChatGPT? Hoeveel krachtiger is GPT-4 dan GPT 3.5? Is custom GPT nog krachtiger dan GPT-4? Ik hoor dat chatGPT kan hallucineren, moeten we het dan niet meer gebruiken? Wanneer denk je dat ChatGPT zo slim dat het mijn baan overneemt? Dit zijn vragen die ik bijna dagelijks krijg van collega’s.

ChatGPT is heel krachtig en GPT-4 is véél krachtiger dan GPT 3.5. Maar hoe krachtig is lastig te kwantificeren en moeilijk om een beeld van te krijgen. Ik heb een experiment gedraaid dat helpt om deze vragen beter te beantwoorden. Ik heb het eindexamen Economie HAVO 2021 volledig laten maken door GPT 3.5, GPT-4 en mijn custom HAVO eindexamen economie GPT die ik vorige week met jullie deelde (LINK).

Voordat ik de resultaten deel wil ik jullie vragen om eens na te denken over wat voor cijfer je verwacht dat de 3 bots halen, en wat je zelf zou halen. Het examen kun je hier downloaden (LINK) en het bevat vragen over de theorie maar ook een hoop toepassingsvragen waar grafieken geïnterpreteerd moeten worden en complexe formules gebruikt moeten worden. Als je dat hebt gedaan, denk dan ook eens na over bij welk cijfer AI zo krachtig is dat het een groot deel van het werk van een docent overgenomen kan worden. Heb je dat gedaan? Ga dan snel naar het artikel!

Reproduceerbaar experiment

Hier zie je 3 vensters op mijn beeldscherm met 3 ChatGPT’s tegelijk geopend. Ik heb alle vragen op dezelfde manier in de GPT’s gestopt behalve dat ik bij de gratis versie niet de afbeeldingen kon uploaden. Zoals jullie (als het goed is) weten, is GPT 3.5 blind en kan GPT-4 wel zien. Dat is een groot voordeel als je grafieken en dergelijke moet interpreteren.

Om het helemaal reproduceerbaar te maken heb ik alle data van dit experiment in dit Excel-bestand gezet (LINK). Het is dus een hele lange lijst met alle vragen, alle antwoorden, de toegekende punten en een toelichting. Korte screenshot van hoe deze lijst eruit ziet:

Resultaten

-Tromgeroffel-

GPT 3.5 is de 6’jes student onder de GPT’s en scoort een 6.2. GPT-4 gooit hoge ogen met een 8.9 en mijn eigen custom GPT is het beste jongetje van de klas met een score van 9.5.

De scores zijn hoger dan ik had verwacht. Omdat het werken met bronnen in het economie-examen belangrijk is, had ik verwacht dat de GTPs lager zouden scoren. Het is bizar hoe goed het bepaalde afbeeldingen kan interpreteren en de juiste analyse eruit vloeit.

Kijk eens naar onderstaand voorbeeld. Is dit niet geweldig?! Serieus, als je nu niet onder de indruk bent dan weet ik het ook niet meer.

Bruikbaarheid

De laatste tijd lees ik steeds meer berichten over dat GPTs hallucineren en dat we het daarom niet moeten gebruiken. Het dieptepunt hiervan vind ik het artikel in de Correspondent (LINK). Daarin wordt gesteld dat GPTs niet volledig betrouwbaar zijn. Daar ben ik het helemaal mee eens. Wat er ook wordt gesteld is dat we het daarom niet serieus moeten nemen (‘zie chatGPT vooral als demo’) en niet moeten gebruiken (‘we zullen nooit écht op ChatGPT kunnen bouwen’). Daar ben ik het ten zeerste mee oneens en ik vind dit zeer ongenuanceerd. Sterker nog, het frustreert me enorm dat dit soort stukken in de Correspondent komen. Mijn collega’s gebruiken dit namelijk als argument om de technologische ontwikkeling nog steeds niet serieus te nemen. Dat is een enorm probleem (hierover straks meer).

Ik maak zelf weleens een fout, ik ben niet perfect. Ik zal vast en zeker af en toe een antwoord hallucineren. Vrij vaak waarschijnlijk zelfs. Betekent dat dan dat mensen mij niet serieus moeten nemen en ze mij niet meer moeten inzetten? Volgens mij niet. Waarom verwachten we dan wel perfectie van een machine? Volgens mij moeten we kijken naar bruikbaarheid.

Ik denk dat GPTs in sommige gevallen nu al meer betrouwbaar zijn dan mensen. Maar zelfs als ze minder betrouwbaar zijn kunnen ze bruikbaar zijn. Kijk eens naar mijn custom GPT van het eindexamen Economie. Het scoort een 9.6 op het examen en is dus niet perfect. Een economiedocent zou een 10 moeten scoren (ik laat even in het midden of elke docent dat ook daadwerkelijk haalt). Dat maakt de economiedocent meer betrouwbaar. Maar deze economiedocent is veel minder beschikbaar. De economiedocent is 2 uur beschikbaar per week voor jouw klas en je moet zijn/haar aandacht delen met 29 andere leerlingen in die 2 uurtjes. Per leerling heeft de docent dus 4 minuten tijd per week. De custom GPT is 168 uur per week beschikbaar voor jou. En zelfs als je 10x hebt gevraagd om prijselasticiteit uit te leggen doet het dat nog met plezier. Het kan alle uitleg in alle contexten plaatsen, het houdt jouw leertempo aan i.p.v. die van de gehele klas, het kan oneindig oefenopdrachten voor je verzinnen, je zult al je ‘domme’ vragen aan de GPT durven te stellen en er zitten nog veel meer voordelen aan de GPT t.o.v. de echte docent. Dus zelfs als de GPT minder betrouwbaar is dan je docent kan het een enorm toegevoegde waarde hebben.

Natuurlijk moeten we oppassen dat GPTs niet altijd betrouwbaar zijn en dat het hallucineert. Het is heel belangrijk om dit mee te nemen in het gebruik. Ik zou bij best veel taken GPT 3.5 niet adviseren om te gebruiken. Bij sommige taken zou ik GPT-4 ook niet aanraden. Het ligt dus aan de context. We moeten verstandig omgaan met het gebruik van AI. Ik denk dat je dus niet kan zeggen dat je het ‘altijd moet gebruiken’ of dat je het ‘nooit moet gebruiken’. Hier moeten we als mens goed over nadenken (Mens-Machine-Mens principe). Maar laten we alsjeblieft met z’n allen de technologische ontwikkeling serieus nemen. Laten we het hebben over wanneer iets ‘verantwoord gebruikt’ kan worden en hierin bruikbaarheid meenemen i.p.v. alleen maar te kijken naar perfectie.

Nabije toekomst

Over een paar maanden is er zo’n custom GPT voor elk vak op het VO. Gemakkelijk te gebruiken door elke leerling die dat wilt wanneer hij/zij dat maar wilt. Leerlingen zullen in de les de app of website open hebben zodat ze meteen kunnen cross checken of hetgeen de docent verkondigt voor de klas wel klopt. Of dat ze tussendoor nog even een concept kunnen vragen wat ze niet helemaal snapten en waarvoor ze de les niet wilden/durfden te onderbreken. Of om te helpen bij de opdracht waar je niet uitkomt terwijl de docent bezig is met iemand anders helpen. Dit is alleen al hoe deze technologie de les verandert op school. Thuis is het natuurlijk helemaal een groot verschil qua bruikbaarheid.

Dit gaat dus een enorme impact hebben in het onderwijs. En dit is slechts één voorbeeld. Ik ben ook bezig op het HBO om een GPT te bouwen die een hele scriptie kan schrijven als studenten daarom vragen. En eentje waarmee je niet alleen kan chatten maar ook daadwerkelijk kan praten (TTS en STT). Dat de Correspondent dan een artikel uitbrengt wat mijn collega’s gebruiken om AI nog steeds niet serieus te nemen vind ik een kwalijke zaak.

Oproep tot samenwerking

Wie heeft er zin om bovenstaand plan met mij uit te voeren? We bouwen een app en/of site met custom GPTs voor alle vakken. Ik heb al veel ideeën hierover. Over hoe we dit kunnen vermarkten maar ook over hoe we de custom GPTs nog betrouwbaarder kunnen maken (Ik acht het niet onwaarschijnlijk dat ik over een paar maanden een GPT heb gebouwd die 100% scoort op zo’n examen). Ik zoek een paar enthousiaste, capabele mensen die dit met mij willen bouwen. Het maakt niet uit of je drijfveer is om het onderwijs te verbeteren (zoals ik) of als je geld wilt verdienen hiermee. Stuur een bericht op LinkedIn of naar tomnaberink@hotmail.com als je hier enthousiast over bent en wilt samenwerken.

Disclaimer

Dit artikel is geschreven op persoonlijke titel en geeft niet de visie van de HAN weer.

Blogs