🤖 Kan AI al op PHD niveau schrijven?

BLOG

🤖 Kan AI al op PHD niveau schrijven?

Een collega vroeg me laatst of AI al kan helpen bij het schrijven op wetenschappelijk niveau. 🤔 Hij hoorde dat ik binnen een paar uur een HBO-scriptie had gegenereerd en vroeg zich af of AI ook een hoger niveau kon halen. Challenge accepted! Tijd voor een experiment!

Wat denk jij? Is AI al zover gevorderd dat het op promotieniveau kan schrijven? Als ik je twee versies van een hoofdstuk zou laten zien, zou jij dan de echte van de AI-gegenereerde versie kunnen onderscheiden? Dat hoop ik toch wel! Anders zou elke middelbare scholier die goed kan prompten teksten kunnen produceren die niet te onderscheiden zijn van stukken van iemand met jarenlange scholing… 📚😮

Ik ga je alvast het antwoord geven: je denkt misschien van wel, maar dat is niet zo. Wat dit nog vreemder maakt? Het AI-stuk is geprompt met minder dan 200 woorden.📝🤯

De Setup

Vorige week mocht ik een presentatie geven bij het onderzoekscafé van onze academie over de invloed van generatieve AI op onderzoek. Dit leek mij een mooie gelegenheid om een experiment uit te voeren, omdat ik een groep onderzoekers voor me had. 🧑🔬📊

We namen een fragment uit een bekroond proefschrift: de inleiding van hoofdstuk 2 (paragraaf 2.1) uit het proefschrift (https://research.rug.nl/en/publications/sport-as-a-medicine-for-health-and-health-inequalities-essays-on-) van Dr. Willem De Boer , winnaar van de prestigieuze Boymansprijs voor beste sportonderzoek-dissertatie in2022. 🏆 Daarnaast maakte ik het hoofdstuk na in Claude met minder dan 200 woorden. Ik gebruikte de volgende prompts:

1️⃣ Write an introduction for a scientific article exploring the relationship between sport participation, socioeconomic status (SES), and health outcomes. The introduction should be approximately 500 words long and include the following elements: 1. An overview of the health benefits of physical activity, with a focus on sport participation. 2. A description of the relationship between SES and health, including relevant health disparities. 3. A summary of existing research on the role of lifestyle factors, particularly physical activity, in socioeconomic health inequalities. 4. An introduction to sport participation as a specific form of physical activity, and how it relates to SES. 5. An identification of knowledge gaps in the current field of research. 6. A clear research question focused on the relationship between various aspects of sport participation and socioeconomic inequalities in health outcomes. 7. A brief outline of the research design. Use scientific language and a logical structure. Integrate relevant scientific sources and specific figures to support your points. Ensure a smooth transition between the different topics.

2️⃣ Gebruik meer bronnen; verder is het al behoorlijk goed.

Na deze twee prompts kreeg ik een indrukwekkend stuk uit Claude. Toen ik deze versie met Willem besprak, kwamen we er echter achter dat Willem’s bronnen voor een derde uit Nederland kwamen, terwijl Claude een veel gevarieerdere bronnenlijst had gebruikt. 🌍 Om dit te compenseren, vroeg ik Claude om meer Nederlandse bronnen toe te voegen aan het AI-stuk, zodat dit geen weggevertje zou zijn. Dat veranderde echter niets aan de inhoud.

Hier is versie 1 en hier is versie 2.

❓ De Vraag

Vervolgens vroeg ik via Mentimeter: “Twee versies. Welke is van Willem en welke is van AI? Of is het een strikvraag? En hoe zeker ben je?“[WB4]

De schaal loopt van 0 tot 10 voor beide vragen. Bij de auteur betekent 0 “AI” en 10 “Willem.” Voor de zekerheid betekent 0 “Helemaal niet zeker” en 10 “Helemaal zeker.”[WB5]

De onderzoekers gingen niet de stukken volledig lezen maar vooral op zoek naar specifieke kenmerken en details waarvan ze vermoedden dat die de mens of de AI zouden verraden.

Voordat we naar de resultaten gaan, daag ik je uit om het zelf eens te proberen. Kun jij zien welke versie de Boymansprijs heeft verdiend en welke door AI gegenereerd is?! 🧐🏆🤖

📊 De Resultaten:

Hier is een scatterplot van de resultaten:

Wat meteen opvalt, is dat de resultaten volledig willekeurig lijken. 🎲 En interessant genoeg: twee onderzoekers dachten dat ze het 100% zeker wisten, maar gaven precies het omgekeerde antwoord. 😅

Bij verdere analyse van de antwoorden zien we het volgende:

Van de 17 mensen die het hebben ingevuld hadden slechts 5 het volledig goed. 7 onderzoekers hadden het precies verkeerd om. De overige 5 dachten dat het cocreaties waren, wat dus ook niet goed is.
De AI-geschreven versie (versie 1) kreeg gemiddeld een score van 5,41 (dichterbij 10 dan random, 10=Willem))
Het bekroonde proefschrift-hoofdstuk (versie 2) scoorde gemiddeld 4,35 (dichterbij 0 dan random, 0=AI)

Met andere woorden: de onderzoekers dachten vaker dat het met een prijs bekroonde werk door AI was geschreven dan andersom! 🏆🤖

Hun inschattingen waren slechter dan wat je zou verwachten bij willekeurig gokken. Met andere woorden, ze hadden geen enkel idee. 🤷♂️🔍

Reacties van de onderzoekers

Toen gebeurde er iets vreemds: ik was heel enthousiast dat we hier een zeer interessante bevinding hadden opgedaan. De onderzoekers konden AI en een inleiding van een hoofdstuk in een bekroond proefschrift niet uit elkaar houden. WAUW! 🤯

De onderzoekers waren echter minder onder de indruk dan ik. Er kwamen enkele ‘ja, maar’-reacties, zo werd er zeer kritisch naar de methodiek van dit experiment gekeken en allerlei statements over wat AI allemaal niet zou kunnen. 🧐

Tijdens de sessie begreep ik niet goed waarom er zo weinig mensen onder de indruk waren van het resultaat dat we zojuist hadden gezien. Ik ging tegen hun argumenten in en benadrukte dat AI echt veel gaat veranderen op het gebied van onderzoek. Ik vertelde ook dat ik vorige week al een experiment had gedaan met kwantitatieve analyse, waarbij de conclusie was dat SPSS wordt ingehaald door ChatGPT en Claude (zie: LinkedIn-post). Het leidde tot discussie en vragen. Begrijpelijk want ik liet de onderzoekers zien dat bepaalde vaardigheden, waar zij jarenlang voor hebben gestudeerd en waarin ze enorme ervaring hebben, overgenomen kunnen worden door AI.

Nuanceringen & weerlegging

Ik wil drie belangrijke nuanceringen maken om het resultaat van dit experiment niet groter te maken dan het hoort te zijn. Daarna zal ik ook op deze nuanceringen ingaan.

1️⃣ Dat onderzoekers de PhD-tekst niet konden onderscheiden van de AI-tekst betekent niet dat het stuk kwalitatief ook even goed was. Dit vereist echt verder onderzoek. Wel kan ik hieraan toevoegen dat ik dit experiment heb voorbesproken met @Willem de Boer. Hij was onder de indruk van het werk van Claude. Hij zei dat het tekstueel en qua opzet professioneel oogt. Ook kwamen er goede en zeer bruikbare bronnen naar voren. Hij maakt wel de nuancering dat Claude bepaalde keuzes maakt die niet aansluiten bij het vervolg van de studie maar dat dat waarschijnlijk opgelost kan worden met aanvullende prompting.

2️⃣ Daarnaast heb ik de prompt geschreven op basis van het werk van Willem, waardoor zijn gedachtegoed al in het stuk verwerkt zit. 📖🤔

3️⃣ Dit experiment is goed repliceerbaar, maar niet generaliseerbaar. Over het onderwerp van de gebruikte teksten is veel onderzoek gedaan. Hierdoor kan Claude echt een goed stuk schrijven en met allerlei sterke bronnen komen. Op minder populaire thema’s is het waarschijnlijk niet mogelijk om zo’n hoog niveau uit Claude te krijgen. 📝📚

De grote en zeer belangrijke reactie op bovenstaande argumenten is natuurlijk dat het zeer waarschijnlijk is dat generatieve AI nog véél beter gaat worden. Dat we nu al zulke resultaten kunnen halen uit een ‘generatie 2’ chatbot zegt in mijn ogen veel over wat we in de toekomst mogen verwachten op dit gebied. 🚀🤖💡

🤔 Wat betekent dit?

De kwaliteit van AI-gegenereerde academische teksten is indrukwekkender dan we denken
Ons vermogen om AI-tekst te herkennen is mogelijk minder goed dan we aannemen
De grens tussen menselijke en AI-schrijfstijl in academische context vervaagt

Ik ben heel benieuwd waar onderzoek heen gaat over een paar jaar. Ik denk dat we ons nú al moeten afvragen of we deze vaardigheden nog moeten leren aan onze studenten. Het lijkt evident dat AI dit straks heel goed kan. Waarschijnlijk beter dan 99% van de mensen voor 0,001% van de tijd en kosten. Of wellicht hebben we nog maar een select aantal dedicated onderzoekers nodig die de AI-onderzoekers overzien (zie ook het artikel van Toner-Rodgers hieronder). Waarom zou elke student dit dan nog moeten leren? 🤷♂️

Begrijp me niet verkeerd; ik stel deze vraag provocatief en wil niet per se zeggen dat ik van mening ben dat we het niet meer aan studenten moeten leren. Maar volgens mij moeten we hier serieus over in discussie! Ik durf wel de (waarschijnlijk controversiële?) stelling te poneren dat het belangrijker is om de studenten vaardig met AI te maken dan vaardig met onderzoek.

Dit sluit ook nauw aan bij de pilot die ik draai binnen mijn studie. Ik begeleid een groep afstudeerders in het gebruik van AI, en zij hebben hier bizar veel voordeel van, onder andere bij het schrijven van hun scriptie. In mijn vorige artikel besprak ik al de enorme kloof tussen traditioneel en innovatief onderwijs. Als je handig met bent AI dan kan je met relatief gemak een onderzoek op HBO-niveau in elkaar zetten.

Misschien is de vraag waar onderzoek de komende jaren naar toe gaat het wel waard om hier een vervolgartikel over te schrijven. Ik las bijvoorbeeld ook het zeer recente artikel van Toner Rodgers. Zie hieronder de samenvatting. Als je nog niet overtuigd was van mijn artikel dat onderzoek gaat veranderen dan helpt dit misschien:

Ik wil met deze tests duidelijk maken dat AI veel krachtiger is dan veel mensen denken. Dit heeft ook vergaande consequenties voor onderzoek doen en of studenten dat nog moeten leren. Laten we hier open over discussiëren. 💬🤝

BLOG