Ny studie: Mer kritik mot studenters texter än chatbotars

Det som förvånade forskarna mest var att chatbotarna kunde formulera så bra svar i texterna. Bild: Adobe Stock

Hemtentor skrivna av studenter bedöms mer kritiskt av lärare än texter producerade av en chatbot. Det visar en ny studie från Stockholms universitet. Chatbotarnas texter anses vara kreativa, innovativa och ha en hög språklig kvalitet.

I studien ”Hello GPT! Goodbye home examination?” har 24 universitetslärare från fyra olika utbildningsområden – pedagogik, filosofi, sociologi och juridik – fått bedöma hemtentor skrivna av studenter eller en chatbot, i detta fall ChatGPT 3.
 
Nästan sju av tio hemtentor (66 procent), som var skrivna av en chatbot, fick godkänt vid lärarnas bedömning men det fanns stora variationerna mellan de olika utbildningsområdena. Flest godkända blev hemtentor som skrevs i filosofi (85,7 procent) och lägst andel godkända var i pedagogik (37,5 procent).

Lärarna deltog i blindtest

Lärarna som bedömde texterna var allt från professorer till doktorander. De var medvetna om att det kunde finnas texter som var skrivna av chatbotar vid bedömningen av hemtentorna men inte i vilken omfattning de var skrivna av en chatbot eller en student. 
Docent Cormac McGrath, vid institutionen för pedagogik och didaktik på Stockholms universitet Foto: Privat
 
– De visste inte om det handlade om delar eller hela texter eller hur många, säger forskaren Cormac McGrath, universitetslektor och docent vid institutionen för pedagogik och didaktik på Stockholms universitet.
Vid forskarnas samtal med lärare efter deras bedömning visade lärarna att de hade gjort markeringar i vissa texter där de hade misstänkt att en chatbot hade skrivit texten. Många av texterna bedömdes ändå vara godkända och vissa texter fick bedömning B eller C.
 
Samtidigt angav vissa lärare att de troligen skulle flagga liknande texter för plagiatcheck om de dök upp vid en framtida bedömning utanför studien.
Lärarna blev misstänksamma om texter hade ett innehåll som var vagt och hade ett repeterade innehåll. Andra reagerade på brister i argumentationen och att det saknas en tydlig linje i tankebanorna. Lärarna saknade också referenser i texterna som var
relevanta för innehållet i kurserna.

Hög kvalitet på chatbot-texter

Många av de brister som lärarna fann i chatbottexterna hittade man också i studenternas texter. Men om studenternas texter upplevdes vara ”för perfekta” så misstänktes de vara skrivna av chatbotar. 
 
För det var framför allt kvaliteten på språket som lärarna lyfte fram i chatbottexterna. De ansågs hålla en väldigt hög kvalitet. Det fanns inga stavfel. Texterna hade en logisk uppbyggnad, korrekt grammatik och var väl sammansatta. Svaren tog upp alla delar som krävdes utifrån examinationen. De tog även upp nya argument och påståenden som lärarna upplevde kreativa och innovativa. 
– Kanske bidrog språket i texterna till att lärarna allmänt fick en mer positiv känsla även för innehållet i chatbot-texterna vid bedömningen, säger Cormac McGrath.

Studenter fick lägre betyg

Det som förvånade forskarna mest var att chatbotarna kunde formulera så bra svar i texterna. De var också förvånande över att många lärare i studien satte betydligt lägre betyg på hemtentor som gjorts av studenter där lärare vid tidigare bedömningar hade satt högre betyg.
 
Studien visar att det inte minst gällde texter som tidigare hade bedömts vara värda betyget A. Bara fyra av totalt 22 texter skrivna av studenter som tidigare hade fått betyget A ansågs nu vara värda det högsta betyget. Ett par av texterna fick inte ens godkänt. Störst sänkning gjordes av de lärare som rättade hemtentorna vid institutionen för pedagogik. 
– Självklart finns det alltid en variation i hur lärare bedömer och man får komma ihåg att bedömningarna av texterna i studien har gjorts i ett experimentellt sammanhang vilket kan ha påverkat utfallet, säger Cormac McGrath.

Pedagogerna mer kritiska i bedömningen

Professor Teresa Cerratto-Pargman, vid institutionen för data- och systemvetenskap på Stockholms universitet Foto: Privat
Teresa Cerratto Pargman, professor vid institutionen för data- och systemvetenskap vid Stockholms universitet säger att forskarna inte har något tydligt svar på frågan varför pedagogutbildningarna godkände betydligt färre hemtentor skrivna av chatbotar eftersom det inte var studiens syfte att undersöka. Hon påpekar att studiens syfte främst var att undersöka vilken inverkan ChatGPT och liknande AI chatbotar har på universitetslärarnas bedömningspraxis och hur det kan påverka den högre utbildning på utbildningsinstitutioner där hemtentor används i stor utsträckning.
 
Hon säger att det kan ha påverkat att det finns olika bedömningskulturer inom de olika akademiska disciplinerna där lärarna värderar olika typer av kunskap på hemtentorna.
– Det handlar inte bara om det språkliga utan exempelvis hur man vill att studenterna ska referera, vilka argumentet man använder, hur lång en text ska vara, säger Teresa Cerratto Pargman.
 
Forskarna tror även att chatboten kan ha haft svårare att producera en bra reflekterande text och föra fram en åsikt, vilket krävdes vid hemtentorna i pedagogik, medan exempelvis juridikstudenterna framför allt testades på faktakunskaper och resonemang vilket kan ha varit lättare för chatboten. 

Jag tror att det är klokt om man hittar sätt att bygga upp ett förtroende mellan lärare och den studerande och utgår från att de flesta faktiskt väljer att inte plagiera.

Teresa Cerratto Pargman

Utgå inte från fusk

Teresa Ceratto Pargman och Cormac McGrath konstaterar att lärare kan välja en väg där man examinera på andra sätt än genom hemtentor och agera mer ”polis”. En annan väg är att öppet diskutera frågan om chatbotar med såväl studenter som elever i grundskola och gymnasium där man inte misstänkliggör dem och utgår från att de fuskar. 
 
– Jag tror att det är klokt om man hittar sätt att bygga upp ett förtroende mellan lärare och den studerande och utgår från att de flesta faktiskt väljer att inte plagiera, säger Teresa Cerratto Pargman.
 

Fem råd från forskarna

• Kräv specifika referenser med sidhänvisningar även när det gäller kortare texter.

• Ställ frågor där svaren helt eller delvis utgår från lektioner föreläsningar eller seminarier.

• Fråga vilka verktyg studenter har använt (inklusive AI) när det är tillåtet och hur de har använt dem.

• Använd flera olika sätt att bedöma studenternas kunskap genom exempelvis skriftliga uppgifter, öppen bok i klassen med skriftliga uppgifter, muntliga presentationer.

• Skapa en bra lärmiljö där eleverna kan agera med integritet, ärlighet, tillit, rättvisa, respekt och ansvar.

Studien är gjord av:

Studien ”Hello GPT! Goodbye home examination? är gjord av Doktoranden Alexandra Farazouli, professor Klara Bolander Laksov och universitetslektor Cormac McGrath, vid institutionen för pedagogik och didaktik på Stockholms universitet och Teresa Cerratto Pargman, professor i människa-datorinteraktion vid institutionen för data- och systemvetenskap vid Stockholms universitet.