AI detectie software geen fan van mensen voor wie Engels niet de moedertaal is

Sommigen zijn er nu al van overtuigd dat “AI” de wereld onherkenbaar gaat veranderen. De gedroomde toepassingen van de technologie zijn veel en wijdverspreid. Vooralsnog is “AI” vooral een uitweg voor mensen die te lui zijn om hun eigen teksten te schrijven. Niet dat ik het niet begrijp. Zelf ooit student zijn geweest, kan ik met aan zekerheid grenzende waarschijnlijk stellen dat voor de ongelukkigen die het zoveelste onzinnige essay moeten opstellen de verleiding groot moet zijn. Niet voor niets dat het vooral leraren zijn die vragen om middelen die het werk van “AI” kunnen detecteren. Beetje jammer alleen dat, net als de “AI” tools zelf, regelmatig door de mand vallen.

Tot wel 99% accuraat, tenzij je ouders een andere taal spreken

Althans, dat is wat sommige leveranciers van “AI” detectie software claimen. Gezien de hoge vraag naar dergelijke software mag je hopen dat zulke claims goed onderbouwd zijn. Maar dat blijkt dus tegen te vallen. Onderzoekers lieten verschillende “AI” detectieprogramma’s een oordeel vellen over een reeks toetsen. Een deel was ingevuld door studenten voor wie Engels niet de eerste taal is, het andere deel door kinderen van brugklasleeftijd die Engelstalig zijn opgevoed.

Alle zeven onderzochte programma’s lieten een verschil zien in hun oordeel over deze twee groepen. De toets in kwestie is de TOEFL, of Test of English as a Foreign Language. Toefl is een breed erkende test voor de relatieve Engelse taalvaardigheid. Van de tests die waren afgenomen onder de studenten die geen Engels als eerste taal spraken werden er meer dan de helft aangeduid als “AI” gegenereerd. Een detectieprogramma vinkte zelfs 98% procent van de tests, allemaal ingevuld door mensen, als door “AI” gegenereerd.

Ter vergelijking, het verging de brugklassers een stuk beter. Van hun tests werd gemiddeld meer dan 90% volgens de “AI” detectie software door een mens geschreven. Nu is de dataset van het onderzoek niet bijster groot, en zal daardoor aanvullend onderzoek noodzakelijk zijn. De kloof tussen de resultaten is dergelijk groot dat de onderzoekers het zorgelijk vinden.

“Tekst perplexiteit” als graadmeter

Nu zal ik gelijk de meest voor de hand liggende zorg weerleggen: Nee, de detectiesoftware is niet racistisch. Althans, niet opzettelijk. De reden dat deze tools zo slechts zijn in het correct identificeren van de toetsen geschreven door de groep voor wie Engels niet de moedertaal is, heeft te maken met hoe “AI” werkt. Even een kernbegrip uitleggen. Met “tekst perplexiteit” wordt de mate bedoeld waarin een een zogenaamde kunstmatige intelligentie heeft om te voorspellen welk woord de volgende zal zijn. Het volgende woord voorspellen is in essentie wat een text genererende “AI” doet. Wanneer een “AI” makkelijk kan voorspellen welk woord moet volgens is de tekst perplexiteit laag. Heeft de “AI” er veel moeite mee? Dan is de perplexiteit hoog.

Om zo geloofwaardig mogelijk over te komen, houden ‘large language models’ zoals ChatGPT de tekst perplexiteit laag. Zodoende maken ze het voor de “AI” niet al te moeilijk. Het resultaat is een tekst die veel herhaling vertoont. Een “AI” detectieprogramma is getraind om deze patronen te herkennen. Het probleem laat zich nu denk ik wel raden. Mensen voor wie Engels niet een eerste taal is, hebben vaak een kleinere woordenschat. Een kleinere woordenschat betekent tevens meer herhaling. Mensen die een taal niet meester zijn zullen derhalve ook meer formulematig zijn in hun taalgebruik. Allemaal punten die de detectie software ziet als de vingerafdruk van “AI”.

Maar wacht, het wordt nog veel mooier. Om deze inherente fout in de manier waarop de geteste detectiesoftware werkt verder bloot te leggen keerden de onderzoekers zich tot een staaltje ironie waar Alanis Morissette wat van kan leren. De onderzoekers voerden de tests van de studenten voor wie Engels niet de moedertaal is aan ChatGPT. Daarbij vroegen ze de software om de tests te herschrijven met meer verfijnd taalgebruik. Het resultaat? Alle tests werden dit keer door de detectiesoftware aangemerkt als mensenwerk. Het geheel leidde de onderzoekers tot het maken van een nogal paradoxale conclusie. Wanneer je niet in je moedertaal schrijft kan je maar beter gebruik maken van ChatGPT om door de “AI” detectie heen te komen.

Wederom een reden voor minderheden om op “AI” te letten

Dat de academische gevolgen van dergelijke foutjes groot kunnen zijn, hoef ik geloof ik niemand uit te leggen. Het onderzoek legt weer een manier bloot waarop “AI” technologie het leven van bepaalde groepen mensen moeilijker dreigt te maken. Zoals eerder gezegd, “AI” vind het buitengewoon moeilijk om weinig voorkomende datapunten juist te interpreteren. Doorgaans gaan ze gewoon op in de massa. We hoeven alleen maar te kijken naar het gedonder met gezichtsherkenning om te zien hoe een dergelijke onkunde om met zeldzamere datapunten om te gaan tot grote problemen kan leiden.

“De implicaties van GPT detectoren voor mensen die niet in hun moedertaal schrijven zijn ernstig, en we moeten goed nadenken over hoe we dergelijke gevallen van discriminatie kunnen voorkomen.” Aldus de waarschuwing van de onderzoekers. Wanneer er geen rekening wordt gehouden met de in het onderzoek blootgelegde discriminatie in “AI” detectie software gaan er gegarandeerd gevolgen zijn. Studenten met een migratieachtergrond zullen door foutieve aantijgingen meer buiten worden gesloten in hun academische en professionele carrières. Maar ook Google geeft bijvoorbeeld minder prioriteit aan content die het heeft aangeduid als “AI” materiaal, waardoor mensen die niet in hun moedertaal schrijven gemarginaliseerd dreigen te worden.

Dat er een noodzaak bestaat om “AI” gegenereerd materiaal van mensenwerk te onderscheiden staat buiten kijf. Echter moet het niet zo zijn dat om het houtje touwtje sjoemelwerk van “AI” te scheiden van het reguliere ongeïnspireerde studentenwerk we methoden toepassen die net zo slordig zijn als “AI” zelf.

Tot wel 99% accuraat, tenzij je ouders een andere taal spreken

“Tekst perplexiteit” als graadmeter

Wederom een reden voor minderheden om op “AI” te letten

Geef een reactieReactie annuleren

Trending