Wat gebeurt er wanneer je AI met AI materiaal traint?

Je zou het haast zijn vergeten, maar vorig jaar rond deze tijd hadden we het niet of nauwelijks over “AI”. Toen stond alles nog in het thema van ‘NFTs’ en de blockchain. Het zou beslist de technologie van de toekomst worden, aldus de bedrijven die er mee in zee gingen. Elk stuk media was beter af als NFT. Er werd hard gespeculeerd en er was geen bedrijf dat niet iets van blockchain gedreven tech aan de aandeelhouders liet zien.

Het is op dat vlak pittig stil tegenwoordig, want er is een new kid in town: generatieve AI. ChatGPT is pas een half jaar op de markt, en toch zegt elk bedrijf ondertussen dat “AI” het pad voorwaarts is. Misschien krijgen ze dit keer wel gelijk. Maar als je ziet wat er gebeurt wanneer je een “AI” traint op door “AI” gegenereerd materiaal, krijg je wellicht, net als ikzelf, twijfels.

Laten we het kinderziektes noemen

“AI” is ondertussen goed geworteld in de nieuwscyclus. Ook hier bij Apparata maken we (ik zeg uiteraard ‘we’ om persoonlijke verantwoordelijkheid zo veel mogelijk af te schuiven) er ons schuldig aan. Maar de implementatie van “AI” technologie is vooralsnog geen wassen neus. Ongeveer de helft van alle werknemers van grote wereldwijde bedrijven werkt met een soort “AI” ergens in hun workflow. 

Ondertussen beperkt generatieve “AI” zich niet meer tot halfbakken chatbots. Allerlei media worden door “AI” gegenereerd. Of “AI” daadwerkelijk iets nieuws genereert of gewoon bestaande data door elkaar husselt, zijn de meningen over verdeeld. Wat niemand kan ontkennen is dat het veelvuldige gebruik van andermans intellectuele eigendommen voor het trainen van “AI” niet door de beugel kan. En dus kwam een aantal onderzoekers met de vraag: Kunnen we “AI” op door andere zogenoemde kunstmatige intelligenties gegenereerd materiaal trainen?

Het korte antwoord is nee

Los van het vraagstuk rond intellectueel eigendom is het een vraag die het stellen waard is. Want feit is dat het internet steeds meer voorzien wordt van door “AI” gegenereerd materiaal. Aangezien vrijwel alle trainingsdata van het internet wordt geplukt is het verstandig om te weten wat aanpassingen in die dataset doen met je model. Het blijkt niet veel soeps, wanneer deze slager eigen waar consumeert zijn onomkeerbare defecten het gevolg.

Wat wij generaliserend kunstmatige intelligenties noemen, heeft helaas niets te maken met intelligentie. Intelligentie is uiteraard geen simpel concept en definities verschillen. Maar een essentieel onderdeel van intelligentie is het kunnen demonstreren van begrip van je omgeving. Creativiteit, abstracte concepten kunnen toepassen, dat soort zaken. Dat is niet wat wij “AI” noemen doet. Een “AI” is kortgezegd een rekenmodel dat voorspellingen doet over de meest waarschijnlijke distributie. Dan hebben we het in het geval van chatbots als ChatGPT over woorden, en bij modellen als Midjourney over pixels.

Die voorspellingen worden gemaakt gebaseerd op trainingsdata. Je vertelt het model wat de data die je het model voert is, en zodoende “leert” het model. Bij de werking van het model wordt vooral op de resultaten geselecteerd. Zolang het model overtuigende resultaten genereert is het wel best. Maar een “AI” heeft dus geen weet van wat het produceert. Een “AI” formeert geen abstracte gedachte die het vervolgens tot een zin omzet, het berekent na elk woord welk ander woord het meest waarschijnlijk moet volgen. Er zit dus geen overkoepelende gedachte achter, en dat is best vervelend want een achterliggende gedachte is wat taal onderscheid van een willekeurige stroom geluiden.

System Collapse

Naast dat het een vette naam is voor een industriële metalband is, is system collapse het gevolg van de centrale vraag van dit artikel. Het door “AI” gegenereerde materiaal miste dus die centrale gedachte die taal en media voorziet van een begrijpbare logica. Naarmate een “AI” model meer “AI” materiaal consumeert, wordt het geproduceerde materiaal steeds minder samenhangend, naarmate de laatste resten aan menselijke input steeds meer door elkaar gehusseld worden tot het onherkenbaar is. De onderliggende datastructuur verdwijnt, zelfs onder ideale omstandigheden. Het proces is volgens de onderzoekers onvermijdelijk.

“Naarmate de tijd vordert stapelen fouten in de gegenereerde data op, het dwingt modellen die leren van gegenereerde data om de realiteit steeds slechter waar te nemen.” Zegt Ilia Shumailov, een van de hoofdauteurs van het onderzoek. “Het verraste ons hoe snel de modellen de oorspronkelijke dataset waar ze in het begin van leerden vergaten.”

Een lang verhaal kort, des te meer een “AI” model wordt blootgesteld aan door “AI” gegenereerd materiaal, des te slechter de resultaten. Fouten stapelen op, de variatie van niet foutief materiaal neemt af en het model vervalt tot het produceren van weinig samenhangende onzin. Dit is ontwikkelaars van “AI” die hun data van het internet schrapen ook opgevallen. Het internet archief, Archive.org, wordt overspoeld met hun verzoeken.

Geen worst zoals eenheidsworst

Uiteraard zijn mensen ook lang niet altijd in staat om hun omgeving juist te interpreteren en vervolgens te representeren. De data waarmee “AI” gevoed wordt is hier zelf al bewijs van. Maar zelfs met een zeer representatieve dataset gebeurt er iets eigenaardigs tijdens het productieproces van een “AI”.

Shumailov legt het als volgt uit. Stel je voor, je vertelt een “AI” wat een kat is door het 100 plaatjes van een kat te geven. 90 katten hebben een gele vacht, en 10 blauw. Het model leert zodoende dat gele katten meer voorkomen. Maar die 10 blauwe katten zitten ook in de dataset, dus zou je zeggen dat het model wanneer het gevraagd wordt een kat te laten zien, af en toe een blauwe produceert. Dit gebeurt dus niet zomaar. De blauwe katten worden geler afgebeeld door de “AI” dan ze werkelijk zijn, waardoor ze uiteindelijk groen worden. 

Naarmate de “AI” steeds meer data genereert, blijven er uiteindelijk geen blauwe katten meer over. Laat de cyclus vaak genoeg lopen en zelfs de groene katten verdwijnen en blijven er enkel gele katten over. Datapunten die een minderheid vormen verdwijnen dus na verloop van tijd uit de dataset. Beginnen met een representatieve dataset is een must, maar zelfs de ideale dataset wordt door “AI” gegenereerd materiaal dus “vervuild” met niet representatieve resultaten. “AI” heeft veel moeite met het leren van zeldzame gegevens.

De implicaties

Het bovenstaande maakt hopelijk duidelijk aan de lezer waarom ik de afkorting AI al een tijdje stug voorzie van aanhalingstekens. Het heeft allemaal weinig met intelligentie te maken. De resultaten zijn soms overtuigend, maar dus enkel op een oppervlakkig niveau. Kunstmatige intelligenties hebben geen enkel besef van het materiaal wat ze produceren. Zelfs wanneer het model werd gevraagd om data niet te veel te herhalen ging het fout. Het model begon gewoon spontaan dingen te verzinnen. Dergelijke creatieve uitbarstingen komen meer voor. 

Zo vroeg een wetenschapper ChatGPT om zijn bibliografie op te stellen. Op de resulterende lijst stonden een aantal publicaties die de wetenschapper daadwerkelijk op zijn naam had staan, maar een aantal werd door ChatGPT gewoon uit de duim gezogen. Het is een probleem waar wel meer professionals tegenaan zijn gelopen.

Het probleem laat zien dat er fundamentele fouten zijn met de manier waarop “AI” werkt. De huidige modellen zijn geen kunstmatige approximatie van de werkingen van de menselijke geest, hoe overtuigend de resultaten op het eerste oog ook kunnen lijken. Ik durf niet te beweren dat het een probleem is waar ontwikkelaars van “AI” nooit een oplossing voor gaan vinden. Maar gezien de snelle opmars van “AI” lijkt het me verstandig om bewust te zijn dat een industrie die leeft van hype wellicht opzettelijk de eigen producten verkeerd vertegenwoordigt. AI is niet intelligent, wat het produceert staat vol van de vertekeningen en daarbij heeft het de neiging zomaar dingen te gaan verzinnen. Het engste is misschien nog wel dat terwijl we de technologie als samenleving steeds meer zijn gaan omarmen, we er steeds minder van snappen.

Eén reactie

  1. Ik zou me eens verdiepen in hoe menselijke hersenen werken voor ik oppervlakkige uitspraken als deze ging publiceren. Er is namelijk wel grote gelijkenis. Lees ook eens iets van de meest geciteerde neurowetenschapper van dit moment, Karl Friston. Zowel mens als machine bouwen op basis van data (en de mens ook door acties) modellen waarmee ze de wereld voorspellen. Causaliteit ontstaat op basis van deze modellen. Nieuwe informatie maakt ze beter. Lees daarnaast ook eens het laatste boek Stephen Wolfram en ontdek (maar waarschijnlijk wel bekend) dat ook ChatGPT modellen maakt en daarmee betekenis ontdekt. Zowel mens als machine maakt onjuiste modellen als je ze voortdurend voedt met dezelfde onjuiste onvolledige data. Denk bijvoorbeeld aan complottheorieen. Is er dan geen verschil? Ja dat is er. De mens is heeft bijvoorbeeld minder data nodig om modellen te bouwen. Daarnaast beschikt de mens over een emotioneel systeem dat hem in staat stelt doelen te stellen. Laten we blij zijn dat AI daar (nog) niet over beschikt.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *