Waarom ChatGPT nooit écht kan weten wat een bloem is.
Je kunt een bloem beschrijven in duizend woorden, maar daarmee weet je nog niet hoe die ruikt. Dat is precies de reden waarom een AI-tool als ChatGPT, hoe slim ook, het concept van een bloem nooit zal begrijpen zoals een mens dat doet.
Dat blijkt uit een nieuwe studie van de Ohio State University, gepubliceerd in vakblad Nature Human Behaviour. Volgens hoofdonderzoeker Qihui Xu kunnen grote taalmodellen zoals GPT-4 wel woorden verwerken, maar missen ze een essentieel ingrediënt: zintuiglijke ervaring.
“Een groot taalmodel kan geen roos ruiken, de bloemblaadjes van een madeliefje voelen of door een veld vol wilde bloemen wandelen”, zegt Xu. “Zonder die zintuiglijke en motorische ervaringen kan het nooit volledig begrijpen wat een bloem echt is.” En dit geldt niet alleen voor bloemen, maar voor talloze menselijke begrippen die geworteld zijn in wat we zien, ruiken, proeven en voelen.
Voor het onderzoek vergeleek Xu samen met haar team de manier waarop mensen en vier geavanceerde AI-modellen (GPT-3.5, GPT-4 van OpenAI en PaLM, Gemini van Google) 4442 woorden representeren. Van ‘bloem’ en ‘hoef’ tot abstractere begrippen als ‘humoristisch’ of ‘schommel’.
De wetenschappers zetten twee soorten metingen in om tot hun conclusies te komen. De eerste, de Glasgow Norms, vroeg deelnemers hoe ‘beeldend’, ‘emotioneel opwekkend’ of ‘concreet’ een woord is. De tweede, de Lancaster Norms, keek naar hoeveel zintuiglijke (geur, zicht, aanraking) en lichamelijke ervaringen (bijvoorbeeld via mond of handen) verbonden zijn aan een concept. Het doel hiervan is om te ontdekken in hoeverre AI en de mens dezelfde betekenis toekennen aan woorden en welke zintuiglijke lagen daarbij een rol spelen.
Uit het onderzoek blijkt dat Large Language Models (LLM’s) best goed scoren op begrippen die weinig te maken hebben met zintuigen of lichamelijke ervaringen. Denk aan abstracte termen zoals ‘idee’, ‘structuur’ of ‘humor’. Maar zodra een woord gekoppeld is aan wat we kunnen zien, ruiken of voelen, valt AI door de mand. “Van het intense aroma van een bloem, de zijdezachte aanraking van bloemblaadjes tot de vreugde die het oproept… voor mensen vormen al deze ervaringen samen het begrip ‘bloem’”, schrijven de onderzoekers. AI is simpelweg niet in staat om dit totaalplaatje te vormen met alleen taal.
Zelfs de meest geavanceerde modellen halen hun kennis uit een vrijwel eindeloze hoeveelheid tekst. Deze database is gevuld met veel meer woorden dan een mens ooit in zijn leven zal lezen en toch mist een LLM nog steeds het gevoel voor wat iets werkelijk is.
Wel viel op dat taalmodellen die naast tekst ook op beeld zijn getraind (zoals Gemini), iets beter scoren op visueel gerelateerde begrippen. Maar ook dat is niet genoeg. “Alleen taal is onvoldoende om de rijke menselijke betekeniswereld te vangen”, zegt Xu. Voor echte conceptuele representatie is meer nodig: beweging, aanraking, geur en misschien zelfs smaak.
Toch is het niet uitgesloten dat AI in de komende jaren een completer begrip gaat ontwikkelen. Xu verwacht dat toekomstige taalmodellen beter worden in het benaderen van menselijke begrippen, vooral als ze worden uitgerust met sensoren en fysieke mogelijkheden. “Zodra AI kan voelen, ruiken en bewegen in de echte wereld, zal het ons begrip van concepten beter kunnen benaderen”, besluit de Amerikaanse onderzoeker.
Waarom ChatGPT nooit écht kan weten wat een bloem is.
Je kunt een bloem beschrijven in duizend woorden, maar daarmee weet je nog niet hoe die ruikt. Dat is precies de reden waarom een AI-tool als ChatGPT, hoe slim ook, het concept van een bloem nooit zal begrijpen zoals een mens dat doet.
Dat blijkt uit een nieuwe studie van de Ohio State University, gepubliceerd in vakblad Nature Human Behaviour. Volgens hoofdonderzoeker Qihui Xu kunnen grote taalmodellen zoals GPT-4 wel woorden verwerken, maar missen ze een essentieel ingrediënt: zintuiglijke ervaring.
“Een groot taalmodel kan geen roos ruiken, de bloemblaadjes van een madeliefje voelen of door een veld vol wilde bloemen wandelen”, zegt Xu. “Zonder die zintuiglijke en motorische ervaringen kan het nooit volledig begrijpen wat een bloem echt is.” En dit geldt niet alleen voor bloemen, maar voor talloze menselijke begrippen die geworteld zijn in wat we zien, ruiken, proeven en voelen.
Voor het onderzoek vergeleek Xu samen met haar team de manier waarop mensen en vier geavanceerde AI-modellen (GPT-3.5, GPT-4 van OpenAI en PaLM, Gemini van Google) 4442 woorden representeren. Van ‘bloem’ en ‘hoef’ tot abstractere begrippen als ‘humoristisch’ of ‘schommel’.
De wetenschappers zetten twee soorten metingen in om tot hun conclusies te komen. De eerste, de Glasgow Norms, vroeg deelnemers hoe ‘beeldend’, ‘emotioneel opwekkend’ of ‘concreet’ een woord is. De tweede, de Lancaster Norms, keek naar hoeveel zintuiglijke (geur, zicht, aanraking) en lichamelijke ervaringen (bijvoorbeeld via mond of handen) verbonden zijn aan een concept. Het doel hiervan is om te ontdekken in hoeverre AI en de mens dezelfde betekenis toekennen aan woorden en welke zintuiglijke lagen daarbij een rol spelen.
Uit het onderzoek blijkt dat Large Language Models (LLM’s) best goed scoren op begrippen die weinig te maken hebben met zintuigen of lichamelijke ervaringen. Denk aan abstracte termen zoals ‘idee’, ‘structuur’ of ‘humor’. Maar zodra een woord gekoppeld is aan wat we kunnen zien, ruiken of voelen, valt AI door de mand. “Van het intense aroma van een bloem, de zijdezachte aanraking van bloemblaadjes tot de vreugde die het oproept… voor mensen vormen al deze ervaringen samen het begrip ‘bloem’”, schrijven de onderzoekers. AI is simpelweg niet in staat om dit totaalplaatje te vormen met alleen taal.
Zelfs de meest geavanceerde modellen halen hun kennis uit een vrijwel eindeloze hoeveelheid tekst. Deze database is gevuld met veel meer woorden dan een mens ooit in zijn leven zal lezen en toch mist een LLM nog steeds het gevoel voor wat iets werkelijk is.
Wel viel op dat taalmodellen die naast tekst ook op beeld zijn getraind (zoals Gemini), iets beter scoren op visueel gerelateerde begrippen. Maar ook dat is niet genoeg. “Alleen taal is onvoldoende om de rijke menselijke betekeniswereld te vangen”, zegt Xu. Voor echte conceptuele representatie is meer nodig: beweging, aanraking, geur en misschien zelfs smaak.
Toch is het niet uitgesloten dat AI in de komende jaren een completer begrip gaat ontwikkelen. Xu verwacht dat toekomstige taalmodellen beter worden in het benaderen van menselijke begrippen, vooral als ze worden uitgerust met sensoren en fysieke mogelijkheden. “Zodra AI kan voelen, ruiken en bewegen in de echte wereld, zal het ons begrip van concepten beter kunnen benaderen”, besluit de Amerikaanse onderzoeker.