Een Veelgebruikte Taak om de Balans Tussen Doelgericht en Gewoontegedrag te Meten Blijkt Niet Zo Optimaal te Zijn

Frederik

De Spiegeleer

Een veelgebruikte taak om beter te verstaan hoe mensen gebruik maken van doelgericht en gewoontegedrag werd recentelijk gesuggereerd niet optimaal te zijn om de balans tussen doelgericht en gewoontegedrag te meten. Wij wilden testen of dit het geval is en of we het gedrag in de taak beter kunnen begrijpen op een andere dimensie van gedrag. Het huidige onderzoek toont aan dat dit werkelijk het geval is en kaart aan dat toekomstig onderzoek een aantal factoren in rekening moet houden wanneer ze deze taak willen gebruiken.

Het is algemeen aanvaard dat organismen kunnen leren acties te kiezen door beloningen of straffen van hun acties te ervaren (instrumenteel leren; Skinner, 1938). Organismen kunnen echter ook leren over hun omgeving zonder directe beloning of straf te ervaren, en deze informatie kan ook worden gebruikt om toekomstige beslissingen te nemen (Tolman, 1948). Hoewel veel organismen in staat zijn om de uitkomsten van hun acties zorgvuldig te overwegen door gebruik te maken van de informatie over hun omgeving, herhalen ze vaak gewoon de acties die eerder tot een beloning leidden. Dit wordt vaak aangeduid als een onderscheid tussen doelgericht en gewoontegedrag.

Bij reinforcement learning (een machine learning-trainingsmethode gebaseerd op het belonen/straffen van gedrag) worden doelgericht en gewoontegedrag respectievelijk modelgebaseerde en modelvrije systemen genoemd. In hoeverre mensen net gebruik maken van modelgebaseerde of modelvrije systemen kan gemeten worden door hen een veelgebruikte besluitvormingstaak, de tweestapstaak genoemd, te laten uitvoeren (zie Figuur 1). In deze taak moeten mensen kiezen tussen verschillende figuurtjes op een scherm waarvan ze beloningen krijgen en reinforcement learning maakt het hier dan mogelijk een parameter vast te leggen die de balans voorsteld tussen de twee systemen. Voormalig onderzoek ging er in het algemeen van uit dat mensen een combinatie gebruiken van deze systemen (Daw, Gershman, Seymour, Dayan, & Dolan, 2011).

Schermafbeelding 2021-10-03 om 22.47.50

Figuur 1. Voorbeeld van de tweestapstaak. De figuurtjes die aangeduid zijn met groen leiden tot 4 muntjes, terwijl de figuurtjes aangeduid met roze leiden tot 2 muntjes.

Een recent onderzoek toonde echter aan dat duidelijke instructies over de taak ervoor zorgen dat deelnemers voornamelijk modelgebaseerde systemen gebruiken (da Silva & Hare, 2020). Bovendien wordt bepaald gedrag in de tweestapstaak niet bepaald door de dichotomie tussen modelgebaseerde en modelvrije systemen (Collins & Cockburn, 2020), maar kan als zodanig verkeerd worden geclassificeerd, wat ons begrip beperkt van wat er werkelijk gebeurt tijdens deze taak. Vandaar kunnen bepaalde gedragingen mogelijks beter begrepen worden op een andere dimensie van leren en besluitvorming door eventueel andere parameters te gebruiken in reinforcement learning. In de huidige studie hebben we onderzocht of de deelnemers ook voornamelijk modelgebaseerde systemen gebruiken met verbeterde instructies. Daarnaast hebben we ook bestudeert hoe de afweging tussen exploratie en exploitatie onze beslissingen aanstuurt door naar een andere parameter te kijken. Exploitatie verwijst naar iemand die een keuze selecteert die hij/zij als de meest optimale keuze beschouwt, terwijl exploratie verwijst naar het selecteren van een andere keuze omdat die persoon misschien wil weten of de andere optie beter is of niet.

De resultaten toonden aan dat de proefpersonen voornamelijk modelgebaseerde systemen gebruikten en meer exploreerden wanneer de figuurtjes op het scherm veranderden. Deze resultaten suggereren dat mensen voornamelijk modelgebaseerde strategieën gebruiken bij het uitvoeren van de tweestapstaak, wat waarschijnlijk afhangt van hoe goed de deelnemers de taakstructuur begrijpen. Aan de andere kant suggereren onze resultaten dat de afweging tussen exploratie en exploitatie een belangrijke rol speelt in hoe mensen zich gedragen in de tweestapstaak, en het sommige gedragstendensen meer zou kunnen verklaren dan wat we kunnen verklaren door simpelweg te kijken naar modelgebaseerde en modelvrije systemen. Een beter begrip van het gedrag in de tweestapstaak, naast het onderscheid tussen modelgebaseerd en modelvrij systemen, zou door toekomstig onderzoek moeten worden aangepakt. Verder moet toekomstig onderzoek zorgvuldig rekening houden met verschillende factoren bij het gebruik van de tweestapstaak, zoals hoe expliciet de taakinstructies zijn, hoe gemakkelijk de taak is en of de taakstructuur misclassificatie van modelgebaseerd en modelvrij leren voorkomt.

Referenties

Collins, A. G., & Cockburn, J. (2020). Beyond dichotomies in reinforcement learning. Nature Reviews Neuroscience, 21(10), 576-586. https://doi.org/10.1038/s41583-020-0355-6

da Silva, C. F., & Hare, T. A. (2020). Humans primarily use model-based inference in the two-stage task. Nature Human Behaviour, 4(10), 1053-1066. https://doi.org/10.1038/s41562-020-0905-y

Daw, N. D., Gershman, S. J., Seymour, B., Dayan, P., & Dolan, R. J. (2011). Model-based influences on humans’ choices and striatal prediction errors. Neuron, 69(6), 1204–1215.https://doi.org/10.1016/j.neuron.2011.02.027

Skinner, B. F. (1938). The behavior of organisms: An experimental analysis. In R.M. Elliot (Ed.), The Century Psychology Series (pp. 1–451). New York: Appleton-Century. https://www.scribd.com/document/283214535/Skinner-B-F-1938-the-Behavior-of-Organisms-An-Experimental-Analysis

Tolman, E.C. (1948). Cognitive maps in rats and men. Psychological Review, 55(4), 189–208. https://doi.org/10.1037/h0061626

Download scriptie (4.01 MB)

Universiteit of Hogeschool

Universiteit Gent

Thesis jaar

2021

Promotor(en)

Dr. Elise Lesage, Prof. Dr. Tom Verguts

Thema('s)

Psychologie en pedagogische wetenschappen

Kernwoorden

Doelgericht gedrag,