Het partiële bekrachtigingsextinctie-effect en de contingent-sampling hypothese

In de meeste eerdere demonstraties van de PREE (b.v. Grant, Hake, & Hornseth, 1951), was het verwachte voordeel van de versterkte keuze hoger onder volledige dan onder gedeeltelijke schema’s, omdat dezelfde grootheden in een hoger tempo werden toegediend. In de huidige studie hebben we deze verwarring vermeden door de grootte van de beloningen zo te manipuleren dat zowel bij de gedeeltelijke als bij de volledige schema’s de beloningen even groot waren. Het primaire doel van experiment 1 was te onderzoeken of het algemene negatieve effect van gedeeltelijke beloningen kon worden waargenomen, zelfs wanneer deze conditie geen lagere som van beloningen impliceerde.

Deelnemers

Een groep van 24 studenten van de faculteit Industrial Engineering and Management van het Technion dienden als betaalde deelnemers aan het experiment. Zij werden gerekruteerd via borden op de campus voor een experiment in besluitvorming. De steekproef omvatte 12 mannen en 12 vrouwen (gemiddelde leeftijd 23,7 jaar, SD = 1,88).

Apparatuur en procedure

Voor het experiment gebruikten we een klikparadigma (Erev & Haruvy, 2013), dat bestond uit twee niet-gemarkeerde toetsen en een geaccumuleerde uitbetalingsteller. Elke selectie van een van de twee toetsen werd gevolgd door drie onmiddellijke gebeurtenissen: een presentatie van de verkregen uitbetaling (vetgedrukt op de geselecteerde knop gedurende 1 s), een presentatie van de verbeurde uitbetalingen (op de niet-geselecteerde knop gedurende 1 s), en een continue update van de uitbetalingsteller (de toevoeging van de verkregen uitbetaling aan de teller). De exacte uitbetalingen waren een functie van het versterkingsschema, de fase, en de keuze, zoals hieronder uitgelegd.

Deelnemers werden geïnstrueerd herhaaldelijk een knop te kiezen om hun totale verdiensten te maximaliseren. Er werd geen voorafgaande informatie over de verdeling van de uitbetaling verstrekt. De studie omvatte 200 proeven, met een interval van 1 seconde tussen de proeven. De taak duurde ongeveer 10 min.

Ontwerp

De deelnemers werden willekeurig toegewezen aan een van de twee versterkingsschema’s: volledig (n = 11) en gedeeltelijk (n = 13). Elke deelnemer onderging twee fasen van 100 proeven (“training” en “uitdoving”) onder een van de schema’s en selecteerde een van de knoppen voor elke proef. Een keuze voor een van de twee knoppen, de “gedegradeerde optie” genoemd, leidde altijd tot een uitbetaling van acht punten. De uitbetaling van de alternatieve knop, aangeduid als de “gepromoveerde optie”, hing af van de fase en het versterkingsschema, als volgt:

Tijdens de eerste fase van 100 proeven (de “trainingsfase”), leverde de gepromoveerde optie een gemiddelde uitbetaling van negen punten per selectie op. De twee schema’s verschilden met betrekking tot de variabiliteit van de uitbetaling rond dit gemiddelde. In het volledige schema was er geen variabiliteit: Elke selectie van de gepromote optie leverde een uitbetaling van negen punten op. Het gedeeltelijke schema daarentegen kende een grote variabiliteit: Keuzes van de gepromote optie werden beloond met een uitbetaling van 17 punten bij 50% van de proeven, en met een uitbetaling van één punt bij de resterende proeven.

In de tweede fase van 100 proeven werd “uitsterven” gesimuleerd. Tijdens deze fase leverde de gepromote optie één punt per selectie op. Dus, de gepromoveerde optie was aantrekkelijker dan de gedegradeerde optie tijdens de training (gemiddelde van negen ten opzichte van acht punten), maar minder aantrekkelijk tijdens de uitdoving (een ten opzichte van acht). De linkerkant van Tabel 1 geeft een overzicht van de experimentele condities van Experiment 1.

Tabel 1 Experiment 1: Waargenomen gemiddelde proporties van het selecteren van de gepromoveerde optie (P-prom), als functie van de fase en het versterkingsschema. De twee meest rechtse kolommen bevatten de voorspellingen van het contingent-sampling (CS) en fictief-spel (FP) model

Om de deelnemers te motiveren, gaven we ze een geldelijke stimulans. De omzetting van punten naar daadwerkelijke uitbetalingen gebeurde volgens een wisselkoers waarbij 100 punten = 1,5 NIS (ongeveer 33 cent). Dit resulteerde in een gemiddelde totale uitbetaling van NIS 14 (ongeveer $ 3,2).

Resultaten en discussie

De linkerkant van Fig. 1 presenteert de waargenomen keuze proporties voor de gepromote optie (P-prom) in blokken van 10 trials als functie van het versterkingsschema en de fase. Tabel 1 geeft de gemiddelde waarden. Tijdens de training was P-prom hoger onder het volledige (M = .92, SD = .15) dan onder het gedeeltelijke (M = .68, SD = .19) schema. Het tegenovergestelde patroon werd waargenomen tijdens extinctie: P-prom was lager onder het volledige (M = .03, SD = .01) dan onder het gedeeltelijke (M = .06, SD = .03) schema. Een 2 × 2 herhaalde variantie analyse (ANOVA) werd uitgevoerd om de effecten van de fase en het versterkingsschema op P-prom te testen. Deze analyse toonde significante hoofdeffecten voor zowel de fase als het schema, evenals een significante interactie tussen de twee factoren. Deze resultaten suggereren dat het negatieve effect van gedeeltelijke bekrachtigingen in de trainingsfase en de positieve replicatie van de PREE in extinctie significant waren.

Fig. 1

Gewaardeerde en voorspelde proportie van het selecteren van de gepromote optie (P-prom) in blokken van 10 trials als functie van de voorwaarden van het bekrachtigingsschema in Experiment 1. Extinctie is begonnen bij het 11e blok

Over de 200 proeven was P-prom significant hoger onder het volledige (M = .48, SD = .08) dan onder het gedeeltelijke (M = .36, SD = .11) schema, t(22) = 2.74, p < .01, d = 1.17. Deze resultaten ondersteunen Nevin en Grace’s (2000) oplossing van het gemengde PREE patroon. Het waargenomen effect van gedeeltelijke versterking was positief in de overgangsfase, maar negatief over alle proeven.

De contingent-sampling hypothese

Vorige studies van beslissingen op basis van ervaring hebben de waarde benadrukt van modellen die uitgaan van afhankelijkheid van kleine steekproeven van ervaringen in vergelijkbare situaties. Modellen van dit type vangen de omstandigheden die leren vergemakkelijken en belemmeren (Camilleri & Newell, 2011; Erev & Barron, 2005; Yechiam & Busemeyer, 2005), en hebben recente keuzevoorspellingswedstrijden gewonnen (Erev, Ert, & Roth, 2010). Onze poging om de huidige resultaten vast te leggen begint met een één-parameter lid van deze klasse van modellen. Meer bepaald beschouwden we een contingent-sampling model waarin gelijkenis werd gedefinieerd op basis van het relatieve voordeel van de gepromote optie in de m meest recente proeven (m, een niet-negatief geheel getal, is de vrije parameter van het model). Bijvoorbeeld, de reeks G-G-L impliceert dat de gepromoveerde optie een relatief verlies (L = lagere uitbetaling, in vergelijking met de gedegradeerde optie) opleverde in de laatste proef, maar een relatieve winst (G = hogere uitbetaling) in de vorige twee proeven, en met m = 3, zijn alle proeven die onmiddellijk op deze reeks volgen “gelijkaardig”. Het model veronderstelt dat de beslissing wordt genomen op basis van een vergelijking van de gemiddelde uitbetalingen van de twee opties in alle vroegere gelijksoortige proeven (en van een willekeurige keuze, vóór het opdoen van relevante ervaring).

Om deze logica te verduidelijken, beschouwen we het contingent-sampling model met de parameter m = 2, en nemen we aan dat de waargenomen uitkomsten in de eerste negen proeven van de partiële conditie de volgorde L-L-L-G-L-L-G-L-L opleverden. Dat wil zeggen, de uitbetaling van de gepromoveerde optie was 17 (een relatieve winst) in de proeven 4 en 7, en één (een relatief verlies) in de andere zeven proeven. Bij proef 10 staat de agent voor een keuze na de reeks L-L. Zij zal zich daarom al haar ervaringen na identieke reeksen (Proeven 3, 4 en 7) herinneren, de gemiddelde ervaring van de gepromoveerde optie in deze reeks berekenen als (1 + 17 + 17)/3 = 11,67, en aangezien de gemiddelde uitbetaling van de gedegradeerde optie slechts negen is, zal zij de gepromoveerde optie kiezen.

De voorspellingen van het model werden afgeleid met behulp van een computersimulatie waarin virtuele agenten, geprogrammeerd om zich te gedragen in overeenstemming met de veronderstellingen van het model, deelnamen aan een virtuele replicatie van het experiment. Er werden tweeduizend simulaties met verschillende m-waarden (van 1 tot 5) uitgevoerd met behulp van het SAS-programma. Tijdens de simulatie registreerden we de P-prom statistieken zoals in het experiment.

De resultaten toonden aan dat de belangrijkste experimentele patronen (een negatief totaal effect van gedeeltelijke versterking en een klein positief effect na de overgang) werden gereproduceerd met alle m-waarden. De beste fit (minimale gemiddelde kwadratische afstand tussen de waargenomen en voorspelde P-prom-snelheden) werd gevonden met de parameter m = 4. De voorspellingen met deze parameter zijn weergegeven in Tabel 1 en Fig. 1.

Merk op dat met m = 4, het model een afhankelijkheid van kleine steekproeven impliceert: Aangezien 16 sequenties mogelijk zijn, zullen de beslissingen tijdens de 100 trainingstests typisch gebaseerd zijn op zes of minder “gelijkaardige” ervaringen. Dit feit heeft geen effect in het volledige schema (waarin een steekproef van één voldoende is om te maximaliseren), maar het leidt tot afwijkingen van maximalisatie in het gedeeltelijke schema (omdat sommige steekproeven meer “1 “dan “17”-proeven bevatten). Tijdens extinctie echter worden na de vierde proef alle beslissingen genomen volgens de sequentie L-L-L-L. In het volledige schema maken de deelnemers deze reeks nooit mee tijdens de training. Al hun ervaringen na deze reeks leiden ertoe dat ze de voorkeur geven aan de gedegradeerde optie (en de eerste ervaring doet zich voor in de vijfde uitdovingsproef). In tegenstelling hiermee ervaren de typische deelnemers aan het gedeeltelijke schema deze volgorde zes keer tijdens de training, en deze ervaringen kunnen ertoe leiden dat ze de voorkeur geven aan de gepromoveerde optie in de eerste proeven van de uitdovingsfase.

Inertie, generalisatie, ruis, en begrensd geheugen

De huidige abstractie van het contingent-sampling idee is een vereenvoudigde variant van de abstractie die Erev, Ert, en Roth’s (2010) keuzevoorspellingswedstrijd won (Chen, Liu, Chen, & Lee, 2011). De veronderstellingen die werden uitgesloten waren traagheid (de neiging om de laatste keuze te herhalen), generalisatie (enige gevoeligheid voor de gemiddelde uitbetaling), een lawaaierige antwoordregel, en een begrensd geheugen. Een model met deze veronderstellingen gaf een lichte verbetering te zien in de huidige instellingen, maar veranderde niets aan de belangrijkste, algemene voorspellingen. De huidige analyse sluit deze veronderstellingen dus niet uit, maar toont alleen aan dat ze niet noodzakelijk zijn om het hier gedocumenteerde geaggregeerde effect van gedeeltelijke versterking te vatten.

Fictief spel en versterkingsleren

Om de relatie tussen de voorwaardelijke-steekproefhypothese en populaire leermodellen te verduidelijken, hebben we ook een twee-parameter glad fictief-spel (SFP) model overwogen (Fudenberg & Levine, 1999). SFP gaat ervan uit dat de neiging om optie j op proef t + 1 te kiezen na het waarnemen van de uitbetaling v( j, t) op proef t

$$ Q$left( {j,t+1} erechts)=(w)Q-links( {j,t} erechts)+(w)v-links( {j,t} erechts), $$

waar w een vrije wegingsparameter is en Q(j, 1) = 0. De kans dat j over k wordt gekozen bij proef t is

$$ P\left( {j,t} \right)=1/\left( {1+{e^{\sigma}}^{\left}} \right), $$

waar σ een vrije antwoordsterkteparameter is. SFP is een voorbeeld van een twee-parameter reinforcement learning model (Erev & Haruvy, 2013). Uit tabel 1 en figuur 1 blijkt dat dit model iets beter past bij het geaggregeerde keuzetempo dan het één-parameter contingent-sampling model.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.