Effekten av utplåning genom partiell förstärkning och hypotesen om betingad provtagning

I de flesta tidigare demonstrationer av PREE (t.ex. Grant, Hake, & Hornseth, 1951) var den förväntade nyttan av det förstärkta valet högre under fullständiga än under partiella scheman, eftersom samma storheter administrerades med högre hastighet. I den aktuella studien undvek vi denna sammanblandning genom att manipulera belöningarnas storlek för att säkerställa lika stora summor av förstärkningar under både partiella och fullständiga scheman. Det primära målet med experiment 1 var att undersöka om den övergripande negativa effekten av partiella förstärkningar kunde observeras, även när detta villkor inte innebar en lägre summa av förstärkningar.

Deltagare

En grupp på 24 studenter från fakulteten för industriteknik och företagsledning vid Technion fungerade som betalda deltagare i experimentet. De rekryterades via skyltar som sattes upp runt om på campus för ett experiment om beslutsfattande. I urvalet ingick 12 män och 12 kvinnor (medelålder 23,7 år, SD = 1,88).

Apparat och tillvägagångssätt

För experimentet använde vi ett klickparadigm (Erev & Haruvy, 2013), som bestod av två omarkerade knappar och en ackumulerad utbetalningsräknare. Varje val av en av de två knapparna följdes av tre omedelbara händelser: en presentation av den erhållna utbetalningen (i fetstil på den valda knappen under 1 s), en presentation av de uteblivna utbetalningarna (på den icke valda knappen under 1 s) och en kontinuerlig uppdatering av utbetalningsräknaren (tillägget av den erhållna utbetalningen till räknaren). De exakta utbetalningarna var en funktion av förstärkningsschemat, fasen och valet, vilket förklaras nedan.

Deltagarna instruerades att upprepade gånger välja en knapp för att maximera sin totala vinst. Ingen förhandsinformation om vinstfördelningen lämnades. Studien omfattade 200 försök med ett intervall på 1 s mellan försöken. Uppgiften varade ungefär 10 min.

Design

Deltagarna tilldelades slumpmässigt ett av de två förstärkningsschemaförhållandena: fullständigt (n = 11) och partiellt (n = 13). Varje deltagare ställdes inför två faser om 100 försök (”träning” och ”utplåning”) enligt ett av scheman och valde en av knapparna för varje försök. Ett val av en av de två knapparna, kallat ”degraderat alternativ”, ledde alltid till en utbetalning på åtta poäng. Utbetalningen från den alternativa knappen, kallad ”främjat alternativ”, berodde på fasen och förstärkningsschemat enligt följande:

Under den första fasen med 100 försök (den ”träningsfasen”) gav det främjade alternativet en genomsnittlig utbetalning på nio poäng per val. De två scheman skiljde sig åt när det gällde variabiliteten i utbetalningen runt detta medelvärde. Det fullständiga schemat innebar ingen variabilitet: Varje val av det främjade alternativet gav en utbetalning på nio poäng. Det partiella schemat däremot innebar stor variabilitet: Val av det främjade alternativet belönades med en utbetalning på 17 poäng vid 50 % av försöken och med en utbetalning på en poäng vid de resterande försöken.

Den andra fasen med 100 försök simulerade ”utplåning”. Under denna fas gav det befordrade alternativet en poäng per val. Således var det befordrade alternativet mer attraktivt än det degraderade alternativet under träning (medelvärde på nio i förhållande till åtta poäng), men mindre attraktivt under utplåning (ett i förhållande till åtta). På vänster sida i tabell 1 sammanfattas försöksvillkoren i experiment 1.

Tabell 1 Experiment 1: Observerade genomsnittliga andelar av valet av det främjade alternativet (P-prom), som en funktion av fasen och förstärkningsschemat. De två kolumnerna längst till höger presenterar förutsägelserna för modellerna contingent-sampling (CS) och fictitious-play (FP)

För att motivera deltagarna gav vi ett monetärt incitament. Översättningen från poäng till faktiska utbetalningar skedde enligt en växelkurs där 100 poäng = 1,5 NIS (cirka 33 cent). Detta resulterade i en genomsnittlig total payoff på NIS 14 (cirka 3,2 dollar).

Resultat och diskussion

På vänster sida i figur 1 presenteras de observerade valandelarna för det främjade alternativet (P-prom) i block om 10 försök som en funktion av förstärkningsschemat och -fasen. I tabell 1 presenteras medelvärdena. Under träningen var P-prom högre under det fullständiga (M = 0,92, SD = 0,15) än under det partiella (M = 0,68, SD = 0,19) schemat. Det motsatta mönstret observerades under extinction: P-prom var lägre under det fullständiga (M = .03, SD = .01) än under det partiella (M = .06, SD = .03) schemat. En analys av varians (ANOVA) med 2 × 2 upprepade åtgärder genomfördes för att testa effekterna av fasen och förstärkningsschemat på P-prom. Denna analys visade signifikanta huvudeffekter för både fasen och schemat samt en signifikant interaktion mellan de två faktorerna. Dessa resultat tyder på att den negativa effekten av partiella förstärkningar i träningsfasen och den positiva replikeringen av PREE i extinction var signifikanta.

Om de 200 försöken var P-prom signifikant högre under det fullständiga (M = 0,48, SD = 0,08) än under det partiella (M = 0,36, SD = 0,11) schemat, t(22) = 2,74, p < 0,01, d = 1,17. Dessa resultat stöder Nevin och Graces (2000) lösning av det blandade PREE-mönstret. Den observerade effekten av partiella förstärkningar var positiv i övergångsfasen, men negativ i alla försök.

Hypotesen om betingade provtagningar

Förra studier av beslut utifrån erfarenhet har belyst värdet av modeller som utgår från att man förlitar sig på små provtagningar av erfarenheter i liknande situationer. Modeller av denna typ fångar de förhållanden som underlättar och försämrar inlärningen (Camilleri & Newell, 2011; Erev & Barron, 2005; Yechiam & Busemeyer, 2005), och har nyligen vunnit tävlingar om valförutsägelser (Erev, Ert, & Roth, 2010). Vårt försök att fånga de nuvarande resultaten börjar med en medlem med en parameter i denna klass av modeller. Närmare bestämt har vi övervägt en modell med betingat urval där likhet definieras på grundval av den relativa fördelen av det främjade alternativet i de m senaste försöken (m, ett icke-negativt heltal, är modellens fria parameter). Till exempel innebär sekvensen G-G-L-L att det befordrade alternativet gav en relativ förlust (L = lägre vinst i förhållande till det degraderade alternativet) i den sista försöksomgången, men en relativ vinst (G = högre vinst) i de två föregående försöksomgångarna, och med m = 3 är alla försöksomgångar som följer omedelbart efter denna sekvens ”likartade”. Modellen förutsätter att beslutet fattas på grundval av en jämförelse av de genomsnittliga avkastningarna från de två alternativen i alla tidigare liknande försök (och av ett slumpmässigt val, innan man får relevant erfarenhet).

För att förtydliga denna logik, betrakta contingent-sampling-modellen med parametern m = 2, och anta att de observerade utfallen i de första nio försöken i det partiella villkoret gav sekvensen L-L-L-G-G-L-L-G-G-L-L-L-L. Det vill säga, vinsten från det befordrade alternativet var 17 (en relativ vinst) i försök 4 och 7, och en (en relativ förlust) i de övriga sju försöken. Vid försök 10 står agenten inför ett val efter sekvensen L-LL. Hon kommer därför att minnas alla sina erfarenheter efter identiska sekvenser (försök 3, 4 och 7), beräkna den genomsnittliga erfarenheten från det befordrade alternativet i denna uppsättning till (1 + 17 + 17)/3 = 11,67, och eftersom den genomsnittliga vinsten från det degraderade alternativet endast är nio, kommer hon att välja det befordrade alternativet.

Modellens förutsägelser härleddes med hjälp av en datorsimulering där virtuella agenter, som var programmerade för att uppträda enligt modellens antaganden, deltog i en virtuell replikation av experimentet. Två tusen simuleringar kördes med olika m-värden (från 1 till 5) med hjälp av SAS-programmet. Under simuleringen registrerades P-prom-statistiken som i experimentet.

Resultaten visade att de viktigaste experimentella mönstren (en negativ övergripande effekt av partiell förstärkning och en liten positiv effekt efter övergången) reproducerades med alla m-värden. Den bästa anpassningen (minimalt medelkvadratavstånd mellan de observerade och förutspådda P-prom-talen) hittades med parametern m = 4. Prediktionerna med denna parameter presenteras i tabell 1 och figur 1.

Bemärk att med m = 4 innebär modellen att man förlitar sig på små stickprov: Eftersom 16 sekvenser är möjliga kommer besluten under de 100 träningsförsöken vanligtvis att baseras på sex eller färre ”liknande” erfarenheter. Detta faktum har ingen effekt i det fullständiga schemat (där det räcker med ett urval av en för att maximera), men det leder till avvikelser från maximering i det partiella schemat (eftersom vissa urval innehåller fler ”1”- än ”17”-försök). Under extinction fattas dock efter det fjärde försöket alla beslut efter sekvensen L-L-L-L-L. I det fullständiga schemat får deltagarna aldrig uppleva denna sekvens under träningen. Således leder alla deras erfarenheter efter denna sekvens till att de föredrar det degraderade alternativet (och den första erfarenheten inträffar i det femte extinktionsförsöket). Däremot upplever de typiska deltagarna i det partiella schemat denna sekvens sex gånger under träningen, och dessa erfarenheter kan leda till att de föredrar det befordrade alternativet i de tidiga försöken i utrotningsfasen.

Inertia, generalisering, brus och begränsat minne

Den nuvarande abstraktionen av idén om betingad provtagning är en förenklad variant av den abstraktion som vann Erev, Ert och Roths (2010) tävling om valförutsägelser (Chen, Liu, Chen, & Lee, 2011). De antaganden som uteslöts var tröghet (en tendens att upprepa det senaste valet), generalisering (viss känslighet för den genomsnittliga vinsten), en brusande svarsregel och begränsat minne. En modell som inkluderade dessa antaganden visade en liten förbättring av passformen i de nuvarande inställningarna, men ändrade inte de huvudsakliga, aggregerade förutsägelserna. Den nuvarande analysen utesluter alltså inte dessa antaganden, den visar bara att de inte är nödvändiga för att fånga den aggregerade effekten av partiella förstärkningar som dokumenterats här.

Fiktiv lek och förstärkningsinlärning

För att klargöra förhållandet mellan hypotesen om betingad provtagning och populära inlärningsmodeller har vi också övervägt en tvåparametrig modell för slät fiktiv lek (SFP) (Fudenberg & Levine, 1999). SFP utgår från att benägenheten att välja alternativ j vid prövning t + 1 efter att ha observerat vinsten v( j, t) vid prövning t är

$$$ Q\left( {j,t+1} \right)=\left( {1\text{-}} w} \right)Q\left( {j,t} \right)+(w)v\left( {j,t} \right), $$$

där w är en fri viktningsparameter och Q(j, 1) = 0. Sannolikheten att välja j framför k vid prövning t är

$$$ P\left( {j,t} \right)=1/\left( {1+{e^{\sigma}}}^{{\left}}} \right), $$$

där σ är en fri parameter för responsstyrka. SFP är ett exempel på en förstärkningsinlärningsmodell med två parametrar (Erev & Haruvy, 2013). Tabell 1 och figur 1 visar att denna modell passar den aggregerade valfrekvensen något bättre än den enparametermodellen med betingade provtagningar.

Arquidia Mantina