Den delvise forstærkningseffekt og hypotesen om betinget prøveudtagning

I de fleste tidligere demonstrationer af PREE (f.eks. Grant, Hake, & Hornseth, 1951) var det forventede udbytte af det forstærkede valg højere under fulde end under delvise skemaer, fordi de samme størrelser blev givet med højere hastighed. I den nuværende undersøgelse undgik vi denne forvirring ved at manipulere belønningernes størrelse for at sikre lige store beløb af forstærkninger under både delvise og fulde skemaer. Det primære mål med eksperiment 1 var at undersøge, om den overordnede negative effekt af delvise forstærkninger kunne observeres, selv når denne betingelse ikke indebar en lavere sum af forstærkninger.

Deltagere

En gruppe på 24 bachelorstuderende fra fakultetet for industriel teknik og ledelse på Technion fungerede som betalte deltagere i eksperimentet. De blev rekrutteret via skilte, der var opsat rundt omkring på campus til et eksperiment i beslutningstagning. Prøven omfattede 12 mænd og 12 kvinder (gennemsnitsalder 23.7 år, SD = 1.88).

Apparat og procedure

Til eksperimentet anvendte vi et klikparadigme (Erev & Haruvy, 2013), som bestod af to umærkede knapper og en akkumuleret udbetalingstæller. Hvert valg af en af de to taster blev efterfulgt af tre umiddelbare begivenheder: en præsentation af den opnåede udbetaling (med fed på den valgte knap i 1 s), en præsentation af de tabte udbetalinger (på den ikke-valgte knap i 1 s) og en løbende opdatering af udbetalingstælleren (tilføjelse af den opnåede udbetaling til tælleren). De nøjagtige udbetalinger var en funktion af forstærkningsskemaet, fasen og valget, som forklaret nedenfor.

Deltagerne blev instrueret om gentagne gange at vælge en knap for at maksimere deres samlede indtjening. Der blev ikke leveret nogen forudgående oplysninger om udbetalingsfordelingen. Undersøgelsen omfattede 200 forsøg med et interval på 1 s mellem forsøgene. Opgaven varede ca. 10 min.

Design

Deltagerne blev tilfældigt tildelt en af de to forstærkningsskemaforhold: fuld (n = 11) og delvis (n = 13). Hver deltager stod over for to faser af 100 forsøg (“træning” og “udryddelse”) under en af skemaerne og valgte en af knapperne for hvert forsøg. Et valg af en af de to knapper, benævnt “degraderet mulighed”, førte altid til en gevinst på otte point. Udbetalingen fra den alternative knap, benævnt “promoted option”, afhang af fasen og forstærkningsskemaet på følgende måde:

I den første fase på 100 forsøg (den “træningsfase”) gav den promoted option en gennemsnitlig udbetaling på ni point pr. valg. De to skemaer adskilte sig med hensyn til udbetalingsvariabiliteten omkring dette gennemsnit. Den fulde tidsplan indebar ingen variabilitet: Hvert valg af den fremmede mulighed gav en gevinst på ni point. I modsætning hertil var der stor variabilitet i den delvise plan: Valg af den fremmede mulighed blev belønnet med en gevinst på 17 point i 50 % af forsøgene og med en gevinst på ét point i de resterende forsøg.

Den anden fase på 100 forsøg simulerede “udslettelse”. I denne fase gav den fremmede mulighed et point pr. valg. Således var den promoverede mulighed mere attraktiv end den degraderede mulighed under træning (gennemsnit på ni i forhold til otte point), men mindre attraktiv under udslettelse (et i forhold til otte). Venstre side af tabel 1 opsummerer forsøgsbetingelserne i forsøg 1.

Tabel 1 Forsøg 1 Forsøg 1: Observerede gennemsnitlige andele af valg af den promoverede mulighed (P-prom), som funktion af fase og forstærkningsskema. De to kolonner længst til højre præsenterer forudsigelserne af contingent-sampling (CS) og fictitious-play (FP) modellerne

For at motivere deltagerne, gav vi et monetært incitament. Oversættelsen fra point til faktiske udbetalinger skete i henhold til en valutakurs, hvor 100 point = 1,5 NIS (ca. 33 cent). Dette resulterede i en gennemsnitlig samlet udbetaling på NIS 14 (ca. $ 3,2).

Resultater og diskussion

Den venstre side af Fig. 1 præsenterer de observerede valgproportioner for den promoverede mulighed (P-prom) i blokke af 10 forsøg som en funktion af forstærkningsskemaet og fasen. Tabel 1 viser gennemsnitsværdierne. Under træningen var P-prom højere under det fulde (M = .92, SD = .15) end under det delvise (M = .68, SD = .19) skema. Det modsatte mønster blev observeret under udslettelse: P-prom var lavere under det fulde (M = .03, SD = .01) end under det delvise (M = .06, SD = .03) skema. En 2 × 2 gentagne variansanalyser (ANOVA) blev udført for at teste virkningerne af fasen og forstærkningsskemaet på P-prom. Denne analyse afslørede signifikante hovedeffekter for både fase og skemaet , samt en signifikant interaktion mellem de to faktorer . Disse resultater tyder på, at den negative effekt af partielle forstærkninger i træningsfasen og den positive gentagelse af PREE i extinction var signifikant.

Over de 200 forsøg var P-prom signifikant højere under den fulde (M = .48, SD = .08) end under den delvise (M = .36, SD = .11) skema, t(22) = 2.74, p < .01, d = 1.17. Disse resultater støtter Nevin og Grace’s (2000) opløsning af det blandede PREE-mønster. Den observerede effekt af delvise forstærkninger var positiv i overgangsfasen, men negativ på tværs af alle forsøg.

Den kontingent-sampling-hypotese

Forrige undersøgelser af beslutninger ud fra erfaring har fremhævet værdien af modeller, der antager afhængighed af små prøver af erfaringer i lignende situationer. Modeller af denne type indfanger de forhold, der letter og forringer læring (Camilleri & Newell, 2011; Erev & Barron, 2005; Yechiam & Busemeyer, 2005), og har vundet de seneste konkurrencer om valgprædiktion (Erev, Ert, & Roth, 2010). Vores forsøg på at indfange de nuværende resultater starter med et medlem med én parameter af denne klasse af modeller. Specifikt betragtede vi en contingent-sampling-model, hvor lighed blev defineret på grundlag af den relative fordel af den promoverede mulighed i de m seneste forsøg (m, et ikke-negativt heltal, er modellens frie parameter). F.eks. indebærer sekvensen G-G-L-L, at den forfremmede mulighed gav et relativt tab (L = lavere gevinst i forhold til den degraderede mulighed) i det sidste forsøg, men en relativ gevinst (G = højere gevinst) i de to foregående forsøg, og med m = 3 er alle de forsøg, der følger umiddelbart efter denne sekvens, “ens”. Modellen antager, at beslutningen træffes på grundlag af en sammenligning af de gennemsnitlige payoffs fra de to muligheder i alle tidligere lignende forsøg (og af tilfældigt valg, før man har opnået relevant erfaring).

For at tydeliggøre denne logik, skal man overveje contingent-sampling-modellen med parameteren m = 2 og antage, at de observerede resultater i de første ni forsøg i den delvise betingelse gav sekvensen L-L-L-L-G-L-L-L-L-G-G-L-L-L-L. Det vil sige, at udbetalingen fra den fremmede mulighed var 17 (en relativ gevinst) i forsøg 4 og 7 og én (et relativt tab) i de andre syv forsøg. Ved forsøg 10 står agenten over for et valg efter sekvensen L-LL. Hun vil derfor huske alle sine erfaringer efter identiske sekvenser (forsøg 3, 4 og 7), beregne den gennemsnitlige erfaring fra den forfremmede mulighed i dette sæt til at være (1 + 17 + 17)/3 = 11,67, og da den gennemsnitlige gevinst fra den degraderede mulighed kun er ni, vil hun vælge den forfremmede mulighed.

Modellens forudsigelser blev udledt ved hjælp af en computersimulering, hvor virtuelle agenter, der var programmeret til at opføre sig i overensstemmelse med modellens forudsætninger, deltog i en virtuel gentagelse af forsøget. Der blev kørt 2 000 simuleringer med forskellige m-værdier (fra 1 til 5) ved hjælp af SAS-programmet. Under simuleringen registrerede vi P-prom-statistikken som i eksperimentet.

Resultaterne viste, at de vigtigste eksperimentelle mønstre (en negativ samlet effekt af delvis forstærkning og en lille positiv effekt efter overgangen) blev reproduceret med alle m-værdier. Den bedste tilpasning (minimal gennemsnitlig kvadreret afstand mellem den observerede og den forudsagte P-prom-rate) blev fundet med parameteren m = 4. Forudsigelserne med denne parameter er vist i tabel 1 og fig. 1.

Bemærk, at modellen med m = 4 indebærer, at man med m = 4 er afhængig af små stikprøver: Da 16 sekvenser er mulige, vil beslutningerne i løbet af de 100 træningsforsøg typisk være baseret på seks eller færre “lignende” erfaringer. Denne kendsgerning har ingen virkning i det fulde skema (hvor en stikprøve på én er tilstrækkelig til at maksimere), men den fører til afvigelser fra maksimering i det delvise skema (da nogle stikprøver omfatter flere “1”- end “17”-forsøg). Under udslettelse træffes imidlertid efter den fjerde prøve alle beslutninger efter sekvensen L-L-L-L-L. I det fulde skema oplever deltagerne aldrig denne sekvens under træningen. Således fører alle deres erfaringer efter denne sekvens til, at de foretrækker den degraderede mulighed (og den første erfaring forekommer i den femte udryddelsesprøve). I modsætning hertil oplever de typiske deltagere i det delvise skema denne sekvens seks gange under træningen, og disse erfaringer kan føre til, at de foretrækker den forfremmede mulighed i de tidlige forsøg i udryddelsesfasen.

Inerti, generalisering, støj og begrænset hukommelse

Den nuværende abstraktion af kontingent-sampling-idéen er en forenklet variant af den abstraktion, der vandt Erev, Ert og Roths (2010) valgprædiktionskonkurrence (Chen, Liu, Chen, & Lee, 2011). De antagelser, der blev udelukket, var inerti (en tendens til at gentage det sidste valg), generalisering (en vis følsomhed over for den gennemsnitlige gevinst), en støjende responsregel og begrænset hukommelse. En model, der omfattede disse antagelser, viste en lille forbedring af tilpasningen i de nuværende indstillinger, men ændrede ikke de vigtigste, samlede forudsigelser. Den nuværende analyse udelukker således ikke disse antagelser, den viser blot, at de ikke er nødvendige for at fange den samlede effekt af partielle forstærkninger, der er dokumenteret her.

Fiktiv leg og forstærkningsindlæring

For at klarlægge forholdet mellem kontingent-sampling-hypotesen og populære indlæringsmodeller overvejede vi også en to-parameter glat fiktiv leg (SFP) model (Fudenberg & Levine, 1999). SFP antager, at tilbøjeligheden til at vælge mulighed j ved forsøg t + 1 efter at have observeret udbetalingen v( j, t) ved forsøg t er

$$$ Q\left( {j,t+1} \right)=\left( {1\text{-}} w} \right)Q\left( {j,t} \right)+(w)v\left( {j,t} \right), $$$

hvor w er en fri vægtningsparameter, og Q(j, 1) = 0. Sandsynligheden for at vælge j frem for k ved forsøg t er

$$$ P\left( {j,t} \right)=1/\left( {1+{e^{{\sigma}}}^{{{\left}}}} \right), $$$

hvor σ er en fri responsstyrkeparameter. SFP er et eksempel på en forstærkningsindlæringsmodel med to parametre (Erev & Haruvy, 2013). Tabel 1 og Fig. 1 viser, at denne model passer lidt bedre til den samlede valgrate end den enparameter-kontingent-sampling-model.

Arquidia Mantina