Efectul de extincție cu întărire parțială și ipoteza eșantionării contingente

În majoritatea demonstrațiilor anterioare ale PREE (de exemplu, Grant, Hake, & Hornseth, 1951), beneficiul așteptat de pe urma alegerii întărite a fost mai mare în cazul schemelor complete decât în cazul schemelor parțiale, deoarece aceleași mărimi au fost administrate la rate mai mari. În studiul de față, am evitat această confuzie prin manipularea mărimii recompenselor pentru a asigura sume egale de întăriri atât în cadrul programelor parțiale, cât și în cadrul celor complete. Scopul principal al Experimentului 1 a fost de a examina dacă efectul negativ general al întăririlor parțiale ar putea fi observat, chiar și atunci când această condiție nu a implicat o sumă mai mică de întăriri.

Participanți

Un grup de 24 de studenți de la Facultatea de Inginerie Industrială și Management de la Technion au servit ca participanți plătiți în cadrul experimentului. Aceștia au fost recrutați prin intermediul unor panouri afișate în campus pentru un experiment de luare a deciziilor. Eșantionul a inclus 12 bărbați și 12 femei (vârsta medie 23,7 ani, SD = 1,88).

Aparatură și procedură

Pentru experiment am folosit o paradigmă de clic (Erev & Haruvy, 2013), care a constat din două butoane nemarcate și un contor de câștiguri acumulate. Fiecare selectare a uneia dintre cele două taste a fost urmată de trei evenimente imediate: o prezentare a câștigului obținut (în bold pe butonul selectat timp de 1 s), o prezentare a câștigurilor la care s-a renunțat (pe butonul neselectat timp de 1 s) și o actualizare continuă a contorului de câștiguri (adăugarea câștigului obținut la contor). Câștigurile exacte au fost o funcție a programului de întărire, a fazei și a alegerii, după cum se explică mai jos.

Participanții au fost instruiți să aleagă în mod repetat un buton pentru a-și maximiza câștigurile totale. Nu a fost livrată nicio informație prealabilă cu privire la distribuția câștigurilor. Studiul a inclus 200 de încercări, cu un interval de 1 s între încercări. Sarcina a durat aproximativ 10 min.

Design

Participanții au fost repartizați aleatoriu la una dintre cele două condiții de program de întărire: completă (n = 11) și parțială (n = 13). Fiecare participant s-a confruntat cu două faze de 100 de încercări („antrenament” și „extincție”) în cadrul unuia dintre programe și a selectat unul dintre butoane pentru fiecare încercare. Selectarea unuia dintre cele două butoane, denumită „opțiunea retrogradată”, a dus întotdeauna la o plată de opt puncte. Câștigul de plată de la butonul alternativ, denumit „opțiunea promovată”, a depins de fază și de programul de întărire, după cum urmează:

În timpul primei faze de 100 de încercări („faza de antrenament”), opțiunea promovată a dus la un câștig mediu de nouă puncte per selecție. Cele două programe au fost diferite în ceea ce privește variabilitatea câștigului în jurul acestei medii. Programul complet nu a implicat nicio variabilitate: Fiecare selecție a opțiunii promovate a adus un câștig de nouă puncte. În schimb, programul parțial a implicat o variabilitate ridicată: Alegerile opțiunii promovate au fost recompensate cu o recompensă de 17 puncte în 50 % din încercări și cu o recompensă de un punct în celelalte încercări.

A doua fază de 100 de încercări a simulat „extincția”. În timpul acestei faze, opțiunea promovată a fost remunerată cu un punct pe selecție. Astfel, opțiunea promovată a fost mai atractivă decât opțiunea retrogradată în timpul antrenamentului (medie de nouă față de opt puncte), dar mai puțin atractivă în timpul extincției (unul față de opt). Partea stângă a tabelului 1 rezumă condițiile experimentale ale Experimentului 1.

Tabel 1 Experimentul 1: Proporțiile medii observate de selectare a opțiunii promovate (P-prom), în funcție de fază și de programul de întărire. Cele două coloane din dreapta prezintă predicțiile modelelor de eșantionare contingentă (CS) și de joc fictiv (FP)

Pentru a motiva participanții, am oferit un stimulent monetar. Conversia din puncte în câștiguri efective s-a făcut în funcție de un curs de schimb în care 100 de puncte = 1,5 NIS (aproximativ 33 de cenți). Acest lucru a dus la o recompensă totală medie de 14 NIS (aproximativ 3,2 USD).

Rezultate și discuții

În partea stângă a Fig. 1 sunt prezentate proporțiile de alegere observate pentru opțiunea promovată (P-prom) în blocuri de 10 încercări în funcție de programul și faza de întărire. Tabelul 1 prezintă valorile medii. În timpul antrenamentului, P-prom a fost mai mare în cadrul programului complet (M = 0,92, SD = 0,15) decât în cadrul programului parțial (M = 0,68, SD = 0,19). Modelul opus a fost observat în timpul extincției: P-prom a fost mai mică în cadrul programului complet (M = 0,03, SD = 0,01) decât în cadrul programului parțial (M = 0,06, SD = 0,03). O analiză a varianței (ANOVA) cu măsuri repetate 2 × 2 a fost efectuată pentru a testa efectele fazei și ale programului de întărire asupra P-prom. Această analiză a evidențiat efecte principale semnificative atât pentru fază, cât și pentru program , precum și o interacțiune semnificativă între cei doi factori . Aceste rezultate sugerează că efectul negativ al întăririlor parțiale în faza de instruire și replicarea pozitivă a PREE în stingere au fost semnificative.

Fig. 1

Procentul observat și prezis de selectare a opțiunii promovate (P-prom) în blocuri de 10 încercări în funcție de condițiile programului de întărire în Experimentul 1. Extincția a început la al 11-lea bloc

Pe parcursul celor 200 de încercări, P-prom a fost semnificativ mai mare în cadrul programului complet (M = 0,48, SD = 0,08) decât în cadrul programului parțial (M = 0,36, SD = 0,11), t(22) = 2,74, p < 0,01, d = 1,17. Aceste rezultate susțin rezoluția lui Nevin și Grace (2000) cu privire la modelul PREE mixt. Efectul observat al întăririlor parțiale a fost pozitiv în etapa de tranziție, dar negativ pe parcursul tuturor încercărilor.

Ipoteza eșantionării contingente

Studiile anterioare privind deciziile din experiență au evidențiat valoarea modelelor care presupun încrederea în eșantioane mici de experiențe în situații similare. Modelele de acest tip captează condițiile care facilitează și afectează învățarea (Camilleri & Newell, 2011; Erev & Barron, 2005; Yechiam & Busemeyer, 2005) și au câștigat concursuri recente de predicție a alegerilor (Erev, Ert, & Roth, 2010). Încercarea noastră de a surprinde rezultatele prezente începe cu un membru cu un singur parametru al acestei clase de modele. Mai exact, am luat în considerare un model de eșantionare contingentă în care similaritatea a fost definită pe baza avantajului relativ al opțiunii promovate în cele mai recente m încercări (m, un număr întreg nenegativ, este parametrul liber al modelului). De exemplu, secvența G-G-G-L implică faptul că opțiunea promovată a produs o pierdere relativă (L = câștig mai mic, în raport cu opțiunea retrogradată) în ultimul proces, dar un câștig relativ (G = câștig mai mare) în cele două procese anterioare, iar cu m = 3, toate procesele care urmează imediat după această secvență sunt „similare”. Modelul presupune că decizia este luată pe baza comparării câștigurilor medii ale celor două opțiuni în toate încercările similare anterioare (și a alegerii aleatorii, înainte de a dobândi experiența relevantă).

Pentru a clarifica această logică, să luăm în considerare modelul de eșantionare contingentă cu parametrul m = 2 și să presupunem că rezultatele observate în primele nouă încercări ale condiției parțiale au furnizat secvența L-L-L-G-L-G-L-L-G-L-L-L. Adică, câștigul salarial al opțiunii promovate a fost 17 (un câștig relativ) în încercările 4 și 7 și unul (o pierdere relativă) în celelalte șapte încercări. La proba 10, agentul se confruntă cu o alegere după secvența L-L-L. Prin urmare, își va reaminti toate experiențele sale după secvențe identice (încercările 3, 4 și 7), va calcula experiența medie de la opțiunea promovată în acest set ca fiind (1 + 17 + 17 + 17)/3 = 11,67 și, deoarece câștigul mediu de la opțiunea retrogradată este de numai nouă, va selecta opțiunea promovată.

Predicțiile modelului au fost derivate folosind o simulare pe calculator în care agenți virtuali, programați să se comporte în conformitate cu ipotezele modelului, au participat la o replicare virtuală a experimentului. Două mii de simulări au fost rulate cu diferite valori m (de la 1 la 5) folosind programul SAS. În timpul simulării, am înregistrat statisticile P-prom ca în experiment.

Rezultatele au arătat că principalele modele experimentale (un efect global negativ al întăririi parțiale și un mic efect pozitiv după tranziție) au fost reproduse cu toate valorile m. Cea mai bună potrivire (distanța medie pătratică minimă între ratele P-prom observate și cele prezise) a fost găsită cu parametrul m = 4. Predicțiile cu acest parametru sunt prezentate în Tabelul 1 și în Fig. 1.

Rețineți că, cu m = 4, modelul implică dependența de eșantioane mici: Deoarece sunt posibile 16 secvențe, deciziile din timpul celor 100 de încercări de antrenament se vor baza, de obicei, pe șase sau mai puține experiențe „similare”. Acest fapt nu are niciun efect în programul complet (în care un eșantion de unu este suficient pentru a maximiza), dar conduce la abateri de la maximizare în programul parțial (deoarece unele eșantioane includ mai multe încercări „1” decât „17”). Cu toate acestea, în timpul extincției, după cel de-al patrulea proces, toate deciziile sunt luate după secvența L-L-L-L-L. În programul complet, participanții nu experimentează niciodată această secvență în timpul antrenamentului. Astfel, toate experiențele lor după această secvență îi determină să prefere opțiunea retrogradată (iar prima experiență are loc în cel de-al cincilea proces de extincție). În schimb, participanții tipici din programul parțial experimentează această secvență de șase ori în timpul antrenamentului, iar aceste experiențe îi pot determina să prefere opțiunea promovată în primele încercări ale fazei de extincție.

Inerția, generalizarea, zgomotul și memoria limitată

Prezenta abstracție a ideii de eșantionare contingentă este o variantă simplificată a abstracției care a câștigat concursul de predicție a alegerii al lui Erev, Ert și Roth (2010) (Chen, Liu, Chen, & Lee, 2011). Ipotezele care au fost excluse au fost inerția (tendința de a repeta ultima alegere), generalizarea (o anumită sensibilitate la câștigul mediu), o regulă de răspuns zgomotos și memoria limitată. Un model care includea aceste ipoteze a relevat o ușoară îmbunătățire a potrivirii în setările actuale, dar nu a schimbat predicțiile principale, agregate. Astfel, analiza de față nu exclude aceste ipoteze, ci doar arată că ele nu sunt necesare pentru a surprinde efectul agregat al întăririlor parțiale documentat aici.

Jocul fictiv și învățarea prin întărire

Pentru a clarifica relația dintre ipoteza eșantionării contingente și modelele populare de învățare, am luat în considerare, de asemenea, un model de joc fictiv neted (SFP) cu doi parametri (Fudenberg & Levine, 1999). SFP presupune că înclinația de a selecta opțiunea j la încercarea t + 1 după observarea plății v( j, t) la încercarea t este

$$$ Q\left( {j,t+1} \right)=\left( {1\text{-} w} \right)Q\left( {j,t} \right)+(w)v\left( {j,t} \right), $$

unde w este un parametru liber de ponderare și Q(j, 1) = 0. Probabilitatea de a selecta j în locul lui k la încercarea t este

$$ P\left( {j,t} \right)=1/\left( {1+{e^{{sigma}}^{{\left}}} \right), $$

unde σ este un parametru liber de intensitate a răspunsului. SFP este un exemplu de model de învățare prin întărire cu doi parametri (Erev & Haruvy, 2013). Tabelul 1 și Fig. 1 arată că acest model se potrivește cu rata de alegere agregată puțin mai bine decât modelul de eșantionare contingentă cu un singur parametru

.

Lasă un răspuns

Adresa ta de email nu va fi publicată.