L’effetto di estinzione a rinforzo parziale e l’ipotesi del campionamento contingente

Nella maggior parte delle dimostrazioni precedenti del PREE (per esempio, Grant, Hake, & Hornseth, 1951), il beneficio atteso dalla scelta rinforzata era più alto sotto programmi completi che sotto programmi parziali, perché le stesse grandezze erano somministrate a tassi più alti. Nel presente studio, abbiamo evitato questa confusione manipolando la dimensione delle ricompense per garantire somme uguali di rinforzi in entrambi i programmi parziali e completi. L’obiettivo primario dell’esperimento 1 era quello di esaminare se l’effetto negativo complessivo dei rinforzi parziali poteva essere osservato, anche quando questa condizione non implicava una somma inferiore di rinforzi.

Partecipanti

Un gruppo di 24 laureandi della Facoltà di Ingegneria Industriale e Management del Technion ha servito come partecipanti pagati all’esperimento. Sono stati reclutati tramite cartelli affissi nel campus per un esperimento sul processo decisionale. Il campione comprendeva 12 maschi e 12 femmine (età media 23,7 anni, SD = 1,88).

Apparato e procedura

Per l’esperimento abbiamo usato un paradigma di clic (Erev & Haruvy, 2013), che consisteva in due pulsanti non contrassegnati e un contatore di payoff accumulato. Ogni selezione di uno dei due tasti era seguita da tre eventi immediati: una presentazione del payoff ottenuto (in grassetto sul pulsante selezionato per 1 s), una presentazione dei payoff mancati (sul pulsante non selezionato per 1 s), e un aggiornamento continuo del contatore di payoff (l’aggiunta del payoff ottenuto al contatore). I payoff esatti erano una funzione del programma di rinforzo, della fase e della scelta, come spiegato di seguito.

I partecipanti sono stati istruiti a scegliere ripetutamente un pulsante per massimizzare i loro guadagni totali. Non è stata fornita alcuna informazione preventiva riguardo alla distribuzione del payoff. Lo studio comprendeva 200 prove, con un intervallo di 1-s tra le prove. Il compito è durato circa 10 min.

Design

I partecipanti sono stati assegnati in modo casuale a una delle due condizioni di rinforzo: completo (n = 11) e parziale (n = 13). Ogni partecipante ha affrontato due fasi di 100 prove (“addestramento” ed “estinzione”) in uno dei programmi e ha selezionato uno dei pulsanti per ogni prova. La selezione di uno dei due pulsanti, indicata come “opzione retrocessa”, ha sempre portato a un payoff di otto punti. Il payoff del pulsante alternativo, chiamato “opzione promossa”, dipendeva dalla fase e dal programma di rinforzo, come segue:

Durante la prima fase di 100 prove (la “fase di addestramento”), l’opzione promossa ha prodotto un payoff medio di nove punti per selezione. I due programmi differiscono per quanto riguarda la variabilità del payoff intorno a questa media. Il programma completo non comportava alcuna variabilità: Ogni selezione dell’opzione promossa forniva un payoff di nove punti. Al contrario, il programma parziale comportava un’alta variabilità: Le scelte dell’opzione promossa sono state premiate con un payoff di 17 punti nel 50% delle prove, e con un payoff di un punto nelle prove rimanenti.

La seconda fase di 100 prove ha simulato “l’estinzione”. Durante questa fase, l’opzione promossa rendeva un punto per ogni selezione. Così, l’opzione promossa era più attraente dell’opzione retrocessa durante l’allenamento (media di nove rispetto a otto punti), ma meno attraente durante l’estinzione (uno rispetto a otto). La parte sinistra della Tabella 1 riassume le condizioni sperimentali dell’Esperimento 1.

Tabella 1 Esperimento 1: proporzioni medie osservate di selezione dell’opzione promossa (P-prom), in funzione della fase e del programma di rinforzo. Le due colonne più a destra presentano le previsioni dei modelli contingent-sampling (CS) e fictitious-play (FP)

Per motivare i partecipanti, abbiamo fornito un incentivo monetario. La traduzione dai punti ai payoff effettivi era secondo un tasso di cambio in cui 100 punti = 1,5 NIS (circa 33 centesimi). Questo ha portato ad un payoff totale medio di NIS 14 (circa 3,2 dollari).

Risultati e discussione

La parte sinistra della Fig. 1 presenta le proporzioni di scelta osservate per l’opzione promossa (P-prom) in blocchi di 10 prove in funzione del programma di rinforzo e della fase. La tabella 1 presenta i valori medi. Durante l’addestramento, P-prom era più alta sotto il programma completo (M = .92, SD = .15) che sotto quello parziale (M = .68, SD = .19). Il modello opposto è stato osservato durante l’estinzione: P-prom era più bassa sotto il programma completo (M = .03, SD = .01) che sotto quello parziale (M = .06, SD = .03). Un’analisi della varianza (ANOVA) a misure ripetute 2 × 2 è stata condotta per testare gli effetti della fase e del programma di rinforzo su P-prom. Questa analisi ha rivelato effetti principali significativi sia per la fase che per il programma, così come una significativa interazione tra i due fattori. Questi risultati suggeriscono che l’effetto negativo dei rinforzi parziali nella fase di addestramento e la replica positiva del PREE nell’estinzione erano significativi.

Fig. 1

Proporzione osservata e prevista di selezionare l’opzione promossa (P-prom) in blocchi di 10 prove in funzione delle condizioni del programma di rinforzo nell’esperimento 1. L’estinzione è iniziata all’11° blocco

Su 200 prove, P-prom era significativamente più alta sotto il programma completo (M = .48, SD = .08) che sotto quello parziale (M = .36, SD = .11), t(22) = 2.74, p < .01, d = 1.17. Questi risultati supportano la risoluzione di Nevin e Grace (2000) del modello PREE misto. L’effetto osservato dei rinforzi parziali era positivo nella fase di transizione, ma negativo in tutte le prove.

L’ipotesi del campionamento contingente

Studi precedenti sulle decisioni dall’esperienza hanno evidenziato il valore dei modelli che assumono l’affidamento su piccoli campioni di esperienze in situazioni simili. Modelli di questo tipo catturano le condizioni che facilitano e compromettono l’apprendimento (Camilleri & Newell, 2011; Erev & Barron, 2005; Yechiam & Busemeyer, 2005), e hanno vinto recenti concorsi di previsione delle scelte (Erev, Ert, & Roth, 2010). Il nostro tentativo di catturare i presenti risultati inizia con un membro ad un parametro di questa classe di modelli. In particolare, abbiamo considerato un modello di campionamento contingente in cui la somiglianza è stata definita sulla base del vantaggio relativo dell’opzione promossa nelle m prove più recenti (m, un numero intero non negativo, è il parametro libero del modello). Per esempio, la sequenza G-G-L implica che l’opzione promossa ha prodotto una perdita relativa (L = payoff inferiore, rispetto all’opzione retrocessa) nell’ultima prova, ma un guadagno relativo (G = payoff superiore) nelle due prove precedenti, e con m = 3, tutte le prove che seguono immediatamente questa sequenza sono “simili”. Il modello presuppone che la decisione sia presa sulla base del confronto dei payoff medi delle due opzioni in tutte le prove simili passate (e della scelta casuale, prima di acquisire un’esperienza rilevante).

Per chiarire questa logica, consideriamo il modello a campionamento contingente con il parametro m = 2, e supponiamo che i risultati osservati nelle prime nove prove della condizione parziale forniscano la sequenza L-L-L-G-L-L-G-L-L. Cioè, il payoff dall’opzione promossa era 17 (un guadagno relativo) nelle prove 4 e 7, e uno (una perdita relativa) nelle altre sette prove. Alla prova 10, l’agente affronta una scelta dopo la sequenza L-L. Ricorderà quindi tutte le sue esperienze dopo sequenze identiche (prove 3, 4 e 7), calcolerà l’esperienza media dall’opzione promossa in questo insieme per essere (1 + 17 + 17)/3 = 11,67, e poiché il payoff medio dall’opzione retrocessa è solo nove, selezionerà l’opzione promossa.

Le previsioni del modello sono state derivate utilizzando una simulazione al computer in cui agenti virtuali, programmati per comportarsi in conformità con le ipotesi del modello, hanno partecipato a una replica virtuale dell’esperimento. Sono state eseguite duemila simulazioni con diversi valori di m (da 1 a 5) utilizzando il programma SAS. Durante la simulazione, abbiamo registrato le statistiche P-prom come nell’esperimento.

I risultati hanno rivelato che i principali modelli sperimentali (un effetto generale negativo del rinforzo parziale e un piccolo effetto positivo dopo la transizione) sono stati riprodotti con tutti i valori m. Il miglior adattamento (minima distanza quadratica media tra i tassi di P-prom osservati e previsti) è stato trovato con il parametro m = 4. Le previsioni con questo parametro sono presentate nella Tabella 1 e nella Fig. 1.

Si noti che con m = 4, il modello implica l’affidamento su piccoli campioni: Poiché sono possibili 16 sequenze, le decisioni durante le 100 prove di allenamento saranno tipicamente basate su sei o meno esperienze “simili”. Questo fatto non ha alcun effetto nel programma completo (in cui un campione di uno è sufficiente per massimizzare), ma porta a deviazioni dalla massimizzazione nel programma parziale (poiché alcuni campioni includono più prove “1” che “17”). Durante l’estinzione, tuttavia, dopo la quarta prova tutte le decisioni sono prese secondo la sequenza L-L-L-L. Nel programma completo, i partecipanti non sperimentano mai questa sequenza durante l’allenamento. Così, tutte le loro esperienze dopo questa sequenza li portano a preferire l’opzione retrocessa (e la prima esperienza avviene nella quinta prova di estinzione). Al contrario, i partecipanti tipici del programma parziale sperimentano questa sequenza sei volte durante l’allenamento, e queste esperienze possono portarli a preferire l’opzione promossa nelle prime prove della fase di estinzione.

Inerzia, generalizzazione, rumore e memoria limitata

La presente astrazione dell’idea del campionamento contingente è una variante semplificata dell’astrazione che ha vinto il concorso di previsione della scelta di Erev, Ert e Roth (2010) (Chen, Liu, Chen, & Lee, 2011). Le ipotesi che sono state escluse sono l’inerzia (una tendenza a ripetere l’ultima scelta), la generalizzazione (una certa sensibilità al payoff medio), una regola di risposta rumorosa e una memoria limitata. Un modello che include queste ipotesi ha rivelato un leggero miglioramento nelle impostazioni attuali, ma non ha cambiato le principali previsioni aggregate. Quindi, la presente analisi non esclude queste ipotesi, mostra solo che non sono necessarie per catturare l’effetto aggregato dei rinforzi parziali qui documentato.

Gioco fittizio e apprendimento per rinforzo

Al fine di chiarire la relazione tra l’ipotesi del campionamento contingente e i modelli di apprendimento popolari, abbiamo anche considerato un modello a due parametri smooth fictitious-play (SFP) (Fudenberg & Levine, 1999). SFP assume che la propensione a selezionare l’opzione j al trial t + 1 dopo aver osservato il payoff v( j, t) al trial t è

$$ Q\left( {j,t+1} \destra)=\sinistra( {1\testo{-} w} \destra)Q\sinistra( {j, t} \destra)+(w)v\sinistra( {j, t} \destra), $$

dove w è un parametro libero di ponderazione e Q(j, 1) = 0. La probabilità di selezionare j rispetto a k al processo t è

$$ P\left( {j,t} \destra)=1/\left( {1+{e^{\sigma}}^{\left}} \destra), $$

dove σ è un parametro libero di forza di risposta. SFP è un esempio di un modello di apprendimento per rinforzo a due parametri (Erev & Haruvy, 2013). La Tabella 1 e la Fig. 1 mostrano che questo modello si adatta al tasso di scelta aggregato leggermente meglio del modello a campionamento contingente a un parametro.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.