Efekt vyhasínání s částečným posílením a hypotéza kontingenčního výběru

Ve většině předchozích demonstrací PREE (např. Grant, Hake, & Hornseth, 1951) byl očekávaný přínos z posílené volby vyšší při plném než při částečném rozvrhu, protože stejné velikosti byly podávány ve vyšší míře. V této studii jsme se tomuto zmatku vyhnuli manipulací s velikostí odměn, abychom zajistili stejné součty posílení v rámci částečných i plných rozvrhů. Hlavním cílem experimentu 1 bylo zjistit, zda lze pozorovat celkový negativní účinek částečných posil, i když tento stav neznamenal nižší součet posil.

Účastníci

Skupina 24 vysokoškoláků z Fakulty průmyslového inženýrství a managementu na Technionu sloužila jako placení účastníci experimentu. Byli rekrutováni prostřednictvím cedulí vyvěšených po kampusu pro experiment v oblasti rozhodování. Vzorek zahrnoval 12 mužů a 12 žen (průměrný věk 23,7 let, SD = 1,88).

Aparatura a postup

Pro experiment jsme použili klikací paradigma (Erev & Haruvy, 2013), které se skládalo ze dvou neoznačených tlačítek a počítadla kumulovaných výplat. Po každém výběru jednoho ze dvou tlačítek následovaly tři bezprostřední události: prezentace získané výplaty (tučně na vybraném tlačítku po dobu 1 s), prezentace ušlých výplat (na nevybraném tlačítku po dobu 1 s) a průběžná aktualizace počítadla výplat (přičtení získané výplaty k počítadlu). Přesné výplaty byly funkcí plánu posilování, fáze a volby, jak je vysvětleno níže.

Účastníci byli instruováni, aby opakovaně volili tlačítko s cílem maximalizovat svůj celkový výdělek. Nebyly jim dodány žádné předchozí informace týkající se rozdělení výplat. Studie zahrnovala 200 pokusů s intervalem 1 s mezi pokusy. Úkol trval přibližně 10 min.

Design

Účastníci byli náhodně zařazeni do jedné ze dvou podmínek rozvrhu posilování: plného (n = 11) a částečného (n = 13). Každý účastník čelil dvěma fázím po 100 pokusech („trénink“ a „vymírání“) v rámci jednoho z plánů a pro každý pokus si vybral jedno z tlačítek. Výběr jednoho ze dvou tlačítek, označovaný jako „demotivovaná možnost“, vedl vždy k výplatě osmi bodů. Výplata z alternativního tlačítka, označovaného jako „povýšená možnost“, závisela na fázi a plánu posilování takto:

V první fázi 100 pokusů („tréninková fáze“) vedla povýšená možnost k průměrné výplatě devíti bodů za výběr. Oba rozvrhy se lišily s ohledem na variabilitu výplat kolem tohoto průměru. Úplný rozvrh nezahrnoval žádnou variabilitu: Každý výběr propagované možnosti přinesl výplatu devíti bodů. Naproti tomu u částečného rozvrhu byla variabilita vysoká:

Druhá fáze 100 pokusů simulovala „vymírání“. Během této fáze přinášela propagovaná možnost jeden bod za výběr. Během tréninku byla tedy povýšená možnost atraktivnější než možnost degradovaná (průměr devíti bodů oproti osmi), ale během vymírání byla méně atraktivní (jeden bod oproti osmi). Levá strana tabulky 1 shrnuje experimentální podmínky experimentu 1.

Tabulka 1 Experiment 1: Pozorované průměrné podíly výběru povýšené možnosti (P-prom) v závislosti na fázi a plánu posilování. Dva krajní pravé sloupce představují předpovědi modelů kontingenčního výběru (CS) a fiktivní hry (FP)

Pro motivaci účastníků jsme poskytli peněžní pobídku. Přepočet z bodů na skutečné odměny byl podle směnného kurzu, v němž 100 bodů = 1,5 NIS (asi 33 centů). Výsledkem byla průměrná celková výplata ve výši 14 NIS (asi 3,2 USD).

Výsledky a diskuse

Vlevo na obr. 1 jsou uvedeny pozorované podíly volby propagované možnosti (P-prom) v blocích po 10 pokusech v závislosti na plánu a fázi posilování. V tabulce 1 jsou uvedeny průměrné hodnoty. Během tréninku byla hodnota P-prom vyšší při plném (M = ,92, SD = ,15) než při částečném (M = ,68, SD = ,19) plánu. Opačný průběh byl pozorován během extinkce: P-prom byl nižší při plném (M = 0,03, SD = 0,01) než při částečném (M = 0,06, SD = 0,03) plánu. K testování vlivu fáze a plánu posilování na P-prom byla provedena analýza rozptylu s opakovanými měřeními 2 × 2 (ANOVA). Tato analýza odhalila významné hlavní účinky pro fázi i plán , stejně jako významnou interakci mezi oběma faktory. Tyto výsledky naznačují, že negativní vliv částečného posilování v tréninkové fázi a pozitivní replikace PREE při vyhasínání byly významné.

Obr. 1

Pozorovaný a předpokládaný podíl volby propagované možnosti (P-prom) v blocích po 10 pokusech v závislosti na podmínkách rozvrhu posilování v experimentu 1 . Extinkce začala v 11. bloku

V průběhu 200 pokusů byl P-prom významně vyšší při plném (M = ,48, SD = ,08) než při částečném (M = ,36, SD = ,11) plánu, t(22) = 2,74, p < ,01, d = 1,17. Tyto výsledky podporují řešení smíšeného vzorce PREE podle Nevina a Grace (2000). Pozorovaný účinek částečného posílení byl pozitivní ve fázi přechodu, ale negativní ve všech pokusech.

Hypotéza kontingenčního výběru

Předchozí studie rozhodování na základě zkušeností zdůraznily hodnotu modelů, které předpokládají spoléhání na malé vzorky zkušeností v podobných situacích. Modely tohoto typu zachycují podmínky, které usnadňují a zhoršují učení (Camilleri & Newell, 2011; Erev & Barron, 2005; Yechiam & Busemeyer, 2005), a zvítězily v nedávných soutěžích v předvídání volby (Erev, Ert, & Roth, 2010). Náš pokus o zachycení současných výsledků začíná jednoparametrovým členem této třídy modelů. Konkrétně jsme uvažovali model kontingenčního výběru, v němž byla podobnost definována na základě relativní výhody propagované možnosti v m posledních pokusech (m, nezáporné celé číslo, je volný parametr modelu). Například posloupnost G-G-L znamená, že povýšená možnost přinesla v posledním pokusu relativní ztrátu (L = nižší výplata ve srovnání s degradovanou možností), ale v předchozích dvou pokusech relativní zisk (G = vyšší výplata), a při m = 3 jsou všechny pokusy, které bezprostředně následují po této posloupnosti, „podobné“. Model předpokládá, že rozhodnutí je učiněno na základě porovnání průměrných výplat z obou možností ve všech předchozích podobných pokusech (a náhodné volby, před získáním relevantních zkušeností).

Pro objasnění této logiky uvažujme model kontingenčního výběru s parametrem m = 2 a předpokládejme, že pozorované výsledky v prvních devíti pokusech dílčí podmínky poskytly posloupnost L-L-L-G-L-L-G-L-L. To znamená, že výplata z podporované možnosti byla 17 (relativní zisk) v pokusech 4 a 7 a jedna (relativní ztráta) v ostatních sedmi pokusech. V pokusu 10 stojí agent před volbou po sekvenci L-L. Vzpomene si tedy na všechny své zkušenosti po stejných sekvencích (pokusy 3, 4 a 7), vypočítá průměrnou zkušenost z povýšené možnosti v tomto souboru jako (1 + 17 + 17)/3 = 11,67, a protože průměrná výhra z degradované možnosti je pouze devět, zvolí povýšenou možnost.

Předpovědi modelu byly odvozeny pomocí počítačové simulace, v níž se virtuální agenti naprogramovaní tak, aby se chovali v souladu s předpoklady modelu, účastnili virtuální replikace experimentu. Pomocí programu SAS bylo provedeno dva tisíce simulací s různými hodnotami m (od 1 do 5). Během simulace jsme zaznamenávali statistiky P-prom jako v experimentu.

Výsledky ukázaly, že hlavní experimentální vzorce (negativní celkový účinek částečného posílení a malý pozitivní účinek po přechodu) byly reprodukovány při všech hodnotách m. V průběhu simulace jsme zaznamenávali statistiky P-prom jako v experimentu. Nejlepší shoda (minimální střední kvadratická vzdálenost mezi pozorovanou a předpovídanou mírou P-prom) byla nalezena s parametrem m = 4. Předpovědi s tímto parametrem jsou uvedeny v tabulce 1 a na obr. 1.

Všimněte si, že při m = 4 model předpokládá závislost na malých vzorcích: Vzhledem k tomu, že je možných 16 sekvencí, budou rozhodnutí během 100 tréninkových pokusů obvykle založena na šesti nebo méně „podobných“ zkušenostech. Tato skutečnost nemá žádný vliv v plném rozvrhu (v němž k maximalizaci stačí vzorek o velikosti 1), ale vede k odchylkám od maximalizace v částečném rozvrhu (protože některé vzorky obsahují více pokusů „1“ než „17“). Při vymírání se však po čtvrtém pokusu všechna rozhodnutí provádějí podle posloupnosti L-L-L-L. V úplném rozvrhu se účastníci s touto sekvencí během tréninku nikdy nesetkají. Všechny jejich zkušenosti po této sekvenci je tedy vedou k upřednostnění degradované možnosti (a k první zkušenosti dochází v pátém extinkčním pokusu). Naproti tomu typičtí účastníci v částečném rozvrhu zažijí tuto sekvenci během tréninku šestkrát a tyto zkušenosti je mohou vést k tomu, že v prvních pokusech fáze vymírání upřednostní povýšenou možnost.

Inertia, generalizace, šum a omezená paměť

Předkládaná abstrakce myšlenky kontingenčního výběru je zjednodušenou variantou abstrakce, která zvítězila v soutěži Ereva, Erta a Rotha (2010) v předvídání volby (Chen, Liu, Chen, & Lee, 2011). Předpoklady, které byly vyloučeny, byly setrvačnost (tendence opakovat poslední volbu), zobecnění (určitá citlivost na průměrnou výplatu), pravidlo šumové odpovědi a omezená paměť. Model zahrnující tyto předpoklady odhalil mírné zlepšení shody v současných nastaveních, ale nezměnil hlavní, souhrnné předpovědi. Současná analýza tedy tyto předpoklady nevylučuje, pouze ukazuje, že nejsou nutné k zachycení zde zdokumentovaného souhrnného účinku částečného posilování.

Fiktivní hra a učení posilováním

Abychom objasnili vztah mezi hypotézou kontingenčního výběru a populárními modely učení, zvažovali jsme také dvouparametrový model hladké fiktivní hry (SFP) (Fudenberg & Levine, 1999). SFP předpokládá, že sklon k výběru možnosti j při pokusu t + 1 po pozorování výplaty v( j, t) při pokusu t je

$$ Q\left( {j,t+1} \right)=\left( {1\text{-} w} \right)Q\left( {j,t} \right)+(w)v\left( {j,t} \right), $$

kde w je volný váhový parametr a Q(j, 1) = 0. Pravděpodobnost výběru j místo k při pokusu t je

$$ P\left( {j,t} \right)=1/\left( {1+{e^{\sigma}}^{{\left}}} \right), $$

kde σ je volný parametr síly odpovědi. SFP je příkladem dvouparametrického modelu učení s posílením (Erev & Haruvy, 2013). Tabulka 1 a obr. 1 ukazují, že tento model odpovídá souhrnné míře volby o něco lépe než jednoparametrický model kontingenčního výběru

.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.