A részleges-megerősítéses kihalási hatás és a contingent-sampling hipotézis

A PREE legtöbb korábbi demonstrációjában (pl. Grant, Hake, & Hornseth, 1951) a megerősített választásból várható haszon nagyobb volt a teljes, mint a részleges ütemezésben, mivel ugyanazokat a nagyságrendeket nagyobb arányban adták be. Jelen vizsgálatban ezt a zavaró tényezőt úgy kerültük el, hogy a jutalmak nagyságát úgy manipuláltuk, hogy mind a részleges, mind a teljes ütemezésben azonos összegű megerősítéseket biztosítsunk. Az 1. kísérlet elsődleges célja annak vizsgálata volt, hogy megfigyelhető-e a részleges megerősítések általános negatív hatása, még akkor is, ha ez a feltétel nem jelentett alacsonyabb összegű megerősítést.

Résztvevők

A Technion ipari mérnöki és menedzsment karának 24 egyetemi hallgatójából álló csoport szolgált fizetett résztvevőként a kísérletben. Az egyetemen kihelyezett táblákon keresztül toborozták őket egy döntéshozatali kísérlethez. A mintában 12 férfi és 12 nő volt (átlagéletkor 23,7 év, SD = 1,88).

Készülék és eljárás

A kísérlethez egy kattintásos paradigmát használtunk (Erev & Haruvy, 2013), amely két jelöletlen gombból és egy felhalmozott nyereményszámlálóból állt. A két gomb valamelyikének kiválasztását három azonnali esemény követte: az elért nyeremény bemutatása (félkövér betűvel a kiválasztott gombon 1 s-ig), az elmaradt nyeremények bemutatása (a ki nem választott gombon 1 s-ig) és a nyereményszámláló folyamatos frissítése (az elért nyeremény hozzáadása a számlálóhoz). A pontos kifizetések a megerősítési ütemterv, a fázis és a választás függvényei voltak, amint azt az alábbiakban kifejtjük.

A résztvevőket arra utasították, hogy ismételten válasszanak egy gombot, hogy maximalizálják a teljes bevételüket. A nyereményelosztásra vonatkozó előzetes információt nem adtak át. A vizsgálat 200 próbát tartalmazott, a próbák között 1 s szünettel. A feladat körülbelül 10 percig tartott.

Design

A résztvevőket véletlenszerűen osztották be a két megerősítési ütemezési feltétel egyikébe: teljes (n = 11) és részleges (n = 13). Minden résztvevő két 100 próbából álló fázissal (“képzés” és “kihalás”) szembesült az egyik ütemezés szerint, és minden egyes próbához kiválasztotta az egyik gombot. A két gomb közül az egyik gomb kiválasztása, amelyet “lefokozott opciónak” neveztek, mindig nyolc pont kifizetéséhez vezetett. Az alternatív gomb, az úgynevezett “előléptetett opció” kifizetése a fázistól és a megerősítési ütemezéstől függött, az alábbiak szerint:

A 100 kísérletből álló első fázisban (a “képzési fázis”) az előléptetett opció kiválasztásonként átlagosan kilenc pont kifizetést eredményezett. A két ütemezés különbözött az ezen átlag körüli kifizetés-variabilitás tekintetében. A teljes ütemezés nem járt variabilitással: A támogatott opció minden egyes kiválasztása kilenc pont kifizetését eredményezte. Ezzel szemben a részleges ütemezés nagyfokú változékonysággal járt: A támogatott opció választását a próbák 50 %-ában 17 pont kifizetésével, a fennmaradó próbákban pedig egy pont kifizetésével jutalmazták.

A 100 próbából álló második fázis a “kihalást” szimulálta. Ebben a fázisban az előléptetett opció választásonként egy pontot hozott. Így az előléptetett opció vonzóbb volt, mint a lefokozott opció a képzés során (átlagosan kilenc a nyolc ponthoz képest), de kevésbé vonzó volt a kihalás során (egy a nyolchoz képest). Az 1. táblázat bal oldala összefoglalja az 1. kísérlet kísérleti feltételeit.

1. táblázat 1. kísérlet: Az előléptetett opció (P-prom) választásának megfigyelt átlagos arányai a fázis és a megerősítési ütemezés függvényében. A két jobb szélső oszlop a feltételes mintavétel (CS) és a fiktív játék (FP) modellek előrejelzéseit mutatja be

A résztvevők motiválására pénzbeli ösztönzőt biztosítottunk. A pontokról a tényleges kifizetésekre történő átváltás egy olyan árfolyam szerint történt, amelyben 100 pont = 1,5 NIS (kb. 33 cent). Ez 14 NIS (kb. 3,2 dollár) átlagos teljes kifizetést eredményezett.

Eredmények és vita

Az 1. ábra bal oldala a 10 kísérletből álló blokkokban a támogatott opció (P-prom) megfigyelt választási arányait mutatja be a megerősítési ütemezés és a fázis függvényében. Az 1. táblázat az átlagértékeket mutatja be. A képzés során a P-prom magasabb volt a teljes (M = .92, SD = .15), mint a részleges (M = .68, SD = .19) ütemezés alatt. A kihalás során ellentétes mintázat volt megfigyelhető: A P-prom alacsonyabb volt a teljes (M = .03, SD = .01), mint a részleges (M = .06, SD = .03) ütemezés alatt. A fázis és a megerősítési ütemezés P-prom-ra gyakorolt hatásának vizsgálatára 2 × 2 ismételt méréses varianciaanalízist (ANOVA) végeztünk. Ez az elemzés szignifikáns főhatásokat mutatott mind a fázis, mind az ütemezés esetében, valamint szignifikáns kölcsönhatást a két tényező között. Ezek az eredmények arra utalnak, hogy a részleges megerősítések negatív hatása a képzési fázisban és a PREE pozitív megismétlődése a kihalási fázisban jelentős.

1. ábra

A támogatott opció kiválasztásának (P-prom) megfigyelt és előrejelzett aránya a 10 próbából álló blokkokban a megerősítési ütemezési feltételek függvényében az 1. kísérletben. A kihalás a 11. blokkban kezdődött

A 200 próba során a P-prom szignifikánsan magasabb volt a teljes (M = .48, SD = .08), mint a részleges (M = .36, SD = .11) ütemezésben, t(22) = 2.74, p < .01, d = 1.17. Ezek az eredmények alátámasztják Nevin és Grace (2000) feloldását a vegyes PREE mintára. A részleges megerősítések megfigyelt hatása pozitív volt az átmeneti szakaszban, de negatív volt az összes kísérletben.

A kontingens mintavételi hipotézis

A tapasztalatokból származó döntésekkel kapcsolatos korábbi tanulmányok rávilágítottak azon modellek értékére, amelyek hasonló helyzetekben szerzett tapasztalatok kis mintáira való támaszkodást feltételeznek. Az ilyen típusú modellek megragadják azokat a feltételeket, amelyek megkönnyítik és károsítják a tanulást (Camilleri & Newell, 2011; Erev & Barron, 2005; Yechiam & Busemeyer, 2005), és a közelmúltban megnyerték a választási előrejelzési versenyeket (Erev, Ert, & Roth, 2010). A jelen eredmények megragadására tett kísérletünk a modellek ezen osztályának egyparaméteres tagjával kezdődik. Konkrétan egy olyan feltételes mintavételes modellt vettünk figyelembe, amelyben a hasonlóságot a támogatott opció relatív előnye alapján határoztuk meg az m legutóbbi kísérletben (m, egy nemnegatív egész szám, a modell szabad paramétere). Például a G-G-L sorozat azt jelenti, hogy az előléptetett opció az utolsó kísérletben relatív veszteséget (L = alacsonyabb nyeremény a lefokozott opcióhoz képest), de az előző két kísérletben relatív nyereséget (G = magasabb nyeremény) eredményezett, és m = 3 esetén az ezt a sorozatot közvetlenül követő összes kísérlet “hasonló”. A modell feltételezi, hogy a döntés az összes korábbi hasonló próbában a két opció átlagos kifizetéseinek összehasonlítása alapján történik (és véletlenszerű választás, mielőtt releváns tapasztalatot szereznénk).

E logika tisztázása érdekében tekintsük a feltételes mintavételes modellt m = 2 paraméterrel, és tegyük fel, hogy a részfeltétel első kilenc próbájában megfigyelt eredmények a L-L-L-G-L-L-L-G-L-L-L szekvenciát adták. Vagyis az előléptetett opcióból származó kifizetés 17 volt (relatív nyereség) a 4. és 7. próbában, és egy (relatív veszteség) a többi hét próbában. A 10. próbában az ágens az L-L szekvencia után választás elé kerül. Ezért felidézi az azonos szekvenciák (3., 4. és 7. próba) utáni összes tapasztalatát, kiszámítja, hogy az előléptetett opcióból származó átlagos tapasztalat ebben a halmazban (1 + 17 + 17)/3 = 11,67, és mivel a lefokozott opcióból származó átlagos nyeremény csak kilenc, az előléptetett opciót fogja választani.

A modell előrejelzéseit egy számítógépes szimuláció segítségével vezették le, amelyben virtuális ágensek, akiket úgy programoztak, hogy a modell feltételezéseinek megfelelően viselkedjenek, részt vettek a kísérlet virtuális másolásában. Kétezer szimulációt futtattak le különböző m értékekkel (1-től 5-ig) a SAS program segítségével. A szimuláció során a kísérlethez hasonlóan rögzítettük a P-prom statisztikákat.

Az eredmények azt mutatták, hogy a fő kísérleti mintázatokat (a részleges megerősítés negatív általános hatása és egy kis pozitív hatás az átmenet után) minden m értékkel reprodukáltuk. A legjobb illeszkedést (minimális átlagos négyzetes távolság a megfigyelt és az előre jelzett P-prom arányok között) az m = 4 paraméterrel találtuk. Az ezzel a paraméterrel végzett előrejelzéseket az 1. táblázat és az 1. ábra mutatja be.

Megjegyezzük, hogy m = 4 esetén a modell kis mintákra való támaszkodást feltételez: Mivel 16 szekvencia lehetséges, a 100 gyakorlópróba során a döntések jellemzően hat vagy annál kevesebb “hasonló” tapasztalaton alapulnak. Ennek a ténynek nincs hatása a teljes menetrendben (amelyben egy minta elegendő a maximalizáláshoz), de a részleges menetrendben a maximalizálástól való eltérésekhez vezet (mivel egyes minták több “1”, mint “17” próbát tartalmaznak). A kihalás során azonban a negyedik próba után minden döntés az L-L-L-L-L szekvencia szerint történik. A teljes ütemezésben a résztvevők soha nem tapasztalják ezt a szekvenciát a képzés során. Így az ezt a szekvenciát követő összes tapasztalatuk arra készteti őket, hogy a lefokozott opciót részesítsék előnyben (és az első tapasztalat az ötödik kihalási próbában történik). Ezzel szemben a részleges ütemezés tipikus résztvevői hatszor tapasztalják ezt a szekvenciát a képzés során, és ezek a tapasztalatok a kihalási fázis korai próbáiban az előléptetett opció előnyben részesítésére késztethetik őket.

Telenség, általánosítás, zaj és korlátozott memória

A feltételes mintavétel ötletének jelen absztrakciója annak az absztrakciónak az egyszerűsített változata, amely megnyerte Erev, Ert és Roth (2010) választási előrejelzési versenyét (Chen, Liu, Chen, & Lee, 2011). A kizárt feltételezések a következők voltak: tehetetlenség (az utolsó választás megismétlésére való hajlam), általánosítás (bizonyos érzékenység az átlagos nyereményre), zajos válaszszabály és korlátozott memória. Az ezeket a feltételezéseket tartalmazó modell enyhe illeszkedésjavulást mutatott a jelen beállításokban, de nem változtatta meg a fő, összesített előrejelzéseket. A jelen elemzés tehát nem zárja ki ezeket a feltételezéseket, csak azt mutatja, hogy nem szükségesek a részleges megerősítések itt dokumentált aggregált hatásának megragadásához.

Fiktív játék és megerősítéses tanulás

A kontingens-mintavételi hipotézis és a népszerű tanulási modellek közötti kapcsolat tisztázása érdekében egy kétparaméteres sima fiktív játék (SFP) modellt is figyelembe vettünk (Fudenberg & Levine, 1999). Az SFP feltételezi, hogy a j opció választási hajlandósága a t + 1 próbában a t próbában a v( j, t) kifizetés megfigyelése után a t próbában

$$$ Q\left( {j,t+1} \right)=\left( {1\text{-} w} \right)Q\left( {j,t} \right)+(w)v\left( {j,t} \right), $$$

ahol w egy szabad súlyozási paraméter és Q(j, 1) = 0. A j kiválasztásának valószínűsége a k helyett a t próbánál

$$ P\left( {j,t} \right)=1/\left( {1+{e^{\sigma}}^{{\left}}} \right), $$$

ahol σ egy szabad válaszerősség paraméter. Az SFP egy példa a kétparaméteres megerősítéses tanulási modellre (Erev & Haruvy, 2013). Az 1. táblázat és az 1. ábra azt mutatja, hogy ez a modell valamivel jobban illeszkedik az összesített választási arányhoz, mint az egyparaméteres contingent-sampling modell

.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.