Osittaisen vahvistuksen sukupuuttovaikutus ja contingent-sampling-hypoteesi

Useimmissa PREE:n aikaisemmissa demonstraatioissa (esim. Grant, Hake, & Hornseth, 1951) vahvistettuun valintaan liittyvä odotettu hyöty oli suurempi täydellisissä kuin osittaisissa aikatauluissa, koska samoja suuruuksia annettiin suuremmilla määrillä. Tässä tutkimuksessa vältimme tämän sekaannuksen manipuloimalla palkkioiden kokoa, jotta varmistimme yhtäläiset vahvistussummat sekä osittaisissa että täydellisissä aikatauluissa. Kokeen 1 ensisijaisena tavoitteena oli tutkia, voidaanko osittaisten vahvistusten yleinen negatiivinen vaikutus havaita, vaikka tämä ehto ei merkitsisi pienempää vahvistusten summaa.

Osallistujat

Ryhmä 24 perustutkinto-opiskelijoita Technionin tuotantotekniikan ja johtamisen tiedekunnasta toimi maksullisina osallistujina kokeessa. Heidät rekrytoitiin ympäri kampusta asetettujen kylttien avulla päätöksentekokokeilua varten. Otokseen kuului 12 miestä ja 12 naista (keski-ikä 23.7 vuotta, SD = 1.88).

Välineistö ja menettely

Kokeessa käytimme klikkausparadigmaa (Erev & Haruvy, 2013), joka koostui kahdesta merkitsemättömästä painikkeesta ja kertyneestä voittolaskurista. Jokaista jommankumman näppäimen valintaa seurasi kolme välitöntä tapahtumaa: saadun voiton esittäminen (lihavoituna valitulla näppäimellä 1 s ajan), hylättyjen voittojen esittäminen (valitsemattomalla näppäimellä 1 s ajan) ja voittolaskurin jatkuva päivitys (saadun voiton lisääminen laskuriin). Tarkat voitot olivat vahvistusaikataulun, vaiheen ja valinnan funktio, kuten jäljempänä selitetään.

Osallistujia ohjeistettiin valitsemaan toistuvasti painike maksimoidakseen kokonaisansiot. Etukäteistietoa voittojen jakautumisesta ei annettu. Tutkimus sisälsi 200 koetta, ja kokeiden välillä oli 1 s:n väli. Tehtävä kesti noin 10 minuuttia.

Suunnittelu

Osallistujat määrättiin satunnaisesti jompaankumpaan kahdesta vahvistusaikatauluehdosta: täysi (n = 11) ja osittainen (n = 13). Kukin osallistuja kohtasi kaksi 100-kokeiden vaihetta (”harjoittelu” ja ”sammuttaminen”) yhdessä aikataulussa ja valitsi yhden painikkeista jokaiselle kokeelle. Toisen painikkeen valinta, jota kutsuttiin ”alennetuksi vaihtoehdoksi”, johti aina kahdeksan pisteen palkkaan. Vaihtoehtoisesta painikkeesta, jota kutsutaan ”ylennetyksi vaihtoehdoksi”, saatava voitto riippui vaiheesta ja vahvistusaikataulusta seuraavasti:

Ensimmäisen 100 kokeilun vaiheen aikana (”harjoitteluvaihe”) ylennetty vaihtoehto tuotti keskimäärin yhdeksän pisteen voiton valintaa kohden. Nämä kaksi aikataulua erosivat toisistaan tämän keskiarvon ympärillä olevan palkkion vaihtelun suhteen. Täydellinen aikataulu ei sisältänyt vaihtelua: Kukin valitun vaihtoehdon valinta tuotti yhdeksän pisteen voiton. Sen sijaan osittaisessa aikataulussa vaihtelu oli suurta: Edistetyn vaihtoehdon valinnat palkittiin 17 pisteen palkkiolla 50 prosentissa kokeista ja yhden pisteen palkkiolla lopuissa kokeissa.

Toisessa 100 kokeen vaiheessa simuloitiin ”sukupuuttoa”. Tämän vaiheen aikana ylennetty vaihtoehto tuotti yhden pisteen per valinta. Näin ollen ylennetty vaihtoehto oli houkuttelevampi kuin alennettu vaihtoehto harjoittelun aikana (keskimäärin yhdeksän suhteessa kahdeksaan pisteeseen), mutta vähemmän houkutteleva sukupuuttoon kuolemisen aikana (yksi suhteessa kahdeksaan). Taulukon 1 vasemmassa laidassa on yhteenveto kokeen 1 koeolosuhteista.

Taulukko 1 Koe 1: Edistetyn vaihtoehdon (P-prom) valinnan havaitut keskimääräiset osuudet vaiheen ja vahvistusaikataulun funktiona. Kahdessa oikeanpuoleisimmassa sarakkeessa esitetään ehdollisen näytteenoton (CS) ja fiktiivisen leikin (FP) mallien ennusteet

Motivoaksemme osallistujia tarjosimme rahallisen kannustimen. Pisteiden muuntaminen todellisiksi palkkioiksi tapahtui vaihtokurssin mukaan, jossa 100 pistettä = 1,5 NIS (noin 33 senttiä). Tämä johti siihen, että keskimääräinen kokonaispalkkio oli 14 NIS (noin 3,2 dollaria).

Tulokset ja keskustelu

Kuvan 1 vasemmassa laidassa esitetään edistetyn vaihtoehdon (P-prom) havaitut valintaosuudet 10 kokeen lohkoissa vahvistusaikataulun ja -vaiheen funktiona. Taulukossa 1 esitetään keskiarvot. Harjoittelun aikana P-prom oli korkeampi täydessä (M = .92, SD = .15) kuin osittaisessa (M = .68, SD = .19) aikataulussa. Sammuttamisen aikana havaittiin päinvastainen kuvio: P-prom oli pienempi täydessä (M = .03, SD = .01) kuin osittaisessa (M = .06, SD = .03) aikataulussa. 2 × 2 toistettujen mittausten varianssianalyysi (ANOVA) suoritettiin vaiheen ja vahvistusaikataulun vaikutusten testaamiseksi P-promiin. Tämä analyysi paljasti merkittävät päävaikutukset sekä vaiheelle että aikataululle sekä merkittävän vuorovaikutuksen näiden kahden tekijän välillä. Nämä tulokset viittaavat siihen, että osittaisten vahvistusten negatiivinen vaikutus harjoitteluvaiheessa ja PREE:n positiivinen toisto sammutuksessa olivat merkittäviä.

P-prom oli 200 kokeen aikana merkitsevästi korkeampi täydessä (M = .48, SD = .08) kuin osittaisessa (M = .36, SD = .11) aikataulussa, t(22) = 2.74, p < .01, d = 1.17. Nämä tulokset tukevat Nevinin ja Gracen (2000) ratkaisua sekamuotoisesta PREE-kuviosta. Osittaisten vahvistusten havaittu vaikutus oli positiivinen siirtymävaiheessa, mutta negatiivinen kaikissa kokeissa.

Kontingenttisen otannan hypoteesi

Kokemukseen perustuvia päätöksiä koskevat aiemmat tutkimukset ovat korostaneet sellaisten mallien arvoa, joissa oletetaan, että tukeudutaan pieniin näytteisiin kokemuksista samankaltaisissa tilanteissa. Tämäntyyppiset mallit vangitsevat oppimista helpottavat ja heikentävät olosuhteet (Camilleri & Newell, 2011; Erev & Barron, 2005; Yechiam & Busemeyer, 2005), ja ne ovat voittaneet viimeaikaisia valintaennustuskilpailuja (Erev, Ert, & Roth, 2010). Yrityksemme vangita nykyiset tulokset alkaa yhden parametrin jäsenellä tästä mallien luokasta. Tarkemmin sanottuna tarkastelimme contingent-sampling-mallia, jossa samankaltaisuus määriteltiin edistetyn vaihtoehdon suhteellisen edun perusteella m viimeisimmässä kokeessa (m, ei-negatiivinen kokonaisluku, on mallin vapaa parametri). Esimerkiksi sekvenssi G-G-L tarkoittaa, että ylennetty vaihtoehto tuotti suhteellista tappiota (L = pienempi voitto suhteessa alennettuun vaihtoehtoon) viimeisessä kokeessa, mutta suhteellista voittoa (G = suurempi voitto) kahdessa edellisessä kokeessa, ja kun m = 3, kaikki tätä sekvenssiä välittömästi seuraavat kokeet ovat ”samanlaisia”. Mallissa oletetaan, että päätös tehdään vertailemalla kahden vaihtoehdon keskimääräisiä voittoja kaikissa aikaisemmissa samanlaisissa kokeissa (ja sattumanvaraisen valinnan perusteella, ennen merkityksellisen kokemuksen hankkimista).

Tämän logiikan selventämiseksi tarkastellaan contingent-sampling -mallia parametrilla m = 2 ja oletetaan, että havaitut tulokset osittaisehdon yhdeksässä ensimmäisessä kokeessa antoivat sekvenssin L-L-L-G-L-L-L-L-L-L-L. Toisin sanoen edistetyn vaihtoehdon voitto oli 17 (suhteellinen voitto) kokeissa 4 ja 7 ja yksi (suhteellinen tappio) muissa seitsemässä kokeessa. Kokeessa 10 agentti joutuu valitsemaan sekvenssin L-L jälkeen. Hän siis palauttaa mieleen kaikki identtisten sekvenssien (kokeet 3, 4 ja 7) jälkeiset kokemuksensa, laskee, että keskimääräinen kokemus ylennetystä vaihtoehdosta tässä joukossa on (1 + 17 + 17)/3 = 11,67, ja koska keskimääräinen voitto alennetusta vaihtoehdosta on vain yhdeksän, hän valitsee ylennetyn vaihtoehdon.

Mallin ennusteet johdettiin tietokonesimulaatiolla, jossa virtuaaliset agentit, jotka oli ohjelmoitu käyttäytymään mallin oletusten mukaisesti, osallistuivat kokeen virtuaaliseen toistoon. Kaksi tuhatta simulaatiota ajettiin eri m-arvoilla (1-5) SAS-ohjelman avulla. Simulaation aikana kirjattiin P-prom-tilastot kuten kokeessa.

Tulokset osoittivat, että kokeelliset päämallit (osittaisen vahvistamisen negatiivinen kokonaisvaikutus ja pieni positiivinen vaikutus siirtymisen jälkeen) toistettiin kaikilla m-arvoilla. Paras sovitus (havaittujen ja ennustettujen P-prom-asteiden välinen pienin keskimääräinen neliöero) löytyi parametrilla m = 4. Ennusteet tällä parametrilla on esitetty taulukossa 1 ja kuvassa 1.

Huomaa, että m = 4:llä malli perustuu pieniin otoksiin: Koska 16 sekvenssiä on mahdollista, 100 harjoituskokeen aikana tehdyt päätökset perustuvat tyypillisesti kuuteen tai harvempaan ”samanlaiseen” kokemukseen. Tällä seikalla ei ole vaikutusta täydessä aikataulussa (jossa yhden otoksen otos riittää maksimointiin), mutta se johtaa poikkeamiin maksimoinnista osittaisessa aikataulussa (koska joissakin otoksissa on enemmän ”1” kuin ”17” -kokeita). Sammutuksen aikana neljännen kokeen jälkeen kaikki päätökset tehdään kuitenkin sekvenssin L-L-L-L jälkeen. Täydellisessä aikataulussa osallistujat eivät koskaan koe tätä sekvenssiä harjoittelun aikana. Näin ollen kaikki heidän kokemuksensa tämän sekvenssin jälkeen johtavat siihen, että he suosivat alennettua vaihtoehtoa (ja ensimmäinen kokemus tapahtuu viidennessä sukupuuttokokeessa). Sitä vastoin osittaisen aikataulun tyypilliset osallistujat kokevat tämän sekvenssin kuusi kertaa harjoittelun aikana, ja nämä kokemukset voivat johtaa heidät suosimaan ylennettyä vaihtoehtoa sammutusvaiheen ensimmäisissä kokeissa.

Inertia, yleistäminen, kohina ja rajattu muisti

Nykyinen abstraktio contingent-sampling-ideasta on yksinkertaistettu muunnelma abstraktiosta, joka voitti Erevin, Ertin ja Rothin (2010) valintaennustuskilpailun (Chen, Liu, Chen, & Lee, 2011). Poissuljetut oletukset olivat inertia (taipumus toistaa viimeisin valinta), yleistyminen (jonkinlainen herkkyys keskimääräiselle voitolle), kohinainen vastaussääntö ja rajattu muisti. Malli, joka sisälsi nämä oletukset, osoitti lievää sopivuusparannusta nykyisissä asetuksissa, mutta ei muuttanut tärkeimpiä, yhteenlaskettuja ennusteita. Näin ollen tämä analyysi ei sulje pois näitä oletuksia, se vain osoittaa, että ne eivät ole välttämättömiä tässä dokumentoidun osittaisten vahvistusten aggregaattivaikutuksen vangitsemiseksi.

Fiktiivinen leikki ja vahvistusoppiminen

Kontingenttisen näytteenottohypoteesin ja suosittujen oppimismallien välisten suhteiden selventämiseksi tarkastelimme myös kaksiparametrista sileää fiktiivistä leikkiä (smooth fictitious-play, SFP) -mallia (Fudenberg & Levine, 1999). SFP:ssä oletetaan, että taipumus valita vaihtoehto j kokeessa t + 1 havaittuaan voiton v( j, t) kokeessa t on

$$$ Q\left( {j,t+1} \right)=\left( {1\text{-} w} \right)Q\left( {j,t} \right)+(w)v\left( {j,t} \right), $$

jossa w on vapaa painotusparametri ja Q(j, 1) = 0. Todennäköisyys valita j yli k:n kokeessa t on

$$$ P\left( {j,t} \right)=1/\left( {1+{e^{\sigma}}^{\left}}} \right), $$$

jossa σ on vapaa vasteen vahvuusparametri. SFP on esimerkki kahden parametrin vahvistusoppimismallista (Erev & Haruvy, 2013). Taulukko 1 ja kuvio 1 osoittavat, että tämä malli sopii yhteenlaskettuun valintamäärään hieman paremmin kuin yksiparametrinen contingent-sampling-malli.

Arquidia Mantina