Der Extinktionseffekt durch partielle Verstärkung und die Contingent-Sampling-Hypothese

In den meisten früheren Demonstrationen des PREE (z.B. Grant, Hake, & Hornseth, 1951) war der erwartete Nutzen aus der verstärkten Wahl unter vollen Zeitplänen höher als unter partiellen Zeitplänen, weil die gleichen Beträge in höheren Raten verabreicht wurden. In der vorliegenden Studie haben wir diese Störung vermieden, indem wir die Größe der Belohnungen manipuliert haben, um sicherzustellen, dass sowohl bei partiellen als auch bei vollständigen Zeitplänen die gleichen Summen an Verstärkungen verabreicht werden. Das primäre Ziel von Experiment 1 war es, zu untersuchen, ob der negative Gesamteffekt von Teilverstärkungen beobachtet werden kann, auch wenn diese Bedingung keine geringere Summe an Verstärkungen impliziert.

Teilnehmer

Eine Gruppe von 24 Studenten der Fakultät für Wirtschaftsingenieurwesen am Technion diente als bezahlte Teilnehmer an dem Experiment. Sie wurden durch Aushänge auf dem Campus für ein Experiment zur Entscheidungsfindung rekrutiert. Die Stichprobe umfasste 12 Männer und 12 Frauen (Durchschnittsalter 23,7 Jahre, SD = 1,88).

Geräte und Verfahren

Für das Experiment verwendeten wir ein Klick-Paradigma (Erev & Haruvy, 2013), das aus zwei unmarkierten Tasten und einem Zähler für akkumulierte Auszahlungen bestand. Auf jede Auswahl einer der beiden Tasten folgten drei unmittelbare Ereignisse: eine Präsentation der erhaltenen Auszahlung (in Fettdruck auf der ausgewählten Taste für 1 s), eine Präsentation der entgangenen Auszahlungen (auf der nicht ausgewählten Taste für 1 s) und eine kontinuierliche Aktualisierung des Auszahlungszählers (die Addition der erhaltenen Auszahlung zum Zähler). Die genauen Auszahlungen waren eine Funktion des Verstärkungszeitplans, der Phase und der Wahl, wie unten erläutert.

Die Teilnehmer wurden angewiesen, wiederholt eine Taste zu wählen, um ihren Gesamtertrag zu maximieren. Es wurden keine vorherigen Informationen über die Verteilung des Gewinns gegeben. Die Studie umfasste 200 Versuche mit einem 1-s-Intervall zwischen den Versuchen. Die Aufgabe dauerte etwa 10 Minuten.

Design

Die Teilnehmer wurden nach dem Zufallsprinzip einer der beiden Bedingungen des Verstärkungsplans zugewiesen: vollständig (n = 11) und teilweise (n = 13). Jeder Teilnehmer durchlief zwei Phasen von 100 Versuchen („Training“ und „Extinktion“) unter einem der beiden Schemata und wählte für jeden Versuch einen der Knöpfe aus. Die Auswahl einer der beiden Schaltflächen, die als „degradierte Option“ bezeichnet wurde, führte immer zu einer Auszahlung von acht Punkten. Die Auszahlung der alternativen Schaltfläche, die als „beförderte Option“ bezeichnet wird, hing von der Phase und dem Verstärkungsschema wie folgt ab:

In der ersten Phase von 100 Versuchen (der „Trainingsphase“) ergab die beförderte Option eine durchschnittliche Auszahlung von neun Punkten pro Auswahl. Die beiden Zeitpläne unterschieden sich in Bezug auf die Variabilität der Auszahlung um diesen Mittelwert. Beim vollständigen Zeitplan gab es keine Schwankungen: Jede Auswahl der beworbenen Option brachte eine Auszahlung von neun Punkten. Im Gegensatz dazu wies der Teilplan eine hohe Variabilität auf: Die Wahl der geförderten Option wurde bei 50 % der Versuche mit einer Auszahlung von 17 Punkten belohnt, bei den restlichen Versuchen mit einer Auszahlung von einem Punkt.

Die zweite Phase mit 100 Versuchen simulierte das „Aussterben“. In dieser Phase gab es für die geförderte Option einen Punkt pro Auswahl. Somit war die beförderte Option während des Trainings attraktiver als die degradierte Option (Mittelwert von neun zu acht Punkten), aber weniger attraktiv während der Auslöschung (einer zu acht). Die linke Seite von Tabelle 1 fasst die experimentellen Bedingungen von Experiment 1 zusammen.

Tabelle 1 Experiment 1: Beobachtete mittlere Anteile der Auswahl der beförderten Option (P-prom) als Funktion der Phase und des Verstärkungsplans. Die beiden Spalten ganz rechts zeigen die Vorhersagen des Contingent-Sampling- (CS) und des Fictitious-Play- (FP) Modells

Um die Teilnehmer zu motivieren, boten wir einen monetären Anreiz. Die Umrechnung von Punkten in tatsächliche Auszahlungen erfolgte nach einem Wechselkurs, bei dem 100 Punkte = 1,5 NIS (ca. 33 Cents) entsprachen. Dies ergab eine durchschnittliche Gesamtauszahlung von 14 NIS (etwa 3,2 $).

Ergebnisse und Diskussion

Die linke Seite von Abb. 1 zeigt die beobachteten Wahlanteile für die beworbene Option (P-prom) in Blöcken von 10 Versuchen als Funktion des Verstärkungsplans und der Phase. Tabelle 1 zeigt die Mittelwerte. Während des Trainings war P-prom unter dem vollen (M = .92, SD = .15) als unter dem partiellen (M = .68, SD = .19) Plan höher. Während der Extinktion wurde das entgegengesetzte Muster beobachtet: P-prom war unter dem vollständigen (M = .03, SD = .01) als unter dem partiellen (M = .06, SD = .03) Zeitplan niedriger. Eine 2 × 2 Varianzanalyse mit wiederholten Messungen (ANOVA) wurde durchgeführt, um die Auswirkungen der Phase und des Verstärkungsplans auf P-prom zu testen. Diese Analyse ergab signifikante Haupteffekte sowohl für die Phase als auch für den Zeitplan sowie eine signifikante Interaktion zwischen den beiden Faktoren. Diese Ergebnisse deuten darauf hin, dass der negative Effekt der partiellen Verstärkungen in der Trainingsphase und die positive Replikation der PREE in der Extinktion signifikant waren.

Abb. 1

Beobachteter und vorhergesagter Anteil der Auswahl der beworbenen Option (P-prom) in Blöcken von 10 Versuchen als eine Funktion der Verstärkungszeitplanbedingungen in Experiment 1. Die Extinktion hat im 11. Block begonnen

Über die 200 Versuche hinweg war P-prom unter dem vollen (M = .48, SD = .08) als unter dem partiellen (M = .36, SD = .11) Zeitplan signifikant höher, t(22) = 2.74, p < .01, d = 1.17. Diese Ergebnisse unterstützen die Auflösung des gemischten PREE-Musters von Nevin und Grace (2000). Der beobachtete Effekt partieller Verstärkungen war in der Übergangsphase positiv, aber über alle Versuche hinweg negativ.

Die Contingent-Sampling-Hypothese

Vorangegangene Studien über Entscheidungen aufgrund von Erfahrungen haben den Wert von Modellen hervorgehoben, die auf kleinen Stichproben von Erfahrungen in ähnlichen Situationen beruhen. Modelle dieser Art erfassen die Bedingungen, die das Lernen erleichtern und beeinträchtigen (Camilleri & Newell, 2011; Erev & Barron, 2005; Yechiam & Busemeyer, 2005), und haben in jüngster Zeit Wettbewerbe zur Entscheidungsvorhersage gewonnen (Erev, Ert, & Roth, 2010). Unser Versuch, die vorliegenden Ergebnisse zu erfassen, beginnt mit einem Ein-Parameter-Modell aus dieser Klasse von Modellen. Konkret haben wir ein Contingent-Sampling-Modell betrachtet, bei dem die Ähnlichkeit auf der Grundlage des relativen Vorteils der beworbenen Option in den m letzten Versuchen definiert wurde (m, eine nichtnegative ganze Zahl, ist der freie Parameter des Modells). Die Sequenz G-G-L bedeutet beispielsweise, dass die beförderte Option im letzten Versuch einen relativen Verlust (L = geringere Auszahlung im Vergleich zur zurückgestuften Option), in den beiden vorangegangenen Versuchen jedoch einen relativen Gewinn (G = höhere Auszahlung) erbrachte, und mit m = 3 sind alle Versuche, die unmittelbar auf diese Sequenz folgen, „ähnlich“. Das Modell geht davon aus, dass die Entscheidung auf der Grundlage eines Vergleichs der durchschnittlichen Auszahlungen der beiden Optionen in allen früheren ähnlichen Versuchen (und einer zufälligen Wahl, bevor relevante Erfahrungen gesammelt wurden) getroffen wird.

Um diese Logik zu verdeutlichen, betrachten wir das Contingent-Sampling-Modell mit dem Parameter m = 2 und nehmen an, dass die beobachteten Ergebnisse in den ersten neun Versuchen der partiellen Bedingung die Sequenz L-L-L-G-L-L-G-L-L ergeben. Das bedeutet, dass die Auszahlung der beförderten Option in den Versuchen 4 und 7 17 (ein relativer Gewinn) und in den anderen sieben Versuchen 1 (ein relativer Verlust) betrug. In Versuch 10 steht der Agent vor einer Wahl nach der Sequenz L-L. Sie wird sich daher an alle ihre Erfahrungen nach identischen Sequenzen (Versuche 3, 4 und 7) erinnern, die durchschnittliche Erfahrung aus der beförderten Option in diesem Satz als (1 + 17 + 17)/3 = 11,67 berechnen und, da der durchschnittliche Gewinn aus der degradierten Option nur neun beträgt, die beförderte Option wählen.

Die Vorhersagen des Modells wurden mit Hilfe einer Computersimulation abgeleitet, bei der virtuelle Agenten, die so programmiert waren, dass sie sich gemäß den Annahmen des Modells verhielten, an einer virtuellen Nachbildung des Experiments teilnahmen. Es wurden zweitausend Simulationen mit verschiedenen m-Werten (von 1 bis 5) mit dem SAS-Programm durchgeführt. Während der Simulationen wurden die P-Prom-Statistiken wie im Experiment aufgezeichnet.

Die Ergebnisse zeigten, dass die wichtigsten experimentellen Muster (ein negativer Gesamteffekt der partiellen Verstärkung und ein kleiner positiver Effekt nach dem Übergang) mit allen m-Werten reproduziert wurden. Die beste Anpassung (minimaler mittlerer quadratischer Abstand zwischen den beobachteten und vorhergesagten P-Prom-Raten) wurde mit dem Parameter m = 4 gefunden. Die Vorhersagen mit diesem Parameter sind in Tabelle 1 und Abb. 1 dargestellt.

Bei m = 4 ist zu beachten, dass das Modell auf kleine Stichproben angewiesen ist: Da 16 Sequenzen möglich sind, werden die Entscheidungen während der 100 Trainingsversuche typischerweise auf sechs oder weniger „ähnlichen“ Erfahrungen beruhen. Diese Tatsache hat keine Auswirkungen auf den vollständigen Zeitplan (bei dem eine Stichprobe von einem Versuch zur Maximierung ausreicht), führt aber zu Abweichungen von der Maximierung im partiellen Zeitplan (da einige Stichproben mehr „1“- als „17“-Versuche enthalten). Während der Extinktion werden jedoch nach dem vierten Versuch alle Entscheidungen nach der Sequenz L-L-L-L getroffen. Im vollständigen Zeitplan erleben die Teilnehmer diese Sequenz während des Trainings nie. Daher führen alle Erfahrungen nach dieser Sequenz dazu, dass sie die degradierte Option bevorzugen (und die erste Erfahrung findet im fünften Extinktionsversuch statt). Im Gegensatz dazu erleben die typischen Teilnehmer des partiellen Zeitplans diese Sequenz sechsmal während des Trainings, und diese Erfahrungen können dazu führen, dass sie die beförderte Option in den ersten Versuchen der Extinktionsphase bevorzugen.

Trägheit, Generalisierung, Rauschen und begrenztes Gedächtnis

Die vorliegende Abstraktion der Idee des kontingenten Samplings ist eine vereinfachte Variante der Abstraktion, die den Wahlvorhersage-Wettbewerb von Erev, Ert und Roth (2010) gewann (Chen, Liu, Chen, & Lee, 2011). Die Annahmen, die ausgeschlossen wurden, waren Trägheit (eine Tendenz, die letzte Wahl zu wiederholen), Verallgemeinerung (eine gewisse Sensibilität für die mittlere Auszahlung), eine verrauschte Antwortregel und ein begrenztes Gedächtnis. Ein Modell, das diese Annahmen einschließt, zeigte eine leichte Verbesserung der Passung in den vorliegenden Einstellungen, änderte aber nicht die wichtigsten, aggregierten Vorhersagen. Die vorliegende Analyse schließt diese Annahmen also nicht aus, sondern zeigt nur, dass sie nicht notwendig sind, um den hier dokumentierten Gesamteffekt partieller Verstärkungen zu erfassen.

Fiktives Spiel und Verstärkungslernen

Um die Beziehung zwischen der Contingent-Sampling-Hypothese und gängigen Lernmodellen zu klären, haben wir auch ein Zwei-Parameter-Modell des glatten fiktiven Spiels (SFP) betrachtet (Fudenberg & Levine, 1999). SFP geht davon aus, dass die Neigung, die Option j bei Versuch t + 1 zu wählen, nachdem man die Auszahlung v( j, t) bei Versuch t beobachtet hat,

$$ Q\left( {j,t+1} \right)=\left( {1\text{-} w} \right)Q\left( {j,t} \right)+(w)v\left( {j,t} \right), $$

wobei w ein freier Gewichtungsparameter ist und Q(j, 1) = 0. Die Wahrscheinlichkeit der Auswahl von j gegenüber k bei Versuch t ist

$$ P\left( {j,t} \right)=1/\left( {1+{e^{\sigma}}^{{\left}}} \right), $$

wobei σ ein freier Antwortstärkeparameter ist. SFP ist ein Beispiel für ein Zwei-Parameter-Verstärkungslernmodell (Erev & Haruvy, 2013). Tabelle 1 und Abb. 1 zeigen, dass dieses Modell die aggregierte Wahlrate etwas besser anpasst als das einparametrige Contingent-Sampling-Modell.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.