部分強化絶滅効果と偶発サンプリング仮説

PREEの過去のほとんどの実証実験(例えばGrant, Hake, & Hornseth, 1951)では、同じ大きさのものが高い割合で投与されたため、強化された選択からの期待利益は部分スケジュールより完全スケジュールの方が高くなることが示された。 本研究では、部分スケジュールと完全スケジュールの両方で強化の合計が等しくなるように報酬の大きさを操作することで、この交絡を回避することができた。 実験1の主目的は、部分強化が強化量の減少を意味しない場合でも、部分強化の全体的な負の効果が観察されるかどうかを調べることであった

参加者

テクニオン工科大学の学部生24名が有料の実験参加者となった。 彼らはキャンパス内に掲示された意思決定に関する実験の看板で募集された。

Apparatus and procedure

実験には、2つの無印のボタンと累積ペイオフカウンターからなるクリックパラダイム(Erev & Haruvy, 2013)を使用しました。 2つのボタンのうち1つを選択するごとに、得られたペイオフの提示(選択したボタンに太字で1秒間)、見送ったペイオフの提示(非選択ボタンに1秒間)、ペイオフカウンターの連続更新(得られたペイオフのカウンターへの加算)の3つの即時イベントが続いた。 正確なペイオフは、以下に説明するように、強化スケジュール、位相、選択の関数であった。

参加者は、総収益を最大化するためにボタンを繰り返し選択するよう指示された。 ペイオフ分布に関する事前情報は提供されなかった。 試行回数は200回で、試行間隔は1秒であった。

Design

参加者は2つの強化スケジュール条件(完全強化条件(n=11)および部分強化条件(n=13))のいずれかにランダムに割り当てられた。 参加者は、いずれかの強化スケジュール条件下で100試行の2段階(「訓練」と「消滅」)に直面し、各試行でどちらかのボタンを選択した。 2つのボタンのうち1つ(「降格オプション」と呼ぶ)を選択すると、常に8点のペイオフが得られた。 100回の試行からなる第1期(「訓練期」)では、昇格オプションは1回の選択につき平均9点の報酬をもたらした。 2つのスケジュールは,この平均値付近のペイオフの変動に関して異なっていた。 全日程では,変動はない. つまり,1回の選択で9点のペイオフが得られる. これに対して,部分スケジュールでは,高い変動性があった. 8100>

100回の試行からなる第2期は、「消滅」を模擬したものである。 この段階では、昇格した選択肢は1回の選択につき1点の報酬を得た。 したがって、昇格した選択肢は訓練時には降格した選択肢よりも魅力的であったが(8点に対する9点の平均)、消滅時には魅力が減少した(8点に対する1点)。 表1 実験1:昇格選択肢を選択する割合の平均値(P-prom)を位相と強化スケジュールの関数として観察した。 右端の2列は、偶発サンプリング(CS)モデルと架空プレー(FP)モデルの予測値

参加者を動機づけるために、金銭的インセンティブを提供した。 ポイントから実際のペイオフへの換算は、100ポイント=NIS1.5(約33セント)の為替レートによって行われた。

結果と考察

図1の左側は、強化スケジュールと位相の関数として、10試行のブロックにおける促進された選択肢(P-prom)の観察された選択比率を示す。 表1はその平均値である。 訓練中、P-promは部分強化スケジュール(M = .68, SD = .19)より完全強化スケジュール(M = .92, SD = .15)の方が高かった。 消退時には、逆のパターンが観察された。 P-promは、部分的スケジュール(M = 0.06, SD = 0.03)よりも完全スケジュール(M = 0.03, SD = 0.01)の方が低かった。 2×2反復測定分散分析(ANOVA)は、P-promに対する相と強化スケジュールの効果を検証するために行われた。 この分析により,フェーズとスケジュールの両方に有意な主効果があり,2つの要因の間に有意な相互作用があることがわかった. 図1

実験1における強化スケジュール条件の関数として、10試行のブロックにおける促進選択肢の選択割合(P-prom)の観察値と予測値の比較。 200回の試行のうち、P-promは完全強化スケジュール(M=0.48、SD=0.08)の方が部分強化スケジュール(M=0.36、SD=0.11)よりも有意に高く、t(22)= 2.74, p < .01, d=1.17 でした。 これらの結果は、Nevin and Grace (2000)の混合PREEパターンの解決を支持するものである。

The contingent-sampling hypothesis

Previous studies of decision from experience has highlighted the value of model that assume reliance on small sample of experience in similar situations. この種のモデルは、学習を促進したり損なったりする条件を捉えており(Camilleri & Newell, 2011; Erev & Barron, 2005; Yechiam & Busemeyer, 2005)、最近の選択予測コンテストでも優勝している(Erev, Ert, & Roth, 2010)。 今回の結果を捉えるための我々の試みは、このクラスのモデルのうち、1パラメータモデルから始める。 具体的には、直近のm回の試行における昇格選択肢の相対的優位性に基づいて類似性を定義する偶発サンプリングモデルを考えた(mは非負の整数で、モデルの自由パラメータ)。 例えば、G-G-Lという順序は、昇格した選択肢は最後の試行では相対的に損失(L = 降格した選択肢に比べて低いペイオフ)したが、前の2つの試行では相対的に利益(G = 高いペイオフ)したことを意味し、m = 3で、この順序に続くすべての試行は「類似」していることになる。 このモデルは、過去のすべての類似の試行における2つの選択肢からの平均的なペイオフを比較することに基づいて決定されると仮定する(そして、関連する経験を得る前のランダムな選択の)

この論理を明確にするために、パラメータm = 2の偶発サンプリングモデルを考え、部分条件の最初の9試行の観察結果が、L-L-G-L-G-Lのシーケンスを提供していたと仮定します。 すなわち、昇格オプションのペイオフは、試行 4 と 7 では 17(相対的利得)、他の 7 試行では 1(相対的損失)であった。 試行 10 で、エージェントは L-L の列の後に選択を迫られる。 そのため、彼女は同じ試行(試行3、4、7)の後の経験をすべて思い出し、このセットの中で昇格した選択肢からの平均経験を(1+17+17)/3=11.67と計算し、降格した選択肢からの平均報酬は9だけなので、昇格した選択肢を選択することになる。 SASプログラムを用いてm値を変えて(1~5)2,000回のシミュレーションが行われた。 シミュレーション中、実験と同様にP-prom統計量を記録した。

その結果、主な実験パターン(部分強化の全体的な負の効果と移行後の小さな正の効果)は、全てのm値で再現されることがわかった。 最も適合度が高い(P-prom率の観測値と予測値の平均二乗距離が最小)のは、パラメータm=4であった。 このパラメータでの予測は表1と図1に示されている。

m = 4では、モデルは小さなサンプルへの依存を意味することに注意。 16個のシーケンスが可能であるため、100回の訓練試行における決定は、通常、6個以下の「類似した」経験に基づいて行われることになる。 この事実は、完全なスケジュール(1つのサンプルで最大化できる)では影響がないが、部分的なスケジュールでは最大化からの逸脱につながる(いくつかのサンプルは「17」よりも「1」の試行を多く含むため)。 しかし、消滅時には、4回目の試行以降、すべての判断がL-L-L-Lの順序で行われるようになる。 全スケジュールでは、訓練中にこの順序を経験することはない。 したがって、この配列の後の体験はすべて、降格された選択肢を好むようになる(最初の体験は5回目の絶滅試行で起こる)。 一方、部分スケジュールの典型的な参加者は、訓練中にこのシーケンスを6回経験し、これらの経験は、絶滅段階の初期の試行において、昇格した選択肢を好むように導くことができる。

Inertia, generalization, noise, and bounded memory

今回の偶発サンプリングの考えの抽象化は、Erev, Ert, and Roth(2010)の選択予測競争に勝った抽象化を単純化したものである(Chen, Liu, Chen, & Lee, 2011)(Chat is a abstracting the abstraction that won’s Choice prediction competition)。 除外された仮定は、慣性(最後の選択を繰り返す傾向)、一般化(平均ペイオフに対するいくらかの感度)、ノイズの多い反応規則、および有界記憶であった。 これらの仮定を含むモデルは、今回の設定において若干の適合性の向上を示したが、主要な、集計された予測は変わらなかった。

架空プレーと強化学習

偶発サンプリング仮説と一般的な学習モデルの関係を明らかにするために、我々は2パラメータの滑らかな架空プレー(SFP)モデル(Fudenberg & Levine, 1999)も考慮した。 SFPでは、t試行のペイオフv( j, t)を観測した後、t+1試行で選択肢jを選択する傾向は

$ Qleft( {j,t+1} \right)=Photoleft( {1text{-} w} \right)Qleft( {j,t} \right)+(w)vleft( {j,t} \right), $$

ここでwは自由加重パラメータ、Q(j,1)=0である。 試行tにおいてkよりjを選択する確率は

$ Pleft( {j,t} \right)=1/theaterft( {1+{e^{sigma}}^{theaterft}} \right), $$

ただし、σはフリー応答強度パラメータである。 SFPは、2パラメータ強化学習モデルの一例である(Erev & Haruvy, 2013)。 表1、図1より、このモデルは1パラメータ偶発サンプリングモデルよりも集計された選択率に若干適合していることがわかる

コメントを残す

メールアドレスが公開されることはありません。