O efeito de extinção do reforço parcial e a hipótese de amostragem contingente

Na maioria das demonstrações anteriores do PREE (por exemplo, Grant, Hake, & Hornseth, 1951), o benefício esperado da escolha reforçada foi maior sob esquemas completos do que sob esquemas parciais, porque as mesmas magnitudes foram administradas a taxas mais elevadas. No presente estudo, evitámos esta confusão manipulando o tamanho das recompensas para garantir somas iguais de reforços tanto sob esquemas parciais como sob esquemas completos. O objetivo principal da Experiência 1 foi examinar se o efeito negativo geral dos reforços parciais podia ser observado, mesmo quando esta condição não implicava uma soma menor de reforços.

Participantes

Um grupo de 24 graduados da Faculdade de Engenharia e Gestão Industrial da Technion serviram como participantes pagos na experiência. Eles foram recrutados através de cartazes afixados no campus para uma experiência na tomada de decisões. A amostra incluiu 12 homens e 12 mulheres (idade média de 23,7 anos, SD = 1,88).

Apparatus and procedure

Para o experimento usamos um paradigma de clique (Erev & Haruvy, 2013), que consistia de dois botões não marcados e um contador de pagamento acumulado. Cada seleção de uma das duas chaves foi seguida por três eventos imediatos: uma apresentação do payoff obtido (em negrito no botão selecionado durante 1 s), uma apresentação dos payoffs antecipados (no botão não selecionado durante 1 s), e uma atualização contínua do contador de payoff (a adição do payoff obtido ao contador). Os payoffs exatos foram função do cronograma de reforço, da fase e da escolha, como explicado abaixo.

Os participantes foram instruídos a escolher repetidamente um botão a fim de maximizar seus ganhos totais. Nenhuma informação prévia sobre a distribuição dos payoffs foi entregue. O estudo incluiu 200 testes, com um intervalo de 1-s entre os testes. A tarefa durou aproximadamente 10 min.

Design

Os participantes foram designados aleatoriamente para uma das duas condições do cronograma de reforço: total (n = 11) e parcial (n = 13). Cada participante enfrentou duas fases de 100 ensaios (“treinamento” e “extinção”) sob uma das programações e selecionou um dos botões para cada ensaio. Uma seleção de um dos dois botões, chamada de “opção rebaixada”, sempre levou a um payoff de oito pontos. O payoff do botão alternativo, referido como “opção promovida”, dependia da fase e do cronograma de reforço, da seguinte forma:

Durante a primeira fase de 100 tentativas (a “fase de treinamento”), a opção promovida rendeu um payoff médio de nove pontos por seleção. Os dois cronogramas diferiram em relação à variabilidade do payoff em torno desta média. O cronograma completo não envolveu variabilidade: Cada selecção da opção promovida proporcionou um payoff de nove pontos. Em contraste, o cronograma parcial envolveu alta variabilidade: As escolhas da opção promovida foram recompensadas com um payoff de 17 pontos em 50 % das tentativas, e com um payoff de um ponto nas restantes tentativas.

A segunda fase de 100 tentativas simulou a “extinção”. Durante esta fase, a opção promovida rendeu um ponto por selecção. Assim, a opção promovida foi mais atrativa do que a opção despromotivada durante o treinamento (média de nove em relação a oito pontos), mas menos atrativa durante a extinção (um em relação a oito). O lado esquerdo da Tabela 1 resume as condições experimentais da Experiência 1.

Table 1 Experimento 1: Proporções médias observadas na seleção da opção promovida (P-prom), em função da fase e do cronograma de reforço. As duas colunas mais à direita apresentam as previsões dos modelos de amostragem contingente (CS) e fictício-play (FP)

>

Para motivar os participantes, fornecemos um incentivo monetário. A tradução de pontos para payoffs reais foi de acordo com uma taxa de câmbio na qual 100 pontos = NIS 1,5 (cerca de 33 centavos). Isso resultou em um payoff total médio de NIS 14 (cerca de $3,2).

Resultados e discussão

O lado esquerdo da Fig. 1 apresenta as proporções de escolha observadas para a opção promovida (P-prom) em blocos de 10 tentativas, em função do cronograma e fase de reforço. A Tabela 1 apresenta os valores médios. Durante o treinamento, P-prom foi maior sob o programa completo (M = .92, SD = .15) do que sob o programa parcial (M = .68, SD = .19). O padrão oposto foi observado durante a extinção: P-prom foi menor na programação completa (M = .03, SD = .01) do que na parcial (M = .06, SD = .03). Foi realizada uma análise de variância de 2 × 2 medidas repetidas (ANOVA) para testar os efeitos da fase e do cronograma de reforço sobre o P-prom. Esta análise revelou efeitos principais significativos tanto para a fase como para o cronograma, assim como uma interação significativa entre os dois fatores . Estes resultados sugerem que o efeito negativo dos reforços parciais na fase de treinamento e a replicação positiva do PREE em extinção foram significativos.

Fig. 1

Observado e proporção prevista de seleção da opção promovida (P-prom) em blocos de 10 ensaios em função das condições do cronograma de reforço na Experiência 1. A Extinção começou no 11º bloco

Acima das 200 tentativas, P-prom foi significativamente maior sob o cronograma completo (M = .48, SD = .08) do que sob o cronograma parcial (M = .36, SD = .11), t(22) = 2,74, p < .01, d = 1,17. Estes resultados suportam a resolução de Nevin e Grace (2000) do padrão PREE misto. O efeito observado dos reforços parciais foi positivo na fase de transição, mas negativo em todos os ensaios.

A hipótese de amostragem contingente

Estudos anteriores de decisões a partir da experiência destacaram o valor de modelos que assumem a dependência de pequenas amostras de experiências em situações semelhantes. Modelos deste tipo capturam as condições que facilitam e prejudicam a aprendizagem (Camilleri & Newell, 2011; Erev & Barron, 2005; Yechiam & Busemeyer, 2005), e ganharam concursos de previsão de escolha recentes (Erev, Ert, & Roth, 2010). Nossa tentativa de capturar os resultados atuais começa com um membro de um parâmetro desta classe de modelos. Especificamente, consideramos um modelo de amostragem contingente no qual a semelhança foi definida com base na vantagem relativa da opção promovida nas m provas mais recentes (m, um inteiro não-negativo, é o parâmetro livre do modelo). Por exemplo, a seqüência G-G-L implica que a opção promovida produziu uma perda relativa (L = menor payoff, em relação à opção despromovida) na última tentativa, mas um ganho relativo (G = maior payoff) nas duas tentativas anteriores, e com m = 3, todas as tentativas que seguem imediatamente esta seqüência são “similares”. O modelo assume que a decisão é tomada com base na comparação dos payoffs médios das duas opções em todas as experiências anteriores semelhantes (e de escolha aleatória, antes de ganhar experiência relevante).

Para esclarecer esta lógica, considere o modelo de amostragem contingente com o parâmetro m = 2, e assuma que os resultados observados nas nove primeiras experiências da condição parcial proporcionaram a seqüência L-L-L-G-L-L-G-L-L. Ou seja, o payoff da opção promovida foi de 17 (um ganho relativo) nas provas 4 e 7, e um (uma perda relativa) nas outras sete provas. Na Prova 10, o agente enfrenta uma escolha após a seqüência L-L. Portanto, ela irá se lembrar de todas as suas experiências após sequências idênticas (Testes 3, 4 e 7), computar a experiência média da opção promovida neste conjunto para ser (1 + 17 + 17)/3 = 11,67, e como o payoff médio da opção promovida é de apenas nove, irá selecionar a opção promovida.

As previsões do modelo foram derivadas usando uma simulação em computador na qual agentes virtuais, programados para se comportar de acordo com as suposições do modelo, participaram de uma replicação virtual do experimento. Duas mil simulações foram executadas com diferentes m valores (de 1 a 5) usando o programa SAS. Durante a simulação, registramos a estatística P-prom como no experimento.

Os resultados revelaram que os principais padrões experimentais (um efeito global negativo de reforço parcial e um pequeno efeito positivo após a transição) foram reproduzidos com todos os m valores. O melhor ajuste (distância média quadrática mínima entre as taxas de P-prom observadas e previstas) foi encontrado com o parâmetro m = 4. As previsões com este parâmetro são apresentadas na Tabela 1 e Fig. 1.

Nota que com m = 4, o modelo implica confiança em amostras pequenas: Como são possíveis 16 sequências, as decisões durante os 100 ensaios de treino serão tipicamente baseadas em seis ou menos experiências “semelhantes”. Este fato não tem efeito no cronograma completo (no qual uma amostra de uma é suficiente para maximizar), mas leva a desvios da maximização no cronograma parcial (já que algumas amostras incluem mais “1” do que “17” ensaios). Durante a extinção, porém, após o quarto ensaio, todas as decisões são tomadas após a seqüência L-L-L-L-L. Na programação completa, os participantes nunca experimentam esta sequência durante o treinamento. Assim, todas as suas experiências após esta sequência levam-nos a preferir a opção rebaixada (e a primeira experiência ocorre no quinto ensaio de extinção). Em contraste, os participantes típicos da programação parcial experimentam esta sequência seis vezes durante o treinamento, e estas experiências podem levá-los a preferir a opção promovida nas primeiras experiências da fase de extinção.

Inércia, generalização, ruído e memória limitada

A presente abstração da idéia de amostragem contingente é uma variante simplificada da abstração que ganhou a competição de predição de escolha de Erev, Ert e Roth (2010) (Chen, Liu, Chen, & Lee, 2011). Os pressupostos que foram excluídos foram a inércia (uma tendência a repetir a última escolha), generalização (alguma sensibilidade ao payoff médio), uma regra de resposta ruidosa, e memória limitada. Um modelo que incluía estes pressupostos revelou uma ligeira melhoria nos cenários actuais, mas não alterou as previsões principais, agregadas. Assim, a presente análise não exclui essas suposições, apenas mostra que elas não são necessárias para capturar o efeito agregado dos reforços parciais aqui documentados.

Fictitious play and reinforcement learning

A fim de esclarecer a relação entre a hipótese de amostragem contingente e os modelos populares de aprendizagem, também consideramos um modelo de fictício de dois parâmetros (SFP) (Fudenberg & Levine, 1999). SFP assume que a propensão para selecionar a opção j no julgamento t + 1 após observar o payoff v( j, t) no julgamento t é

$$ Q\esquerda( {j,t+1}direita)=esquerda( {1}texto{-} w}direita)Q=esquerda( {j,t}direita)+(w)v=esquerda( {j,t}direita), $$

onde w é um parâmetro de ponderação livre e Q(j, 1) = 0. A probabilidade de selecionar j sobre k na tentativa t é

$ P\esquerda( {j,t} \direita)=1/esquerda( {1+{e^{\sigma}}^{{{esquerda}} \direita), $$

onde σ é um parâmetro de força de resposta livre. SFP é um exemplo de um modelo de aprendizagem de reforço de dois parâmetros (Erev & Haruvy, 2013). A Tabela 1 e a Fig. 1 mostram que este modelo se ajusta à taxa de escolha agregada ligeiramente melhor que o modelo de amostragem contingente de um parâmetro.

Deixe uma resposta

O seu endereço de email não será publicado.