En la mayoría de las demostraciones anteriores del PREE (por ejemplo, Grant, Hake, & Hornseth, 1951), el beneficio esperado de la elección reforzada era mayor bajo los esquemas completos que bajo los parciales, porque las mismas magnitudes se administraban a tasas más altas. En el presente estudio, evitamos esta confusión manipulando el tamaño de las recompensas para asegurar sumas iguales de refuerzos tanto en los esquemas parciales como en los completos. El objetivo principal del Experimento 1 era examinar si se podía observar el efecto negativo general de los refuerzos parciales, incluso cuando esta condición no implicaba una menor suma de refuerzos.
Participantes
Un grupo de 24 estudiantes universitarios de la Facultad de Ingeniería Industrial y Gestión del Technion sirvieron como participantes pagados en el experimento. Fueron reclutados a través de carteles colocados en el campus para un experimento de toma de decisiones. La muestra incluía 12 hombres y 12 mujeres (edad media de 23,7 años, SD = 1,88).
Aparato y procedimiento
Para el experimento se utilizó un paradigma de clics (Erev & Haruvy, 2013), que consistía en dos botones no marcados y un contador de pagos acumulados. Cada selección de una de las dos teclas iba seguida de tres eventos inmediatos: una presentación del pago obtenido (en negrita en el botón seleccionado durante 1 s), una presentación de los pagos perdidos (en el botón no seleccionado durante 1 s), y una actualización continua del contador de pagos (la adición del pago obtenido al contador). Los resultados exactos eran una función del programa de refuerzo, la fase y la elección, como se explica a continuación.
Los participantes fueron instruidos para elegir repetidamente un botón con el fin de maximizar sus ganancias totales. No se entregó ninguna información previa sobre la distribución de la recompensa. El estudio incluyó 200 ensayos, con un intervalo de 1 s entre ensayos. La tarea duró aproximadamente 10 minutos.
Diseño
Los participantes fueron asignados aleatoriamente a una de las dos condiciones del programa de refuerzo: completo (n = 11) y parcial (n = 13). Cada participante se enfrentó a dos fases de 100 ensayos («entrenamiento» y «extinción») bajo uno de los esquemas y seleccionó uno de los botones para cada ensayo. La selección de uno de los dos botones, denominada «opción degradada», siempre conducía a una recompensa de ocho puntos. La recompensa del botón alternativo, denominado «opción promovida», dependía de la fase y del programa de refuerzo, como sigue:
Durante la primera fase de 100 ensayos (la «fase de entrenamiento»), la opción promovida produjo una recompensa media de nueve puntos por selección. Los dos calendarios difieren en cuanto a la variabilidad de la retribución en torno a esta media. El programa completo no presentaba ninguna variabilidad: Cada selección de la opción promocionada proporcionaba una recompensa de nueve puntos. Por el contrario, el programa parcial implicaba una gran variabilidad: Las elecciones de la opción promocionada se recompensaban con una recompensa de 17 puntos en el 50% de los ensayos, y con una recompensa de un punto en los ensayos restantes.
La segunda fase de 100 ensayos simulaba la «extinción». Durante esta fase, la opción promovida rendía un punto por selección. Así, la opción promovida era más atractiva que la opción degradada durante el entrenamiento (media de nueve en relación con ocho puntos), pero menos atractiva durante la extinción (uno en relación con ocho). La parte izquierda de la Tabla 1 resume las condiciones experimentales del Experimento 1.
Para motivar a los participantes, les proporcionamos un incentivo monetario. La conversión de puntos a pagos reales se realizó según un tipo de cambio en el que 100 puntos = 1,5 NIS (unos 33 céntimos). Esto dio lugar a un pago total medio de 14 NIS (unos 3,2 dólares).
Resultados y discusión
La parte izquierda de la Fig. 1 presenta las proporciones de elección observadas para la opción promocionada (P-prom) en bloques de 10 ensayos en función del programa de refuerzo y la fase. La tabla 1 presenta los valores medios. Durante el entrenamiento, la P-prom fue mayor bajo el esquema completo (M = 0,92, SD = 0,15) que bajo el parcial (M = 0,68, SD = 0,19). El patrón opuesto se observó durante la extinción: La P-prom fue más baja bajo el programa completo (M = 0,03, SD = 0,01) que bajo el programa parcial (M = 0,06, SD = 0,03). Se llevó a cabo un análisis de varianza (ANOVA) de medidas repetidas 2 × 2 para probar los efectos de la fase y el programa de refuerzo en la P-prom. Este análisis reveló efectos principales significativos tanto para la fase como para el horario, así como una interacción significativa entre los dos factores. Estos resultados sugieren que el efecto negativo de los refuerzos parciales en la fase de entrenamiento y la réplica positiva del PREE en la extinción fueron significativos.
En los 200 ensayos, la P-prom fue significativamente mayor bajo el esquema completo (M = .48, SD = .08) que bajo el parcial (M = .36, SD = .11), t(22) = 2.74, p < .01, d = 1.17. Estos resultados apoyan la resolución de Nevin y Grace (2000) del patrón PREE mixto. El efecto observado de los refuerzos parciales fue positivo en la etapa de transición, pero negativo en todos los ensayos.
La hipótesis del muestreo contingente
Los estudios anteriores sobre las decisiones a partir de la experiencia han destacado el valor de los modelos que asumen la dependencia de pequeñas muestras de experiencias en situaciones similares. Los modelos de este tipo capturan las condiciones que facilitan y perjudican el aprendizaje (Camilleri & Newell, 2011; Erev & Barron, 2005; Yechiam & Busemeyer, 2005), y han ganado recientes concursos de predicción de elección (Erev, Ert, & Roth, 2010). Nuestro intento de capturar los presentes resultados comienza con un miembro de un parámetro de esta clase de modelos. En concreto, consideramos un modelo de muestreo contingente en el que la similitud se define sobre la base de la ventaja relativa de la opción promocionada en los m ensayos más recientes (m, un número entero no negativo, es el parámetro libre del modelo). Por ejemplo, la secuencia G-G-L implica que la opción promovida produjo una pérdida relativa (L = menor retribución, en relación con la opción degradada) en el último ensayo, pero una ganancia relativa (G = mayor retribución) en los dos ensayos anteriores, y con m = 3, todos los ensayos que siguen inmediatamente a esta secuencia son «similares». El modelo supone que la decisión se toma sobre la base de la comparación de los pagos medios de las dos opciones en todos los ensayos similares anteriores (y de la elección aleatoria, antes de adquirir experiencia relevante).
Para aclarar esta lógica, considere el modelo de muestreo contingente con el parámetro m = 2, y suponga que los resultados observados en los primeros nueve ensayos de la condición parcial proporcionaron la secuencia L-L-L-G-L-G-L-L. Es decir, la recompensa de la opción promocionada fue 17 (una ganancia relativa) en los ensayos 4 y 7, y uno (una pérdida relativa) en los otros siete ensayos. En el ensayo 10, el agente se enfrenta a una elección después de la secuencia L-L. Por lo tanto, recordará todas sus experiencias después de secuencias idénticas (Ensayos 3, 4 y 7), calculará que la experiencia media de la opción promovida en este conjunto es (1 + 17 + 17)/3 = 11,67, y como la recompensa media de la opción degradada es sólo nueve, seleccionará la opción promovida.
Las predicciones del modelo se obtuvieron utilizando una simulación por ordenador en la que agentes virtuales, programados para comportarse de acuerdo con los supuestos del modelo, participaron en una réplica virtual del experimento. Se realizaron dos mil simulaciones con diferentes valores de m (de 1 a 5) utilizando el programa SAS. Durante la simulación, registramos los estadísticos P-prom como en el experimento.
Los resultados revelaron que los principales patrones experimentales (un efecto general negativo del refuerzo parcial y un pequeño efecto positivo después de la transición) se reprodujeron con todos los valores de m. El mejor ajuste (mínima distancia media al cuadrado entre las tasas de P-prom observadas y predichas) se encontró con el parámetro m = 4. Las predicciones con este parámetro se presentan en la Tabla 1 y en la Fig. 1.
Nótese que con m = 4, el modelo implica depender de muestras pequeñas: Dado que son posibles 16 secuencias, las decisiones durante los 100 ensayos de entrenamiento se basarán normalmente en seis o menos experiencias «similares». Este hecho no tiene efecto en el programa completo (en el que una muestra de uno es suficiente para maximizar), pero conduce a desviaciones de la maximización en el programa parcial (ya que algunas muestras incluyen más «1» que «17» ensayos). Durante la extinción, sin embargo, después del cuarto ensayo todas las decisiones se toman siguiendo la secuencia L-L-L-L. En el programa completo, los participantes nunca experimentan esta secuencia durante el entrenamiento. Así, todas sus experiencias después de esta secuencia les llevan a preferir la opción degradada (y la primera experiencia ocurre en el quinto ensayo de extinción). En cambio, los participantes típicos del programa parcial experimentan esta secuencia seis veces durante el entrenamiento, y estas experiencias pueden llevarles a preferir la opción promocionada en los primeros ensayos de la fase de extinción.
Inercia, generalización, ruido y memoria limitada
La presente abstracción de la idea de muestreo contingente es una variante simplificada de la abstracción que ganó el concurso de predicción de elección de Erev, Ert y Roth (2010) (Chen, Liu, Chen, & Lee, 2011). Los supuestos que se excluyeron fueron la inercia (tendencia a repetir la última elección), la generalización (cierta sensibilidad a la recompensa media), una regla de respuesta ruidosa y una memoria limitada. Un modelo que incluyera estas suposiciones reveló una ligera mejora del ajuste en la configuración actual, pero no cambió las predicciones principales y agregadas. Por lo tanto, el presente análisis no descarta estos supuestos, sólo muestra que no son necesarios para capturar el efecto agregado de los refuerzos parciales documentado aquí.
Juego ficticio y aprendizaje por refuerzo
Para aclarar la relación entre la hipótesis del muestreo contingente y los modelos de aprendizaje populares, también consideramos un modelo de juego ficticio suave (SFP) de dos parámetros (Fudenberg & Levine, 1999). El SFP supone que la propensión a seleccionar la opción j en el ensayo t + 1 después de observar la recompensa v( j, t) en el ensayo t es
donde w es un parámetro de ponderación libre y Q(j, 1) = 0. La probabilidad de seleccionar j sobre k en el ensayo t es
donde σ es un parámetro de fuerza de respuesta libre. El SPP es un ejemplo de modelo de aprendizaje por refuerzo de dos parámetros (Erev & Haruvy, 2013). La Tabla 1 y la Fig. 1 muestran que este modelo se ajusta a la tasa de elección agregada ligeramente mejor que el modelo de muestreo contingente de un parámetro.