L'effet d'extinction de renforcement partiel et l'hypothèse de l'échantillonnage contingent

Dans la plupart des démonstrations précédentes du PREE (par exemple, Grant, Hake, & Hornseth, 1951), le bénéfice attendu du choix renforcé était plus élevé sous des programmes complets que sous des programmes partiels, parce que les mêmes magnitudes étaient administrées à des taux plus élevés. Dans la présente étude, nous avons évité cette confusion en manipulant la taille des récompenses afin de garantir des sommes égales de renforcements dans les programmes partiels et complets. L’objectif principal de l’expérience 1 était d’examiner si l’effet négatif global des renforcements partiels pouvait être observé, même lorsque cette condition n’impliquait pas une somme inférieure de renforcements.

Participants

Un groupe de 24 étudiants de premier cycle de la Faculté de génie industriel et de gestion du Technion a servi de participants rémunérés à l’expérience. Ils ont été recrutés via des panneaux affichés sur le campus pour une expérience de prise de décision. L’échantillon comprenait 12 hommes et 12 femmes (âge moyen 23,7 ans, ET = 1,88).

Appareil et procédure

Pour l’expérience, nous avons utilisé un paradigme de clic (Erev & Haruvy, 2013), qui consistait en deux touches non marquées et un compteur de gains accumulés. Chaque sélection d’une des deux touches était suivie de trois événements immédiats : une présentation du gain obtenu (en gras sur le bouton sélectionné pendant 1 s), une présentation des gains abandonnés (sur le bouton non sélectionné pendant 1 s), et une mise à jour continue du compteur de gains (l’ajout du gain obtenu au compteur). Les gains exacts étaient fonction du calendrier de renforcement, de la phase et du choix, comme expliqué ci-dessous.

Les participants avaient pour instruction de choisir un bouton à plusieurs reprises afin de maximiser leurs gains totaux. Aucune information préalable concernant la distribution des gains n’a été délivrée. L’étude comprenait 200 essais, avec un intervalle de 1 s entre les essais. La tâche a duré environ 10 min.

Design

Les participants ont été assignés au hasard à l’une des deux conditions de calendrier de renforcement : complet (n = 11) et partiel (n = 13). Chaque participant a été confronté à deux phases de 100 essais (« entraînement » et « extinction ») dans l’une des deux conditions et a sélectionné l’un des boutons pour chaque essai. Le choix de l’un des deux boutons, appelé « option rétrograde », entraînait toujours un gain de huit points. Le gain du bouton alternatif, appelé « option promue », dépendait de la phase et du programme de renforcement, comme suit :

Pendant la première phase de 100 essais (la « phase d’entraînement »), l’option promue a donné un gain moyen de neuf points par sélection. Les deux calendriers diffèrent en ce qui concerne la variabilité du gain autour de cette moyenne. Le programme complet n’impliquait aucune variabilité : Chaque sélection de l’option promue générait un gain de neuf points. En revanche, le programme partiel impliquait une forte variabilité : Les choix de l’option promue étaient récompensés par un gain de 17 points sur 50 % des essais, et par un gain d’un point sur les essais restants.

La deuxième phase de 100 essais simulait une « extinction ». Pendant cette phase, l’option promue rapportait un point par sélection. Ainsi, l’option promue était plus attractive que l’option rétrogradée pendant l’entraînement (moyenne de neuf par rapport à huit points), mais moins attractive pendant l’extinction (un par rapport à huit). La partie gauche du tableau 1 résume les conditions expérimentales de l’expérience 1.

Tableau 1 Expérience 1 : proportions moyennes observées de sélection de l’option promue (P-prom), en fonction de la phase et du calendrier de renforcement. Les deux colonnes les plus à droite présentent les prédictions des modèles d’échantillonnage contingent (CS) et de jeu fictif (FP)

Pour motiver les participants, nous avons fourni une incitation monétaire. La conversion des points en gains réels s’est faite selon un taux de change dans lequel 100 points = 1,5 NIS (environ 33 cents). Cela a donné lieu à un gain total moyen de NIS 14 (environ 3,2 $).

Résultats et discussion

Le côté gauche de la figure 1 présente les proportions de choix observées pour l’option promue (P-prom) dans des blocs de 10 essais en fonction du calendrier et de la phase de renforcement. Le tableau 1 présente les valeurs moyennes. Pendant l’entraînement, P-prom était plus élevé dans le cadre du programme complet (M = .92, SD = .15) que dans celui du programme partiel (M = .68, SD = .19). Le schéma opposé a été observé pendant l’extinction : P-prom était plus faible dans le cadre du programme complet (M = 0,03, ET = 0,01) que dans le cadre du programme partiel (M = 0,06, ET = 0,03). Une analyse de variance (ANOVA) à mesures répétées 2 × 2 a été réalisée pour tester les effets de la phase et du schéma de renforcement sur la P-prom. Cette analyse a révélé des effets principaux significatifs pour la phase et le programme, ainsi qu’une interaction significative entre les deux facteurs. Ces résultats suggèrent que l’effet négatif des renforcements partiels dans la phase d’entraînement et la réplication positive du PREE dans l’extinction étaient significatifs.

Sur les 200 essais, P-prom était significativement plus élevé sous le programme complet (M = .48, SD = .08) que sous le programme partiel (M = .36, SD = .11), t(22) = 2.74, p < .01, d = 1.17. Ces résultats soutiennent la résolution du modèle PREE mixte de Nevin et Grace (2000). L’effet observé des renforcements partiels était positif au stade de la transition, mais négatif sur l’ensemble des essais.

L’hypothèse de l’échantillonnage contingent

Des études antérieures sur les décisions à partir de l’expérience ont mis en évidence la valeur des modèles qui supposent la dépendance à de petits échantillons d’expériences dans des situations similaires. Les modèles de ce type capturent les conditions qui facilitent et nuisent à l’apprentissage (Camilleri & Newell, 2011 ; Erev & Barron, 2005 ; Yechiam & Busemeyer, 2005), et ont remporté de récents concours de prédiction de choix (Erev, Ert, & Roth, 2010). Notre tentative de capturer les résultats actuels commence avec un membre à un paramètre de cette classe de modèles. Plus précisément, nous avons considéré un modèle d’échantillonnage contingent dans lequel la similarité était définie sur la base de l’avantage relatif de l’option promue dans les m essais les plus récents (m, un entier non négatif, est le paramètre libre du modèle). Par exemple, la séquence G-G-L implique que l’option promue a entraîné une perte relative (L = gain inférieur, par rapport à l’option rétrogradée) dans le dernier essai, mais un gain relatif (G = gain supérieur) dans les deux essais précédents, et avec m = 3, tous les essais qui suivent immédiatement cette séquence sont « similaires ». Le modèle suppose que la décision est prise sur la base de la comparaison des gains moyens des deux options dans tous les essais similaires antérieurs (et d’un choix aléatoire, avant d’acquérir une expérience pertinente).

Pour clarifier cette logique, considérons le modèle d’échantillonnage contingent avec le paramètre m = 2, et supposons que les résultats observés dans les neuf premiers essais de la condition partielle fournissaient la séquence L-L-L-G-L-L-G-L-L. Autrement dit, le gain de l’option promue était de 17 (un gain relatif) aux essais 4 et 7, et de 1 (une perte relative) aux sept autres essais. A l’essai 10, l’agent est confronté à un choix après la séquence L-L. Il se souviendra donc de toutes ses expériences après des séquences identiques (essais 3, 4 et 7), calculera l’expérience moyenne de l’option promue dans cet ensemble comme étant (1 + 17 + 17)/3 = 11,67, et puisque le gain moyen de l’option rétrogradée n’est que de neuf, choisira l’option promue.

Les prédictions du modèle ont été dérivées en utilisant une simulation informatique dans laquelle des agents virtuels, programmés pour se comporter conformément aux hypothèses du modèle, ont participé à une réplication virtuelle de l’expérience. Deux mille simulations ont été effectuées avec différentes valeurs de m (de 1 à 5) à l’aide du programme SAS. Pendant la simulation, nous avons enregistré les statistiques P-prom comme dans l’expérience.

Les résultats ont révélé que les principaux modèles expérimentaux (un effet global négatif du renforcement partiel et un petit effet positif après la transition) ont été reproduits avec toutes les valeurs m. Le meilleur ajustement (distance quadratique moyenne minimale entre les taux de P-prom observés et prédits) a été trouvé avec le paramètre m = 4. Les prédictions avec ce paramètre sont présentées dans le tableau 1 et la figure 1.

Notez qu’avec m = 4, le modèle implique de se fier à de petits échantillons : Puisque 16 séquences sont possibles, les décisions prises au cours des 100 essais d’entraînement seront généralement basées sur six expériences « similaires » ou moins. Ce fait n’a aucun effet dans le programme complet (dans lequel un échantillon de un est suffisant pour maximiser), mais il entraîne des déviations par rapport à la maximisation dans le programme partiel (puisque certains échantillons comprennent plus d’essais « 1 » que « 17 »). Pendant l’extinction, cependant, après le quatrième essai, toutes les décisions sont prises selon la séquence L-L-L-L. Dans le programme complet, les participants ne font jamais l’expérience de cette séquence pendant la formation. Ainsi, toutes leurs expériences après cette séquence les amènent à préférer l’option rétrogradée (et la première expérience a lieu lors du cinquième essai d’extinction). En revanche, les participants typiques du programme partiel font l’expérience de cette séquence six fois pendant la formation, et ces expériences peuvent les amener à préférer l’option promue dans les premiers essais de la phase d’extinction.

Inertie, généralisation, bruit et mémoire bornée

L’abstraction actuelle de l’idée d’échantillonnage contingent est une variante simplifiée de l’abstraction qui a remporté le concours de prédiction de choix d’Erev, Ert et Roth (2010) (Chen, Liu, Chen, &Lee, 2011). Les hypothèses exclues étaient l’inertie (une tendance à répéter le dernier choix), la généralisation (une certaine sensibilité au gain moyen), une règle de réponse bruyante et une mémoire limitée. Un modèle incluant ces hypothèses a révélé une légère amélioration de l’ajustement dans les paramètres actuels mais n’a pas modifié les principales prédictions globales. Ainsi, la présente analyse n’exclut pas ces hypothèses, elle montre seulement qu’elles ne sont pas nécessaires pour capturer l’effet agrégé des renforcements partiels documentés ici.

Jeu fictif et apprentissage par renforcement

Afin de clarifier la relation entre l’hypothèse d’échantillonnage contingent et les modèles d’apprentissage populaires, nous avons également considéré un modèle de jeu fictif lisse (SFP) à deux paramètres (Fudenberg & Levine, 1999). Le SFP suppose que la propension à choisir l’option j au procès t + 1 après avoir observé le gain v( j, t) au procès t est

$$ Q\left( {j,t+1} \right)=\left( {1\text{-} w} \right)Q\left( {j,t} \right)+(w)v\left( {j,t} \right), $$

où w est un paramètre de pondération libre et Q(j, 1) = 0. La probabilité de sélectionner j plutôt que k à l’essai t est

$$ P\left( {j,t} \right)=1/\left( {1+{e^{\sigma}}^{\left}}} \right), $$

où σ est un paramètre libre de force de réponse. Le SFP est un exemple de modèle d’apprentissage par renforcement à deux paramètres (Erev & Haruvy, 2013). Le tableau 1 et la figure 1 montrent que ce modèle s’adapte au taux de choix agrégé légèrement mieux que le modèle d’échantillonnage contingent à un paramètre.

Arquidia Mantina