Reproduire le biais de distinction: évaluations conjointes ou séparées

Ce billet a été rédigé par Wing Yiu Hung qui a terminé sa thèse de premier cycle sous la direction de Gilad Feldman au Département de psychologie de l’Université de Hong Kong. Elle a réalisé une réplication et une extension de Hsee et Zhang (2004) sur Distinction Bias. Ci-dessous, elle partage ses expériences dans la conduite d’une étude de réplication et certaines de ses conclusions et idées. Gilad Feldman a édité ce billet pour Psychology Today.

J’ai appris la «crise de réplication» pour la première fois lorsque Gilad m’a suggéré de travailler sur une étude de réplication et de vulgarisation pour ma thèse de dernière année. À ce moment-là, j’étais confus quant à la nécessité de reproduire les recherches des autres. Pourquoi devrais-je essayer et répliquer une étude alors qu’il y avait déjà des preuves pour soutenir la théorie? Mais avec le recul, je suis heureux d’avoir eu la chance de travailler sur un projet aussi significatif.

Qu’est-ce que la «crise de réplication»?

La reproductibilité est l’une des caractéristiques de la science. Il aide à évaluer si les nouvelles découvertes reflètent probablement un effet réel ou peuvent simplement être une fausse alerte (faux positif), renforçant ainsi la crédibilité des résultats de la recherche. Cependant, ces dernières années, des projets de réplication de masse menés par de grandes collaborations de laboratoires du monde entier, comme Open Science Collaboration (2015) et Many Labs (1-5), ont révélé que moins de réplications réussies que prévu d’études très citées dans des revues réputées . De plus en plus de preuves dans les sciences sociales et dures semblent suggérer qu’il y a une crise dans la science et que nous devons mieux examiner nos pratiques de recherche et essayer de travailler ensemble pour les réformer et les améliorer.

Il existe des problèmes inhérents à notre transparence des méthodes et des procédures, au manque de partage des ensembles de données et du code, à la dépendance à de petits échantillons sous-alimentés et à des questions concernant la généralisabilité de la théorie et des preuves. En outre, on craint de plus en plus que les échecs de réplication reflètent également les «pratiques de recherche douteuses (QRP)» courantes dans notre littérature (Feldman et al., 2019). Celles-ci font référence aux décisions de recherche que les chercheurs prennent, consciemment ou inconsciemment, qui capitalisent sur la flexibilité dans la prise de décision en matière de recherche et augmentent la probabilité de montrer un soutien pour un effet, même s’il n’est pas étayé par des preuves. Celles-ci incluent, mais sans s’y limiter, la notification sélective des méthodes et des résultats et l’exclusion sélective des conditions expérimentales et des participants des analyses, qui donnent l’impression que les résultats ont dépassé le seuil commun actuel de publication d’un article (p <0,05) (inventé "p-hacking").

A lire aussi  Trouver l'amour à un âge plus avancé

Étude de réplication sur le biais de distinction

Dans le cadre de ma thèse, j’ai réalisé une réplication des expériences de Hsee et Zhang (2004) sur le biais de distinction. C’est un phénomène très intéressant dans le jugement et la réflexion décisionnelle. D’une part, lorsque les gens prennent des décisions dans leur vie de tous les jours, ils sont souvent en mode d’évaluation conjointe (JE) et ils s’appuient sur des comparaisons et s’appuient sur celles-ci pour déduire la valeur et l’opportunité des deux options.

Par exemple, les gens peuvent facilement comparer une tasse de crème glacée insuffisamment remplie à une tasse de crème glacée trop remplie avec moins de crème glacée. Ils peuvent alors se fier à la comparaison des informations concernant la quantité de glace et sa valeur, en considérant également si le contexte de la taille de la tasse contenant la glace est pertinent pour leurs évaluations (voir figure 1). Dans de telles situations, ils peuvent déduire qu’ils ignoreraient le contexte et que leur bonheur serait uniquement lié à la quantité de glace qu’ils ont.

D’un autre côté, certaines situations réelles ne permettent pas une comparaison facile entre les options, comme lorsque les options sont présentées en mode d’évaluation séparée (SE). Les gens doivent alors évaluer une seule situation et ne peuvent pas facilement la comparer avec d’autres alternatives.

Par exemple, en utilisant l’exemple de crème glacée précédent, les gens auraient du mal à évaluer la valeur de la quantité de crème glacée fournie, et résulteraient en se fondant sur des indices contextuels, tels que la taille de la tasse qui la tient et si elle était sous ou trop rempli. Dans de tels cas, les gens peuvent en fait montrer une préférence pour une tasse trop remplie, même si elle contient moins de glace.

Si nous opposons les deux modes d’évaluation, les gens font des comparaisons lorsque des comparaisons sont disponibles, mais il est possible qu’ils se trompent dans leurs évaluations des mêmes options lorsque celles-ci sont présentées séparément.

Le biais de distinction est le phénomène selon lequel les gens surestiment la différence de bonheur générée par la comparaison de deux alternatives différentes qui sont de nature quantitativement différente. Par exemple, les personnes en mode d’évaluation conjointe peuvent surestimer la différence de bonheur d’avoir une boisson gazeuse de 330 ml par rapport à une boisson gazeuse de 340 ml, pensant que cette dernière conduirait à un bonheur plus élevé. Cependant, lorsque les gens ne reçoivent qu’une seule des boissons gazeuses, ils signalent un niveau de bonheur similaire, car l’évaluation du bonheur n’est pas informée par la comparaison avec des alternatives.

Dans l’étude de réplication, nous nous sommes concentrés sur les études 1 et 2 dans l’article classique sur le biais de distinction de Hsee et Zhang (2004).

Dans l’étude 1, on a demandé aux participants en mode d’évaluation conjointe d’imaginer qu’ils avaient écrit un livre de poèmes et on leur a ensuite demandé de prédire leur bonheur dans quatre réalités possibles concernant le nombre de personnes ayant acheté leur livre de poèmes: personne, 80 personnes, 160 personnes, ou 240 personnes. Nous avons ensuite examiné le bonheur prédit contrastant avec les modes d’évaluation séparée et d’évaluation conjointe qui ont été comparés dans des scénarios qualitativement et quantitativement différents (voir tableau 1).

Dans ce cas, la différence qualitative est la différence entre n’avoir vendu aucun livre et avoir vendu quelques livres, quel qu’en soit le nombre (aucun livre vendu contre 80 livres vendus). Donc, il y a quelque chose dans la différence entre rien et quelque chose qui est qualitativement différent.

Une différence quantitative est une différence numérique au sein d’une catégorie qualitative, et dans ce cas, ce serait la différence du nombre de livres vendus (80 contre 160 contre 240 livres vendus).

Conformément à la constatation originale illustrée à la figure 2, nous avons constaté que les participants en mode d’évaluation conjointe surestimaient le bonheur parmi des situations quantitativement différentes (80 vs 160 vs 240) mais pas entre des situations qualitativement différentes (rien contre quelque chose). Alors que les participants en mode d’évaluation conjointe prédisaient qu’ils seraient significativement plus heureux à mesure que les gens achèteraient leurs livres, les participants en mode d’évaluation séparée ont montré un plus grand bonheur dans les situations à 80 acheteurs que dans la situation sans acheteur, mais beaucoup plus faibles voire aucune différence les autres situations qui étaient quantitativement différentes.

Notre réplication

Source: Notre réplication

Notre réplication

Source: Notre réplication

L’étude 2 visait à déterminer si le biais de distinction peut être appliqué à des expériences réelles à l’aide d’une tâche de lecture. On a demandé aux participants du groupe d’évaluation séparée de lire et de copier-coller une liste de mots tandis que ceux du groupe d’évaluation conjointe devaient prédire le niveau de bonheur ressenti des participants du groupe d’évaluation séparée (voir le tableau 2). Hsee et Zhang (2004) ont constaté que les participants du groupe d’évaluation conjointe surestimaient le bonheur perçu parmi les participants du groupe d’évaluation séparée dans des scénarios qualitativement différents, mais pas dans des scénarios quantitativement différents. Cependant, nous n’avons pas réussi à trouver de soutien pour les résultats originaux dans l’étude de réplication (voir figure 3).

Notre réplication

Source: Notre réplication

Valeur des réplications et évaluation des résultats de réplication

Lorsque les résultats d’une étude peuvent être reproduits, nous augmentons notre confiance dans la fiabilité des preuves. Lorsque notre réplication ne parvient pas à trouver un support pour les découvertes originales, nous pouvons apporter des ajustements à notre compréhension du phénomène pour suggérer que – à tout le moins – il est plus complexe et nuancé que nous ne le pensions à l’origine. Trouver un support pour des études dans une réplication ne signifie pas que leurs conclusions sont toujours vraies ou que la théorie sous-jacente tient toujours. De même, ne pas trouver de support pour les résultats dans une réplication ne signifie pas que ces résultats sont toujours faux ou que la théorie sous-jacente a été démystifiée.

Les réplications sont un processus délicat et compliqué, et il peut y avoir de nombreuses raisons pour lesquelles les résultats se répliquent ou ne se reproduisent pas. En effectuant des réplications, nous, les réplicateurs, faisons de notre mieux pour minimiser les écarts par rapport aux procédures d’origine et résoudre les problèmes éventuels, mais il existe toujours des différences. Le temps a changé, les participants sont différents et il est très probable que le cadre et le contexte aient changé. Néanmoins, faire des réplications est une expérience d’apprentissage précieuse et au cœur du processus scientifique. Les réplicateurs acquièrent une meilleure compréhension de la science et de l’importance de la science ouverte dans la communication des résultats de manière ouverte et transparente.

Pendant longtemps, les universitaires ont mis l’accent sur la nouveauté et les chercheurs ont été incités à consacrer leurs recherches à trouver quelque chose de nouveau. Avec une prise de conscience croissante des défis de la reproductibilité et de la reproductibilité, vient la prise de conscience de la nécessité d’une recherche crédible et fiable, et de l’importance d’adopter des pratiques de science ouverte et d’avoir des chercheurs qui se consacrent à revoir les preuves existantes et se consacrent à séparer le signal de la bruit (Nosek, 2019). En travaillant ensemble, en promouvant la transparence scientifique et en faisant preuve d’ouverture et de collaboration dans notre évaluation de notre science, nous pouvons, espérons-le, améliorer et faire une science plus crédible.

Aile Yiu Hung

Aile Yiu Hung

Source: Wing Yiu Hung