Vous êtes ici : Vaping Post » Etudes sur la cigarette électronique » Peut-on encore faire confiance aux études scientifiques ?

Peut-on encore faire confiance aux études scientifiques ?

    Annonce
  • Calumette
  • le petit vapoteur
  • Pulp
  • Vaporesso
  • Innokin
  • Vincent
  • Voopoo

Chaque jour, des centaines d’études scientifiques sont publiées dans le monde. Pourtant, nombre d’entre elles se contredisent, même quand elles portent sur le même sujet et utilisent des méthodologies similaires. Cette cacophonie révèle un problème plus profond : le système scientifique actuel souffre de dysfonctionnements structurels qui compromettent la fiabilité de la recherche.

Quand une revue parapluie expose les dysfonctionnements

La cigarette électronique, comme tout autre produit de consommation, est largement étudiée par les chercheurs. Pourtant, pas un jour ne passe sans qu’une étude ne soit publiée, qui vient contredire les conclusions d’un travail précédent. Si l’utilisation d’une méthodologie différente peut parfois expliquer pourquoi deux études similaires arrivent à des conclusions divergentes, ce n’est pas toujours le cas. En vérité, le monde scientifique est en proie à de nombreux problèmes.

Il y a quelques jours, une nouvelle recherche britannique a été publiée1. Il s’agissait d’une revue parapluie, c’est-à-dire une revue systématique d’autres revues systématiques. Voici ce dont il s’agit :

Lorsqu’un chercheur publie une étude sur un sujet précis, il s’agit d’une simple étude. Lorsqu’un chercheur analyse les résultats de toutes les études sur un même sujet, il s’agit d’une revue systématique. Une revue parapluie a donc pour objectif d’étudier les résultats de plusieurs études (revues systématiques) qui ont elles-mêmes analysé les résultats de plusieurs études. En bref, une revue parapluie, c’est un peu la synthèse d’une synthèse.

La revue parapluie en question s’intéressait au vapotage des jeunes. Dans ses conclusions, elle indiquait avoir observé « des preuves cohérentes que des risques plus élevés d’initiation au tabagisme, de consommation de substances (marijuana, alcool et stimulants), d’asthme, de toux, de blessures et de problèmes de santé mentale sont associés à l’utilisation de la cigarette électronique chez les jeunes. »

Une fois n’est pas coutume, nous ne critiquerons pas cette revue parapluie en particulier. Présentant un impressionnant nombre de limites, ses auteurs ont visiblement oublié de nuancer leurs résultats. Ce à quoi nous allons nous intéresser cette fois, s’appelle AMSTAR 2.

AMSTAR 2, l’outil de mesure qui déforme la réalité

AMSTAR 2 est un critical appraisal tools. Ce terme désigne une famille d’outils utilisée par les scientifiques pour évaluer la qualité d’une étude. Dans le cas présent, AMSTAR 2, acronyme de A MeaSurement Tool to Assess systematic Reviews, ou, dans la langue de Molière, « un outil de mesure pour évaluer les revues systématiques », est l’outil standard pour l’évaluation des revues systématiques.

Il existe de nombreux outils de ce type. AMSTAR 2 a été conçu pour évaluer la qualité des revues systématiques, GRADE évalue la certitude des preuves, Cochrane Risk of Bias tool sert à évaluer les études individuelles, NOS se destine aux cohortes et cas-témoins, QUADAS-2 aux études diagnostiques, et ainsi de suite. Il existe des centaines d’outils.

Tous poursuivent le même objectif : évaluer rapidement, et de manière standardisée, la qualité d’une étude scientifique. Plusieurs dizaines de milliers de recherches étant publiées chaque année, il fallait bien donner aux scientifiques, un moyen rapide de trier l’ivraie du bon grain.

Parmi tous ces outils, certains sortent du lot. C’est le cas d’AMSTAR 2, qui n’est ni plus ni moins que le standard attendu pour l’évaluation de la qualité des revues systématiques. Globalement, si un chercheur réalise un travail qui utilise les données d’une ou plusieurs revues systématiques, la majorité des revues médicales, dans lesquelles sont publiées les études scientifiques, refuseront le travail du chercheur s’il n’a pas utilisé cet outil. La revue parapluie dont nous avons parlé dans le paragraphe précédent l’a donc utilisé.

Même lorsque les auteurs indiquent dans leurs manuscrits que la revue systématique a été menée/préparée/conçue conformément à l’AMSTAR 2, cela ne signifie pas nécessairement qu’il est d’un niveau de confiance élevé ou même modéré selon l’AMSTAR 2.Most systematic reviews reporting adherence to AMSTAR 2 had critically low methodological quality: a cross-sectional meta-research study

Résultat ? Les auteurs indiquent : « La plupart des revues systématiques que nous avons incluses ont été jugées de qualité faible ou critique à l’aide d’AMSTAR 2. »

Cette revue parapluie serait donc presque intégralement basée sur des revues systématiques de piètre qualité ? Eh bien non. Il faut savoir qu’AMSTAR 2 classe, en moyenne, plus de 90 % des revues systématiques comme étant de qualité « critique »2. Mais pourquoi ?

AMSTAR 2 repose sur seize critères, dont sept jugés « essentiels », qui faussent largement la note finale. En réalité, moins de la moitié sont vraiment applicables à toutes les revues systématiques3. Ajoutons à cela des critères flous, mal compris par les chercheurs4, et on obtient un outil jugé défaillant par beaucoup.

Se pose alors une question : pourquoi utiliser AMSTAR 2 pour évaluer la qualité des revues systématiques, si beaucoup de chercheurs savent qu’il n’est absolument pas adapté pour cette tâche ?

Tout simplement, parce qu’AMSTAR 2 est l’outil standard qui est attendu par le monde scientifique. Malgré tous ses défauts, par convention académique, c’est lui que doivent utiliser les chercheurs pour évaluer la qualité d’une revue systématique. Et il n’est pas un cas isolé, d’autres outils ou pratiques censés garantir la rigueur scientifique posent eux aussi problème. 

Le facteur d’impact (Impact Factor)

Le facteur d’impact est (devenu) un autre outil destiné à évaluer la qualité d’une étude scientifique. À l’origine, il avait été créé pour aider les bibliothèques à choisir quelles revues acheter. Aujourd’hui, malgré les avertissements répétés d’Eugene Garfield, son créateur, le facteur d’impact est devenu le critère principal pour évaluer : les chercheurs, et les travaux qu’ils publient.

L’utilisation du facteur d’impact des revues, plutôt que du nombre réel de citations des articles, pour évaluer les chercheurs est une question très controversée.Eugene Garfield, créateur du facteur d'impact

Sur quoi se base le facteur d’impact ? Sur la revue dans laquelle le chercheur, et son travail ont été publiés. La qualité du travail d’un chercheur, et du chercheur lui-même, est donc conditionnée à une seule chose : l’endroit où il est publié, et non les qualités de son étude.

C’est comme si on notait un film, et les acteurs qui jouent dedans, pas selon le scénario ou leur prestation, mais selon le cinéma où le film est projeté. Ça n’aurait aucun sens, et c’est pourtant exactement ce qui se passe dans le monde scientifique au sujet des études5.

Les revues prédatrices

Autre problème, les revues prédatrices.  Il s’agit de revues qui prétendent être des journaux scientifiques légitimes, mais qui, en vérité, acceptent n’importe quelle étude. Pas de vérification par des pairs (peer review), rien du tout. D’ailleurs, l’étude n’est bien souvent même pas lue. L’auteur paie, il est publié.

Ces journaux polluent la littérature scientifique. Elles permettent à « n’importe qui » de publier une étude, dont aucune des données n’a été vérifiée. En 2014, environ 420 000 études ont été publiées dans ce genre de revues6, dont le nombre dépassait les 8 000.

Cerise sur le gâteau, certaines de ces études ont été citées dans des travaux publiés dans de véritables revues scientifiques. La mauvaise science s’infiltre donc dans la bonne. Un problème qui porte d’ailleurs un nom : la contamination par citation.

Une conséquence négative de la croissance rapide de l’édition scientifique en libre accès, financée par des frais de publication, est l’émergence d’éditeurs et de revues aux pratiques de promotion et d’évaluation par les pairs hautement contestables.‘Predatory’ open access: a longitudinal study of article volumes and market characteristics

Preuve supplémentaire de la nature de ces revues : des chercheurs polonais ont mené une expérience7. Ils ont créé le personnage d’Anna Szust, une chercheuse polonaise fictive. Cette dernière a créé un CV, lui aussi fictif, qu’elle a envoyé à 120 revues médicales, afin de devenir éditrice. Résultat, 40 revues prédatrices l’ont acceptée en seulement quelques heures. Plus inquiétant, huit revues appartenant au Directory of Open Access Journals, qui est une base de données qui recense les revues en accès libre, qui sont considérées comme de qualité, l’ont également acceptée. Heureusement, aucune des revues référencées dans la base de données Journal Citation Reports, considérée comme la plus prestigieuse, n’est tombée dans le panneau.

Soulignons également que les revues prédatrices sont également à l’origine d’autres fraudes, comme les paper mills, ou usines à fausses études. Le principe de ce système est simple : un chercheur contacte l’une de ces « usines », en expliquant vouloir apparaître comme auteur sur une étude d’un sujet qu’il choisit. L’usine fabrique l’étude sur le sujet qu’il souhaite, avec de fausses données, de faux graphiques, tout ce qu’il faut pour faire croire à de véritables travaux. Cette dernière est publiée dans une revue prédatrice, puisqu’elles ne les vérifient pas. Et le chercheur peut indiquer sur son CV qu’il a participé à cette étude. Un moyen de gonfler artificiellement son curriculum vitae, et ainsi augmenter ses chances d’obtenir des financements. Et la liste des failles dans le système scientifique se poursuit.

La relecture par les pairs (peer review)

Considérée par la communauté scientifique, mais aussi les journalistes, par exemple, comme le Saint Graal des preuves de qualité, la relecture par les pairs est en fait très loin d’être parfaite. Tout comme AMSTAR 2, elle présente de nombreux problèmes.

Le peer reviewing est une méthode censée assurer qu’une étude scientifique est de qualité. Son processus est simple :

  • Un auteur soumet son étude à une revue ;
  • L’éditeur l’envoie à quelques experts du domaine dont traite l’étude ;
  • Ils évaluent l’étude de manière anonyme puis recommandent à l’éditeur de l’accepter, la réviser, ou la rejeter ;
  • La revue scientifique prend la décision finale.

Il s’agit du gold standard de la validation scientifique.

Au moment d’évaluer des enseignants-chercheurs, la plupart des gens n’ont pas — ou ne veulent pas prendre — le temps de lire les articles ! Et même s’ils le faisaient, leur jugement serait sûrement influencé par les commentaires de ceux qui ont cité ces travaux.Eugene Garfield, créateur du facteur d'impact

Problème, alors que le procédé de validation par les pairs est traité comme une méthode objective, elle est par nature subjective, puisque la qualité de l’étude est évaluée arbitrairement par quelques personnes. Et régulièrement, les reviewers ne sont pas d’accord. Pour une même étude, alors qu’un expert suggère de l’accepter, l’autre suggère de la refuser. Preuve d’un système défaillant.

Soulignons également les nombreux biais dont peut être victime cette méthode8 : nationalité des auteurs et des pairs qui jugent l’étude, prestige institutionnel, genre, discipline, biais de confirmation, etc.

Pour l’anecdote, certaines études rejetées par des revues scientifiques suite à la relecture par des pairs ont par la suite remporté un prix Nobel9.

Mais, là encore, comme pour AMSTAR 2, la relecture par les pairs est ancrée dans le fonctionnement de la science. Et la science est loin d’être prête à se remettre en question. À sa décharge, quand même, les chercheurs n’ont, pour l’instant, trouvé aucun autre système pour la remplacer.

La manipulation des citations

Les citations sont un autre problème. Elles pourraient être comparées à la « monnaie » de la science. Lorsqu’un chercheur publie une étude, il doit mentionner toutes les recherches qui ont influencé la sienne. Pour les scientifiques, les citations sont particulièrement importantes. Plus le travail d’un scientifique est cité, plus il est considéré comme influent, et ses travaux, importants. Le nombre de citations est, par exemple, consulté lors des embauches, d’éventuelles promotions, d’attribution de financements, etc.

La possibilité d’acheter des citations en gros est une évolution nouvelle et préoccupante.Jennifer Byrne, chercheuse en cancérologie

Mais les citations ont un effet pervers : elles transforment la collaboration scientifique en compétition entre les chercheurs. Certains scientifiques préfèrent ainsi étudier des domaines particuliers, parce qu’ils sont plus facilement « citables ». Alors que d’autres sujets auraient peut-être été plus importants.

L’autre problème majeur des citations, c’est que certaines personnes peu scrupuleuses permettent de les acheter10. Un scientifique paie, il obtient des citations. Une étude de faible importance, ou pire, de mauvaise qualité, peut ainsi être considérée comme très bonne simplement, car elle a été citée de nombreuses fois. Dans le monde scientifique, il existe un véritable marché noir qui s’est créé sur cette base.

Le p-hacking

Enfin, parlons un peu du p-hacking. Ce terme fait référence à la fameuse lettre p que l’on retrouve dans toutes les études scientifiques. Pour simplifier, disons qu’elle désigne les probabilités que les résultats d’un calcul soient dus au hasard. Dans une recherche scientifique, nous retrouvons ainsi, très régulièrement, la lettre p accompagnée d’un chiffre compris entre 0 et 1.

Le chiffre 1 désigne qu’il y a 100 % de chances que le résultat soit dû au hasard. Autrement dit, le résultat ne vaut rien puisqu’il est… dû au hasard. Au contraire, le chiffre 0 indique que le résultat à 0 % de chance d’être dû au hasard. Dans une étude scientifique, pour qu’un résultat soit considéré comme « statistiquement significatif », la valeur de p doit être inférieure à 0,05, le plus souvent représentée ainsi : (p < 0,05). C’est-à-dire qu’il y a moins de 5 % de chances que le résultat soit le fruit du hasard.

En ce qui concerne les différentes stratégies de p-hacking, nous avons constaté que même avec une seule stratégie, les taux de faux positifs peuvent généralement être augmentés à au moins 30 % par rapport au seuil typique de 5 % avec un « effort raisonnable », c’est-à-dire sans supposer que les chercheurs automatisent les procédures d’exploration de données.Big little lies: a compendium and simulation of p-hacking strategies

Et là encore, cette histoire de p pose problème, ou plutôt, son seuil de 5 %. Choisi par Ronald Fisher dans les années 192011, sans justification scientifique particulière, il est aujourd’hui le cauchemar de nombreux scientifiques. Tout simplement parce que les revues peuvent refuser de publier une étude dont les résultats ne sont pas statistiquement significatifs.

Certains scientifiques choisissent donc de tricher pour obtenir cette fameuse valeur p < 0,05. Pour ce faire, ils peuvent par exemple choisir d’arrêter de collecter des données une fois le seuil de 5 % atteint. Retirer des participants après avoir vu que leur p dépassait les 5 %. Tester tout un tas de variables et ne présenter que celles dont le p est inférieur. Ou encore subdiviser les données jusqu’à atteindre un niveau d’absurdité colossal, du type : nos données démontrent que le vapotage cause bien le cancer du poumon chez les hommes dont l’âge est compris entre 77 et 77,5 ans, qui sont nés un mardi d’une année bissextile et dont le signe astrologique est scorpion ascendant poisson.

Plusieurs trauvaux ont d’ailleurs documenté le p hacking12. Par exemple, un chercheur s’est intéressé à 100 études de psychologie, publiées dans diverses revues médicales prestigieuses. Il les a reproduites pour vérifier leurs résultats. Parmi elles, 97 déclaraient un p inférieur à 5 %.

Conclusion : seules 36 études sur les 97 présentaient effectivement des résultats statistiquement significatifs13. Notons toutefois que tous les domaines scientifiques ne sont pas victimes d’autant d’imprécisions que la psychologie. 

Réformer plutôt que rejeter

Dans de nombreux domaines de recherche, l’utilisation généralisée de pratiques de recherche douteuses a mis en péril la crédibilité des résultats scientifiques.Big little lies: a compendium and simulation of p-hacking strategies

Les exemples cités dans cet article ne représentent pas une liste exhaustive de tous les défis auxquels sont confrontés les scientifiques de notre époque. D’autres pourraient être cités, mais l’objectif de cet article n’est pas de discréditer le travail des chercheurs.

Si tous ces dysfonctionnements existent, la recherche scientifique n’est pas condamnée pour autant, et elle continue de rester notre meilleur outil pour comprendre le monde qui nous entoure.

Notons également que certaines initiatives émergent12. Pré-enregistrement des protocoles d’étude, obligation de partager les données brutes utilisées, tentative de développer d’autres outils d’évaluation (qui seraient plus adaptés qu’AMSTAR 2, par exemple), etc.

Aujourd’hui, le problème n’est pas l’ignorance des défaillances, mais plutôt la manière de les traiter, et, disons-le, la résistance au changement.

Faut-il pour autant rejeter la science ? Non. Mais ces révélations appellent à une lecture plus critique des études, particulièrement dans des domaines controversés, comme le vapotage. Entre les conclusions péremptoires et le scepticisme aveugle, il existe un chemin : celui de la science consciente de ses limites.

Sources et références

1 Golder S, Hartwell G, Barnett LM, et alVaping and harm in young people: umbrella reviewTobacco Control Published Online First: 19 August 2025. https://doi.org/10.1136/tc-2024-059219.

2 Bojcic, R., Todoric, M., & Puljak, L. (2024). Most systematic reviews reporting adherence to AMSTAR 2 had critically low methodological quality: a cross-sectional meta-research study. Journal of Clinical Epidemiology, 165, 111210. https://doi.org/10.1016/j.jclinepi.2023.10.026.

3 Rotta, I., Diniz, J. A., & Fernandez-Llimos, F. (2025). Assessing methodological quality of systematic reviews with meta-analysis about clinical pharmacy services: A sensitivity analysis of AMSTAR-2. Research in Social and Administrative Pharmacy, 21(2), 110–115. https://doi.org/10.1016/j.sapharm.2024.11.002.

4 Puljak, L., Bala, M. M., Mathes, T., Poklepovic Pericic, T., Wegewitz, U., Faggion, C. M., Matthias, K., Storman, D., Zajac, J., Rombey, T., Bruschettini, M., & Pieper, D. (2023). AMSTAR 2 is only partially applicable to systematic reviews of non-intervention studies: a meta-research study. Journal of Clinical Epidemiology, 163, 11–20. https://doi.org/10.1016/j.jclinepi.2023.08.021.

5 Paulus, F. M., Cruz, N., & Krach, S. (2018). The Impact Factor Fallacy. Frontiers in Psychology, 9. https://doi.org/10.3389/fpsyg.2018.01487.

6 Shen, C., Björk, BC. ‘Predatory’ open access: a longitudinal study of article volumes and market characteristics. BMC Med 13, 230 (2015). https://doi.org/10.1186/s12916-015-0469-2.

7 Sorokowski, P., Kulczycki, E., Sorokowska, A. et al. Predatory journals recruit fake editor. Nature 543, 481–483 (2017). https://doi.org/10.1038/543481a.

8 Smith, R. (2006). Peer review: a flawed process at the heart of science and journals. Journal of the Royal Society of Medicine, 99(4), 178–182. https://doi.org/10.1258/jrsm.99.4.178.

9 MacDonald, F. ScienceAlert. (2016, August 19). 8 Scientific Papers That Were Rejected Before Going on to Win a Nobel Prize. ScienceAlert. https://www.sciencealert.com/these-8-papers-were-rejected-before-going-on-to-win-the-nobel-prize.

10 Langin, K. (2024, February 26). Vendor offering citations for purchase is latest bad actor in scholarly publishing. Science. https://www.science.org/content/article/vendor-offering-citations-purchase-latest-bad-actor-scholarly-publishing.

11 Biau, D. J., Jolles, B. M., & Porcher, R. (2010). P value and the theory of hypothesis testing: an explanation for new researchers. Clinical orthopaedics and related research, 468(3), 885–892. https://doi.org/10.1007/s11999-009-1164-4.

12 Stefan, A. M., & Schönbrodt, F. D. (2023). Big little lies: a compendium and simulation of p-hacking strategies. Royal Society Open Science, 10(2), 220346. https://doi.org/10.1098/rsos.220346.

13 Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349(6251). https://doi.org/10.1126/science.aac4716.

Les dernières études sur la vape