ChatGPT cite de mieux en mieux ses sources

L’intelligence artificielle fait une progression fulgurante. Capable de répondre à un nombre croissant de questions et de composer des textes, elle a fait irruption en médecine comme dans bien d’autres domaines. Des discussions font rage quant à sa fiabilité et la question des sources utilisées est particulièrement sensible. Mais on progresse notablement. 

ChatGPT est aujourd’hui capable non seulement de répondre à un tas de questions mais encore de composer de nouveaux contenus. De nombreuses publications ont vu le jour ces derniers temps à propos de ses applications potentielles en médecine. Il s’avère qu’elle peut apporter une aide appréciable en recherche. Encore que de grandes revues scientifiques comme Science considèrent que ChatGPT n’est pas un auteur et n’écrit pas des articles originaux. Par « originaux », il faut entendre que le signataire de l’article est celui qui l’a réellement écrit et qu’il est bel et bien le responsable de la recherche décrite. 

Un autre problème de taille persiste également : la capacité de ChatGPT à fournir des références correctes. Toutefois, les choses semblent progresser dans le bon sens. Dans une nouvelle étude qui vient d’être publiée par le JAMA, des chercheurs californiens ont testé la capacité du ChatGPT utilisé comme « copilote » pour créer des contenus destinés à entraîner des systèmes d'appentissages en santé (learning health systems, LHS). Ils ont soumis à la version GPT-4 une série de sujets, les uns très larges, les autres très spécifiques. Les auteurs de l’étude citent comme exemple de sujet à large portée les « data et systèmes d’apprentissages en santé ». L’exemple qu’ils donnent comme sujet spécifique est la construction d’un modèle de prédiction du risque d’AVC. Et puisque la production de l’intelligence artificielle se base sur des « prompts », les chercheurs ont aussi demandé à l’intelligence artificielle les références utilisées.  En la matière, les prompts sont des phrases de texte que l’intelligence artificielle interprète pour produire ses résultats. Chaque référence d’article de journal a été vérifiée, notamment en s’assurant de son existence réelle dans le journal cité et en effectuant dans Google une recherche sur le titre fourni. Tout article qui ne répondait pas à ces critères était considéré comme faux. Pour avoir une estimation fiable sur le pourcentage de faux, le nombre d’articles vérifiés était très élevé. Les intervalles de confiance à 95% sur les pourcentages de faux ont été calculés et une comparaison avec la version précédente (Chat GPT-3,5) a été établie.   

Une évaluation de ChatGPT-3,5 avait été menée en contrôlant 162 articles référencés. Sur ce nombre, 159, soit 98,1% étaient faux, avec un intervalle de confiance à 95%, allant de 94,7% à 99,6%.  Dans l’évaluation faite par les Californiens avec ChatGPT-4, 257 articles ont été vérifiés et seulement 53 étaient des fausses références. Cela représente 20,6% d’erreurs (IC 95% 15,8%-26,1%). C’est significativement inférieur à la version ChatGPT-3,5. Les auteurs concluent que les réponses fournies à une problématique par la version 4 peuvent s’avérer utiles, après vérification, comme matériaux supplémentaires dans la conception de LHS de formation et d’’apprentissage. Et les références doivent, elles aussi, être vérifiées par l’homme. Quant aux références fournies par ChatGPT-3,5, il ne faut pas les utiliser.

Vous souhaitez commenter cet article ?

L'accès à la totalité des fonctionnalités est réservé aux professionnels de la santé.

Si vous êtes un professionnel de la santé vous devez vous connecter ou vous inscrire gratuitement sur notre site pour accéder à la totalité de notre contenu.
Si vous êtes journaliste ou si vous souhaitez nous informer écrivez-nous à redaction@rmnet.be.