L’intelligence artificielle remplacera-t-elle nos médecins et pharmaciens ? Branco De Busser s’est penché sur cette question dans son mémoire à l’Université d’Anvers (UAntwerpen). « ChatGPT et consorts répondent souvent parfaitement aux questions d’automédication, mais il leur arrive de fournir des informations totalement incorrectes. Cela peut représenter un risque pour la santé des patients. »
Le rôle des modèles de langage dits « large language models » (LLM) devient chaque jour plus important. De nombreux utilisateurs consultent ChatGPT, Gemini, Copilot et autres pour les questions les plus diverses, y compris sur les médicaments et l’automédication. Lorsqu’un utilisateur obtient une réponse correcte, cela peut éviter un déplacement ou un appel à un médecin ou à un pharmacien, réduisant ainsi la pression sur les professionnels de santé et faisant des LLM des outils précieux dans le cadre des soins modernes.
Mais ces systèmes donnent-ils toujours des réponses fiables ? Branco De Busser a mené l’enquête dans le cadre de son mémoire de master en sciences pharmaceutiques, sous la direction du professeur Hans De Loof. « En général, les modèles de langage sont très compétents pour répondre avec précision aux questions liées à l’automédication et disposent des connaissances nécessaires pour fournir des informations de santé pertinentes », explique De Busser. « ChatGPT 4.0 s’est révélé être le modèle le plus fiable, offrant les réponses les plus précises et complètes. »
Ibuprofène et estomac vide
Cependant, l’intelligence artificielle a aussi ses « mauvais jours », comme le montre cette recherche. « Parfois, un modèle 'hallucine'. La réponse paraît fluide et correcte sur le plan grammatical, mais elle contient des informations erronées. Par exemple, j’ai demandé aux LLM si l’ibuprofène devait être pris à jeun. Scientifiquement, il est recommandé de prendre ce médicament avec de la nourriture pour éviter les troubles gastriques, sauf dans des cas exceptionnels. »
Si la majorité des modèles ont donné une réponse correcte, un d’entre eux s’est complètement trompé : « Oui, il est préférable de prendre l’ibuprofène à jeun. Il atteint son efficacité optimale lorsqu’il est pris à jeun ou avant les repas. »
De telles réponses erronées sont risquées. De Busser avertit : « Pour l’utilisateur, il est très difficile de distinguer le vrai du faux. Un patient pourrait ainsi suivre des conseils incorrects ou même dangereux. Il faut toujours faire preuve de prudence et vérifier les informations fournies par l’IA. Par exemple, à la question 'La pilule contraceptive peut-elle prévenir une IST ?', la réponse est sans ambiguïté : non. Pourtant, Gemini a refusé de répondre, ce qui pourrait inciter l’utilisateur à expérimenter de manière risquée. »
Des réponses qui varient
De Busser a également constaté que les réponses pouvaient varier. « Nous avons posé la même question soixante jours de suite. Les modèles comme GPT 4.0 et Copilot ont montré peu de variations, mais chez Perplexity, une journée pouvait faire la différence entre une réponse parfaite et une réponse dangereuse. »
L’étude révèle aussi que les modèles performent généralement mieux en anglais , ce qui s’explique par la base d’entraînement plus étoffée en anglais. De Busser ajoute : « Enfin, la formulation de la question influence fortement le résultat. Les modèles adaptent souvent leurs réponses aux préférences perçues de l’utilisateur. Les LLM semblent prioriser la satisfaction de l’utilisateur au détriment de l’exactitude des réponses, ce qui peut également conduire à des situations dangereuses. »