Avec l’arrivée du générateur de textes ChatGPT , est née la possibilité de créer des documents à portée diagnostique et/ou thérapeutique. Cela a suscité une question éthique et médico-légale : comment les médecins peuvent-ils intégrer à la pratique des technologies prometteuses sans accroître dans le même temps les risques liés à la fiabilité des décisions ? Une réflexion proposée dans la JAMA Health Forum apporte des éléments de réponse.
Les avocats répondent souvent que les médecins devraient utiliser les outils de l'intelligence artificielle (IA) pour compléter, et non remplacer, leur jugement professionnel. On peut pardonner aux médecins de trouver un tel conseil peu utile. Aucun médecin compétent ne suivrait aveuglément les résultats d'un modèle. Mais que signifie exactement "compléter le jugement clinique de manière juridiquement défendable" ?
Il n’y a pas jusqu’à présent de cadre juridique pour apprécier l’erreur du médecin qui aurait suivi des recommandations fournies par ChatGPT ou une autre IA. On peut s’inspirer d’avis antérieurs ayant trait aux recommandations de bonne pratique (guidelines). Il est arrivé que des tribunaux considèrent que le respect des guidelines par le médecin disculpait celui-ci ou que le non-suivi de ces recommandations établissait la négligence. La question-clé était de savoir si les recommandations étaient applicables à un patient donné dans une situation donnée.
Il y a toutefois une difficulté : à l’heure actuelle, des outils comme ChatGPT sont susceptibles de fournir des « hallucinations », réponses présentées comme fiables mais qui sont totalement fausses. Le risque d’induire le médecin en erreur est d’autant plus grand que les sources sont totalement obscures, ce qui l’empêche d’en estimer la fiabilité. Et si des références sont fournies, elles sont souvent insuffisantes ou non-concluantes, voire factices.
Ces sources sont d’ailleurs utilisées sans discernement par les modèles de langage de grande taille, (LLM, large langage models) tels que ceux qu’utilise ChatGPT. Ce sont des réseaux de neurones profonds entraînés sur de grandes quantités de textes non étiquetés. D’importants efforts sont consentis pour tenter d’apprendre à ces LLM de recourir exclusivement à des textes médicaux qui font autorité. Mais ces tentatives sont encore très hésitantes.
De plus, les formulations proposées par les LLM sont fréquemment vagues et changeantes. Ils peuvent fournir des réponses différentes si on répète plusieurs fois la même demande ou si on la formule différemment, ou encore si on la formule à différents moments. Il est donc possible de faire passer une réponse comme fiable ou comme non fiable, tant que le médecin qui les aurait suivies n’aura pas opposé lui-même la demande telle qu’il l’a formulée et la réponse telle qu’il l’a obtenue.
Les LLM ont toutefois des avantages. Ils peuvent intégrer plus de données propres au patient et donc formuler des propositions plus adaptées que celles des autres outils décisionnels. Ils peuvent aussi amener le médecin à prendre en considération des hypothèses diagnostiques et thérapeutiques qu’il n’aurait peut-être pas envisagées autrement. Ils peuvent aussi (mais ce n’est qu’une possibilité) aller pêcher des informations plus à jour et sont capables de concentrer, sur des sujets largement explorés par les moyens électroniques, un plus grand nombre d’informations. Mais attention, certaines de ces informations peuvent provenir de sources non fiables.
On est au début de l’évaluation de la fiabilité des réponses. Dans une étude récente, des chercheurs ont soumis 64 requêtes à ChatGPT 3.5 et ChatGPT 4. Ils ont jugé que les résultats n'étaient "pas suffisamment incorrects pour causer un préjudice au patient" dans 91% à 93% du temps, mais la concordance avec les résultats générés par un service de consultation dirigé par des médecins et des experts en informatique analysant des données agrégées de dossiers de santé électroniques n'était que de 21% à 41%.
Dans une autre étude (encore en cours d’évaluation) concernant les réponses de ChatGPT 3 à 180 questions d’ordre clinique (parmi d’autres questions), le score de fiabilité était de 4,4 sur 6 et de 2,4 sur 3 pour le caractère exhaustif. 8% des réponses étaient totalement incorrectes. Dans une troisième étude, les réponses de ChatGPT 3.5 à 36 vignettes cliniques, comparées au manuel clinique à partir duquel les vignettes ont été tirées, ont été jugées précises à 72% en moyenne. Les chercheurs ont qualifié cela d'"exactitude impressionnante", mais ont reconnu que même de petites erreurs peuvent nuire aux patients.
Sur ces bases, on ne peut que conseiller aux cliniciens d’utiliser les LLM uniquement dans le but de compléter les outils plus classiques de recherche d’information. Établir la confrontation des réponses obtenues avec celles qu’apportent des sites bien identifiés sur internet peut aider à faire la distinction entre les données valables et les “hallucinations”.
Pour les auteurs du Forum dans le Jama, “même si les LLM peuvent un jour constituer une option sûre pour les requêtes des médecins, ce moment n'est pas encore venu.”
Lire aussi: ChatGPT, DALL-E: le Parlement européen veut encadrer l'IA générative