Erreurs diagnostiques en radiologie : GPT-4 montre ses capacités

Une étude récente démontre que l'intelligence artificielle, via GPT-4, peut détecter les erreurs dans les comptes-rendus radiologiques avec une précision proche de celle des radiologues expérimentés. Sur 200 comptes-rendus analysés, GPT-4 a montré des performances comparables tout en étant plus rapide et plus économique.

Une étude menée entre juin et décembre 2023 dans une institution américaine a recueilli 200 comptes-rendus d'examens radiologiques divers (radiographies, scanners et IRM). Parmi ceux-ci, 100 ont été intentionnellement grevés de 150 erreurs courantes (omissions, insertions, fautes de syntaxe, confusions droite/gauche, etc.).

La relecture de ces comptes-rendus a été confiée à six radiologues (deux séniors, deux assistants et deux résidents) ainsi qu'à ChatGPT-4. L'objectif était de comparer la capacité de détection des erreurs entre les humains et l'intelligence artificielle, en utilisant le test du χ2 et le test de Student pour l'analyse statistique, tout en prenant en compte le temps consacré à la relecture.

Performances comparées de ChatGPT-4 et des radiologues

Les résultats montrent que les performances de ChatGPT-4 sont comparables à celles des radiologues. Le taux de détection des erreurs par l'intelligence artificielle a été estimé à 82,7 % (124/150 ; IC 95 % 75-87,9), contre :

  • Radiologues séniors : 89,3 % (134/150 ; IC 95 % 83,4-93,3)
  • Assistants : 80,0 % (120/150 ; IC 95 % 72,9-85,6)
  • Résidents : 80,0 % (120/150 ; IC 95 % 72,9-85,6)

La différence entre les groupes n'est pas statistiquement significative. Toutefois, l'un des radiologues séniors s'est distingué avec un taux de détection de 94,7 % (142/150 ; IC 95 % 89,8-97,3 ; p=0,006).

Efficacité temporelle et coût

En termes de rapidité, ChatGPT-4 surpasse largement les radiologues, avec un temps moyen de 3,5 ± 0,5 secondes par compte-rendu, contre 25,1 ± 20,1 secondes pour les radiologues (p< 0,001). Sur le plan financier, le coût de correction d'un compte-rendu est également plus avantageux avec GPT-4, estimé à 0,03 ± 0,01 dollar contre 0,42 ± 0,41 dollar pour les radiologues (p< 0,001).

Conclusions et perspectives

Cette étude rétrospective suggère que GPT-4 peut efficacement assister les radiologues dans la relecture des comptes-rendus, en détectant les erreurs les plus courantes avec une performance proche de celle des professionnels expérimentés. Toutefois, des études prospectives sont nécessaires pour confirmer ces résultats avant une adoption généralisée de cette méthode. Par ailleurs, l'entraînement de l'agent conversationnel pour la détection des erreurs reste un défi, car il n'est pas encore accessible à tous les services d'imagerie à ce jour.

L'intégration de l'intelligence artificielle en radiologie, comme le montre cette étude, pourrait être une solution potentielle pour réduire les erreurs diagnostiques et éviter des situations critiques telles que celles observées récemment dans l'actualité.

  • Gertz RJ, Dratsch T, Bunck AC, et al. Potential of GPT-4 for Detecting Errors in Radiology Reports: Implications for Reporting Accuracy. Radiology. 2024 Apr;311(1):e232714. doi: 10.1148/radiol.232714.

Vous souhaitez commenter cet article ?

L'accès à la totalité des fonctionnalités est réservé aux professionnels de la santé.

Si vous êtes un professionnel de la santé vous devez vous connecter ou vous inscrire gratuitement sur notre site pour accéder à la totalité de notre contenu.
Si vous êtes journaliste ou si vous souhaitez nous informer écrivez-nous à redaction@rmnet.be.