Une étude récente démontre que l'intelligence artificielle, via GPT-4, peut détecter les erreurs dans les comptes-rendus radiologiques avec une précision proche de celle des radiologues expérimentés. Sur 200 comptes-rendus analysés, GPT-4 a montré des performances comparables tout en étant plus rapide et plus économique.
Une étude menée entre juin et décembre 2023 dans une institution américaine a recueilli 200 comptes-rendus d'examens radiologiques divers (radiographies, scanners et IRM). Parmi ceux-ci, 100 ont été intentionnellement grevés de 150 erreurs courantes (omissions, insertions, fautes de syntaxe, confusions droite/gauche, etc.).
La relecture de ces comptes-rendus a été confiée à six radiologues (deux séniors, deux assistants et deux résidents) ainsi qu'à ChatGPT-4. L'objectif était de comparer la capacité de détection des erreurs entre les humains et l'intelligence artificielle, en utilisant le test du χ2 et le test de Student pour l'analyse statistique, tout en prenant en compte le temps consacré à la relecture.
Performances comparées de ChatGPT-4 et des radiologues
Les résultats montrent que les performances de ChatGPT-4 sont comparables à celles des radiologues. Le taux de détection des erreurs par l'intelligence artificielle a été estimé à 82,7 % (124/150 ; IC 95 % 75-87,9), contre :
- Radiologues séniors : 89,3 % (134/150 ; IC 95 % 83,4-93,3)
- Assistants : 80,0 % (120/150 ; IC 95 % 72,9-85,6)
- Résidents : 80,0 % (120/150 ; IC 95 % 72,9-85,6)
La différence entre les groupes n'est pas statistiquement significative. Toutefois, l'un des radiologues séniors s'est distingué avec un taux de détection de 94,7 % (142/150 ; IC 95 % 89,8-97,3 ; p=0,006).
Efficacité temporelle et coût
En termes de rapidité, ChatGPT-4 surpasse largement les radiologues, avec un temps moyen de 3,5 ± 0,5 secondes par compte-rendu, contre 25,1 ± 20,1 secondes pour les radiologues (p< 0,001). Sur le plan financier, le coût de correction d'un compte-rendu est également plus avantageux avec GPT-4, estimé à 0,03 ± 0,01 dollar contre 0,42 ± 0,41 dollar pour les radiologues (p< 0,001).
Conclusions et perspectives
Cette étude rétrospective suggère que GPT-4 peut efficacement assister les radiologues dans la relecture des comptes-rendus, en détectant les erreurs les plus courantes avec une performance proche de celle des professionnels expérimentés. Toutefois, des études prospectives sont nécessaires pour confirmer ces résultats avant une adoption généralisée de cette méthode. Par ailleurs, l'entraînement de l'agent conversationnel pour la détection des erreurs reste un défi, car il n'est pas encore accessible à tous les services d'imagerie à ce jour.
L'intégration de l'intelligence artificielle en radiologie, comme le montre cette étude, pourrait être une solution potentielle pour réduire les erreurs diagnostiques et éviter des situations critiques telles que celles observées récemment dans l'actualité.