Le Lancet vient de publier le premier article de revue systématique et méta-analyse concernant la comparaison de l’efficacité de l’Intelligence Artificielle avec la pertinence diagnostic des professionnels de santé . Que faut-il en retenir ?
Il s’agit d’un article attendu par les professionnels de la santé et toutes autres personnes impliqués dans l’évolution et l'évaluation de la santé digitale. Le message principal de la méta-analyse est que l’intelligence artificielle pourrait être aussi efficace que le médecin pour diagnostiquer des pathologie sur base d’examen d’imagerie. On s’en doutait, n’est-ce pas?
Cependant, les auteurs de l’étude mettent en évidence des limitations importantes concernant l’interprétation des résultats de l’étude.
Premièrement, moins de 1% des 20.500 études passées à la révision dans le processus de recherche possédaient un design assez robuste pour que les auteurs accordent une confiance relative en leur résultats. Le nombre total d’articles dont les résultats sont pris en considération pour en tirer des conclusions est très important dans une revue, surtout à une époque où le domaine académique est envahi par une vague d’articles montrant l’absence de réplication (obtention de la même tendance de résultats en utilisant la même méthodologie dans deux populations différentes) dans différents domaines des sciences de la vie, dont la recherche médicale fondamentale.
Deuxièmement, le directeur de l’étude, le Professeur Alastair Denniston (NHS Birmingham) explique que seules 25 études ont validé leur résultats en utilisant des images médicales provenant d’autres populations que la population source de l’étude : la réplication primaire des résultats n’a donc été effectuée que dans moins de 1 millième des études analysées!
Troisièmement , seules 14 études ont réellement comparé l’intelligence artificielle aux professionnels de la santé en utilisant les mêmes échantillons.
Il est important de noter également que sur base de cette méta-analyse, l’intelligence artificielle n’est pas plus performante que les médecins. Cependant, le peu d’études qualitatives à disposition indiquent que le deep learning est utile pour détecter aussi bien que les professionnels de la santé différents types de pathologies.
En conclusion, cette étude est une excellente étape vers la validation clinique des algorithmes: mais, les preuves de l’application “real world” de l’intelligence artificielle en clinique, devront venir (comme pour toutes les innovations diagnostiques et thérapeutiques en médecine) d’études randomisées comparant les différentes approches diagnostiques et leur impact sur le time-to-treatment, time-to-discharge ainsi que les taux de survie.