Intelligence artificielle:  l’Europe examine la qualité des bases de données

Dans un très long rapport actuellement en débat, le parlement européen examine la qualité des bases de données utilisées dans les algorithmes. Pour l’Europe  les risques de biais existent et dans quelque domaine que ce soit. Y compris la médecine.  L’objectif est de rechercher le moyen de les éviter . 

On sait que le matériau de base des algorithmes est constitué de vastes bases de données qui permettent l’apprentissage des systèmes intelligents. C’est donc à cette source que peuvent se situer les risques les plus originels de biais dans le « machine learning ».

Une question de représentation

C’est ce que le rapport appelle la « représentation biaisée de la connaissance ». Cette notion pose la question du contenu des bases de données et de l’adéquation de l’information collectée aux objectifs qui sont visés. Outre la fiabilité, la sécurité et la validité, cela implique une dimension sociale, dit le rapport. 

Si la représentation de la connaissance (i.e. le contenu de la base de données) est biaisée, le processus de raisonnement du système d’intelligence artificielle le sera aussi et les conclusions seront inadaptées. Ces considérations soulignent l’importance de la collecte et de la gestion des données. Le rapport distingue deux types de données : structurées et non structurées. Les premières répondent à un schéma pré-établi et prennent généralement la forme de textes. Elles ont trait aux dates, aux caractéristiques du contact, à l’origine des données, aux données de laboratoire et autres valeurs mesurables, à la démographie, etc.  Et à ce niveau, la sous-représentation de certains groupes pose vraiment problème. Le rapport cite clairement à ce propos le cas des communautés LGTBIQ+ ou encore les personnes handicapées. On pourrait aussi ajouter l’exemple des patients porteurs de maladies orphelines. 

Misogynes, racistes et extrémistes

Les données « non structurées » consistent pour leur part en documents divers, tels qu’images, vidéos et autres types d’enregistrement, provenant de sites web, des médias, de caméras ou peuvent même avoir été produites par des machines (infographie, animation, …). C’est en quelque sorte du « tout venant », qui nécessite une intervention humaine plus importante pour son intégration dans les bases de données. Le jugement humain, lui-même influencé par l’histoire personnelle et la position sociale de(s) l’opérateur(s) comporte alors un important risque de biais. Pensons à un ou des opérateurs mysogynes, moralistes, d’extrême droite, racistes ou autres. On imagine aisément ce que cela signifie pour des groupes humains minoritaires ou considérés comme en marge des normes. Il apparaît clairement, entre autres, que certaines bases de données manquent ainsi d’informations sur les personnes de couleur et leurs pathologies. On a connu des cas où un thermomètre tenu par une main de couleur blanche était classé par les algorithmes comme tenant un « appareil électronique » tandis que s’il est tenu par une main de couleur noir, il est considéré comme une « arme ». Voilà qui en dit long.

Il, elle ou autre ?

Il existe encore un autre risque, dit le rapport. Ce risque vient de la traduction d’une langue dans une autre, surtout si cette traduction est automatique. Par exemple, le fait d’attribuer une profession systématiquement à un genre (docteur = homme ; infirmier = femme) peut également fausser l’interprétation des données. Quid des transgenres ou des ambiguïtés sexuelles, des états qui ne sont pas sans conséquences sur le plan médical ? Sans compter les faux-amis dans les nomenclatures de maladies, d’agents infectieux, de médicaments ou autres. Le même nom de maladie – en particulier au niveau des troubles mentaux – n’a pas la même acception dans toutes les cultures. Prenons l’exemple bien connu de la notion de dépression ou même celle de douleur.

 Bref, si l’intelligence artificielle marque assurément un progrès en médecine, on peut encore la rendre plus « intelligente » qu’elle n’est.

> Découvrir le rapport dans son intégralité

Vous souhaitez commenter cet article ?

L'accès à la totalité des fonctionnalités est réservé aux professionnels de la santé.

Si vous êtes un professionnel de la santé vous devez vous connecter ou vous inscrire gratuitement sur notre site pour accéder à la totalité de notre contenu.
Si vous êtes journaliste ou si vous souhaitez nous informer écrivez-nous à redaction@rmnet.be.