Auparavant, le « voice banking » était cher et prenait beaucoup de temps, mais grâce à l’IA, il est désormais plus accessible pour les personnes souffrant d’une pathologie qui peut affecter leur capacité à parler, comme la SLA, le cancer de la gorge et la maladie de Parkinson.
D’après le Washington Post, l’utilisation de l’intelligence artificielle a entraîné une vague de création de banques vocales, en particulier pour les patients atteints de SLA. En 2017, la Team Gleason Foundation, une association à but non lucratif qui finance le voice banking pour les personnes souffrant de SLA, recevait 172 demandes pour ce service. En 2022, elle en a reçu plus de 1 200. En moyenne, aux États-Unis, la SLA est diagnostiquée chez 5 000 personnes chaque année. En Europe, environ 50 000 patients sont atteints de SLA. En Belgique, près d’un millier de personnes souffrent de cette maladie.
Les patients expliquent qu’une voix générée par ordinateur, qui sonne comme leur propre voix, leur apporte un plus grand sentiment de confiance et de connexion avec le monde qui les entoure.
Des méthodes de meilleure qualité et plus accessibles
L’enregistrement de la parole humaine est incroyablement complexe. Une personne devait auparavant enregistrer entre 1 000 et 6 000 phrases pour obtenir tous les sons possibles dans une langue. Cette procédure prenait généralement entre 8 et 30 heures. Ces sons enregistrés étaient ensuite conservés dans une base de données et le logiciel réarrangeait les sons en mots et en phrases.
Cette méthode de synthèse vocale par sélection d’unité aboutissait à un résultat bancal. « Le résultat est compréhensible, mais il sonne bizarrement », explique Tim Bunnell, directeur du Centre Nemours d’audiologie et d’orthophonie pédiatriques au Washington Post. Son laboratoire de recherche est passé des anciennes méthodes de synthèse vocale à de nouvelles méthodes, dont celles utilisant l’intelligence artificielle.
De meilleurs contacts
Pour créer une voix numérique, le logiciel IA analyse l’échantillon de parole d’une personne et cherche alors rapidement dans une vaste base de données pour trouver d’autres personnes qui parlent de la même manière. Il identifie des schémas dans la manière dont les voix sonnent et crée une voix numérique qui correspond à un locuteur particulier.
Désormais, seules quelques centaines de phrases sont nécessaires à la plupart des entreprises pour disposer d’une quantité suffisante de données. Plus impressionnant encore, certaines entreprises telles que l’Acapela Group , qui travaille avec la Team Gleason Foundation, possèdent des algorithmes qui peuvent composer une voix à partir d’une cinquantaine de phrases seulement.
L’utilisation de l’IA a également rendu le voice banking plus abordable financièrement. L’Acapela Group facturait 3 000 dollars, mais l’IA permet à présent de réduire ce coût à 999 dollars. D’autres entreprises proposent déjà ce service à partir de 300 dollars.
John M. Costello, qui a travaillé en tant que directeur de l’Augmentative Communication Program au Boston Children’s Hospital avec des milliers de patients, recommande à ceux-ci d’étudier avec un orthophoniste quel produit convient le mieux à leurs possibilités et à leurs besoins. Il a remarqué que les patients disposant d’une voix de synthèse réaliste avaient des contacts plus profonds avec leurs proches.