Des premiers résultats époustouflants
Le système d’Intelligence Artificielle a pu être formé en étudiant pendant 5 000 heures six programmes de télévision différents de mars à septembre 2016 représentant environ 118 000 phrases. Mais avant cela, de janvier 2010 à décembre 2015, l’Université d’Oxford et les chercheurs de DeepMind ont dû entraîner l’Intelligence Artificielle.
Le système a ainsi progressivement appris à déchiffrer des expressions entières plus ou moins complexes en analysant les figures significatives du mouvement des lèvres de chaque orateur (visèmes pour visual phonemes) et en les associant à des phonèmes (éléments sonores du langage articulé. La langue française en compte 39 contre environ 50 pour la langue anglaise).
Les erreurs relevées parce qu’elles étaient mineures ont pu être corrigées aisément. Saviez-vous par exemple que les phrases « Il mange des frites » et « Il marche très vite » sont composées des mêmes visèmes ? Pour autant, leur sens est totalement différent. Cela explique pourquoi lire sur les lèvres constitue un exercice aussi difficile. Les humains les plus performants peuvent atteindre un taux de 50 % de réussite.
Or, le système développé par DeepMind est parvenu à largement surpasser le taux réalisé par les lecteurs professionnels humains de même que tous les autres systèmes de lecture automatique sur les lèvres existant, ce qui est très encourageant pour le développement de futurs systèmes faisant appel au deep learning.
Pour rendre les données recueillies utilisables pour la lecture automatique sur les lèvres, des clips vidéo spécifiques ont été préparés par les chercheurs qui ont utilisé le machine learning afin de traiter le problème de décalage d’environ une seconde rencontré entre les flux audio et vidéo, ce qui rendait l’apprentissage impossible pour l’IA.
L’établissement de liens corrects entre les formes de la bouche et les sons prononcés a, de ce fait, pu être enseigné à l’IA. Le système a alors été en capacité de tenir compte de ce décalage et a réaligné automatiquement les flux audio et vidéo pour les 5 000 heures visionnées. Cela a évité aux chercheurs de devoir réaliser eux-mêmes manuellement la synchronisation.
Les possibles débouchés de cette innovation
Il s’agit à présent de savoir comment seront utilisées les nouvelles capacités de lecture sur les lèvres de l’Intelligence Artificielle. L’écoute de nos conversations privées en lisant sur nos lèvres par des services de renseignement peut constituer notre première crainte, même si d’ores et déjà des micros longue portée s’avèrent très performants pour le faire. Il n’en reste pas moins vrai que la possibilité d’une atteinte à la vie privée des personnes existe et qu’une régulation des usages d’un tel système devrait être confiée à un organisme tel que la CNIL.
Il est cependant plus probable que des utilisations grand public soient visées, notamment pour aider les personnes sourdes et malentendantes (elles sont 5 à 6 millions en France et ce nombre devrait encore croître du fait avéré du vieillissement de la population). Elles seront ainsi à même de comprendre ce que nous voulons leur dire en intégrant des applications dans des appareils auditifs de nouvelle génération.
D’une manière plus générale, et contrairement à SIRI d’Apple qui pratique la reconnaissance vocale, la dictée silencieuse de messages et la reconnaissance de la parole dans des environnements bruyants (halls de gares et d’aéroports, centres commerciaux...) ne présenteront plus aucun problème avec ce dispositif.
On peut aussi imaginer qu’après avoir colorisé les vieux films, on puisse souhaiter redonner la parole à ceux qui sont muets par la simple analyse des images.
Comme on peut le constater, le champ des possibles est donc large et les cas d’usages seront sans aucun doute nombreux.