DIGINOVE CONSULTING - Conseil en mobilité urbaine et innovation
  • Accueil
  • Société
    • Qui sommes-nous ?
    • Notre expertise « Mobilité urbaine & Innovation »
  • Notre offre de services
    • Le conseil stratégique
    • Le conseil opérationnel
    • Le conseil organisationnel
    • L’assistance à maîtrise d’ouvrage
  • Nos références
  • Blog
  • Partenariats
  • Contact

Bienvenue sur le blog de Danielle Gance

"La connaissance, c'est partager le savoir qui nous fait grandir" Olivier Lockert

Contact

L'Intelligence Artificielle DeepMind capable de lire sur les lèvres

26/12/2016

0 Commentaires

 
Les GAFAM (Google – Apple – Facebook – Amazon – Microsoft) investissent lourdement dans la technologie d’avant-garde que constitue l’Intelligence Artificielle et développent des algorithmes sophistiqués qui sont progressivement introduits dans tous les secteurs d’activité : santé, assurance, banque, automobile, industrie... renforçant encore plus leur suprématie déjà bien établie et révolutionnant nos usages au quotidien.
Photo
C’est ainsi qu’en 2014, la société britannique DeepMind a été rachetée pour plus de 628 millions de dollars par Google qui s’intéresse de près à l’Intelligence Artificielle. DeepMind a, en effet, réussi à combiner des techniques très pointues d’apprentissage automatique et des neurosciences de systèmes pour élaborer des algorithmes très puissants. La première et étonnante application qui en a résulté a été réalisée en collaboration avec l’Université d’Oxford pour la lecture automatique sur les lèvres.
 
Des premiers résultats époustouflants

Le système d’Intelligence Artificielle a pu être formé en étudiant pendant 5 000 heures six programmes de télévision différents de mars à septembre 2016 représentant environ 118 000 phrases. Mais avant cela, de janvier 2010 à décembre 2015, l’Université d’Oxford et les chercheurs de DeepMind ont dû entraîner l’Intelligence Artificielle.

Le système a ainsi progressivement appris à déchiffrer des expressions entières plus ou moins complexes en analysant les figures significatives du mouvement des lèvres de chaque orateur (visèmes pour visual phonemes) et en les associant à des phonèmes (éléments sonores du langage articulé. La langue française en compte 39 contre environ 50 pour la langue anglaise).

Les erreurs relevées parce qu’elles étaient mineures ont pu être corrigées aisément. Saviez-vous par exemple que les phrases « Il mange des frites » et « Il marche très vite » sont composées des mêmes visèmes ? Pour autant, leur sens est totalement différent. Cela explique pourquoi lire sur les lèvres constitue un exercice aussi difficile. Les humains les plus performants peuvent atteindre un taux de 50 % de réussite.
Or, le système développé par DeepMind est parvenu à largement surpasser le taux réalisé par les lecteurs professionnels humains de même que tous les autres systèmes de lecture automatique sur les lèvres existant, ce qui est très encourageant pour le développement de futurs systèmes faisant appel au deep learning.

Pour rendre les données recueillies utilisables pour la lecture automatique sur les lèvres, des clips vidéo spécifiques ont été préparés par les chercheurs qui ont utilisé le machine learning afin de traiter le problème de décalage d’environ une seconde rencontré entre les flux audio et vidéo, ce qui rendait l’apprentissage impossible pour l’IA.

L’établissement de liens corrects entre les formes de la bouche et les sons prononcés a, de ce fait, pu être enseigné à l’IA. Le système a alors été en capacité de tenir compte de ce décalage et a réaligné automatiquement les flux audio et vidéo pour les 5 000 heures visionnées. Cela a évité aux chercheurs de devoir réaliser eux-mêmes manuellement la synchronisation.
 
Les possibles débouchés de cette innovation

Il s’agit à présent de savoir comment seront utilisées les nouvelles capacités de lecture sur les lèvres de l’Intelligence Artificielle. L’écoute de nos conversations privées en lisant sur nos lèvres par des services de renseignement peut constituer notre première crainte, même si d’ores et déjà des micros longue portée s’avèrent très performants pour le faire. Il n’en reste pas moins vrai que la possibilité d’une atteinte à la vie privée des personnes existe et qu’une régulation des usages d’un tel système devrait être confiée à un organisme tel que la CNIL.

Il est cependant plus probable que des utilisations grand public soient visées, notamment pour aider les personnes sourdes et malentendantes (elles sont 5 à 6 millions en France et ce nombre devrait encore croître du fait avéré du vieillissement de la population). Elles seront ainsi à même de comprendre ce que nous voulons leur dire en intégrant des applications dans des appareils auditifs de nouvelle génération.

D’une manière plus générale, et contrairement à SIRI d’Apple qui pratique la reconnaissance vocale, la dictée silencieuse de messages et la reconnaissance de la parole dans des environnements bruyants (halls de gares et d’aéroports, centres commerciaux...) ne présenteront plus aucun problème avec ce dispositif.

On peut aussi imaginer qu’après avoir colorisé les vieux films, on puisse souhaiter redonner la parole à ceux qui sont muets par la simple analyse des images.

Comme on peut le constater, le champ des possibles est donc large et les cas d’usages seront sans aucun doute nombreux.
0 Commentaires



Laisser une réponse.

    A propos

    Retrouvez nos articles sur des sujets d'actualité et sur des thèmes de réflexion concernant la mobilité urbaine et l'innovation de service s'y rapportant, régulièrement renouvelés grâce à la contribution de nos partenaires.

    Mail : dgance@diginove-consulting.com

    Categories

    Tout
    Big Data
    Billettique
    Biométrie
    Cybersécurité
    Cybersécurité
    Deep Learning
    Développement
    Développement
    Développement Durable
    Développement Urbain
    Développement Urbain
    Energie
    Espaces Transport
    Espaces Transport
    Gares
    Humain 2.0
    Impression 4 D
    Informatique
    Innovation
    Intelligence Artificielle
    Interface
    Machine Learning
    Médias Sociaux
    Médias Sociaux
    Micro-mobilité
    Mobilité
    Mobilité
    Numérique
    Open Data
    Open Payment
    Plates Formes
    Plates-formes
    Pollution Urbaine
    Privacy
    Réalité Augmentée
    Réalité Augmentée
    Réalité Virtuelle
    Réalité Virtuelle
    Reconnaissance Faciale
    Relation Client
    Risques Opérationnels
    Smart Dust
    Téléphone Mobile
    Télétravail
    Véhicules Autonomes
    Véhicules Autonomes
    Véhicules Autonomes

    Archives

    Septembre 2020
    Juin 2020
    Février 2020
    Novembre 2019
    Septembre 2019
    Avril 2019
    Février 2019
    Décembre 2018
    Novembre 2018
    Octobre 2018
    Septembre 2018
    Juin 2018
    Mai 2018
    Mars 2018
    Octobre 2017
    Septembre 2017
    Mai 2017
    Avril 2017
    Mars 2017
    Février 2017
    Janvier 2017
    Décembre 2016
    Novembre 2016
    Octobre 2016
    Septembre 2016
    Mai 2016
    Avril 2016
    Mars 2016
    Février 2016
    Décembre 2015
    Novembre 2015
    Juin 2015
    Mai 2015
    Avril 2015
    Mars 2015
    Février 2015
    Décembre 2014
    Octobre 2014
    Août 2014
    Juin 2014
    Mai 2014
    Avril 2014
    Mars 2014
    Février 2014
    Décembre 2013
    Novembre 2013
    Octobre 2013
    Août 2013
    Juin 2013
    Mai 2013
    Avril 2013
    Mars 2013
    Février 2013
    Janvier 2013
    Décembre 2012
    Novembre 2012
    Octobre 2012

    Flux RSS

Propulsé par Créez votre propre site Web unique avec des modèles personnalisables.