Des scientifiques de l'Université d'Oxford et de DeepMind, la filiale de Google dédiée à l'intelligence artificielle, ont développé une IA capable de convertir les mouvements des lèvres en texte, avec une précision record.
Et si, demain, les machines savaient lire sur les lèvres des
humains ? Si pour l’heure, ce sont surtout les malentendants qui
s’entraînent à la lecture labiale, à base de cours par exemple, les
multinationales de l’informatique y travaillent depuis longtemps.
Alors qu’un humain expérimenté dans la lecture labiale est capable de reconnaître une phrase dans 52,3 % des cas, des chercheurs de l’Université d’Oxford
affirmaient début novembre que leur intelligence artificielle, elle,
parvenait à une moyenne de 93 %. Son nom : LipNet, un logiciel qui
arriverait presque, selon eux, à retranscrire la parole d'un
interlocuteur en temps réel... Mais qui n'aurait été testé "que" sur des
séquences pré-enregistrées, avec des volontaires prononçant des phrases
très formelles.
Jeudi 24 novembre, un autre groupe de chercheurs de l'Université d'Oxford, qui travaille en partenariat avec le département IA (intelligence artificielle) de la filiale de Google DeepMind, a annoncé avoir réussi à créer un logiciel encore plus performant : le "logiciel de lecture labiale le plus précis du monde", selon le média de technologie en ligne The Verge .
Jeudi 24 novembre, un autre groupe de chercheurs de l'Université d'Oxford, qui travaille en partenariat avec le département IA (intelligence artificielle) de la filiale de Google DeepMind, a annoncé avoir réussi à créer un logiciel encore plus performant : le "logiciel de lecture labiale le plus précis du monde", selon le média de technologie en ligne The Verge .
118 000 phrases et 17 500 mots
Grâce à des milliers d'heures de séquences télévisées de la
chaîne britannique BBC, les scientifiques ont créé un réseau artificiel
de neurones capable de sous-titrer des vidéos avec une précision de 46,8
%. Un chiffre qui semble dérisoire... Sauf que devant les mêmes images,
un professionnel de lecture labiale humain a, lui, seulement réussi à
détecter le mot juste dans 12,4 % des cas. Le tout, rappelons-le, face à
des images bien plus compliquées à décrypter que celles analysées par
le programme LipNet.
En effet, le logiciel de DeepMind, baptisé Watch, Listen, Attend and Spell (Regarder, écouter, assister et épeler) a été confronté à des conversations "naturelles", issues de débats politiques non scénarisés pour l'occasion. Dans le détail, ce sont plus de 5 000 heures d'émissions télévisées de la BBC (dont Newsnight, Question Time, World Today) qui ont été utilisées pour développer le logiciel. Au total, 118 000 phrases différentes et 17 500 mots uniques constituent sa base de données. LipNet, lui, n'en compte que 51.
En effet, le logiciel de DeepMind, baptisé Watch, Listen, Attend and Spell (Regarder, écouter, assister et épeler) a été confronté à des conversations "naturelles", issues de débats politiques non scénarisés pour l'occasion. Dans le détail, ce sont plus de 5 000 heures d'émissions télévisées de la BBC (dont Newsnight, Question Time, World Today) qui ont été utilisées pour développer le logiciel. Au total, 118 000 phrases différentes et 17 500 mots uniques constituent sa base de données. LipNet, lui, n'en compte que 51.
Des applications nombreuses
Selon les chercheurs du projet, les applications de ce logiciel
sont nombreuses. Par exemple, il pourrait aider les personnes
malentendantes à mieux comprendre les conversations. Mais aussi être
utilisé pour sous-titrer des films muets, ou permettre de mieux
contrôler des assistants de reconnaissance vocale tels que les
programmes Siri d'Apple, Cortona (Microsofot), Google Assistant ou Alexa
(Amazon)... en prononçant ses mots à une caméra. Voire en les
chuchotant ou en les mimant, ce qui peut s'avérer pratique en public.
Mais ces prouesses technologiques soulèvent aussi de nouvelles questions éthiques. Qu'adviendrait-il si de tels logiciels de reconnaissance labiale étaient utilisés à des fins de surveillance ?
Mais ces prouesses technologiques soulèvent aussi de nouvelles questions éthiques. Qu'adviendrait-il si de tels logiciels de reconnaissance labiale étaient utilisés à des fins de surveillance ?
Source : http://www.wedemain.fr
Commentaires
Enregistrer un commentaire