Transcription audio en texte : l’IA égale l’humain
Des chercheurs Microsoft ont développé une intelligence artificielle qui atteint la même performance qu’un être humain en transcription audio – une IA ayant la même capacité à restituer une conversation. La promesse d’arriver, demain, à des interfaces toujours plus naturelles.
Une percée dans la reconnaissance vocale
Un rêve devenu réalité, et qui paraissait hors d’atteinte il y a cinq ans encore… Mais un objectif fixé fin 2015, dépassé une première fois en octobre 2016 puis en août 2017. Retour sur la percée significative d’un groupe de chercheurs Microsoft spécialisé dans la reconnaissance vocale.
Un nouveau jalon dans l’histoire de la reconnaissance de discours : pour la première fois, une intelligence artificielle peut identifier les mots dans une conversation orale aussi bien qu’un être humain.
Cet accomplissement est l’aboutissement de plus de vingt ans d’efforts
Geoffrey Zweig, un des responsables du groupe de recherche Microsoft Speech & Dialogue
Transcription audio : Un taux d’erreur égal, voire inférieur, à l’humain
Dans un premier article publié en octobre 2016, les chercheurs expliquent que l’intelligence artificielle développée fait autant, voire moins, d’erreurs que les transcripteurs professionnels. L’ordinateur ne reconnaissant pas parfaitement chaque terme – au même titre que les humains – un taux d’erreur a été établi pour les mots pouvant être confondus, tels que « un » et « le ».
Les chercheurs ont ainsi calculé que le taux d’erreur de la machine sur un texte s’élevait à 5,9%… soit exactement le même taux d’erreur que les humains transcrivant le même texte. De quoi permettre, par exemple, à un chef de produit de communiquer plus facilement avec son responsable de production basé dans un autre pays, comme la Chine.
En août 2017, nouvelle étape : le taux d’erreur de la machine sur un texte progresse encore, jusqu’à 5,1%. Une avancée conséquente, permise par une série d’amélioration sur les réseaux neuronaux et par un renforcement du modèle de reconnaissance du langage… qui permet désormais de prédire plus précisément la suite d’une phrase, ou d’un texte, en fonction du contexte et du sujet.
Sur le long terme, les chercheurs comptent mettre au point une technologie sensible au sens des mots, permettant à une IA de répondre à des questions orales et d’agir selon ce qui lui est dit. Nous sommes, selon les membres du groupe de recherche Speech & Dialogue, à un moment charnière entre un monde où nous devons comprendre les ordinateurs et un monde où les ordinateurs peuvent nous comprendre.
Transcription audio, IA : quelles utilisations ?
Concrètement, quelles applications immédiates ? Des machines comprenant mieux le discours humain et donc susceptibles de renforcer toujours plus notre productivité. Par exemple, les chatbots offrent aux collaborateurs un gain de temps significatif leur permettant de se dédier à des tâches à vraie valeur ajoutée. L’intérêt qu’ils portent dans leur travail s’en retrouve alors renforcé et les employeurs observent une meilleure productivité.
Ces recherches permettent également aux entreprises de mettre en place des expériences client toujours plus innovantes et servent de passerelle vers des interfaces toujours plus naturelles. Les projets passent ainsi de plus en plus vite du stade laboratoire à l’application concrète dans la vraie vie : Cortana, Skype translator et Presentation Translator en sont des exemples.