Transcription audio en texte : l’IA égale l’humain

Temps de lecture : 2 minutes

Publié le 30 août 2017

Des chercheurs Microsoft ont développé une intelligence artificielle qui atteint la même performance qu’un être humain en transcription audio – une IA ayant la même capacité à restituer une conversation. La promesse d’arriver, demain, à des interfaces toujours plus naturelles.

Une percée dans la reconnaissance vocale

Un rêve devenu réalité, et qui paraissait hors d’atteinte il y a cinq ans encore… Mais un objectif fixé fin 2015, dépassé une première fois en octobre 2016 puis en août 2017. Retour sur la percée significative d’un groupe de chercheurs Microsoft spécialisé dans la reconnaissance vocale.

Un nouveau jalon dans l’histoire de la reconnaissance de discours : pour la première fois, une intelligence artificielle peut identifier les mots dans une conversation orale aussi bien qu’un être humain.

Cet accomplissement est l’aboutissement de plus de vingt ans d’efforts

Geoffrey Zweig, un des responsables du groupe de recherche Microsoft Speech & Dialogue

Transcription audio : Un taux d’erreur égal, voire inférieur, à l’humain

Dans un premier article publié en octobre 2016, les chercheurs expliquent que l’intelligence artificielle développée fait autant, voire moins, d’erreurs que les transcripteurs professionnels. L’ordinateur ne reconnaissant pas parfaitement chaque terme – au même titre que les humains – un taux d’erreur a été établi pour les mots pouvant être confondus, tels que « un » et « le ».

Les chercheurs ont ainsi calculé que le taux d’erreur de la machine sur un texte s’élevait à 5,9%… soit exactement le même taux d’erreur que les humains transcrivant le même texte. De quoi permettre, par exemple, à un chef de produit de communiquer plus facilement avec son responsable de production basé dans un autre pays, comme la Chine.

Replay

Vers un numérique plus durable et soutenable

Découvrez la proposition de Microsoft pour un numérique soutenable et durable traduite en 21 actions.

Visionner le replay

En août 2017, nouvelle étape : le taux d’erreur de la machine sur un texte progresse encore, jusqu’à 5,1%. Une avancée conséquente, permise par une série d’amélioration sur les réseaux neuronaux et par un renforcement du modèle de reconnaissance du langage… qui permet désormais de prédire plus précisément la suite d’une phrase, ou d’un texte, en fonction du contexte et du sujet.

Sur le long terme, les chercheurs comptent mettre au point une technologie sensible au sens des mots, permettant à une IA de répondre à des questions orales et d’agir selon ce qui lui est dit. Nous sommes, selon les membres du groupe de recherche Speech & Dialogue, à un moment charnière entre un monde où nous devons comprendre les ordinateurs et un monde où les ordinateurs peuvent nous comprendre.

Transcription audio, IA : quelles utilisations ?

Concrètement, quelles applications immédiates ? Des machines comprenant mieux le discours humain et donc susceptibles de renforcer toujours plus notre productivité. Par exemple, les chatbots offrent aux collaborateurs un gain de temps significatif leur permettant de se dédier à des tâches à vraie valeur ajoutée. L’intérêt qu’ils portent dans leur travail s’en retrouve alors renforcé et les employeurs observent une meilleure productivité.

Ces recherches permettent également aux entreprises de mettre en place des expériences client toujours plus innovantes et servent de passerelle vers des interfaces toujours plus naturelles. Les projets passent ainsi de plus en plus vite du stade laboratoire à l’application concrète dans la vraie vie : Cortana, Skype translator et Presentation Translator en sont des exemples.

Le métavers au service de l’industrie

L’adaptive learning change les codes de l’apprentissage

Data Management: tout ce qu’il faut savoir

Transcription audio en texte : l’IA égale l’humain

Une percée dans la reconnaissance vocale

Transcription audio : Un taux d’erreur égal, voire inférieur, à l’humain

Vers un numérique plus durable et soutenable

Transcription audio, IA : quelles utilisations ?

A la une