Transcription audio en texte : l’IA égale l’humain

Temps de lecture : 2 minutes

Des chercheurs Microsoft ont développé une intelligence artificielle qui atteint la même performance qu’un être humain en transcription audio – une IA ayant la même capacité à restituer une conversation. La promesse d’arriver, demain, à des interfaces toujours plus naturelles.

Une percée dans la reconnaissance vocale

Un rêve devenu réalité, et qui paraissait hors d’atteinte il y a cinq ans encore… Mais un objectif fixé fin 2015, dépassé une première fois en octobre 2016 puis en août 2017. Retour sur la percée significative d’un groupe de chercheurs Microsoft spécialisé dans la reconnaissance vocale.

Un nouveau jalon dans l’histoire de la reconnaissance de discours : pour la première fois, une intelligence artificielle peut identifier les mots dans une conversation orale aussi bien qu’un être humain.

 Cet accomplissement est l’aboutissement de plus de vingt ans d’efforts

Geoffrey Zweig, un des responsables du groupe de recherche Microsoft Speech & Dialogue

Transcription audio : Un taux d’erreur égal, voire inférieur, à l’humain

Dans un premier article publié en octobre 2016, les chercheurs expliquent que l’intelligence artificielle développée fait autant, voire moins, d’erreurs que les transcripteurs professionnels. L’ordinateur ne reconnaissant pas parfaitement chaque terme –  au même titre que les humains – un taux d’erreur a été établi pour les mots pouvant être confondus, tels que « un » et « le ».

Les chercheurs ont ainsi calculé que le taux d’erreur de la machine sur un texte s’élevait à 5,9%… soit exactement le même taux d’erreur que les humains transcrivant le même texte. De quoi permettre, par exemple, à un chef de produit de communiquer plus facilement avec son responsable de production basé dans un autre pays, comme la Chine.

Replay

Vers un numérique plus durable et soutenable

Découvrez la proposition de Microsoft pour un numérique soutenable et durable traduite en 21 actions.

Visionner le replay

En août 2017, nouvelle étape : le taux d’erreur de la machine sur un texte progresse encore, jusqu’à 5,1%. Une avancée conséquente, permise par une série d’amélioration sur les réseaux neuronaux et par un renforcement du modèle de reconnaissance du langage… qui permet désormais de prédire plus précisément la suite d’une phrase, ou d’un texte, en fonction du contexte et du sujet.

Sur le long terme, les chercheurs comptent mettre au point une technologie sensible au sens des mots, permettant à une IA de répondre à des questions orales et d’agir selon ce qui lui est dit. Nous sommes, selon les membres du groupe de recherche Speech & Dialogue, à un moment charnière entre un monde où nous devons comprendre les ordinateurs et un monde où les ordinateurs peuvent nous comprendre.

Transcription audio, IA :  quelles utilisations ?

Concrètement, quelles applications immédiates  ? Des machines comprenant mieux le discours humain et donc susceptibles de renforcer toujours plus notre productivité. Par exemple, les chatbots offrent aux collaborateurs un gain de temps significatif leur permettant de se dédier à des tâches à vraie valeur ajoutée. L’intérêt qu’ils portent dans leur travail s’en retrouve alors renforcé et les employeurs observent une meilleure productivité.

Ces recherches permettent également aux entreprises de mettre en place des expériences client toujours plus innovantes et servent de passerelle vers des interfaces toujours plus naturelles. Les projets passent ainsi de plus en plus vite du stade laboratoire à l’application concrète dans la vraie vie : Cortana, Skype translator et Presentation Translator en sont des exemples.

A la une

#hololense

Le métavers au service de l’industrie

Alors que le métavers fait progressivement son chemin vers le grand public, il est déjà depuis déjà quelques années une réalité dans le secteur de l’industrie. Des technologies industrielles matures, dont Microsoft et ses partenaires se sont fait une spécialité. Une usine qui prend forme virtuellement avant d’être construite. D’immenses cuves de brassages connectées qui […]

Lire l'article
Etudiant devant un écran

L’adaptive learning change les codes de l’apprentissage

L’adaptive learning s’impose de plus en plus dans les formations, et pour cause : face à la pluralité des profils au sein d’un système scolaire l’adaptive Learning offre des outils pour traiter équitablement l’ensemble des profils d’apprenants. Mais quand est-il vraiment de cette méthode de pédagogie innovante ? Rencontre avec Pascal Bringer, directeur général de Maskott, […]

Lire l'article
Data loss prevention (DLP)

Data Management: tout ce qu’il faut savoir

Les données sont aujourd’hui indissociables des modes de travail et de production des organisations, encore faut-il savoir les gérer de façon efficace et intelligente : c’est ce qu’on appelle le « Data management » ou « gestion des données ». Explorons ce concept ensemble. Sommaire : 1. Présentation du Data Management 2. Explication de la […]

Lire l'article