Microsoft a développé un système de reconnaissance vocale capable de transcrire les mots d'une conversation aussi efficacement qu’un transcripteur professionnel humain. Dans un document publié ce lundi, une équipe de chercheurs et d’ingénieurs de Microsoft Artificial Intelligence and Research a annoncé que ce système réalise un taux d’erreurs de transcription comparable ou inférieur à celui des transcripteurs professionnels. Ce taux est passé de 6,3 % à 5,9 % en un mois.
Avec ce résultat, la solution de reconnaissance vocale de Microsoft a réalisé le taux d’erreurs de transcription le plus bas jamais enregistré dans l’industrie faisant mieux que toutes les autres solutions du marché. De même, ce taux est également égal à celui réalisé par les personnes qui ont participé à la transcription de la même conversation. « Nous avons atteint la parité humaine », a dit Xuedong Huang, un chercheur de Microsoft.
Cet exploit veut dire que pour la première fois, un ordinateur est capable de reconnaitre les mots d’une conversation aussi parfaitement qu’une personne. C’est le résultat de longues recherches qui ont commencé depuis les années soixante-dix et entreprises par la DARPA (Agence pour les projets de recherche avancée de défense). Durant des dizaines d’années, plusieurs firmes de technologie et organisations de recherche ont rejoint cette quête. « Cette réussite est l’aboutissement de plus de 20 ans d’effort », a dit Geoffrey Zweig du Speech & Dialog research group.
La mise au point de ce nouveau système aura de profondes implications sur les produits pour entreprises et pour le grand public, qui s’appuient sur la reconnaissance vocale. Cela inclut entre autres les systèmes de divertissement comme la Xbox, les outils d’accessibilité comme la transcription instantanée et les assistants personnels comme Cortana.
Il faut noter que parité ne veut pas dire forcément que le système de Microsoft est parfait, en effet il ne reconnait pas tous les mots parfaitement. En vérité, même des transcripteurs humains sont incapables de le faire. Le système n’a fait que transcrire à un taux d’erreurs comparable à une personne écoutant la même conversation. M. Zweig a attribué ce résultat à l’usage systématique de l’intelligence artificielle et d'un réseau de neurones.
Ces réseaux de neurones profonds utilisent de grands volumes de données (des corpus d'apprentissage) destinés à apprendre aux ordinateurs comment reconnaitre les modèles à partir des images et des sons. Pour réduire le taux d’erreurs, l’équipe de chercheurs s’est appuyée sur le Computational Network Toolkit, une bibliothèque pour l'apprentissage des réseaux de neurones profonds que l'équipe de Microsoft a rendu disponible en open source sur GitHub.
Microsoft a eu recours à 2 000 heures de données d’entrainement pour apprendre cette tâche à son réseau de neurones profonds. La firme a précisé que la parallélisation des données avec son toolkit s’appuie sur l'utilisation des processeurs graphiques pour réduire le temps d’apprentissage de plusieurs mois à moins de trois semaines.
Malgré les avancées considérables dans le domaine de reconnaissance visuelle et vocale durant les dernières années, les chercheurs estiment qu’on est toujours loin d’avoir des systèmes parfaits. M. Zweig a précisé que les chercheurs travaillaient sur des façons pour permettre à la reconnaissance vocale de fonctionner dans des conditions similaires à celles de la vie réelle. Cela inclut les environnements avec bruit de fond fort comme lors d’une fête. Ils cherchent aussi à aider la technologie à assigner des noms à des individus lorsque plusieurs personnes sont en train de parler. Enfin, il faudrait que cette technologie soit capable de comprendre une variété de voix, quel que soit l’âge, l’accent ou la capacité de l’individu qui est en train de parler. À long terme, il ne sera plus question de transcrire seulement, mais de comprendre le sens des mots et des phrases, de cette façon, la technologie pourra répondre à des questions et décider d'actions s’il le faut.
Source : blog Microsoft
Et vous ?
Qu'en pensez-vous ?
Voir aussi :
La première chanson composée par une intelligence artificielle vient de voir le jour, en attendant la sortie d'un album complet en 2017
La reconnaissance vocale de Microsoft peut maintenant rivaliser avec des humains
Avec un taux d'erreurs de transcription comparable ou inférieur
La reconnaissance vocale de Microsoft peut maintenant rivaliser avec des humains
Avec un taux d'erreurs de transcription comparable ou inférieur
Le , par Coriolan
Une erreur dans cette actualité ? Signalez-nous-la !