La reconnaissance vocale est habituellement traitée dans le middleware ; les résultats sont transmis aux applications utilisatrices.

La reconnaissance automatique de la parole (souvent improprement appelée reconnaissance vocale) est une technique informatique qui permet d'analyser la voix humaine captée au moyen d'un microphone pour la transcrire sous la forme d'un texte exploitable par une machine.

La reconnaissance de la parole, ainsi que la synthèse de la parole, l'identification du locuteur ou la vérification du locuteur, font partie des techniques de traitement de la parole. Ces techniques permettent notamment de réaliser des interfaces homme-machine (IHM) où une partie de l'interaction se fait à la voix : « interfaces vocales ».

Parmi les nombreuses applications, on peut citer les applications de dictée vocale sur ordinateur où la difficulté tient à la taille du vocabulaire et à la longueur des phrases, mais aussi les applications téléphoniques de type serveur vocal interactif, où la difficulté tient plutôt à la nécessité de reconnaître n'importe quelle voix dans des conditions acoustiques variables et souvent bruyantes (téléphones mobiles dans des lieux publics).

Dans Parole et dialogue homme-machine, W. Minker et S. Bennacef expliquent que la reconnaissance automatique de la parole est un domaine complexe, car il existe une différence importante entre le langage formel, qui est compris et utilisé par les machines, et le langage naturel, que les humains utilisent. Le langage formel est structuré par des règles syntaxiques strictes et sans ambigüité. À l'inverse, dans le langage naturel, des mots ou des phrases peuvent avoir plusieurs sens selon l'intonation de l'énonciateur ou le contexte par exemple.

Domaine de recherche

[modifier | modifier le code]

La reconnaissance de la parole peut se rattacher à de nombreux plans de la science : traitement automatique des langues, linguistique, théorie de l'information, traitement du signal, réseaux de neurones, intelligence artificielle, etc.

Historique

[modifier | modifier le code]
Cette section est vide, insuffisamment détaillée ou incomplète. Votre aide est la bienvenue ! Comment faire ?

Les travaux sur la reconnaissance de la parole datent du début du XXe siècle. Le premier système pouvant être considéré comme faisant de la reconnaissance de la parole date de 1952.

Ce système électronique, développé par Davis, Biddulph et Balashek aux laboratoires Laboratoires Bell, était essentiellement composé de relais et ses performances se limitaient à reconnaître des chiffres isolés (voir référence). La recherche s'est ensuite considérablement accrue durant les années 1970 avec les travaux de Jelinek chez IBM (1972-1993). La société Threshold Technologies fut la première à commercialiser en 1972 un système de reconnaissance d'une capacité de 32 mots, le VIP100. Aujourd'hui, la reconnaissance de la parole est un domaine à forte croissance grâce à la déferlante des systèmes embarqués.

Une évolution rapide :

Depuis 2024, de nombreux logiciels de transcriptions utilisent l'intelligence artificielle[7].

Principes de base

[modifier | modifier le code]

Étapes

[modifier | modifier le code]

Une phrase enregistrée et numérisée est donnée au programme de reconnaissance automatique de la parole (RAP). Dans le formalisme RAP (ASR en anglais), le découpage fonctionnel est le suivant :

Matériel technique

[modifier | modifier le code]

La production documentaire dans un système de GDD part d'un enregistrement vocal (dictée numérique). Il s'agit d'enregistrer et restituer la voix sur support numérique. L'enregistrement peut se faire au travers de différents canaux d’enregistrement : microphones, dictaphones, smartphones

La restitution, pour frappe en secrétariat ou vérification, se fait à l'aide d'enceintes ou casques.

Modèles

[modifier | modifier le code]

Un tel système s'appuie sur trois modèles principaux :

La combinaison de ces trois modèles permet de calculer la probabilité de toute suite de mots étant donné un signal vocal observé. La reconnaissance de la parole consiste à trouver la suite de mots qui a la probabilité la plus élevée. Formellement la solution au problème est la suite de mots qui maximise l'expression mathématique suivante : .

Pour caler ces modèles en vue d'une application, il faut utiliser une grande quantité de corpus annoté. Le corpus doit correspondre aux conditions d'utilisation du système visé.

Classification

[modifier | modifier le code]

Les systèmes de reconnaissance de la parole peuvent être classifiés selon plusieurs axes :

La taille du vocabulaire et la complexité du modèle de langage sont directement liées à la langue et à la nature des données à traiter, de quelques dizaines de mots pour des commandes vocales à quelques centaines de milliers de mots pour couvrir une langue comme le français ou l'allemand.

Performance

[modifier | modifier le code]

Les performances brutes d'un moteur de reconnaissance de la parole sont souvent mesurées en taux d'erreur de mots (word error rate). On peut, réciproquement, évaluer le taux de succès. Ce taux varie fortement en fonction de la nature des données à transcrire, du locuteur, et des conditions acoustiques. Il dépend peu de la langue. Voici sa définition formelle :

où :

Voici quelques résultats moyens pour ce qui est du taux d'erreur :

Mentions dans la littérature

[modifier | modifier le code]

La reconnaissance de la parole est évoquée dans Le Premier Cercle de l'écrivain dissident soviétique Alexandre Soljenitsyne, comme un outil de répression au service de Staline.

La reconnaissance de la parole est également évoquée dans un roman policier[8] :

« Rien à voir avec nos bons vieux rapports de chez nous pianotés sur ordinateur d'un doigt frileux par un pote qui a longtemps hésité entre la carrière de flic et celle de maréchal-ferrant. Chez les Yankees, tu causes et ça s'enregistre, propre et en ordre, sans rature, répétition ni impropriété de termes. N'importe quelle crapule, ayant appris à lire sur une machine à sous, te torche des aveux en comparaison desquels la Confession d'un enfant du siècle passerait pour le mode d'emploi d'une poudre insecticide traduit du romanche.

Pour piloter ce machin, y avait pas besoin de sortir de Princeton. Tout ce qu'avait à branler l'opératrice, en dehors de son touffu joli, c'était de faire répéter un mot mal prononcé, et encore l'appareil suggérait-il une tripotée de synonymes concordant avec le sens de la phrase. En voyant fonctionner l'engin, je pensai à tous mes confrères trémulsés de la coiffe dont il rendrait la prose intelligible. »

— Frédéric Dard alias San Antonio, Du sable dans la vaseline

Il est fait mention de la reconnaissance de la parole comme unique interface entre l'homme et la machine dans La trilogie des prophéties de Pierre Bordage. En effet, dans cette trilogie, il est présenté un super-ordinateur, le D.N.A P-C.

Logiciels de reconnaissance vocale

[modifier | modifier le code]
Article détaillé : Commande vocale.

Les systèmes de reconnaissance vocale modernes utilisent des modèles du langage qui peuvent nécessiter des gigaoctets de mémoire ce qui les rend impraticables, en particulier sur les équipements mobiles. Pour cette raison, la plupart des systèmes de reconnaissance vocale modernes sont en fait hébergés par des serveurs distants et nécessitent une connexion internet et l'envoi à travers le réseau du contenu vocal.

Mozilla a lancé un projet communautaire, Common Voice, visant à recueillir des échantillons de voix dans une base de données libres, pour entraîner des moteurs de reconnaissance vocale non-propriétaires.

Notes et références

[modifier | modifier le code]
  1. (en) Leonard E. Baum, « A Maximization Technique Occurring in the Statistical Analysis of Probabilistic Functions of Markov Chains », The Annals of Mathematical Statistics,‎ , p. 164-171.
  2. Peckham, J. (1993). A new generation of spoken dialogue systems: results and lessons from the SUNDIAL project. In Third European Conference on Speech Communication and Technology.
  3. (en) « Apple Launches iPhone 4S iOS5 iCloud », sur apple.com, (consulté le ).
  4. « Microsoft annonce une avancée considérable en reconnaissance vocale », sur actuia.com, (consulté le ).
  5. Bastien Contreras, « Amazon lance un service de reconnaissance vocale automatique à destination des médecins », sur Clubic.com, (consulté le )
  6. (en-US) Ingrid Lunden, « Nabla, a digital health startup, launches Copilot, using GPT-3 to turn patient conversations into action », sur TechCrunch, (consulté le )
  7. « Transcrire du son en texte : l’autre révolution de l’IA », sur France Info, (consulté le ).
  8. San Antonio, Du sable dans la vaseline, Paris, Fleuve noir, , 209 p. (ISBN 2-265-06530-7), p. 40-41.

Voir aussi

[modifier | modifier le code]

Bibliographie

[modifier | modifier le code]

Articles connexes

[modifier | modifier le code]

Liens externes

[modifier | modifier le code]