Boutin, Simon (2016). Utilisation des caractéristiques prosodiques pour optimiser un système de compréhension du langage naturel. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (1MB) | Prévisualisation |
Prévisualisation |
PDF
Télécharger (709kB) | Prévisualisation |
Résumé
En général, les entreprises oeuvrant dans l’industrie des systèmes de dialogue homme-machine offrent plusieurs applications informatiques à leurs clients, dont la compréhension automatique du langage naturel. Les systèmes courants de dialogue humain-machine sont constitués de trois composants faiblement couplés :
-Le système de reconnaissance vocale (ASR);
-Le système de compréhension du langage naturel (NLU);
-Le système de dialogue ou agent conversationnel (CA).
Dans cette architecture, les sorties des composants précédents servent d’entrées aux composants suivants. Les caractéristiques du signal acoustique ne font pas partie de la sortie du premier composant. Il est possible qu’il y ait de l’information supplémentaire dans le signal original pouvant aider directement le système NLU à effectuer sa tâche. Cette information dite « prosodique » concerne l’intonation, l’intensité et la durée des sons, qui est évidemment absente du texte écrit. Par exemple, l’identification d’un texte libre présent dans une commande vocale est particulièrement difficile pour le système NLU actuel. La littérature n’aborde pas directement l’identification des textes libres. Le concept le plus similaire étant l’identification des citations. L’originalité de cette étude est que l’auteur de la citation et son narrateur correspondent à la même entité.
L’objectif primaire de cette étude consistait à déterminer s’il existait une corrélation entre l’information prosodique d’un signal acoustique et la présence ou non des textes libres. Trois types de caractéristiques prosodiques ont été extraits à partir d’un grand ensemble de commandes vocales. Ces extractions ont permis de générer des distributions de leurs mesures. Les distributions des textes libres ont été comparées par rapport à celles des autres concepts, grâce au test de Kolmogorov–Smirnov (test K-S) à deux échantillons. Les résultats ont indiqué qu’il existait effectivement une corrélation. L’objectif secondaire consistait à vérifier s’il était possible d’améliorer les performances d’un système NLU grâce à cette information prosodique. Un système NLU minimal a été utilisé. Pour vérifier les gains de performance, des modèles basés sur des caractéristiques lexicales seules ont été comparés par rapport à des modèles augmentés par des caractéristiques prosodiques. Le test de McNemar a été utilisé pour vérifier si les gains obtenus étaient significatifs. L’information prosodique a effectivement amélioré les performances du système.
Titre traduit
Use of prosodic features to optimize a natural language understanding system
Résumé traduit
In general, companies working in the human-machine dialog systems industry offer several computer applications to their customers, including automatic natural language understanding. Current human-machine dialog systems are composed of three weakly coupled components:
-The automatic speech recognition system (ASR);
-The natural language understanding system (NLU)
-The dialog system or conversational agent (CA).
In this architecture, the outputs of the preceding components are the inputs of the following. The characteristics of the acoustic signal are not included in the output of the first component. But it is possible that additional information in the original signal can directly help the NLU system to perform its task. This so called "prosodic" information concerns intonation, intensity and duration of sound, which is obviously absent from the written text. For example, the identification of free text in a voice command is particularly difficult for the current NLU system. The literature does not directly address the identification of free texts. The most similar concept is the identification of quotations. By focusing on free texts, the originality of this study is that the author of the quotation and its narrator correspond to the same entity.
The first objective of this thesis was to determine whether there is a correlation between prosodic information of an acoustic signal and the presence or absence of free texts. Three types of prosodic features were extracted from a large set of voice commands, and their sample distributions were examined. Distributions for free texts were compared to those of other concepts using the two-sample Kolmogorov-Smirnov test (K-S test). The results showed that there was indeed a correlation. The second objective was to verify whether it is possible to improve the performance of an NLU system through the integration of prosodic information. Given a minimal NLU system, the performance gains of models based on lexical features alone were compared against models augmented with prosodic features. The McNemar's test was used to verify whether the gains were significant. Prosodic information has indeed improved this system’s performance.
Type de document: | Mémoire ou thèse (Mémoire de maîtrise électronique) |
---|---|
Renseignements supplémentaires: | "Mémoire présenté à l'École de technologie supérieure comme exigence partielle à l'obtention de la maîtrise en génie des technologies de l'information". Bibliographie : pages 131-137. |
Mots-clés libres: | Traitement automatique des langues naturelles. Prosodie (Linguistique) Reconnaissance automatique de la parole. texte libre, Kolmogorov-Smirnov, compréhension du langage naturel |
Directeur de mémoire/thèse: | Directeur de mémoire/thèse Dumouchel, Pierre |
Codirecteur: | Codirecteur Tremblay, Réal Cardinal, Patrick |
Programme: | Maîtrise en ingénierie > Génie des technologies de l'information |
Date de dépôt: | 26 août 2016 20:42 |
Dernière modification: | 26 août 2016 20:42 |
URI: | https://espace.etsmtl.ca/id/eprint/1719 |
Gestion Actions (Identification requise)
Dernière vérification avant le dépôt |