La vitrine de diffusion des mémoires et thèses de l'ÉTS
RECHERCHER

Modèle d’amélioration des transcriptions automatiques des narrations de patients dans le contexte restreint des tâches de description d’images

Téléchargements

Téléchargements par mois depuis la dernière année

Plus de statistiques...

García Cano Castillo, Eric Ulises (2022). Modèle d’amélioration des transcriptions automatiques des narrations de patients dans le contexte restreint des tâches de description d’images. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.

[thumbnail of GARCIA_CANO_CASTILLO_Eric_Ulises.pdf]
Prévisualisation
PDF
Télécharger (716kB) | Prévisualisation

Résumé

La reconnaissance automatique de la parole (ASR, selon son acronyme anglais) est une technologie largement utilisée dans la vie quotidienne, mais qui n'est pas complètement résolue. Les systèmes ASR sont toujours sujets à des erreurs, surtout lorsqu'ils sont confrontés à des conditions non standard, différentes de celles utilisées pour les entraîner. Cette technologie est particulièrement mise à l'épreuve lorsqu'elle est utilisée avec la parole de nonanglophones et de personnes âgées. Dans le domaine de l'étude des maladies neurodégénératives, on sait que les troubles du langage apparaissent à des stades précoces de la maladie et que l'analyse du discours narratif des patients permet d'obtenir un diagnostic opportun. L'analyse manuelle, telle qu'elle est réalisée jusqu'à présent, est coûteuse en termes de temps et de ressources. La reconnaissance automatique de la parole pourrait donc rendre le processus plus efficace. Cependant, les taux d'erreur élevés de ces systèmes les empêchent d'être largement utilisés dans la science et la recherche.

Dans cet article, nous proposons une nouvelle méthode de postédition de détection et de correction des erreurs pour un système ASR qui génère des transcriptions automatiques de la parole d'adultes et de personnes âgées francophones décrivant une image.

Au moyen de techniques de traitement du langage naturel, nous extrayons le vocabulaire le plus courant des transcriptions manuelles correctes pour construire un dictionnaire de correction phonémisé ; ensuite, nous extrayons des phrases hors contexte des transcriptions automatiques, qui sont ensuite comparées par une recherche phonétique floue avec le dictionnaire de correction, pour trouver et appliquer les meilleures corrections. Les résultats expérimentaux montrent une précision de détection des erreurs de 80 % et notre meilleur modèle permet une amélioration moyenne du WER de 1,9 %, avec des valeurs allant de 0,6 % à 6,4 %.

Titre traduit

A model for improving automatic transcriptions of patient narratives in the restricted context of image description tasks

Résumé traduit

Automatic speech recognition (ASR) is a technology widely used in daily life, but not completely solved. ASR systems are still prone to errors, especially when confronted with nonstandard conditions, different from those used to train them. This technology is especially challenged when used with speech from non-English speakers and aged voices. In certain domains, such as the study of neurodegenerative diseases, it is known that language impairments appear in early stages of the disease, and that the analysis of patients' narrative discourse helps to obtain a timely diagnosis. Manual analysis, as it is done so far, is costly in terms of time and resources, so automatic speech recognition could make the process more efficient. However, the high error rates in these systems prevent them from being widely used in science and research.

In this paper, we propose a new post-editing method of error detection and correction for an ASR system that generates automatic transcriptions of the speech of French-speaking adults and older adults describing an image.

By means of natural language processing techniques, we extract the most common vocabulary from correct manual transcriptions to build a phonemicized correction dictionary; then we extract out-of-context sentences from the automatic transcriptions, which are then compared through a fuzzy phonetic search with the correction dictionary to find and apply the best corrections. Experimental results show an error detection accuracy of 80% and our best system yields an average WER improvement of 1.9%, with values ranging from 0.6% to 6.4%.

Type de document: Mémoire ou thèse (Mémoire de maîtrise électronique)
Renseignements supplémentaires: "Mémoire par article présenté à l’École de technologie supérieure comme exigence partielle à l’obtention de la maîtrise en génie des technologies de l’information". Comprend des références bibliographiques (pages 49-52).
Mots-clés libres: reconnaissance automatique de la parole, détection d'erreurs ASR, correction d'erreurs ASR, voix vieillissante, adulte âgé, langue française
Directeur de mémoire/thèse:
Directeur de mémoire/thèse
Ratté, Sylvie
Programme: Maîtrise en ingénierie > Génie des technologies de l'information
Date de dépôt: 14 avr. 2022 17:04
Dernière modification: 14 avr. 2022 17:04
URI: https://espace.etsmtl.ca/id/eprint/2962

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt Dernière vérification avant le dépôt