La vitrine de diffusion des mémoires et thèses de l'ÉTS
RECHERCHER

A robust tongue shape model for ultrasound recordings of normal and impaired speech

Téléchargements

Téléchargements par mois depuis la dernière année

Changizi, Sahba (2022). A robust tongue shape model for ultrasound recordings of normal and impaired speech. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.

[thumbnail of CHANGIZI_Sahba.pdf]
Prévisualisation
PDF
Télécharger (5MB) | Prévisualisation

Résumé

Ultrasound imaging is a helpful tool to observe tongue movements while minimally interfering with natural speech. There exists a variety of models to quantify tongue shape based on contours extracted from ultrasound images. However, these can be affected by poor image quality, e.g., when parts of the tongue are missing from the images due to imaging artifacts. In this study, we investigate the effects of various contour extraction errors on the accuracy and consistency of different shape measures.

We developed exponential and polynomial contour perturbation models, then simulated missing tongue tip and root, and investigated the impact of these perturbations on shape measures based on the discrete Fourier transform (DFT), modified curvature index (MCI), and triangular fitting. This was applied to a set of CV utterances collected from healthy speakers and speakers who were diagnosed with speech deficits. Results demonstrate the effectiveness of DFT, MCI and triangular fitting in clustering different phonemes despite the added noise. There is also a trade-off between the robustness of the model and sensitivity to minor actual differences in tongue shape. Sometimes, these slight differences help group tongue shapes that differ, e.g., due to coarticulation effects. Therefore, we have attempted to improve the precision of the DFT model by adding palatal contact information. Our experiment shows that the new shape model is robust to the noise and can successfully classify our target CV utterances and increase the classification score by 23% for speakers with speech deficits.

Titre traduit

Un modèle de forme de langue robuste à partir d’enregistrements ultrasons de la parole normale et altérée

Résumé traduit

L’imagerie par ultrasons est un outil utile pour observer les mouvements de la langue en interférant minimalement avec la parole naturelle. Il existe une variété de modèles pour quantifier la forme de la langue à partir de contours extraits d’images échographiques. Cependant, ceux-ci peuvent être affectés par une mauvaise qualité d’image, par exemple, lorsque des parties de la langue manquent sur les images en raison d’artefacts d’imagerie. Dans cette étude, nous étudions les effets de diverses erreurs d’extraction de contour sur la précision et la cohérence de différentes mesures de forme.

Nous avons développé des modèles de perturbation de contour exponentiels et polynomiaux, puis simulé la pointe et la racine de la langue manquantes, et étudié l’impact de ces perturbations sur les mesures de forme basées sur la transformée de Fourier discrète (DFT), l’indice de courbure modifié (MCI) et l’ajustement triangulaire. Ceci a été appliqué à un ensemble d’énoncés CV collectés auprès de locuteurs sains et déficients. Les résultats démontrent l’efficacité de la DFT et de l’ajustement triangulaire dans le regroupement de différents phonèmes malgré le bruit ajouté.

Il existe également un compromis entre la robustesse du modèle et la sensibilité aux différences réelles mineures dans la forme de la langue. Parfois, ces légères différences aident à regrouper les formes de langue qui diffèrent, par exemple en raison d’effets de coarticulation. Par conséquent, nous avons tenté d’améliorer la précision du modèle DFT en ajoutant des informations de contact palatal. Notre expérience montre que le nouveau modèle de forme est robuste au bruit et peut classer avec succès les énoncés CV et augmenter le score de classification de 23% pour les locuteurs qui ont des troubles de la parole.

Type de document: Mémoire ou thèse (Mémoire de maîtrise électronique)
Renseignements supplémentaires: "Thesis presented to École de technologie supérieure in partial fulfillment of a master’s degree with thesis in software engineering". Comprend des références bibliographiques (pages 63-66).
Mots-clés libres: quantification de la forme de la langue, ultrason, modélisation robuste de la forme de la langue
Directeur de mémoire/thèse:
Directeur de mémoire/thèse
Laporte, Catherine
Codirecteur:
Codirecteur
Ménard, Lucie
Programme: Maîtrise en ingénierie > Génie
Date de dépôt: 29 sept. 2025 16:32
Dernière modification: 29 sept. 2025 16:32
URI: https://espace.etsmtl.ca/id/eprint/3729

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt Dernière vérification avant le dépôt