Traçage et suivi du palais dans les images échographiques : un système de biofeedback visuel pour l’apprentissage d’une langue seconde

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Ben Asker, Hana (2025). Traçage et suivi du palais dans les images échographiques : un système de biofeedback visuel pour l’apprentissage d’une langue seconde. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.

Prévisualisation

PDF
Télécharger (5MB) | Prévisualisation

Résumé

L’imagerie échographique (US) émerge comme un outil précieux dans les sciences de la parole, offrant une fenêtre non invasive et en temps réel sur les mouvements de la langue durant l’articulation. Pour l’analyse articulatoire, et dans les systèmes de biofeedback visuel destinés à l’apprentissage d’une langue seconde (L2), un tracé du palais dur peut constituer une valeur ajoutée significative. Il sert non seulement de cible passive pour de nombreux sons consonantiques, mais aussi de cadre de référence stable pour normaliser les mesures articulatoires, comparer les productions et guider les apprenants vers des gestes plus ciblés. Toutefois, l’utilisation d’un tracé du palais en biofeedback est limitée par un défi majeur : son invisibilité durant la parole, due à l’interface air-tissu qui bloque les ultrasons. Les méthodes existantes, peu nombreuses, se limitent donc à la reconstruction statique du tracé, souvent acquise par le biais d’une tâche de déglutition.

Ce mémoire propose deux contributions complémentaires. Premièrement, nous établissons des pratiques exemplaires pour le traçage fiable du palais. Notre analyse comparative (51 vidéos, 17 participants, 3 tâches, 3 méthodes) démontre que la déglutition sèche combinée à la méthode du squelette d’échos cumulés (CES) produit le meilleur accord inter-juges (erreur de 2,87 mm) et valide la viabilité du CES automatique (erreur de 2,63 mm).

Deuxièmement, ce mémoire introduit une méthode de suivi automatique du palais. L’approche repose sur l’inférence du mouvement palatin à partir d’un repère constamment visible : le tendon du muscle génioglosse. Un système hybride, combinant un détecteur YOLOv8 et un filtre particulaire, assure un suivi robuste du tendon, permettant d’inférer la position du palais via un modèle de transformation rigide. Évaluée sur 71 vidéos (déglutitions et parole libre), la méthode atteint une erreur moyenne de 1,34 à 2,68 mm et reste fiable même avec moins de 5 % de visibilité palatine. L’hypothèse d’inférence anatomique est validée par une corrélation significative (r = 0, 64, p = 0, 001) entre l’exactitude du suivi du tendon et celle du palais.

Ces avancées posent les fondations de systèmes de biofeedback visuel améliorés pour l’orthopho nie et l’apprentissage d’une L2. La première étude établit une pratique exemplaire (déglutition sèche et CES) pour obtenir un tracé de référence fiable et valide la méthode CES automatique, notant ses limites face aux artefacts causés par la présence de liquides. La seconde contribution s’appuie sur cette base pour proposer un suivi continu malgré l’invisibilité. Le potentiel de ce suivi est démontré par le prototype ReaPT, développé en marge de ce projet et salué par les utilisateurs. Les limites actuelles, comme l’hypothèse de transformation rigide affectée par les mouvements mandibulaires, ouvrent des pistes futures : modèles non rigides, ré-initialisation, et validation clinique.

Titre traduit

Tracing and tracking the palate in ultrasound images : a visual biofeedback system for second language learning

Résumé traduit

Ultrasound (US) imaging has emerged as a valuable tool in speech sciences, offering a non invasive, real-time window into tongue movements during articulation. For articulatory analysis, and particularly in visual biofeedback systems for second language (L2) learning or clinical intervention, the hard palate trace can provide a significant added value. It serves not only as a passive target for many consonants but also as a stable frame of reference to normalize articulatory measurements, compare productions, and guide learners toward more targeted gestures. However, the use of the palate trace in biofeedback is limited by a major challenge : its invisibility during speech, caused by the air-tissue interface that blocks the ultrasound waves. Existing methods, which are few, are therefore limited to static reconstruction of the contour, often acquired through a swallowing task.

This thesis proposes two complementary contributions. First, we establish best practices for reliable palate tracing. Our comparative analysis (51 swallowing videos, 17 participants, 3 tasks, 3 methods ) demonstrates that the dry swallow task combined with the Cumulative Echo Skeleton (CES) method yields the best inter-rater agreement (mean error : 2.87 mm) and validates the viability of the automatic CES approach (mean error : 2.63 mm).

Second, this thesis introduces an automatic palate tracking method. The approach relies on inferring palatal motion from a consistently visible anatomical landmark : the genioglossus tendon. A hybrid system, combining a YOLOv8 detector with a particle filter, ensures robust tendon tracking, allowing the palate’s position to be inferred via a rigid transformation model. Evaluated on 71 videos (swallowing and free speech), the method achieves mean errors from 1.34 to 2.68 mm and remains reliable even when palate visibility drops below 5%. The hypothesis of anatomical inference is validated by a significant correlation (r = 0.64, p = 0.001) between tendon and palate tracking accuracy.

These advances lay the foundation for improved visual biofeedback systems for speech therapy and L2 learning. The first study establishes a best practice (dry swallow and CES) for obtaining a reliable reference trace and validates the automatic CES method, while noting its limitations with artifacts caused by the presence of liquids. The second contribution builds on this to propose continuous tracking despite invisibility. The potential of this tracking is demonstrated by the ReaPT prototype, developed as part of this project and praised by users. Current limitations, such as the rigid transformation hypothesis being affected by jaw movement, open clear future directions : non-rigid models, re-initialization, and clinical validation.

Type de document:	Mémoire ou thèse (Mémoire de maîtrise électronique)
Renseignements supplémentaires:	"Mémoire par articles présenté à l'École de technologie supérieure comme exigence partielle à l'obtention de la maîtrise avec mémoire en génie des technologies de l'information". Comprend des références bibliographiques (pages 75-81).
Mots-clés libres:	imagerie échographique de la langue, suivi du palais, biofeedback visuel, apprentissage d’une langue seconde, tendon du génioglosse, filtre particulaire
Directeur de mémoire/thèse:	Directeur de mémoire/thèse Laporte, Catherine
Codirecteur:	Codirecteur Ménard, Lucie Cardoso, Walcir
Programme:	Maîtrise en ingénierie > Génie des technologies de l'information
Date de dépôt:	25 févr. 2026 20:34
Dernière modification:	25 févr. 2026 20:34
URI:	https://espace.etsmtl.ca/id/eprint/3802

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt