La vitrine de diffusion des mémoires et thèses de l'ÉTS
RECHERCHER

Acoustic analysis of speech production across sensory conditions and microphone configurations

Téléchargements

Téléchargements par mois depuis la dernière année

Zhang, Xinyi (2025). Acoustic analysis of speech production across sensory conditions and microphone configurations. Thèse de doctorat électronique, Montréal, École de technologie supérieure.

[thumbnail of Zhang_Xinyi.pdf]
Prévisualisation
PDF
Télécharger (3MB) | Prévisualisation

Résumé

Speech is shaped not only by internal cognitive and motor processes but also by the external sensory conditions and technological tools through which it is produced and recorded. Contemporary developments such as increasingly immersive communication environments and widespread use of in-ear wearable devices (hearable) have introduced new challenges and opportunities for understanding speech in contexts that more closely reflect everyday life. The overarching objective of this thesis is to investigate how auditory–visual integration, altered listening conditions, and novel recording methods influence speech production and its analysis, with the goal of advancing theoretical models and informing applications in communication and health monitoring.

The first study examines the multisensory basis of speech control by investigating how visual and auditory characteristics of a room jointly affect speech level regulation. Using immersive virtual reality (VR) environments with varying acoustics and visuals, it is shown that both modalities shape vocal output dynamically, with auditory information exerting a stronger influence but visual information modulating speech earlier in time.

The second study addresses the combined effects of noise, ear occlusion, and hearing impairment on speech production. A new bilingual speech corpus including the use of hearable devices was developed, incorporating recordings across systematically varied listening conditions and a wide range of hearing thresholds. Analyses revealed complex individual differences in speech level regulation, including reduced reactivity to noise in participants with greater hearing impairment under high-occlusion conditions. These findings highlight the need for individualized rather than group-level modeling approaches.

The third study evaluates how novel in-ear microphones (IEMs) and outer-ear microphones (OEMs) in hearable devices capture acoustic measures of voice quality as compared to standard laboratory microphones. Results indicate systematic discrepancies across recording methods, highlighting the importance of developing new standards for voice evaluation with hearables.

Together, these studies extend our understanding of how speech production is regulated under varied environmental, sensory, and technological constraints. By situating speech within the multisensory and technological conditions of modern communication, the thesis contributes to theoretical models of speech motor control and provides empirical insights for applications in virtual communication, occupational safety, and wearable technologies.

Titre traduit

Analyse acoustique de la production de la parole sous différentes conditions sensorielles et configurations de microphones

Résumé traduit

La parole est façonnée non seulement par des processus cognitifs et moteurs internes, mais aussi par les conditions sensorielles externes et les outils technologiques à travers lesquels elle est produite et enregistrée. Les développements contemporains, tels que les environnements de communication de plus en plus immersifs et l’utilisation généralisée d’appareils portables intra-auriculaires (hearables), ont introduit de nouveaux défis et opportunités pour comprendre la parole dans des contextes qui reflètent plus fidèlement la vie quotidienne. L’objectif général de cette thèse est d’étudier comment l’intégration auditive-visuelle, les conditions d’écoute modifiées et les nouvelles méthodes d’enregistrement influencent la production de la parole et son analyse, dans le but de faire progresser les modèles théoriques et d’éclairer les applications dans les domaines de la communication et de la surveillance de la santé.

La première étude examine la base multisensorielle du contrôle de la parole en étudiant comment les caractéristiques visuelles et auditives d’une pièce affectent conjointement la régulation du niveau de la parole. À l’aide d’environnements de réalité virtuelle immersifs avec des acoustiques et des visuels variables, il est démontré que les deux modalités façonnent dynamiquement la production vocale, les informations auditives exerçant une influence plus forte, mais les informations visuelles modulant la parole plus tôt dans le temps.

La deuxième étude porte sur les effets combinés du bruit, de l’occlusion de l’oreille et de la déficience auditive sur la production de la parole. Un nouveau corpus de discours bilingue incluant l’utilisation d’appareils hearables a été développé, intégrant des enregistrements dans des conditions d’écoute systématiquement variées et un large éventail de seuils auditifs. Les analyses ont révélé des différences individuelles complexes dans la régulation du niveau vocal, notamment une réactivité réduite au bruit chez les participants présentant une perte auditive plus importante dans des conditions d’occlusion élevée. Ces résultats soulignent la nécessité d’adopter des approches de modélisation individualisées plutôt que collectives.

La troisième étude évalue la manière dont les nouveaux microphones intra-auriculaires et externes des appareils hearables capturent les mesures acoustiques de la qualité de la voix et de la fréquence fondamentale par rapport aux microphones de laboratoire standard. Les résultats indiquent des divergences systématiques entre les méthodes d’enregistrement, soulignant l’importance de développer de nouvelles normes pour l’évaluation de la voix avec les appareils hearables.

Ensemble, ces études élargissent notre compréhension de la manière dont la production de la parole est régulée dans des conditions environnementales, sensorielles et technologiques variées. En situant la parole dans les conditions multisensorielles et technologiques de la communication moderne, la thèse contribue aux modèles théoriques du contrôle moteur de la parole et fournit des informations empiriques pour des applications dans la communication virtuelle, la sécurité au travail et les technologies portables.

Type de document: Mémoire ou thèse (Thèse de doctorat électronique)
Renseignements supplémentaires: "Manuscript-based thesis presented to École de technologie supérieure in partial fulfillment for the degree of doctor of philosophy". Comprend des références bibliographiques (pages 137-149).
Mots-clés libres: production de la parole, rétroaction auditive, acoustique de la parole, effet d’occlusion, effet Lombard, déficience auditive, intégration audiovisuelle, appareils hearables
Directeur de mémoire/thèse:
Directeur de mémoire/thèse
Bouserhal, Rachel
Codirecteur:
Codirecteur
Verduyckt, Ingrid
Programme: Doctorat en génie > Génie
Date de dépôt: 22 déc. 2025 17:20
Dernière modification: 22 déc. 2025 17:20
URI: https://espace.etsmtl.ca/id/eprint/3771

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt Dernière vérification avant le dépôt