La vitrine de diffusion des mémoires et thèses de l'ÉTS
RECHERCHER

Classification of nonverbal human-produced audio events

Téléchargements

Téléchargements par mois depuis la dernière année

Chabot, Philippe (2020). Classification of nonverbal human-produced audio events. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.

[thumbnail of CHABOT_Philippe.pdf]
Prévisualisation
PDF
Télécharger (6MB) | Prévisualisation

Résumé

Noise Induced Hearing Loss due to excessive noise exposure in the workplace is affecting an increasing number of workers and can be reduced by properly using Hearing Protection Devices (HPD). These protection devices are often found in the form of intra-aural (plugs) or circumaural (earmuffs) devices. When intra-aural devices are properly inserted, they create an occlusion effect that amplifies physiological noise and makes it easier to be perceived by the wearer. These amplified physiological noises can be captured using a microphone placed inside the occluded ear canal and with a detection algorithm, these nonverbal audio events could be used for many applications, such as: the user could interact with an audio wearable device in a discreet manner by clicking his teeth or tongue; the user’s health could be monitored by detecting coughing or clearing of the throat events and the worker’s noise dose exposure calculation could be more accurately measured by the removal of the wearers’ own noises, which are harmless to his hearing.

The objective of this project are threefold: 1) build a classification algorithm of nonverbal human-produced audio events 2) build a nonverbal audio event detection algorithm and 3) validate the performances and ensure that these algorithms can run in real-time on a low computational power device.

Ten nonverbal audio events were selected from an existing database featuring nonverbal events recorded using an in-ear microphone. In total, 3037 samples, each 400 ms in length were extracted from the database in order to train the classification algorithm. To create the audio event classifier, several state-of-the-art machine learning algorithms found in the literature such as the Support Vector Machine, Gaussian Mixture Model, Multilayer Perceptron, Convolutional Neural Network and Bag-of-Audio-Words (BoAW) were successively implemented and tested. To provide input for these algorithms, three types of features found in the literature were tested: the Mel-Frequency Ceptral Coeffients (MFCC), mainly used for speech recognition, the Auditory-inspired Amplitude Modulation Features typically used for speaker verification on whispered speech and Per-Channel Energy Normalization (PCEN) features often used for far-field keyword spotting.

Optimal performance of the classification algorithm was found using the BOAW classifier coupled with the MFCC and PCEN features with a sensitivity of 81.5% and a precision of 83%. The real-time detector was tested in a noisy environment on 10 new test subjects. It showed a sensitivity of 69.9% and a precision of 78.9% in a quiet environment. This makes it a promising algorithm to be implemented in new lines of smart digital HPD capable of protecting worker’s hearing while opening the way for a new range of health monitoring and human-machine interfaces.

Titre traduit

Classification d’événements audio non verbaux produit par l’humain

Résumé traduit

La perte d’audition due à une exposition excessive au bruit sur le lieu de travail affecte unnombre croissant de travailleurs et peut être évitée en utilisant correctement des protecteurs auditifs.Les dispositifs de protection se retrouvent sous la forme intra-auriculaire (bouchons) oucircumaural (casque). Lorsque les dispositifs intra-auriculaires sont correctement insérés, ilscréent un effet d’occlusion qui amplifie les bruits physiologiques. Ces bruits physiologiquesamplifiés peuvent être captés à l’aide d’un microphone placé à l’intérieur du conduit auditifocclus. À l’aide d’un algorithme de détection, ces bruits physiologiques pourraient êtreutilisés pour de nombreuses applications. Par exemple, l’utilisateur pourrait interagir avec unpériphérique portable de manière discrète en claquant des dents ou de la langue; les bruits nonverbaux captés pourraient servir à surveiller la santé de l’utilisateur en détectant les événementsaudio liés à la toux ou aux raclements de la gorge; ou également la dose de bruit reçue des travailleurspourrait être mieux précisée en supprimant les bruits émis par le porteur lui-même etdonc inoffensifs pour l’audition.

Ce projet comportait 3 volets : 1) développer un algorithme de classification d’événementsaudio non verbaux produits par l’humain, 2) développer un algorithme de détection de signauxnon verbaux et 3) valider la performance et la capacité de ces algorithmes à fonctionner entemps réel sur un dispositif portable à faible puissance de calcul.

Dix événements ont été sélectionnés au sein d’une base de données existante constituée d’événementsnon verbaux enregistrés avec un microphone intra-auriculaire. Au total, 3037 échantillonsd’une durée de 400 ms chacun ont été extraits de la base de données afin de développerl’algorithme de classification. Lors du développement de ce dernier, les algorithmes d’apprentissageautomatique suivant “Support Vector Machine”, le “Gaussian Mixture Model”, le “Multi-Layer Perceptron”, le “Convolutional Neural Network” et le “Bag-of-Audio-Words” (BoAW)ont été mis en oeuvre et évalués. Lors du développement de l’algorithme de détection, troistechniques d’analyse du signal audio trouvées dans la littérature ont également été testés : latechnique des “Mel-Frequency Cepstral Coefficients” (MFCC), principalement utilisée pour lareconnaissance vocale, la technique des “Auditory-inspired Amplitude Modulation Features”généralement utilisée pour la vérification de la parole et la “Per-Channel Energy Normalization”(PCEN) souvent utilisée pour la détection de mots-clés dans un champ éloigné.

Les performances optimales ont été trouvées en utilisant l’algorithme d’apprentissage automatiqueBoAW et les techniques d’analyse MFCC et PCEN avec une sensibilité de 81,5 % et uneprécision de 83 %. L’algorithme de détection en temps réel a été testé dans un environnementbruyant sur 10 nouveaux sujets. Il a montré une sensibilité de 69,9 % et une précision de 78,9% dans un environnement calme. Cela en fait un algorithme prometteur à implémenter dans denouvelles lignes de protecteurs auditifs numériques intelligents capable d’assurer une meilleuredosimétrie sonore des travailleurs tout en offrant de nouvelles fonctionnalités de surveillancede la santé et d’interfaces homme-machine.

Type de document: Mémoire ou thèse (Mémoire de maîtrise électronique)
Renseignements supplémentaires: "Thesis presented to École de technologie supérieure in partial fulfillment of a master’s degree with thesis in electrical engineering". Comprend des références bibliographiques (pages 91-94).
Mots-clés libres: santé et sécurité au travail, protection auditive, acoustique, hearables, analyse du signal, apprentissage machine, détection et classification d’événements audio
Directeur de mémoire/thèse:
Directeur de mémoire/thèse
Voix, Jérémie
Codirecteur:
Codirecteur
Cardinal, Patrick
Programme: Maîtrise en ingénierie > Génie électrique
Date de dépôt: 11 févr. 2025 20:41
Dernière modification: 11 févr. 2025 20:41
URI: https://espace.etsmtl.ca/id/eprint/2633

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt Dernière vérification avant le dépôt