Baril, Guillaume (2021). Automatic audio anonymization. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (1MB) | Prévisualisation |
Résumé
Data anonymization is often a task carried out by humans. Automating it would reduce the cost and time required to complete this task. This work shows that the anonymization of audio data in French can be automated. We propose a pipeline, which takes audio files with their transcriptions and removes the named entities present in the audio.
Our pipeline is made up of two components. The first component is the aligner which will align the words in the transcript with the audio and the second component is the template which performs named entity recognition. Then, we replace the audio corresponding to the named entities with a silence. We compared several aligners and several models to find the best ones for our scenario.
We evaluated our pipeline on a small hand-annotated dataset, and it achieved a F1 score of 76.9%. This result proves that automating this task is feasible. However, by having a more extensive dataset it would be possible to get better results, train the model to recognize new named entities, and train an end-to-end model that would likely perform better than a pipeline with components trained separately.
Titre traduit
Anonymisation automatique de l’audio
Résumé traduit
L’anonymisation de données est souvent une tâche réalisée par des humains. L’automatiser permettrait de réduire le coût et le temps requis pour réaliser cette tâche. Dans ce travail, on montre que l’anonymisation de données audio en français peut être automatisée. On propose un pipeline qui prend en entrée des fichiers audio avec leurs transcriptions et qui brouille les entités nommées présent dans l’audio.
Notre pipeline est formé de deux composantes. La première composante est l’aligneur qui va aligner les mots de la transcription avec l’audio et la deuxième composante est le modèle qui effectue la reconnaissance d’entités nommées. Ensuite, on remplace l’audio correspondant aux entités nommées par un silence. On a comparé plusieurs aligneurs et plusieurs modèles afin de trouver les meilleurs pour notre scénario.
On a testé notre pipeline sur une petite base de données annotée à la main et on a obtenu un score F1 de 76.9%. Ce résultat prouve qu’automatiser cette tâche est réalisable. Par contre, en ayant un jeu de données plus grand, il serait possible d’obtenir de meilleurs résultats, d’entraîner le modèle à reconnaître de nouvelles entités nommées et d’entraîner un modèle bout-en-bout qui obtiendrait probablement de meilleurs performances qu’un pipeline avec des composantes entraînées séparément.
Type de document: | Mémoire ou thèse (Mémoire de maîtrise électronique) |
---|---|
Renseignements supplémentaires: | "Thesis presented to École de technologie supérieure in partial fulfillment of a master’s degree with thesis in information technology engineering". Comprend des références bibliographiques (pages 97-103). |
Mots-clés libres: | désidentification de l’audio, traitement du langage naturel, reconnaissance d’entités nommées, alignement forcé, apprentissage profond |
Directeur de mémoire/thèse: | Directeur de mémoire/thèse Cardinal, Patrick |
Codirecteur: | Codirecteur Lameiras Koerich, Alessandro |
Programme: | Maîtrise en ingénierie > Génie des technologies de l'information |
Date de dépôt: | 10 févr. 2022 18:31 |
Dernière modification: | 10 févr. 2022 18:31 |
URI: | https://espace.etsmtl.ca/id/eprint/2891 |
Gestion Actions (Identification requise)
Dernière vérification avant le dépôt |