La vitrine de diffusion des mémoires et thèses de l'ÉTS
RECHERCHER

Identification des dialectes arabes avec la sélection dynamique de classifieurs

Téléchargements

Téléchargements par mois depuis la dernière année

Thibault, Pierre-Marc (2022). Identification des dialectes arabes avec la sélection dynamique de classifieurs. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.

[thumbnail of THIBAULT_Pierre_Marc.pdf]
Prévisualisation
PDF
Télécharger (2MB) | Prévisualisation

Résumé

Ce mémoire concerne la tâche de l’identification de dialectes arabes encore irrésolue en raison de la similarité élevée entre ces dialectes. On mène les expériences sur un petit et un gros corpus.

La principale nouveauté du mémoire est l’utilisation de la sélection dynamique qui n’a jamais servie à identifier des langues à notre connaissance. La sélection dynamique permet de choisir un ou plusieurs classificateurs pour chaque observation à classifier. On veut connaître son potentiel pour la tâche présente. Ce mémoire propose aussi d’améliorer les résultats de deux façons. D’abord, on utilise l’apprentissage par transfert pour améliorer les résultats du petit corpus à l’aide du gros. Ensuite, on utilise l’apprentissage de métriques profond en changeant la fonction de coût traditionnel softmax par des triplets, car on pense que cela aura un impact positif sur la sélection dynamique.

Les résultats ont montré que la sélection dynamique a du potentiel pour cette tâche même si on l’a sous-exploitée, car on a obtenu des résultats comparables à ceux des meilleures équipes ayant travaillé sur ces corpus. Des futurs travaux devront trouver une métrique de distance adaptée au problème et rendre les classificateurs plus diversifiés. On a aussi noté que l’apprentissage par transfert a beaucoup contribué à l’amélioration du petit corpus alors qu’on a des résultats mitigés avec l’apprentissage de métriques profond.

Titre traduit

Arabic dialect identification with classifiers dynamic selection

Résumé traduit

This thesis concerns the Arabic dialect identification task which is still unresolved due to the high similarity between the Arabic dialects. We conduct the experiments on a small and a large databases. The main novelty of the thesis is the use of dynamic selection which has never been used for language identification to the best of our knowledge. Dynamic selection allows to choose one or many classifiers for each observation to be classified.We want to know its potential for the present task. This thesis also proposes to improve the results in two ways. First, we use transfer learning to improve the results of the small database by using the large one. Then, we use the deep metric learning by changing the traditional softmax cost function by triplets because we think that this will have a positive impact on the dynamic selection. The results showed that dynamic selection has potential for this task even if it has been under-exploited because we obtained results comparable to those of the best teams who worked on these databases. Future works will need to find a distance metric suited to the problem and make classifiers more diverse. We have also noted that transfer learning has greatly contributed to the improvement of the small database while we obtained mixed results with the deep metric learning.

Type de document: Mémoire ou thèse (Mémoire de maîtrise électronique)
Renseignements supplémentaires: "Mémoire présenté à l’École de technologie supérieure comme exigence partielle à l’obtention de la maîtrise avec mémoire en génie logiciel". Comprend des références bibliographiques (pages 81-87).
Mots-clés libres: arabic-dialect-identification, deep-metric-learning, transfer-learning, dynamic-selection, classification
Directeur de mémoire/thèse:
Directeur de mémoire/thèse
Cardinal, Patrick
Codirecteur:
Codirecteur
Menelau Cruz, Rafael
Programme: Maîtrise en ingénierie > Génie des technologies de l'information
Date de dépôt: 24 mai 2022 14:22
Dernière modification: 10 nov. 2023 16:26
URI: https://espace.etsmtl.ca/id/eprint/2987

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt Dernière vérification avant le dépôt