Michaud, Olivier (2022). Extraction automatique de contenu sur des forums hébergeant des communautés criminelles. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (843kB) | Prévisualisation |
Résumé
Autrefois isolé par les frontières géographiques, les communautés criminelles profitent de l’anonymat fourni par certains réseaux, tel le réseau TOR, faisant partie de l’Internet clandestin (Dark Web), afin de coopérer, vendre et partager leurs connaissances. Pour une organisation, analyser ces échanges sur les multiples forums présents sur ce réseau permet de détecter les tendances et ainsi prévenir de futures attaques. Par conséquent, ce mémoire propose une nouvelle approche afin de généraliser l’extraction des sujets de discussions et ses attributs (titre, auteur et date de publication). Celle-ci est portée par l’hypothèse qu’il est possible d’utiliser des outils provenant du traitement automatique des langues naturelles (TALN) afin de procéder à l’extraction de contenu sur le Web.
Afin de procéder à l’extraction des sujets de discussions, deux sous-objectif sont poursuivis. Le premier consiste à utiliser des outils d’annotation de séquences afin d’identifier les enregistrements et leurs attributs dans une page Web. Le deuxième est de procéder à l’extraction du contenu identifié. Pour y parvenir, une méthode est définie afin de transformer une page Web en une séquence composée de balises HTML et de texte. Il est alors possible de procéder à l’annotation de séquences sur celle-ci avec un modèle BiLSTM-CRF. La séquence est ensuite reconstruite en pageWeb afin de procéder à l’extraction des sujets de discussions. Pour ce faire, des algorithmes d’extraction ont été conçus, tirant avantage de la structure en graphe des pages HTML.
Suite aux expériences menées, qui consistaient à déterminer les meilleurs hyperparamètres et tailles de vocabulaire pour le modèle, il est possible de confirmer l’hypothèse de ce mémoire. En effet, les bons résultats sur le jeu de de tests de l’ensemble A (macro F1 de 99,5%), ainsi que les performances en contexte industriel, démontrent que la solution développée a su généraliser la structure des forums. Par conséquent, il est possible d’extraire des sujets de discussions sur de nouveaux forums qui n’ont pas été utilisés lors du processus d’entraînement du modèle.
Résumé traduit
Once isolated by geographical borders, criminal communities now take advantage of the anonymity provided by certain networks, such as the TOR network, part of the Dark Web, to cooperate, sell and share their knowledge. For an organization, analyzing these exchanges on the multiple forums present on this network allows detecting trends and thus preventing future attacks. Therefore, this thesis proposes a new approach to generalize the extraction of forum topics and their attributes (title, author and publication date). This approach is based on the hypothesis that it is possible to perform content extraction on the Web using natural language processing (NLP) tools.
In order to extract forum topics, two sub-objectives are defined. The first one is to use sequence labeling to identify records and their attributes on Web pages. The second one is to proceed to the extraction of the identified content. To achieve this, a method is defined to transform a Web page into a sequence composed of HTML tags and text. It is then possible to proceed to sequence labeling using a BiLSTM-CRF model. The sequence is then reconstructed into a Web page in order to proceed to the extraction of the forum topics. For this purpose, extraction algorithms have been designed, taking advantage of HTML page’s graph structure.
Following the experiments (hyperparameters tuning, vocabulary size adjustment) it is possible to confirm the hypothesis of this thesis. Indeed, the good results on the test set (macro F1 of 99,5 %), as well as the performances in industrial context, demonstrate that the proposed solution was able to generalize the structure of the forums. Consequently, it is possible to extract forum topics from forums that were not used during the training process.
Type de document: | Mémoire ou thèse (Mémoire de maîtrise électronique) |
---|---|
Renseignements supplémentaires: | "Mémoire présenté à l’École de technologie supérieure comme exigence partielle à l’obtention de la maîtrise avec mémoire". Comprend des références bibliographiques (pages 85-90). |
Mots-clés libres: | moissonnage du Web, traitements automatique des langues naturelles, annotation de séquences, forums clandestins |
Directeur de mémoire/thèse: | Directeur de mémoire/thèse Ratté, Sylvie |
Codirecteur: | Codirecteur Ménard, Pierre André |
Programme: | Maîtrise en ingénierie > Génie |
Date de dépôt: | 26 mai 2022 17:08 |
Dernière modification: | 26 mai 2022 17:08 |
URI: | https://espace.etsmtl.ca/id/eprint/2993 |
Gestion Actions (Identification requise)
Dernière vérification avant le dépôt |