Caractérisation de la couverture d'information : une approche computationnelle fondée sur les asymétries

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Velazquez-Godinez, Erick (2017). Caractérisation de la couverture d'information : une approche computationnelle fondée sur les asymétries. Thèse de doctorat électronique, Montréal, École de technologie supérieure.

Prévisualisation	PDF Télécharger (9MB) \| Prévisualisation
Prévisualisation	PDF Télécharger (896kB) \| Prévisualisation

Résumé

De nos jours, la production accélérée d’information demande à toute personne d’adopter des stratégies de sélection d’information, d’exclusion d’information répétée et même de fusion d’information, afin de construire un panorama complet d’une thématique. Ces stratégies correspondent bien au processus de couverture d’information qui devient un exercice de plus en plus quotidien, mais aussi de plus en plus complexe. Des techniques de Traitement Automatique de Langue Naturelle (TALN) tentent de réaliser la couverture d’information de façon automatique. Dans cette thèse, nous abordons la couverture d’information avec une approche computationnelle basée sur les asymétries. Nous avons appliqué notre analyse en deux scenarios différents :

Dans le premier scénario, nous avons analysé la couverture d’information dans les dissertations d’étudiants en vérifiant la présence des concepts qui proviennent des sources bibliographiques officielles telles que suggérées dans le syllabus du cours. Nous réalisons cette analyse à l’aide d’un coefficient de couverture qui utilise de l’information lexico-sémantique. Cette caractéristique hybride nous permet de capturer les différentes formes de surface lexicale qu’un étudiant peut utiliser pour exprimer un même concept. Pour déterminer si les concepts d’un livre sont couverts dans le contenu des dissertations, nous mettons en oeuvre une stratégie d’alignement de texte. Notre approche est en mesure de détecter une dissertation avec un faible degré de couverture d’information parmi un groupe de dissertations qui ont une meilleure couverture. Pour corroborer les interprétations de nos résultats, nous avons conduit une évaluation qualitative avec les enseignants du cours. Cette évaluation a fait constater que les résultats de nos analyses coïncident avec les notes octroyées aux dissertations. Conséquemment, la couverture des concepts dans les dissertations d’étudiants permet d’expliquer la note qui est attribuée aux dissertations par les enseignants.

Dans le deuxième scénario, nous avons analysé la couverture d’information dans les textes journalistiques de type narratif. Dans ce type de texte, des événements, qui se produisent dans le monde, sont racontés et discutés par les journalistes. Les événements deviennent notre intérêt dans ce cas. Un événement présente une structure, celle-ci peut trouver sa forme dans les réponses des questions : qui a fait quoi ? À qui ? Où ? Et quand ? Afin de capturer le plus d’information concernant un événement, nous avons conçu un coefficient de couverture d’information basé sur des patrons linguistiques linéaires. Ces patrons, bien que simples, essaient de capturer la structure d’un événement. Nous avons aussi utilisé une stratégie de pondération des patrons afin de privilégier un patron en particulier. Nous abordons la couverture d’information, dans ce cas, avec une approche de détection de la nouvelle information, qui correspond à l’information non couverte par les autres sources. Dans l’évaluation quantitative, notre approche asymétrique est en mesure de performer aussi bien que les mesures symétriques de l’état de l’art. En plus, notre approche offre l’avantage d’expliquer l’origine de la nouvelle information grâce à la stratégie de pondération des patrons.

Titre traduit

Characterization of information coverage : a computational approach based on asymmetries

Résumé traduit

Nowadays, accelerated production of information requires people to adopt strategies to select information, to exclude repeated information and even to merge information, to build a complete panorama of a topic. These strategies fit well with the process of coverage of information, which is becoming an everyday task, but also a complex exercise. Natural Language Processing (NLP) techniques attempt to achieve automatically the coverage of information. In this thesis, we address the coverage of information with a computational approach based on asymmetries. We applied our analysis in two different scenarios :

In the first scenario, we analyzed the coverage of information in students’ dissertations by verifying the presence of terminology from the official bibliographic references as suggested in the syllabus of the course. We performed this analysis using a hybrid asymmetric coverage coefficient that uses lexical and semantic information. This hybrid characteristic allows us to capture the different forms of lexical surface that a student can use to express the same concept. To determine if the concepts of a book are covered in the content of a dissertation, we implemented a text-alignment strategy. Our approach can detect a dissertation containing low degree of coverage of information among a group of dissertations that have a better coverage. To corroborate the interpretations of our results, we conducted a qualitative evaluation with the course’s teachers. This evaluation revealed that the results of our analyzes coincided with the grades given to the dissertations. Consequently, the coverage of concepts in student dissertations helps to explain the grades that teachers attributed to the dissertations.

In the second scenario, we analyzed the coverage of information in narrative journalistic texts. In this type of texts, events, which occur in the world, are told and discussed by journalists. Events become our interest in this case. An event presents a structure, which can find its form in the answers to the questions : who did what ? To whom? Where? And when? In order to capture the most information about an event, we designed an information coverage coefficient based on linear linguistic patterns. These patterns, although simple, try to capture the structure of an event. We also used a strategy of weighting patterns to highlight a particular pattern. We addressed the coverage of information, in this case, with a strategy of novelty detection, which corresponds to information not covered by other sources. In the quantitative evaluation, our asymmetric approach is able to perform as well as the symmetric measures of the state of the art. In addition, our approach offers the advantage of explaining the origin of the new information because of the strategy of weighting of the patterns.

Type de document:	Mémoire ou thèse (Thèse de doctorat électronique)
Renseignements supplémentaires:	"Thèse présentée à l'École de technologie supérieure comme exigence partielle à l'obtention du doctorat en génie" Bibliographie : pages 199-206.
Mots-clés libres:	Revues de la littérature Informatique. Traitement automatique des langues naturelles. Analyse de données textuelles. Apprentissage par explication (Intelligence artificielle) Similarité (Psychologie) Thèses et écrits académiques. Articles (Publications) Linguistique informatique. asymétrie, coefficient, couverture, information, théorie d’asymétrie, analytique d’aprentisage, mesure de couverture
Directeur de mémoire/thèse:	Directeur de mémoire/thèse Ratté, Sylvie
Programme:	Doctorat en génie > Génie
Date de dépôt:	30 avr. 2018 17:40
Dernière modification:	30 avr. 2018 17:40
URI:	https://espace.etsmtl.ca/id/eprint/2040

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt