La vitrine de diffusion des mémoires et thèses de l'ÉTS
RECHERCHER

A semantic metadata enrichment software ecosystem (SMESE) : its prototypes for digital libraries, metadata enrichments and assisted literature reviews

Brisebois, Ronald (2017). A semantic metadata enrichment software ecosystem (SMESE) : its prototypes for digital libraries, metadata enrichments and assisted literature reviews. Thèse de doctorat électronique, Montréal, École de technologie supérieure.

[img]
Prévisualisation
PDF
Télécharger (57MB) | Prévisualisation
[img]
Prévisualisation
PDF
Télécharger (6MB) | Prévisualisation

Résumé

Contribution 1: Initial design of a semantic metadata enrichment ecosystem (SMESE) for Digital Libraries

The Semantic Metadata Enrichments Software Ecosystem (SMESE V1) for Digital Libraries (DLs) proposed in this paper implements a Software Product Line Engineering (SPLE) process using a metadata-based software architecture approach. It integrates a components-based ecosystem, including metadata harvesting, text and data mining and machine learning models. SMESE V1 is based on a generic model for standardizing meta-entity metadata and a mapping ontology to support the harvesting of various types of documents and their metadata from the web, databases and linked open data. SMESE V1 supports a dynamic metadata-based configuration model using multiple thesauri.

The proposed model defines rules-based crosswalks that create pathways to different sources of data and metadata. Each pathway checks the metadata source structure and performs data and metadata harvesting. SMESE V1 proposes a metadata model in six categories of metadata instead of the four currently proposed in the literature for DLs; this makes it possible to describe content by defined entity, thus increasing usability. In addition, to tackle the issue of varying degrees of depth, the proposed metadata model describes the most elementary aspects of a harvested entity. A mapping ontology model has been prototyped in SMESE V1 to identify specific text segments based on thesauri in order to enrich content metadata with topics and emotions; this mapping ontology also allows interoperability between existing metadata models.

Contribution 2: Metadata enrichments ecosystem based on topics and interests

The second contribution extends the original SMESE V1 proposed in Contribution 1. Contribution 2 proposes a set of topic- and interest-based content semantic enrichments. The improved prototype, SMESE V3 (see following figure), uses text analysis approaches for sentiment and emotion detection and provides machine learning models to create a semantically enriched repository, thus enabling topic- and interest-based search and discovery. SMESE V3 has been designed to find short descriptions in terms of topics, sentiments and emotions. It allows efficient processing of large collections while keeping the semantic and statistical relationships that are useful for tasks such as:

1. topic detection,
2. contents classification,
3. novelty detection,
4. text summarization,
5. similarity detection.

Contribution 3: Metadata-based scientific assisted literature review

The third contribution proposes an assisted literature review (ALR) prototype, STELLAR V1 (Semantic Topics Ecosystem Learning-based Literature Assisted Review), based on machine learning models and a semantic metadata ecosystem. Its purpose is to identify, rank and recommend relevant papers for a literature review (LR). This third prototype can assist researchers, in an iterative process, in finding, evaluating and annotating relevant papers harvested from different sources and input into the SMESE V3 platform, available at any time. The key elements and concepts of this prototype are:

1. text and data mining,
2. machine learning models,
3. classification models,
4. researchers annotations,
5. semantically enriched metadata.

STELLAR V1 helps the researcher to build a list of relevant papers according to a selection of metadata related to the subject of the ALR. The following figure presents the model, the related machine learning models and the metadata ecosystem used to assist the researcher in the task of producing an ALR on a specific topic.

Résumé traduit

Contribution 1 : Un écosystème d’enrichissements sémantiques des métadonnées (SMESE) pour des bibliothèques digitales

L'écosystème de logiciels d'enrichissements de métadonnées sémantiques (SMESE V1) proposé dans ce travail de recherche a implémenté une approche d’ingénierie de ligne de produits logiciels (SPLE) utilisant une architecture logicielle basée sur les métadonnées. Cet écosystème est basé sur le moissonnage de métadonnées, l'exploration de textes et de données et les modèles d'apprentissage automatique. SMESE V1 est basé sur un modèle générique de normalisation d'entités, de métadonnées et d'ontologies croisées capables de supporter le moissonnage de tout type de documents et de leurs métadonnées à partir du Web structuré et du Web non structuré ainsi que des données ouvertes et liées. Le design de SMESE V1 inclue un modèle de reconfiguration dynamique basé sur les métadonnées et sur plusieurs thesaurus par domaine d’application.

Le modèle proposé définit des règles de traduction ou de moissonnage qui créent des interfaces vers différentes sources de données et métadonnées. Chaque interface vérifie la structure de la source de métadonnées, puis effectue le moissonnage des données et des métadonnées. SMESE V1 propose un modèle de métadonnées avec six catégories de métadonnées au lieu des quatre utilisées actuellement dans la littérature afférente aux bibliothèques digitales. Ce modèle permet de mieux décrire les contenus afin d’accroitre leur utilisabilité. En plus, afin de résoudre la question des degrés de profondeur des métadonnées, le modèle de métadonnées propose décrit les aspects les plus élémentaires d'une entité moissonnée correspondant à une structure de données. SMESE V1 inclue un modèle de mise en correspondance ontologique qui permet d’identifier des segments de texte spécifiques en utilisant des thésaurus pour enrichir les contenus de nouvelles métadonnées reliées à l’identification des sujets et des émotions. Ce modèle de mise en correspondance ontologique permet également l'interopérabilité entre les modèles de métadonnées existants.

Contribution 2 : Un écosystème d’enrichissements métadonnées basé sur les sujets et interest

La contribution 2 présente une mise en oeuvre améliorée de la version originale de SMESE V1, proposé dans la contribution 1 ; en effet, la contribution 2 propose des enrichissements de contenu basés sur les sujets et les intérêts. Ce prototype amélioré SMESE V3 (voir figure 1) utilise des approches d'analyse de texte pour la détection des sentiments et des émotions. Il crée un référentiel sémantique enrichi de métadonnées qui permettent la recherche et la découverte basées sur les intérêts. Il a été conçu pour trouver de courtes descriptions, en termes de sujets, de sentiments et d'émotions. Il permet un traitement efficace de grandes collections de données tout en préservant les relations sémantiques et statistiques utiles pour des tâches telles que :

1. détection de sujets,
2. classification de contenus,
3. détection de nouveautés,
4. synthèse de textes,
5. détection de similitude.

Contribution 3 : Une revue de littérature scientifique assistée

La contribution 3 propose un prototype (STELLAR V1- Semantic Topics Ecosystem Learningbased Literature Assisted Review V1) qui permet d’assister les chercheurs dans leurs processus de préparation d’une revue de littérature. Ce prototype de revue de littérature assistée est base sur un écosystème de métadonnées sémantiques. Il permet d’identifier, d’évaluer et de recommander les articles scientifiques pertinents pour une revue de littérature. Le troisième prototype, STELLAR V1, permet itérativement de trouver, d'évaluer et d'annoter les articles pertinents disponibles dans la plateforme SMESE à tout moment. Les éléments et concepts clés utilisés par le prototype STELLAR V1 sont :

1. l’exploration de textes et des données,
2. les modèles d'apprentissage automatique,
3. les modèles de classification,
4. les articles annotés des chercheurs,
5. les métadonnées enrichies sémantiquement.

Ce prototype aide à identifier et à recommander les articles pertinents et leur classement lié à un sujet spécifique selon la sélection des chercheurs. La figure suivante présente le modèle, les processus associés et l'écosystème des métadonnées pour aider le chercheur dans la tâche de produire une revue de littérature reliée à un sujet spécifique.

Type de document: Mémoire ou thèse (Thèse de doctorat électronique)
Renseignements supplémentaires: "Manuscript-based thesis presented to École de technologie supérieure in partial fulfillment for the degree of doctor of philosophy". Bibliographie : pages 281-295.
Mots-clés libres: Collecte de métadonnées Logiciels Conception. Bibliothèques virtuelles. Ingénierie des lignes de produits logiciels. Exploration de données (Informatique) Analyse de données textuelles. Apprentissage automatique. Ontologies (Recherche de l'information) Revues de la littérature Informatique. Informatique sémantique. Métadonnées. enrichissement, bibliothèque numérique, détection des émotions, analyse des sentiments, ingénierie des lignes de produits logiciels
Directeur de mémoire/thèse:
Directeur de mémoire/thèse
Abran, Alain
Programme: Doctorat en génie > Génie
Date de dépôt: 22 nov. 2017 19:25
Dernière modification: 22 nov. 2017 19:25
URI: http://espace.etsmtl.ca/id/eprint/1967

Actions (Identification requise)

Dernière vérification avant le dépôt Dernière vérification avant le dépôt

Statistique

Plus de statistique...