Concept exploration and discovery from business documents for software engineering projets using dual mode filtering

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Ménard, Pierre André (2014). Concept exploration and discovery from business documents for software engineering projets using dual mode filtering. Thèse de doctorat électronique, Montréal, École de technologie supérieure.

Prévisualisation	PDF Télécharger (852kB) \| Prévisualisation
Prévisualisation	PDF Télécharger (548kB) \| Prévisualisation

Résumé

This thesis present a framework for the discovery, extraction and relevance-oriented ordering of conceptual knowledge based on their potential of reuse within a software project. The goal is to support software engineering experts in the first knowledge acquisition phase of a development project by extracting relevant concepts from the textual documents of the client’s organization. Such a time-consuming task is usually done manually which is prone to fatigue, errors, and omissions. The business documents are considered unstructured and are less formal and straightforward than software requirements specifications created by an expert. In addition, our research is done on documents written in French, for which text analysis tools are less accessible or advanced than those written in English. As a result, the presented system integrates accessible tools in a processing pipeline with the goal of increasing the quality of the extracted list of concepts.

Our first contribution is the definition of a high-level process used to extract domain concepts which can help the rapid discovery of knowledge by software experts. To avoid undesirable noise from high level linguistic tools, the process is mainly composed of positive and negative base filters which are less error prone and more robust. The extracted candidates are then reordered using a weight propagation algorithm based on structural hints from source documents. When tested on French text corpora from public organizations, our process performs 2.7 times better than a statistical baseline for relevant concept discovery. We introduce a new metric to assess the performance discovery speed of relevant concepts. We also present a method to help obtain a gold standard definition of software engineering oriented concepts for knowledge extraction tasks.

Our second contribution is a statistical method to extract large and complex multiword expressions which are found in business documents. These concepts, which can sometimes be exemplified as named entities or standard expressions, are essential to the full comprehension of business corpora but are seldom extracted by existing methods because of their form, the sparseness of occurrences and the fact that they are usually excluded by the candidate generation step. Current extraction methods usually do not target these types of expressions and perform poorly on their length range. This article describes a hybrid method based on the local maxima technique with added linguistic knowledge to help the frequency count and the filtering. It uses loose candidate generation rules aimed at long and complex expressions which are then filtered using n-grams semilattices constructed with root lemma of multiword expressions. Relevant expressions are chosen using a statistical approach based on the global growth factor of n-gram frequency. A modified statistical approach was used as a baseline and applied on two annotated corpora to compare the performance of the proposed method. The results indicated an increase of the average F1 performance by 23.4% on the larger corpora and by 22.2% on the smaller one when compared to the baseline approach.

Our final contribution helped to further develop the acronym extraction module which provides an additional layer of filtering for the concept extraction. This work targets the extraction of implicit acronyms in business documents, a task that have been neglected in the literature in favor of acronym extraction for biomedical documents. Although there are overlapping challenges, the semi-structured and non predictive nature of business documents hinders the effectiveness of the extraction methods used on biomedical documents, and fail to deliver the expected performance. Explicit and implicit acronym presentation cases are identified using textual and syntactical hints. Among the 7 features extracted from each candidate instance, we introduce “similarity” features, which compare a candidate’s characteristics with average length-related values calculated from a generic acronym repository. Commonly used rules for evaluating the candidate (matching first letters, ordered instances, etc.) are scored and aggregated in a single composite feature which permits a flexible classification. One hundred and thirty-eight French business documents from 14 public organizations were used for the training and evaluation corpora, yielding a recall of 90.9% at a precision level of 89.1% for a search space size of 3 sentences.

Titre traduit

Exploration et découverte de concepts pertinents aux projets en génie logiciel à l'aide de filtrage modulaire bi-mode

Résumé traduit

Cette thèse présente un cadriciel pour la découverte, l’extraction et le réordonnancement des concepts pertinents d’un domaine d’affaires dans le contexte de leur réutilisation au sein d’un projet logiciel. L’objectif est de soutenir les experts en ingénierie logicielle lors de la première phase d’acquisition de connaissances d’un projet de développement en identifiant automatiquement les concepts pertinents à partir des documents textuels de l’organisation cliente. Ce type de tâche est typiquement fastidieux et sensible à la fatigue cognitive, aux erreurs d’inattention ainsi qu’aux omissions. Les documents d’affaires d’une entreprise sont considérés comme étant non structurés et sont moins formels et concis que les documents de spécification logiciel crées par un expert en logiciel. Par ailleurs, le corpus utilisé est composé de documents rédigés en français, langue pour laquelle les outils linguistiques sont moins nombreux et moins performants que pour l’anglais. Le système présenté a donc comme objectif d’intégrer des outils accessibles dans une suite de traitements visant à améliorer cette extraction.

La première contribution est une définition d’une suite de traitements visant la découverte rapide de concepts pertinents pour un ingénieur logiciel en démarrage de projet. Pour éviter les concepts non pertinents résultant de l’utilisation d’outils d’analyse textuels complexes, le processus est composé majoritairement de filtres positifs et négatifs qui sont typiquement plus robustes et stables. Les concepts candidats ainsi extraits sont ordonnés en utilisant un algorithme de propagation de poids basé sur les indices structurels des documents sources. Lorsqu’appliqué sur un corpus de textes provenant d’organisations publiques, ce processus a produit des résultats 2,7 fois meilleurs que la méthode statistique de comparaison appliquée sur l’ensemble du corpus. Nous présentons une nouvelle mesure pour évaluer la performance de la vitesse de découverte de nouveaux concepts pour des systèmes de même nature. Finalement, nous présentons l’effort d’annotation qui a permis de produire un corpus de référence pour évaluer la performance de systèmes d’extraction de connaissance visant les projets de génie logiciel.

La deuxième contribution est une méthode statistique d’extraction des expressions multimots longues et complexes qui se retrouvent dans les documents d’affaires. Ces concepts, parfois considérés comme des entités nommées ou des expressions standards, sont essentiels à la compréhension complète d’un corpus de document d’affaires mais sont souvent ignorés par les méthodes d’extraction existantes à cause de leur forme, leur faible occurrence et le fait qu’ils sont habituellement mis de côté par l’étape de génération d’expressions candidates. Les méthodes courantes offrent donc des performances très faibles sur ces expressions de grande taille. L’approche présentée se base sur une technique de maximum local utilisant des données linguistiques pour aider le filtrage et l’analyse de fréquences. Elle utilise des règles souples de génération de candidats très longs qui sont alors filtrés dans des semi-lattices construites à l’aide des n-grammes constitués des lemmes racines des expressions. Le choix des expressions pertinentes est basé sur un facteur statistique de croissance des n-grammes. Deux corpus annotés sont utilisés pour produire une base de comparaison des performances. Les résultats indiquent une augmentation de 23,4% de la f-mesure pour un corpus de taille moyenne (150 documents) et de 22,2% sur un corpus de petite taille (5 documents).

La contribution finale vise à augmenter les performances de la détection d’acronymes qui fournit une couche additionnelle pour le filtrage des concepts. Ce travail vise l’extraction des acronymes implicitement présentés dans les documents d’affaires qui sont rarement la cible d’effort de recherche contrairement à ceux de d’autres acronymes comme ceux du domaine biomédical. Bien que ce soit des défis similaires, la nature semi-structurée et imprévisible des documents d’affaires est un problème supplémentaire qui réduit l’efficacité des outils développés pour le domaine biomédical, qui offrent des performances inadéquates lorsqu’appliqués sur le type de document utilisés dans cette recherche. La forme explicite et implicite d’acronymes est identifiée en utilisant des indices textuels et syntaxiques. Parmi sept attributs extraits pour chaque candidat à l’étude, nous introduisons des attributs de “similarité” qui comparent le probabilité d’un candidat à être considéré comme une forme longue d’acronyme d’une forme courte spécifique. Cette évaluation est basée sur une comparaison des valeurs du candidat et celles générées à partir d’un ensemble de référence validé manuellement. Un score est établi pour les règles communément utilisées pour évaluer les candidats (première lettres correspondantes, instances ordonnées, etc.) et sont agrégés dans un attribut unique qui permet une classification plus flexible. Cent trente-cinq documents d’affaires rédigés en français provenant de 14 organisations différentes ont été utilisés pour l’entrainement et l’évaluation de cette méthode, offrant un rappel de 90,9% et un niveau de précision de 89,1% pour un espace de recherche de trois phrases.

Type de document:	Mémoire ou thèse (Thèse de doctorat électronique)
Renseignements supplémentaires:	"Manuscript-based thesis presented to École de technologie supérieure in partial fulfillment of the requirements for the degree of doctor of philosophy". Bibliographie : pages 145-158.
Mots-clés libres:	Exploration de données (Informatique) Linguistique informatique. Documents administratifs. Logiciels Développement. acronyme, concept, expression, extraction, ingénierie logicielle, recherche d’information, forage de texte, modèle de domaine, identification d’expression, complexe multimots
Directeur de mémoire/thèse:	Directeur de mémoire/thèse Ratté, Sylvie
Programme:	Doctorat en génie > Génie
Date de dépôt:	26 nov. 2014 19:43
Dernière modification:	10 déc. 2016 16:32
URI:	https://espace.etsmtl.ca/id/eprint/1399

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt