La vitrine de diffusion des mémoires et thèses de l'ÉTS
RECHERCHER

Impact analysis of a multiple imputation technique for handling missing value in the ISBSG repository of software projects

Bala, Abdalla (2013). Impact analysis of a multiple imputation technique for handling missing value in the ISBSG repository of software projects. Thèse de doctorat électronique, Montréal, École de technologie supérieure.

[img]
Prévisualisation
PDF
Télécharger (730kB) | Prévisualisation
[img]
Prévisualisation
PDF
Télécharger (612kB) | Prévisualisation

Résumé

Up until the early 2000’s, most of the empirical studies on the performance of estimation models for software projects have been carried out with fairly small samples (less than 20 projects) while only a few were based on larger samples (between 60 to 90 projects). With the set-up of the repository of software projects by the International Software Benchmarking Standards Group – ISBSG – there exists now a much larger data repository available for productivity analysis and for building estimation models: the 2013 release 12 of this ISBSG repository contains over 6,000 projects, thereby providing a sounder basis for statistical studies.

However, there is in the ISBSG repository a large number of missing values for a significant number of variables, making its uses rather challenging for research purposes.

This research aims to build a basis to improve the investigation of the ISBSG repository of software projects, in order to develop estimation models using different combinations of parameters for which there are distinct sub-samples without missing values. The goal of this research is to tackle the new problems in larger datasets in software engineering including missing values and outliers using the multiple imputation technique.

Résumé traduit

Jusqu'au début des années 2000, la plupart des études empiriques pour construire des modèles d'estimation de projets logiciels ont été effectuées avec des échantillons de taille très faible (moins de 20 projets), tandis que seules quelques études ont utilisé des échantillons de plus grande taille (entre 60 à 90 projets). Avec la mise en place d’un répertoire de projets logiciels par l'International Software Benchmarking Standards Group - ISBSG - il existe désormais un plus grand ensemble de données disponibles pour construire des modèles d'estimation: la version 12 en 2013 du référentiel ISBSG contient plus de 6000 projets, ce qui constitue une base plus adéquate pour des études statistiques.

Toutefois, dans le référentiel ISBSG un grand nombre de valeurs sont manquantes pour un nombre important de variables, ce qui rend assez difficile son utilisation pour des projets de recherche.

Pour améliorer le développement de modèles d’estimation, le but de ce projet de recherche est de s'attaquer aux nouveaux problèmes d’accès à des plus grandes bases de données en génie logiciel en utilisant la technique d’imputation multiple pour tenir compte dans les analyses des données manquantes et des données aberrantes.

Type de document: Mémoire ou thèse (Thèse de doctorat électronique)
Renseignements supplémentaires: "Thesis presented to École de technologie supérieure in partial fulfillment of the requirements for the degree of doctor of philosophy". Bibliographie : pages 123-128.
Mots-clés libres: Génie logiciel. aberrant, critère, effort, évaluation, ISBSG, logiciel, multi-imputation, technique, valeur, technique multi-imputation, préparation des données ISBSG, identification des valeurs aberrantes, modèle d'estimation de l'effort de logiciel
Directeur de mémoire/thèse:
Directeur de mémoire/thèse
Abran, Alain
Programme: Doctorat en génie > Génie
Date de dépôt: 10 déc. 2013 16:40
Dernière modification: 08 mars 2017 19:35
URI: http://espace.etsmtl.ca/id/eprint/1236

Actions (Identification requise)

Dernière vérification avant le dépôt Dernière vérification avant le dépôt

Statistique

Plus de statistique...