Khalilazar, Saeed (2022). On the effect of data mining techniques on recommending source code changes. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (4MB) | Prévisualisation |
Résumé
Past and recent research has leveraged data mining to build approaches and techniques that can guide developers during their source code changes. To the best of our knowledge, very few works have investigated advanced data mining techniques (e.g., FP-Growth, Relim, or Eclat, etc.) and--or compared their results with other algorithms or a baseline.
In this paper, we suggest an automatic approach to recommend source code changes using four data mining algorithms, Apriori, FP-Growth, Eclat and Relim. We consider Apriori, the widely-adopted data mining algorithm, as our baseline. We not only recommend source code changes using these four data mining algorithms, but we also provide an empirical evaluation of their performances using different configurations and explore how these different configurations affect the relevance of the produced recommendations.
Our empirical study involves seven open-source projects from which we have extracted source change history at the file level. We have compared the results in terms of precision, recall, and F-measure by considering as our baseline, the Apriori algorithm.
Our findings bring empirical evidence on the fact that although some advanced algorithms may, in some cases, perform better than basic algorithms such as Apriori, the results depend on the change history, type of applied data mining techniques, the nature and characteristics of the projects including total number of transactions. We believe the research community working in this area can leverage these findings when selecting data mining algorithms to build their recommenders for source code changes.
Titre traduit
Sur l’effet des algorithmes de forage de données sur les recommandations des changements de code source
Résumé traduit
Des recherches passées et récentes ont tiré parti du forage de données pour créer des approches et des techniques qui peuvent guider les développeurs lors de leurs modifications du code source. A notre connaissance, très peu de travaux ont étudié des techniques avancées d'exploration de données (par exemple autres qu'Apriori) et/ou ont comparé leurs résultats avec d'autres algorithmes ou un référentiel de base.
Dans cet article, nous proposons une approche automatique pour recommander des changements de code source à l'aide de quatre algorithmes de forgae de données, Apriori, FPGrowth, Eclat et Relim. Nous considérons Apriori, l'algorithme de forage de données largement adopté, comme notre référentiel de base. Nous recommandons non seulement des changements de code source en utilisant ces quatre algorithmes de data mining, mais nous fournissons également une évaluation empirique de leurs performances en utilisant différentes configurations et explorons comment ces différentes configurations affectent la pertinence des recommandations produites.
Notre étude empirique implique sept projets open-source à partir desquels nous avons extrait l'historique des changements de source au niveau du fichier. Nous avons comparé les résultats en termes de précision, de rappel et de F-mesure en considérant comme référence l'algorithme Apriori.
Nos résultats apportent des preuves empiriques sur le fait que bien que certains algorithmes avancés puissent dans certains cas être plus performants que des algorithmes de base tels qu'Apriori, les résultats dépendent de l'historique des changements, du type de techniques d'exploration de données appliquées, de la nature et des caractéristiques des projets, y compris du total. nombre de transactions. Nous pensons que la communauté des chercheurs travaillant dans ce domaine peut tirer parti de ces résultats lors de la sélection d'algorithmes de forage de données pour créer leurs recommandations pour les changements du code source.
Type de document: | Mémoire ou thèse (Mémoire de maîtrise électronique) |
---|---|
Renseignements supplémentaires: | "Thesis presented to École de technologie supérieure in partial fulfillment for a master’s degree with thesis in electrical engineering". Comprend des références bibliographiques (pages 81-83). |
Mots-clés libres: | changements du code source, systèmes de recommandation, forage de données, historique des changements du code source, Apriori, FP-Growth, Eclat, ReLim, étude empirique |
Directeur de mémoire/thèse: | Directeur de mémoire/thèse Guerrouj, Latifa |
Programme: | Maîtrise en ingénierie > Génie électrique |
Date de dépôt: | 26 mai 2022 19:00 |
Dernière modification: | 26 mai 2022 19:00 |
URI: | https://espace.etsmtl.ca/id/eprint/2997 |
Gestion Actions (Identification requise)
Dernière vérification avant le dépôt |