The specification, detection, and refactoring of machine learning service misuses

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Ben Amor, Hadil (2026). The specification, detection, and refactoring of machine learning service misuses. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.

Prévisualisation

PDF
Télécharger (16MB) | Prévisualisation

Résumé

Machine Learning (ML) models are widely used across many domains, including image processing, medical diagnostics, and autonomous systems. Major cloud providers such as Amazon, Google, and Microsoft offer ML cloud services that simplify development by eliminating the need to build models from scratch. While these services accelerate ML adoption, recurring misuses frequently arise, degrading system quality and maintainability.

Although prior work has examined specific misuse cases in areas such as object-oriented programming, cloud services, and ML-based systems, the literature still lacks a comprehensive treatment of ML cloud service misuses in terms of their specification, detection, and refactoring. This project addresses this gap through three main contributions: (1) a catalog of bad practices in ML cloud service usage, (2) a highly automated detection approach for identifying these misuses, and (3) an automated refactoring strategy for removing them.

To build the catalog, we conducted a multi-vocal empirical study combining an academic and gray literature review, a manual analysis of 377 GitHub projects using ML cloud services, and a survey of 50 industry practitioners. This study resulted in the identification of 20 distinct ML service misuses.

We propose MLmisFinder, an automated detection approach based on a metamodel and rule-based detection algorithms targeting seven misuse types. It was evaluated on 107 open-source projects, achieving an average precision of 96.7% and a recall of 97%, and demonstrated strong scalability across 817 ML service–based systems.

Finally, we explored automated refactoring using Large Language Models (LLMs), with GPT being the best-performing model in 58% of the cases, achieving up to 82% accuracy and the fastest average execution time of 3.86 seconds.

Titre traduit

Spécification, détection et refactorisation des mauvaises utilisations des services de ML

Résumé traduit

Les modèles d’apprentissage automatique sont aujourd’hui largement utilisés dans des domaines tels que le traitement d’images, le diagnostic médical et les systèmes autonomes. Les grands fournisseurs infonuagiques, comme Amazon, Google et Microsoft, proposent des services infonuagiques d’apprentissage automatique qui facilitent le développement en évitant la création de modèles à partir de zéro. Toutefois, ces services sont souvent utilisés de manière inappropriée, ce qui dégrade la qualité des systèmes et leur maintenabilité.

Malgré certains travaux portant sur des mauvaises pratiques dans la programmation orientée objet, les services infonuagiques et les systèmes basés sur l’apprentissage automatique, la littérature ne propose pas encore de cadre global pour la spécification, la détection et la correction des mauvaises pratiques liées aux services infonuagiques d’apprentissage automatique. Ce projet répond à ce manque à travers trois contributions : (1) un catalogue des mauvaises pratiques d’utilisation des services infonuagiques d’apprentissage automatique, (2) une approche automatisée de détection de ces mauvaises pratiques, et (3) une stratégie de leur correction.

Le catalogue a été construit à partir d’une étude empirique multi-focale combinant une revue de la littérature, l’analyse de 377 projets GitHub exploitant des services infonuagiques d’apprentissage automatique et une enquête auprès de 50 praticiens, conduisant à l’identification de 20 mauvaises pratiques.

Nous proposons ensuite MLmisFinder, une approche automatisée fondée sur un méta-modèle et des règles de détection. Évaluée sur 107 projets, elle atteint une précision de 96,7% et un rappel de 97%, tout en démontrant une bonne capacité de passage à l’échelle.

Enfin, la correction automatisée à l’aide des grands modèles de langage (LLMs) a été étudiée, GPT étant le plus performant dans 58% des cas, avec une précision allant jusqu’à 82% et un temps d’exécution moyen de 3,86 secondes.

Type de document:	Mémoire ou thèse (Mémoire de maîtrise électronique)
Renseignements supplémentaires:	"Manuscript-based thesis presented to École de technologie supérieure in partial fulfillment of a master's degree with thesis". Comprend des références bibliographiques (pages 125-135).
Mots-clés libres:	mauvaises pratiques, services d’apprentissage automatique, spécification, détection, correction
Directeur de mémoire/thèse:	Directeur(-trice) Abdellatif, Manel
Codirecteur:	Codirecteur(-trice) de mémoire/thèse Ghaleb, Taher A.
Programme:	Maîtrise en ingénierie > Génie
Date de dépôt:	15 avr. 2026 18:54
Dernière modification:	15 avr. 2026 18:54
URI:	https://espace.etsmtl.ca/id/eprint/3875

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt