Aïdasso, Henri (2026). Intelligent detection and diagnosis of anomalies in software delivery pipelines. Thèse de doctorat électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (4MB) | Prévisualisation |
Résumé
Modern organizations have widely adopted DevOps automation practices, enabling them to deliver software versions quickly and frequently while ensuring the quality of the code produced by developers. These practices are mainly enabled by continuous integration and continuous deployment (CI/CD) pipelines, whose execution results are used to certify software quality and confirm successful deployments in case of “success”, and to report code issues to developers in case of “failure”. As such, the value of CI/CD pipelines lies essentially in reliable and deterministic execution results. In practice, however, anomalies related to complex and distributed environments lead to unexpected and misleading pipeline results (i.e., false alarms known as “intermittent failures” or, worse, deceptive successes referred to as “silent failures”). These anomalies cause significant waste due to sporadic reruns and associated delays. Conducted in collaboration with TELUS, this research argues that pipeline anomalies can be mitigated through intelligent automation based on pipeline execution data, including execution logs and metrics. The first study proposes an efficient detection approach for intermittent failures based on fine-tuning pre-trained text embedding models. This approach achieves high performance (70-88% F1) using only twelve pairs of manually labeled logs and outperforms state-of-the-art approaches that rely on large, often inaccurately labeled datasets. The second study presents a first-of-its-kind diagnostic catalog of 46 categories of intermittent failures and demonstrates that effective prioritization of these categories requires looking beyond their raw frequency. Hence, we introduce FlakeRanker, a tool that determines the categories to be prioritized (14 at TELUS) using a clustering algorithm that integrates their frequency, recency and organizational cost. The third study introduces FlaXifyer, a classifier trained with only twelve labeled logs per category to automatically predict which of the 14 priority categories an intermittent job failure belongs to. This study also presents LogSift, an interpretability technique that highlights the most influential log segments, accelerating triage and diagnosis. The fourth study examines the phenomenon of silent failures and outlines the key factors associated with reruns of pipelines that incorrectly report successes, thereby facilitating their detection. It also presents a taxonomy of 11 themes observed in industrial contexts and summarizes the available workarounds and corrective solutions. Finally, the fifth study introduces the CBDT Framework, a digital twin-inspired architecture for orchestrating detection, diagnosis, and repair services in production CI/CD systems. Together, these efforts pave the way for intelligent automation capable of orchestrating the autonomous detection, diagnosis, and repair of pipeline anomalies. This approach not only improves pipeline reliability and the quality of delivered software, but also reduces developers’ cognitive load and minimizes costs associated with delivery delays and software defects.
Titre traduit
Détection et diagnostic intelligents des anomalies dans les pipelines de livraison logicielle
Résumé traduit
Les organisations modernes ont massivement adopté des pratiques d'automatisation DevOps leur permettant d’effectuer des livraisons fréquentes et rapides de versions logicielles tout en s’assurant de la qualité du code produit par les développeurs. Ces pratiques sont mises en œuvre principalement grâce aux pipelines d’intégration continue et de déploiement continu (CI/CD) dont les résultats d’exécutions servent à certifier la qualité logicielle et confirmer la réussite de déploiements en cas de ≪ succès ≫, et à signaler des problèmes de code aux développeurs en cas d’≪ échec ≫. Ainsi, l’utilité des pipelines de CI/CD repose essentiellement sur des résultats d’exécutions fiables et déterministes. En pratique, toutefois, des anomalies liées aux environnements complexes et distribués induisent des résultats de pipelines inattendus et trompeurs (c’est-à-dire de fausses alarmes dites ≪ échecs intermittents ≫, voire pire, des succès illusoires dits ≪ échecs silencieux ≫). Ces anomalies sont à l’origine de grandes pertes liées aux réexécutions sporadiques et pertes de temps associées. Menée en collaboration avec TELUS, la présente recherche soutient que les anomalies de pipelines peuvent être atténuées grâce à des automatisations intelligentes basées sur les données d’exécution des pipelines, notamment les journaux et métriques d’exécutions. Le premier travail se focalise sur la détection efficiente des échecs intermittents, étape fondamentale pour l’automatisation des processus de diagnostic et de réparation associés. À cette fin, nous proposons SLID, un outil de détection fondé sur l’ajustement fin de modèles de transformation de texte pré-entraînés, qui atteint des performances élevées à partir de seulement douze paires de journaux étiquetés manuellement, surpassant l’état de l’art qui repose sur de grands ensembles de données souvent mal étiquetées. Le second travail dresse le tout premier catalogue répertoriant 46 catégories d’échecs intermittents et démontre qu'une priorisation efficace de ces catégories exige de dépasser l’analyse traditionnelle fondée uniquement sur leur fréquence. Ainsi, nous introduisons FlakeRanker, un outil qui détermine les catégories à prioriser (14 chez TELUS) grâce à un clustering intégrant leur fréquence, leur récence et leur coût pour l’organisation. Le troisième travail développe FlaXifyer, un classifieur entraîné avec seulement douze journaux étiquetés par catégorie pour prédire automatiquement laquelle des 14 catégories prioritaires correspond à un échec intermittent. Ce travail introduit également LogSift, une technique d’interprétabilité qui met en évidence les segments de journaux les plus influents, accélérant ainsi le triage et le diagnostic. Le quatrième travail se penche sur le phénomène des échecs silencieux et met en lumière les facteurs clés liés aux réexécutions de pipelines qui rapportent à tort des succès, pouvant ainsi faciliter leur détection. Il présente également une taxonomie de ces échecs en 11 thématiques observées en contexte industriel et recense les solutions de contournement ou correctives disponibles. Enfin, le cinquième travail introduit le CBDT Framework, un cadre logiciel dont l’architecture s’inspire des jumeaux numériques et qui constitue le socle permettant d’orchestrer diverses solutions d'automatisation destinées à améliorer la fiabilité et la performance des pipelines de CI/CD. Ensemble, ces travaux tracent la voie vers une véritable automatisation intelligente, capable d’orchestrer la détection, le diagnostic et la réparation autonome des anomalies de pipelines. Cette approche contribue non seulement à renforcer la fiabilité des pipelines et la qualité des logiciels livrés, mais aussi à alléger la charge cognitive pesant sur les développeurs. Elle favorise par ailleurs une utilisation plus efficiente des ressources computationnelles (avec des retombées positives sur le plan environnemental) tout en limitant les coûts associés aux retards de livraison, ainsi qu'aux défaillances logicielles pour les organisations.
| Type de document: | Mémoire ou thèse (Thèse de doctorat électronique) |
|---|---|
| Renseignements supplémentaires: | "Manuscript-based thesis presented to École de technologie supérieure in partial fulfillment for the degree of Doctor of Philosophy". Comprend des références bibliographiques (pages 235-256). |
| Mots-clés libres: | intégration continue, livraison continue, détection d’anomalie, diagnostic d’échec, analyse de trace d’exécution, traitement du langage naturel, classification, jumeaux numériques |
| Directeur de mémoire/thèse: | Directeur(-trice) Bordeleau, Francis |
| Programme: | Doctorat en génie > Génie |
| Date de dépôt: | 13 mai 2026 18:45 |
| Dernière modification: | 13 mai 2026 18:45 |
| URI: | https://espace.etsmtl.ca/id/eprint/3899 |
Gestion Actions (Identification requise)
![]() |
Dernière vérification avant le dépôt |

Statistiques de téléchargement
Statistiques de téléchargement