La vitrine de diffusion des mémoires et thèses de l'ÉTS
RECHERCHER

Elastic edge-based stream processing over Apache Storm

Téléchargements

Téléchargements par mois depuis la dernière année

Shahabadi, Mitra (2025). Elastic edge-based stream processing over Apache Storm. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.

[thumbnail of SHAHABADI_Mitra.pdf]
Prévisualisation
PDF
Télécharger (9MB) | Prévisualisation

Résumé

Apache Storm is a distributed stream processing framework designed to handle continuous data flows, yet its elasticity remains limited when components are deployed across heterogeneous nodes and incoming data rates vary over time. Existing work on Apache Storm does not adequately address how elasticity can be achieved without manual intervention or system restarts. As a result, performance bottlenecks in CPU utilization and bandwidth often persist, increasing end-to-end latency.

This thesis introduces an additional layer on top of Apache Storm to enhance its elasticity under distributed and dynamic conditions. The proposed solution addresses both the avoidance and resolution of bottlenecks in inbound bandwidth, outbound bandwidth, and CPU resources, aiming to minimize overall processing latency.

Elasticity was achieved through two complementary mechanisms. The first, global adaptation, monitors system performance to decide when and where to create new replicas and when to safely remove underutilized replicas without harming throughput. The second, local adaptation, is implemented at the operator level as a resource-aware load distribution strategy, balancing data across downstream replicas. Together, these mechanisms helped ensure that bottlenecks are avoided as much as possible and effectively resolved when they occur.

The system was implemented on Docker for deployment across heterogeneous nodes. Experimental results show that the system can create and remove replicas on the fly, without interrupting execution, while successfully detecting and mitigating CPU and bandwidth bottlenecks. These mechanisms significantly reduce average end-to-end latency and improve overall resource utilization compared to baseline configurations. Moreover, the findings showed that the proposed solution can scale reliably within the experimental setup.

This research provides a practical approach to enhancing elasticity in distributed stream processing systems, enabling robust performance in dynamic and heterogeneous environments.

Titre traduit

Traitement de flux élastique basé sur la périphérie avec Apache Storm

Résumé traduit

Apache Storm est un cadre de traitement de flux distribué conçu pour gérer des flux de données continus, mais son élasticité demeure limitée lorsque les composants sont déployés sur des nœuds hétérogènes et que les débits de données entrants varient au fil du temps. Les travaux existants sur Apache Storm ne traitent pas de manière adéquate la façon dont l’élasticité peut être atteinte sans intervention manuelle ni redémarrage du système. En conséquence, des goulots d’étranglement liés à l’utilisation du processeur et à la bande passante persistent souvent, augmentant ainsi la latence de bout en bout.

Cette thèse introduit une couche supplémentaire au-dessus d’Apache Storm afin d’améliorer son élasticité dans des conditions distribuées et dynamiques. La solution proposée aborde à la fois la prévention et la résolution des goulots d’étranglement liés à la bande passante entrante, à la bande passante sortante et aux ressources CPU, dans le but de minimiser la latence globale de traitement.

L’élasticité a été obtenue grâce à deux mécanismes complémentaires. Le premier, l’adaptation globale, surveille les performances du système pour décider quand et où créer de nouvelles répliques et quand supprimer en toute sécurité les répliques sous-utilisées sans nuire au débit. Le second, l’adaptation locale, est mis en œuvre au niveau des opérateurs sous la forme d’une stratégie de répartition de charge sensible aux ressources, équilibrant les données entre les répliques en aval. Ensemble, ces mécanismes permettent d’éviter les goulots d’étranglement autant que possible et de les résoudre efficacement lorsqu’ils se produisent.

Le système a été implémenté sur Docker pour un déploiement sur des nœuds hétérogènes. Les résultats expérimentaux montrent que le système peut créer et supprimer des répliques à la volée, sans interrompre l’exécution, tout en détectant et en atténuant avec succès les goulots d’étranglement liés au processeur et à la bande passante. Ces mécanismes réduisent considérablement la latence moyenne de bout en bout et améliorent l’utilisation globale des ressources par rapport aux configurations de référence. De plus, les résultats ont montré que la solution proposée peut évoluer de manière fiable dans le cadre expérimental.

Cette recherche propose une approche pratique pour renforcer l’élasticité des systèmes de traitement de flux distribués, assurant des performances robustes dans des environnements dynamiques et hétérogènes.

Type de document: Mémoire ou thèse (Mémoire de maîtrise électronique)
Renseignements supplémentaires: "Thesis presented to École de technologie supérieure in partial fulfillment for the degree of master’s with thesis in Software Engineering". Comprend des références bibliographiques (pages 129-133).
Mots-clés libres: Apache Storm, élasticité, traitement de flux distribué, répartition de charge sensible aux ressources, gestion des répliques, Docker
Directeur de mémoire/thèse:
Directeur de mémoire/thèse
Gascon-Samson, Julien
Programme: Maîtrise en ingénierie > Génie
Date de dépôt: 24 févr. 2026 17:42
Dernière modification: 24 févr. 2026 17:42
URI: https://espace.etsmtl.ca/id/eprint/3779

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt Dernière vérification avant le dépôt