Segmentation automatique d’images échocardiographiques à l’aide d’une architecture Shifted Windows Vision Transformer

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Nemri, Souha (2025). Segmentation automatique d’images échocardiographiques à l’aide d’une architecture Shifted Windows Vision Transformer. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.

Prévisualisation

PDF
Télécharger (1MB) | Prévisualisation

Résumé

L’échocardiographie est l’une des modalités d’imagerie les plus couramment utilisées pour le diagnostic des cardiopathies congénitales. L’analyse des images échocardiographiques est cruciale pour obtenir des informations précises sur l’anatomie cardiaque. Les modèles de segmentation sémantique peuvent être utilisés pour délimiter précisément les frontières du ventricule gauche et permettre une identification précise et automatique de la région d’intérêt, ce qui peut s’avérer extrêmement utile pour les cardiologues. Dans le domaine de la vision par ordinateur, les architectures de réseaux neuronaux convolutionnels (CNN) restent dominantes. Les approches CNN existantes se sont avérées très efficaces pour la segmentation de diverses images médicales au cours de la dernière décennie. Cependant, ces solutions ont généralement du mal à capturer les dépendances à longue portée, en particulier lorsqu’il s’agit d’images avec des objets de différentes échelles, de tailles variables et de structures complexes. Dans cette étude, nous présentons une méthode efficace de segmentation sémantique des images échocardiographiques qui surmonte ces défis en tirant parti du mécanisme d’auto-attention de l’architecture Transformer. Notre solution intègre un mécanisme d’attention, qui est une technique visant à se concentrer sur les éléments les plus pertinents d’une image. Cela contribue à une meilleure analyse des objets, de manière plus précise et plus efficace. Nous introduisons des modèles Shifted Windows Transformer models (Swin Transformers), qui encodent à la fois le contenu des structures anatomiques et les relations entre elles. Notre solution combine les architectures Swin Transformer et U-Net, tout en incorporant leurs avantages respectifs afin de renforcer les résultats. La validation de la méthode proposée est effectuée avec l’ensemble de données EchoNet-Dynamic utilisé pour entraîner notre modèle. Les résultats montrent une précision de 0,97, un coefficient de Dice de 0,87 et une Intersection over Union (IoU) de 0,78. C’est ainsi que les modèles de transformateur de Swin sont prometteurs pour la segmentation sémantique des images échocardiographiques en aidant les cardiologues à analyser et à évaluer automatiquement des images échocardiographiques complexes.

Titre traduit

Automatic segmentation of echocardiographic images using a Shifted Windows Vision Transformer architecture

Résumé traduit

Echocardiography is one the most commonly used imaging modalities for the diagnosis of congenital heart disease. Echocardiographic image analysis is crucial to obtaining accurate cardiac anatomy information. Semantic segmentation models can be used to precisely delimit the borders of the left ventricle, and allow an accurate and automatic identification of the region of interest, which can be extremely useful for cardiologists. In the field of computer vision, convolutional neural network (CNN) architectures remain dominant. Existing CNN approaches have proved highly efficient for the segmentation of various medical images over the past decade. However, these solutions usually struggle to capture long-range dependencies, especially when it comes to images with objects of different scales and complex structures. In this study, we present an efficient method for semantic segmentation of echocardiographic images that overcomes these challenges by leveraging the self-attention mechanism of the Transformer architecture. The proposed solution extracts long-range dependencies and efficiently processes objects at different scales, improving performance in a variety of tasks. We introduce Shifted Windows Transformer models (Swin Transformers), which encode both the content of anatomical structures and the relationship between them. Our solution combines the Swin Transformer and U-Net architectures, producing a U-shaped variant. The validation of the proposed method is performed with the EchoNet-Dynamic dataset used to train our model. The results show an accuracy of 0.97, a Dice coefficient of 0.87, and an Intersection over Union (IoU) of 0.78. Swin Transformer models are promising for semantically segmenting echocardiographic images and may help assist cardiologists in automatically analyzing and measuring complex echocardiographic images.

Type de document:	Mémoire ou thèse (Mémoire de maîtrise électronique)
Renseignements supplémentaires:	"Mémoire par articles présenté à l’École de technologie supérieure comme exigence partielle à l’obtention de la maîtrise avec mémoire en génie des technologies de l’information". Comprend des références bibliographiques (pages 55-58).
Mots-clés libres:	échocardiographie, segmentation sémantique, ventricule gauche, transformers, U-Net
Directeur de mémoire/thèse:	Directeur(-trice) Duong, Luc
Programme:	Maîtrise en ingénierie > Génie des technologies de l'information
Date de dépôt:	12 mai 2026 13:58
Dernière modification:	12 mai 2026 13:58
URI:	https://espace.etsmtl.ca/id/eprint/3907

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt