Lompo, Boammani Aser (2025). Amélioration des modèles basés sur Transformers pour le traitement des nombres dans les documents médicaux. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (666kB) | Prévisualisation |
Résumé
Amélioration des modèles basés sur les Transformers pour le traitement des nombres dans les documents médicaux.
Les documents médicaux créés par les professionnels de santé lors de l’admission des patients regorgent de détails essentiels pour le diagnostic. Cependant, leur potentiel n’est pas pleinement exploité en raison d’obstacles tels que le langage médical complexe, la compréhension insuffisante des données numériques médicales par les modèles du Language à la pointe de la technologie, et les limitations imposées par de petits jeux de données annotés.
Ces recherches portent sur la classification des valeurs numériques extraites de documents médicaux en sept catégories physiologiques distinctes, en s’appuyant sur CamemBERT-bio, un modèle Transformer. Bien que certaines études antérieures aient suggéré que les modèles Transformers pouvaient être moins performants que les approches classiques en Traitement Automatique du Langage (TAL) pour ce type de tâche, des travaux plus récents montrent qu’une augmentation significative du nombre de paramètres permet aux modèles de langage d’acquérir de nouvelles compétences, améliorant ainsi leurs performances. Cependant, ces modèles de très grande envergure, appelés LLMs, nécessitent des ressources computationnelles considérables.
Dans cette étude, nous nous concentrons sur des modèles de langage de taille intermédiaire basés sur l’architecture Transformer, comme CamemBERT-bio. Pour en optimiser les performances, notre approche repose sur deux phases.
Tout d’abord, nous introduisons deux innovations principales : l’intégration d’embeddings de mots-clés dans le modèle et l’adoption d’une stratégie agnostique aux nombres en excluant toutes les données numériques du texte. La mise en oeuvre de techniques d’embedding de mots-clés affine les mécanismes d’attention, tandis que l’utilisation d’un jeu de données « aveugle aux nombres » vise à renforcer l’apprentissage centré sur le contexte. Un autre élément clé de notre recherche est de déterminer la criticité des données numériques extraites. Pour ce faire, nous avons utilisé une approche simple consistant à vérifier si la valeur se situe dans les plages standards établies. Résultats : Nos résultats sont encourageants, montrant des améliorations substantielles de l’efficacité de CamemBERT-bio, surpassant les méthodes conventionnelles avec un score F1 de 0,89. Cela représente une augmentation de plus de 20 % par rapport au score F1 de 0,73 des approches traditionnelles, avec un écart de seulement 6 % par rapport au score F1 de GPT-4, un modèle à la pointe de la technologie et plusieurs centaines de fois plus grand que le nôtre.
Dans la deuxième phase, en s’appuyant sur les résultats antérieurs qui révèlent les limitations potentielles des modèles basés sur les transformateurs, nous examinons deux stratégies : le fine-tuning de CamemBERT-bio sur un petit jeu de données médicales avec l’intégration de l’Embedding de Label pour l’Attention de Soi (LESA), et la combinaison de LESA avec des techniques d’amélioration supplémentaires telles que Xval. Étant donné que CamemBERT-bio est déjà pré-entraîné sur un grand jeu de données médicales, la première approche vise à mettre à jour son encodeur avec la nouvelle technique d’embeddings de labels, tandis que la deuxième approche cherche à développer plusieurs représentations des nombres (contextuelles et basées sur la magnitude) pour obtenir des embeddings numériques plus robustes. Résultats : Comme prévu, le fine-tuning du CamemBERT-bio standard sur notre petit jeu de données médicales n’a pas amélioré les scores F1. Cependant, des améliorations significatives ont été observées avec CamemBERT-bio + LESA, entraînant une augmentation de plus de 15 %. Des améliorations comparables ont été observées en combinant LESA avec Xval, dépassant les méthodes classiques et réduisant encore l’écart de performance avec GPT-4, le modèle de référence à la pointe de la technologie.
En résumé, notre travail a introduit diverses méthodes pour traiter les données numériques, qui sont également applicables à d’autres modalités. Nous illustrons comment ces nouvelles approches peuvent aider les modèles basés sur les transformers à fournir des performances robustes sur les tâches de classification, même lorsqu’ils traitent de petits jeux de données.
Titre traduit
Improvement of Transformer-based models for processing numbers in medical documents
Résumé traduit
Medical records created by healthcare professionals upon patient admission are rich in details critical for diagnosis. Yet, their potential is not fully realized due to obstacles such as complex medical language, inadequate comprehension of medical numerical data by state-of-the-art Language Models (LMs), and the limitations imposed by small annotated training datasets.
This research focuses on classifying numerical values extracted from medical documents into seven distinct physiological categories using CamemBERT-bio, a Transformer-based model. While earlier studies suggested that Transformer models might underperform compared to traditional Natural Language Processing (NLP) approaches for such tasks, more recent findings indicate that a significant increase in the number of parameters enables language models to develop new capabilities, thereby improving their performance. However, these large-scale models, known as LLMs, require substantial computational and memory resources.
In this study, we focus on medium-sized language models based on the Transformer architecture, such as CamemBERT-bio. To enhance its performance, our approach consists of two phases.
First, we introduce two main innovations : integrating keyword embeddings into the model and adopting a number-agnostic strategy by excluding all numerical data from the text. The implementation of label embedding techniques refines the attention mechanisms, while using a ’numerical-blind’ dataset aims to bolster context-centric learning. Another key component of our research is determining the criticality of extracted numerical data. To achieve this, we utilized a straightforward approach that involves verifying if the value falls within established standard ranges. Results : Our findings are encouraging, showing substantial improvements in the effectiveness of CamemBERT-bio, surpassing conventional methods with an F1 score of 0.89. This represents an increase of over 20% compared to the F1 score of 0.73 achieved by traditional approaches, with only a 6% gap from the F1 score of GPT-4—a state-of-the-art model that is several hundred times larger than ours.
In the second phase, building on prior findings that reveal potential limitations of transformerbased models, we examine two strategies : fine-tuning CamemBERT-bio on a small medical dataset with the integration of Label Embedding for Self-Attention (LESA), and combining LESA with additional enhancement techniques such as Xval. Given that CamemBERT-bio is already pre-trained on a large medical dataset, the first approach aims to update its encoder with newly added label embeddings, while the second approach seeks to develop multiple representations of numbers (contextual and magnitude-based) for more robust number embeddings. Results : As anticipated, fine-tuning the standard CamemBERT-bio on our small medical dataset did not improve F1 scores. However, similar improvements were observed when combining LESA with Xval, surpassing conventional methods and further narrowing the performance gap with GPT-4, the state-of-the-art model.
In summary, our work introduced various methods for handling numerical data, which are also applicable to other modalities. We illustrate how these novel approaches can support transformer-based models in delivering robust performance on classification tasks, even when dealing with small datasets.
| Type de document: | Mémoire ou thèse (Mémoire de maîtrise électronique) |
|---|---|
| Renseignements supplémentaires: | "Mémoire par articles présenté à l’École de technologie supérieure comme exigence partielle à l’obtention de la maîtrise avec mémoire en technologie de la santé". Comprend des références bibliographiques (pages 73-79). |
| Mots-clés libres: | traitement automatique du langage clinique, classification des valeurs numériques, entraînement des modèles linguistiques, embedding de labels pour l’attention de soi, Xval, unité de soins intensifs pédiatriques, patients en état critique |
| Directeur de mémoire/thèse: | Directeur de mémoire/thèse Noumeir, Rita |
| Codirecteur: | Codirecteur Jouvet, Philippe |
| Programme: | Maîtrise en ingénierie > Génie |
| Date de dépôt: | 30 juin 2025 15:38 |
| Dernière modification: | 30 juin 2025 15:38 |
| URI: | https://espace.etsmtl.ca/id/eprint/3653 |
Gestion Actions (Identification requise)
![]() |
Dernière vérification avant le dépôt |

Statistiques de téléchargement
Statistiques de téléchargement