Development of machine-learning-based natural language processing to detect concept labels in clinical narratives

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Le, Thanh-Dung (2023). Development of machine-learning-based natural language processing to detect concept labels in clinical narratives. Thèse de doctorat électronique, Montréal, École de technologie supérieure.

Prévisualisation

PDF
Télécharger (4MB) | Prévisualisation

Résumé

Currently, an abundance of data and information are available in the clinical domain. Grasping this opportunity, clinicians have been successfully combining the informative and structured data, which includes laboratory test results, medical imaging, and wearable sensor data, with novel data analytic algorithms to provide pervasive and personalized healthcare. However, considerable constraints are imposed by clinical narrative sources, which are short notes on patients originally written by doctors and physicians. Although the notes are continuously provided and plentifully stored in clinical data warehouses, they are underutilized in practice. The limitation mainly comes from their unstructured or semi-structured format. Fortunately, the deployment of machine learning algorithms in recent years helps to effectively capture the hidden representation of clinical narratives because of its high computational capacity. In particular, the improvement of machine learning performance on clinical notes is continually reinforced by employing natural language processing (NLP) techniques as a data preprocessing step in advance. NLP becomes a necessary approach to overcome the existing challenges of unstructured clinical text notes because it effectively maps the words in unstructured data into a continuously-valued lower dimensional space.

Fortunately, a large data source of clinical notes is currently stored in our Research Data Warehouse at CHU Sainte-Justine (CHUSJ) hospital. There are 7 caregiver notes/patient/day from 1386 patients (containing a dataset of more than 2.5x107 words). These notes are scribed extensively from admission notes, evaluation notes and summary notes. Admission notes outline reasons for admission to intensive care units, historical progress of disease, medication, surgery and additional baseline status of the patient. Daily ailments and laboratory test results are described in evaluation notes, from which patient condition is evaluated and diagnosed later by doctors. All these details from admission to discharge of a patient are outlined in summary notes. However, these information sources are being used as clinical documentation for reporting and billing instead of prior clinical knowledge for predicting disease condition. To prevent the loss of scientific information from these beneficial data points, a machine-learning-powered NLP method is developed to predict patient condition by using clinical notes stored at the Research Data Warehouse at CHUSJ hospital. The proposed algorithm can effectively learn a latent representation of clinical notes to draw a conclusion about a patient’s cardiac failure condition which cannot be depicted by traditional approaches.

First, our study provides important insights into using machine learning models in limited datasets. Specifically, we found that smaller and simpler models can work better in such contexts. To this end, our framework combines TF-IDF and MLP-NN, and we demonstrate that feature selection from the learning representation vector space can further improve performance. Our proposed algorithm effectively learns a latent representation of clinical notes to conclude a patient’s cardiac failure condition, which traditional approaches cannot depict. We achieved an overall classification performance with 89% accuracy, 88% recall, and 89% precision. Furthermore, we found that encoding decimal points as a string "DOT" helps retain the information from numerical values in clinical notes, which can improve model performance.

Furthermore, the thesis highlights that a critical factor for improving the performance of machine learning classifiers in clinical natural language processing is the appropriate treatment of the representation space feature. Specifically, the study demonstrates that incorporating an autoencoder (AE) during training can effectively compress the feature space of the term frequency-inverse document frequency (TF-IDF) model, making it an effective mechanism for interpretability and transparency in the CDSS system. The second step involves using an MLPNN to predict the health status based on the compressed feature space. The efficient ensemble model achieves 92% accuracy, 91% recall, 91% precision, and 91% f1-score, outperforming all alternative approaches.

Finally, while Transformer has been widely recognized as the state-of-the-art approach in natural language processing, it still faces limitations when applied to short and limited clinical NLP. We propose a simplified Switch Transformer framework that we train from scratch on a small French clinical text classification dataset at CHU Sainte-Justine hospital. Our results show that the simplified small-scale Transformer models perform better than pre-trained BERT-based models, such as DistillBERT, CamemBERT, FlauBERT, and FrALBERT. The proposed framework achieves an accuracy of 87%, precision at 87%, and recall at 85%, which outperforms the third-best pre-trained BERT-based model, FlauBERT, which achieved an accuracy of 84%, precision at 84%, and recall at 84%. However, Switch Transformers have some limitations, such as a generalization gap and sharp minima. To address these limitations, we compare it with a multi-layer perceptron neural network for small French clinical narratives classification and show that the latter outperforms all other models.

Overall, the study demonstrates the effectiveness of the proposed framework and provides valuable insights for developing NLP techniques in clinical settings. It improves the time-consuming and costly disease treatment process, health interventions, and prevention management at the Pediatric Critical Care Unit of CHUSJ hospital.

Titre traduit

Développement d’algorithmes d’apprentissage machine pour le traitement du langage naturel afin de détecter certains concepts dans les récits cliniques

Résumé traduit

Une abondance de données et d’information est disponible dans le domaine clinique. Les cliniciens ont réussi à combiner les données informatives et structurées, qui comprennent les résultats de tests de laboratoire, l’imagerie médicale et les données de capteurs portables avec de nouveaux algorithmes analytiques pour offrir des soins de santé omniprésents et personnalisés. Cependant, les sources narratives cliniques, qui sont de courtes notes sur les patients, écrites par des médecins, posent des contraintes considérables. Bien que les notes sont fournies continuellement et stockées dans les entrepôts de données cliniques, elles sont peu utilisées en pratique réelle. La limitation provient principalement de leur format non structuré ou semi-structuré. Heureusement, le déploiement de l’apprentissage en profondeur au cours des dernières années aide à capturer efficacement la représentation cachée des récits cliniques, en raison de sa grande capacité de calcul. En particulier, l’amélioration des performances de l’apprentissage en profondeur sur les notes cliniques est continuellement renforcée par l’usage de techniques de traitement de langage naturel (NLP) lors du prétraitement des données. Le NLP devient une approche nécessaire pour surmonter les défis présents dans les notes de texte clinique non structurés, car cette étape peut efficacement mapper les mots dans les données non structurées dans un espace de dimension inférieure.

Heureusement, une grande source de données de notes cliniques est actuellement stockée dans l’entrepôt de données de recherche au CHU Sainte-Justine (CHUSJ). Il y a 7 notes/patient/jour pour 1386 patients (contenant un ensemble de données de plus de 2,5 x 107 mots). Ces notes sont extraites de notes d’admission, notes d’évaluation et notes de synthèse. Les notes d’admission décrivent les raisons pour l’admission aux unités de soins intensifs, le progrès historique de la maladie, les médicaments donnés, la chirurgie et toutes autres données de base supplémentaires du patient. Les affections quotidiennes et les résultats des tests de laboratoire sont décrits dans les notes d’évaluation, desquels l’état du patient sera évalué et diagnostiqué plus tard par des médecins. Tous ces détails, de l’admission à la sortie d’un patient, sont résumés dans les notes de synthèse. Cependant, ces sources d’information sont utilisées comme documentation clinique pour les rapports et la facturation plutôt que servir comme connaissances cliniques antérieures pour prédire la progression de la maladie. Pour éviter la perte d’information scientifique contenue dans ces points de données, un algorithme de NLP basé sur l’apprentissage machine sera développé pour prédire l’état du patient en utilisant des notes cliniques stockées dans l’entrepôt de données de recherche à CHUSJ. L’algorithme proposé peut effectivement apprendre une représentation latente de notes cliniques pour en tirer une conclusion sur l’insuffisance cardiaque du patient, qui ne peut pas être décrite par une approche traditionnelle.

Premièrement, notre étude fournit des informations importantes sur l’utilisation de modèles d’apprentissage automatique dans des ensembles de données limités. Plus précisément, nous avons constaté que des modèles plus petits et plus simples peuvent mieux fonctionner dans de tels contextes. À cette fin, notre cadre combine TF-IDF et MLP-NN, et nous démontrons que la sélection de caractéristiques à partir de l’espace vectoriel de représentation d’apprentissage peut encore améliorer les performances. Notre algorithme proposé apprend efficacement une représentation latente de notes cliniques pour conclure l’état d’insuffisance cardiaque d’un patient, que les approches traditionnelles ne peuvent pas décrire. Nous avons atteint une performance de classification globale avec une précision de 89%, un rappel de 88% et une précision de 89%. De plus, nous avons constaté que l’encodage des points décimaux sous forme de chaîne "DOT" aide à conserver les informations des valeurs numériques dans les notes cliniques, ce qui peut améliorer les performances du modèle.

De plus, la thèse souligne qu’un facteur critique pour améliorer les performances des classificateurs d’apprentissage automatique dans le traitement clinique du langage naturel est le traitement approprié de la caractéristique de l’espace de représentation. Plus précisément, l’étude démontre que l’incorporation d’un auto-encodeur (AE) pendant la formation peut effectivement compresser l’espace des caractéristiques du modèle terme fréquence-fréquence de document inverse (TF-IDF), ce qui en fait un mécanisme efficace pour l’interprétabilité et la transparence dans le système CDSS. La deuxième étape consiste à utiliser un MLP-NN pour prédire l’état de santé en fonction de l’espace de fonctions compressé. Le modèle d’ensemble efficace atteint une précision de 92%, un rappel de 91%, une précision de 91% et un score f1 de 91%, surpassant toutes les approches alternatives.

Enfin, bien que Transformer ait été largement reconnu comme l’approche de pointe en matière de traitement du langage naturel, il est toujours confronté à des limites lorsqu’il est appliqué à une PNL clinique courte et limitée. Nous proposons un cadre simplifié Switch Transformer que nous formons à partir de zéro sur un petit ensemble de données de classification de textes cliniques en français à l’hôpital CHU Sainte-Justine. Nos résultats montrent que les modèles simplifiés de transformateurs à petite échelle fonctionnent mieux que les modèles pré-formés basés sur BERT, tels que DisstillBERT, CamemBERT, FlauBERT et FrALBERT. Le cadre proposé atteint une précision de 87%, une précision de 87% et un rappel de 85%, ce qui surpasse le troisième meilleur modèle basé sur BERT pré-formé, FlauBERT, qui a atteint une précision de 84%, précision à 84 % et rappel à 84 %. Cependant, les transformateurs de commutation ont des limites, telles qu’un écart de généralisation et des minima nets. Pour répondre à ces limitations, nous le comparons à un réseau de neurones perceptrons multicouches pour la classification des petits récits cliniques français et montrons que ce dernier surpasse tous les autres modèles.

Dans l’ensemble, l’étude démontre l’efficacité du cadre proposé et fournit des informations précieuses pour le développement de techniques de PNL en milieu clinique. Il améliore le processus long et coûteux de traitement des maladies, les interventions de santé et la gestion de la prévention à l’unité de soins intensifs pédiatriques de l’hôpital CHUSJ.

Type de document:	Mémoire ou thèse (Thèse de doctorat électronique)
Renseignements supplémentaires:	"Manuscript-based thesis presented to École de technologie supérieure in partial fulfillment for the degree of doctor of philosophy". Comprend des références bibliographiques (pages 113-129).
Mots-clés libres:	traitement clinique du langage naturel, insuffisance cardiaque, apprentissage automatique, apprentissage par déséquilibre, sélection de fonctionnalités
Directeur de mémoire/thèse:	Directeur de mémoire/thèse Noumeir, Rita
Codirecteur:	Codirecteur Jouvet, Philippe
Programme:	Doctorat en génie > Génie
Date de dépôt:	12 oct. 2023 19:00
Dernière modification:	12 oct. 2023 19:00
URI:	https://espace.etsmtl.ca/id/eprint/3292

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt