Reátegui Rojas, Ruth Maria (2019). Computer-based identification of relationships between medical concepts and cluster analysis in clinical notes. Thèse de doctorat électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (1MB) | Prévisualisation |
Prévisualisation |
PDF
Télécharger (559kB) | Prévisualisation |
Résumé
Clinical notes contain information about medical concepts or entities (such as diseases, treatments and drugs) that provide a comprehensive and overall impression of the patient’s health. The automatic extraction of these entities is relevant for health experts and researchers as they identify associations between the latter. However, automatically extracting information from clinical notes is challenging, due to their narrative format.
This research describes a process to automatically extract and aggregate medical entities from clinical notes, as well as the process to identify clusters of patients and disease-treatment relationships. The i2b2 2008 Obesity dataset was used, and consists of 1237 discharge summaries of overweight and diabetic patients. Therefore, this thesis is focused on obesity diseases.
For the automatic extraction of medical entities, MetaMap and cTAKES were used, and the automatic extraction capacity of both tools compared. Also, UMLS enabled the aggregation of the extracted entities. Two approaches were applied for cluster analysis. Firstly, a sparse K-means algorithm was used over a patient-disease matrix with 14 comorbidities related to obesity. Secondly, to visualize and analyze other diseases present in the clinical notes, 86 diseases were used to identify clusters of patients with a network-based approach. Furthermore, bipartite graphs were used to explore disease-treatment relationships among some of the clusters obtained.
The result of the experiments we conducted show cTAKES slightly outperforming MetaMap, but this situation can change, considering other configuration options in the respective tools, including an abbreviation list. Moreover, concept aggregation (with similar and different semantic types) was shown to be a good strategy for improving medical entity extraction.
The sparse K-means enabled identification of three types of clusters (high, medium and low), based on the number of comorbidities and the percentage of patients suffering from them. These results show that diabetes, hypercholesterolemia, atherosclerotic cardiovascular diseases, congestive heart failure, obstructive sleep apnea, and depression were the most prevalent diseases.
With the network approach, it was possible to visualize and analyze patient information. In it, three sub-graphs or clusters were identified: obese patients with metabolic problems, obese patients with infection problems, and obese patients with a mechanical problem. Bipartite graphs for a disease-treatment relationship showed treatments for different types of diseases, which means that obese patients are suffering from multiple diseases.
This work shows that clinical notes are a rich source of information, and they can be used to explore, visualize, and analyze patient’s information by applying different approaches. More work is needed to explore the relationship between the different medical entities from clinical notes and from different disease datasets. Also, considering that some medical documents express events in time, this characteristic should be considered in future works to form a personalized portrait of clusters, diseases and patients.
Titre traduit
Identification informatique des relations entre les concepts médicaux et l’analyse par grappes dans les notes cliniques
Résumé traduit
Les textes cliniques contiennent des informations variées qui mettent en relief des concepts médicaux ou des entités; on y trouve des formes de surface et des codes qui correspondent entre autres à des maladies, des traitements et des médicaments. Ces dernières –les entités– donnent au clinicien une impression générale et exhaustive de la santé du patient. L’analyse automatique de cette information riche est pertinente pour les experts et les chercheurs de la santé afin d’identifier des associations parmi les entités médicales. Cependant, l’extraction automatique d’information à partir des textes cliniques constitue un défi à cause de leur format narratif et leur structure libre.
Cette recherche décrit un processus pour extraire de manière automatique des entités médicales afin d’identifier des grappes de patients ainsi que les relations entre les maladies et les traitements. L’ensemble de données i2b2 2008 Obesity a été utilisé. Cet ensemble de données est composé de 1237 résumés sur le surpoids et les patients diabétiques, donc ce travail fixe son regard sur les maladies liées à l’obésité.
Pour l’extraction automatique des entités médicales, les outils MetaMap et cTAKES ont été utilisés pour comparer leur capacité d’extraction automatique. Les modules du Unified Medical Language System ont été mis à contribution pour ajouter des informations à propos des entités extraites. Pour l’identification des grappes de patients, deux approches sont proposées. Premièrement, l’algorithme de groupement K-moyen disperses est appliqué sur une matrice patient-maladie comportant 14 comorbidités liées à l’obésité. Deuxièmement, pour visualizer et analyser d’autres maladies présentes sur les données cliniques, 86 maladies ont été utilisées pour former des grappes selon une approche fondée sur des graphes. Les graphiques bipartites obtenus ont permis d’explorer les relations maladie-traitement corrélées avec les principals grappes obtenues.
Le résultat des expérimentations a montré que cTAKES est préférable à MetaMap, mais que cette situation peut changer si l’on modifie les choix de configuration des outils – les listes d’abréviations par exemple. De surcroît, l’ajout de concepts (avec des types sémantiques similaires ou différents) s’avère une bonne stratégie pour améliorer l’acquisition automatique d’entités médicales à partir de textes cliniques.
L’algorithme K-moyen disperses a distingué trois types de grappes (élevée, moyenne et basse); ces groupes ont été identifiés en fonction du nombre de comorbidités et du pourcentage de patients affectés par elles. Ces résultats montrent que le diabète, l’hypercholestérolémie, la maladie cardiovasculaire, l’insuffisance cardiaque congestive, l’apnée obstructive pendant le sommeil, et la dépression sont les maladies les plus répandues.
La construction des graphes a permis de visualiser et d’analyser l’information des patients; elle a permis l’identification de trois sous-graphes: des patients obèses avec des problèmes de métabolisme, des patients obèses avec problèmes infectieux, et des patients obèses avec des problèmes mécaniques. Les graphes bipartites pour une relation maladie-traitement mettent ainsi en relief les traitements pour différents types de maladie, les patients obèses souffrant de multiples troubles de santé.
Cette thèse confirme que les textes narratifs cliniques en forme libre constituent une source d’information très riche qui peut être utilisée pour explorer, visualiser, et analyser l’information des patients grâce à une méthode automatisée. D’autres travaux sont nécessaires pour explorer la relation entre les différentes entités médicales des textes cliniques et les autres ensembles de données médicales. L’aspect temporel des données devrait également être considéré dans de futurs travaux afin de former un portrait personnalisé des grappes, des maladies et des patients.
Type de document: | Mémoire ou thèse (Thèse de doctorat électronique) |
---|---|
Renseignements supplémentaires: | "Manuscript-based thesis presented to École de technologie supérieure in partial fulfillment for the degre of doctor of philosophy". Comprend des références bibliographiques (pages 89-99). |
Mots-clés libres: | analyse par grappes, approche basée sur les réseaux, k-moyennes disperses, données cliniques, obésité |
Directeur de mémoire/thèse: | Directeur de mémoire/thèse Ratté, Sylvie |
Programme: | Doctorat en génie > Génie |
Date de dépôt: | 18 avr. 2019 20:44 |
Dernière modification: | 18 avr. 2019 20:44 |
URI: | https://espace.etsmtl.ca/id/eprint/2281 |
Gestion Actions (Identification requise)
Dernière vérification avant le dépôt |