Dixneuf, Paul (2019). Analyse de la performance de la méthode d'imputation de données manquantes missForest et application à des données environnementales. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (4MB) | Prévisualisation |
Prévisualisation |
PDF
Télécharger (617kB) | Prévisualisation |
Résumé
L’acquisition de données et leur enregistrement sous la forme de bases de données en vue d’être ultérieurement exploités sont des opérations courantes dans un large éventail de domaines (médecine, production industrielle, éducation, environnement, etc.). Cependant, les processus de mesure, d’acquisition et/ou d’enregistrement peuvent être soumis à des dysfonctionnement et engendrer des «trous » dans la base de données. Ces manques de données altèrent la capacité d'analyse subséquente et, par conséquence, l’information et la prise de décision associée. En environnement, de par le large spectre des activités qui ont un impact sur les milieux naturels, les données collectées et enregistrées sont généralement de nature quantitative et qualitative (données mixtes). Dans ce contexte, il devient pertinent d’évaluer la performance de méthodes de traitement des données manquantes en tenant compte de cette caractéristique.
La présente étude s’est intéressée aux méthodes d’imputation de données manquantes et plus spécifiquement à la performance de la méthode missForest et son application au problème des données manquantes en environnement. Dans ce contexte, une étude comparative a été effectuée entre missForest et deux autres méthodes d’imputation, multivariate imputation by chained equations (MICE) et K-nearest neighbors (KNN). Cette analyse comparative a porté sur 10 bases de données complètes de nature diverses (données qualitatives, quantitatives et mixtes) en considérant spécifiquement des indicateurs d’erreurs d’imputation réelles et le temps de traitement. Par la suite, l’application de la méthode missForest à la base de données de la performance de traitement des stations d’épuration du Québec a été réalisée comme cas d’étude de données environnementale.
Les résultats de l’étude comparative ont révélé que sur le plan des erreurs d’imputation, missForest a été la méthode la plus performante sur 9 des 10 bases de données testées. L’écart de performance étant plus manifeste pour les imputations portant sur les bases de données mixtes où missForest a réduit les erreurs d’imputation jusqu’à 60 % par rapport aux deux autres méthodes. En ce qui concerne les temps de traitement, KNN a été la méthode la plus rapide sur l’ensemble des 10 bases de données lorsque le pourcentage de données manquante était inférieur ou égal à 30 %. Les temps de traitement de missForest, bien que généralement supérieurs à ceux de KNN, ont eu tendance à diminuer avec la hausse du pourcentage de données manquante. L’application de la méthode missForest à la base de données de la performance de traitement des stations d’épuration du Québec a donné des erreurs estimées systématiquement inférieures à 10 %. Ces résultats suggèrent que missForest est la méthode d'imputation à privilégier pour le traitement de données manquantes en environnement.
Titre traduit
Performance analysis of the missing data imputation method missForest and application to environmental data
Résumé traduit
Data acquisition and recording in the form of databases for later exploitation are routine operations in most fields (medicine, industrial production, education, environment, etc.). However, measurement, acquisition and/or recording processes may malfunction and cause data in the database to be missing. This missing data alters the subsequent analysis efficiency and, consequently, information and associated decision-making. Furthermore, because of the broad spectrum of activities that have an impact on natural environments, the databases collected and recorded in environmental matters are generally of a mixed nature (quantitative and qualitative). In this context, it becomes relevant to evaluate the performance of missing data processing methods considering this characteristic.
In this study, missing data imputation methods were investigated and more specifically, the performance of the missForest method and its application to the problem of missing data in environment. Hence, a comparative study was carried out between missForest and two other imputation methods, Multivariate Imputation by Chained Equations (MICE) and K-nearest neighbors (KNN). This comparative analysis took into account 10 complete databases of various types (qualitative, quantitative and mixed data) specifically considering actual imputation error indicators and processing time. The application of the missForest method to the treatment performance database of Quebec’s wastewater treatment plants was then carried out as a case study of environmental data.
The results of the comparative study revealed that in terms of imputation errors, missForest was the most efficient method for 9 out of 10 tested databases. The performance gap was more evident for mixed data imputations, missForest has reduced imputation errors up to 60 % in regard to the other methods. Concerning processing times, KNN was the fastest method for all of the databases when the missing data percentage was less than or equal to 30 %. The missForest processing times, although generally higher than those of KNN, tended to decrease with the increase in the percentage of missing data. The application of the missForest method to wastewater treatment plants data led to estimated errors systematically lower than 10 %. These results suggest that missForest is an imputation method that should be preferred when dealing with missing data in environment.
Type de document: | Mémoire ou thèse (Mémoire de maîtrise électronique) |
---|---|
Renseignements supplémentaires: | "Mémoire présenté à l'École de technologie supérieure comme exigence partielle à l'obtention de la maîtrise en génie de l'environnement". Comprend des références bibliographiques (pages 63-68). |
Mots-clés libres: | données manquantes, imputation, missForest, étude comparative, stations d’épuration |
Directeur de mémoire/thèse: | Directeur de mémoire/thèse Glaus, Mathias |
Codirecteur: | Codirecteur Errico, Fausto |
Programme: | Maîtrise en ingénierie > Génie de l'environnement |
Date de dépôt: | 11 sept. 2019 19:02 |
Dernière modification: | 11 sept. 2019 19:02 |
URI: | https://espace.etsmtl.ca/id/eprint/2360 |
Gestion Actions (Identification requise)
Dernière vérification avant le dépôt |