Costa Carvalho, Andre Luis (2021). Dealing with missing data and data fusion in smart environment context. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (3MB) | Prévisualisation |
Résumé
The rising inflow of people living in megacities has demanded a smart approach to create a sustainable infrastructure to urban areas and provide more efficient services. Buildings automatically opening front doors, lights flicking on, heating and cooling systems adjusting by themselves, cameras tracking the traffic among other situations, are examples of countless arrays of sensors interacting with spaces and people. These sensors and systems dispatch huge volume of data into software platform hundreds of times per minute, demanding high velocity in processing and storing this information through the network, Internet of Things. This digital behaviour gives a foundation to the concept of smart city. While the data variety, volume and velocity are the Big Data definition, both are anchored on the development of Information and Communication Technology.
However, the available data are distributed and collectively aggregated and its fusion might reveal patterns that would not be possible if the data were analyzed separately. The main assumption in data fusion review is that the big picture from fused information allows the optimization of electricity flow through the power grid, supporting transportation networks moving, watching over people’s health and safety, and much more. Yet, according to the literature review, there are two major problems related to fusion data. The first issue is, any system (e.g., application and platform) is susceptible to produce data that might be inaccurate, insufficient, duplicated, incorrect, inconsistent, ambiguous, besides the missing values. The second, in most cases, fusion solutions focus on predefined mining strategy and supervised tasks.
To overcome the first issue, it is noted that missing values can significantly affect the result of analyses and decision making in any field and that the two major approaches to deal with this issue are statistical and model-based methods. Whereas the former brings bias to the analyses, the latter is usually designed for specific cases. To cope with the limitations of both methods, we present a stacked ensemble framework integrating the adaptive random forest algorithm, the Jaccard index, and Bayesian probability. Considering the challenge that the heterogeneous and distributed data from multiple sources represents, we have built a model that supports different data types: continuous, discrete, categorical, and binary.
Aiming to overcome the second limitation of data fusion, we introduce a fusion ensemble learning model for multiple and heterogeneous datasets stacking the Restricted Boltzmann Machine, which gather latent features of the unlabelled datasets and the matrix tri factorization algorithm to fuse the features in a block-matrix structure. Combining such techniques, we were able to design an efficient knowledge discovery tool. The evaluation of both proposed solutions, missing values imputation and fusion data has shown that our ensemble learning model produces encouraging and competitive results, overcoming the limitations previously found in the literature review.
Titre traduit
Traitement des données manquantes et fusion de données dans un contexte d’environnement intelligent
Résumé traduit
L’afflux croissant de personnes vivant dans les mégapoles exige une approche intelligente pour créer une infrastructure durable dans les zones urbaines et fournir des services plus efficaces. Les bâtiments qui ouvrent automatiquement les portes d’entrée, les lumières s’allument, les systèmes de chauffage et de refroidissement s’adaptant d’eux-mêmes, les caméras surveillant le trafic, entre autres situations, sont des exemples d’innombrables réseaux de capteurs interagissant avec les espaces et les personnes. Ces capteurs et systèmes envoient un volume énorme de données dans la plate-forme logicielle des centaines de fois par minute, exigeant une vitesse élevée dans le traitement et le stockage de ces informations via le réseau, l’Internet des objets. Ce comportement numérique fonde le concept de ville intelligente. Si la variété, le volume et la vitesse des données sont la définition du Big Data, les deux sont ancrés dans le développement des technologies de l’information et de la communication.
Cependant, les données disponibles sont distribuées et agrégées collectivement et leur fusion pourrait révéler des tendances qui ne seraient pas possibles si les données étaient analysées séparément. L’hypothèse principale de l’examen de la fusion de données est que la vue d’ensemble des informations fusionnées permet d’optimiser le flux d’électricité à travers le réseau électrique, de soutenir le déplacement des réseaux de transport, de veiller à la santé et à la sécurité des personnes, et bien plus encore. Pourtant, selon la revue de la littérature, il existe deux problèmes majeurs liés aux données de fusion. Premièrement, dans un scénario réel, tout système (par exemple, une application et une plate-forme) est soumis à la production de données qui pourraient être imprécises, insuffisantes, dupliquées, incorrectes, incohérentes, ambiguës, en plus des valeurs manquantes. Deuxièmement, dans la plupart des cas, les solutions de fusion se concentrent sur une stratégie minière prédéfinie et des tâches supervisées.
Pour s’affranchir du premier problème, il est à noter que les valeurs manquantes peuvent affecter considérablement le résultat des analyses et de la prise de décision dans n’importe quel domaine et que les deux principales approches pour traiter ce problème sont des méthodes statistiques et basées sur des modèles. Alors que la première apporte un biais aux analyses, la seconde est généralement conçue pour des cas spécifiques. Pour faire face aux limites des deux méthodes, nous présentons un cadre d’ensemble empilé basé sur l’intégration de l’algorithme de forêt aléatoire adaptative, de l’indice de Jaccard et de la probabilité bayésienne. Compte tenu du défi que représentent les données hétérogènes et distribuées provenant de sources multiples, nous avons construit un modèle d’utilisation qui prend en charge différents types de données: continues, discrètes, catégorielles et binaires.
Dans le but de surmonter la deuxième limitation de la fusion de données, nous introduisons un modèle d’apprentissage d’ensemble de fusion pour des ensembles de données multiples et hétérogènes empilant la machine Boltzmann restreinte, qui rassemblent les caractéristiques latentes des ensembles de données non étiquetés et l’algorithme de tri-factorisation matricielle pour fusionner les caractéristiques dans une structure de matrice de blocs. En combinant ces techniques, nous avons pu concevoir un outil efficace de découverte de connaissances. L’évaluation des deux solutions proposées tient compte de l’imputation des valeurs manquantes, et les données de fusion ont montré que notre modèle d’apprentissage d’ensemble produit des résultats prometteur et compétitifs, surmontant les limites précédemment décriteo dans la revue de la littérature.
Type de document: | Mémoire ou thèse (Mémoire de maîtrise électronique) |
---|---|
Renseignements supplémentaires: | "Thesis presented to École de technologie supérieure in partial fulfillment of a master’s degree with thesis in information technology engineering". Comprend des références bibliographiques (pages 87-92). |
Mots-clés libres: | big data, fusion de données, apprentissage en profondeur, apprentissage d’ensemble, ville intelligente, imputation de données manquantes, données distribuées, multi domaines |
Directeur de mémoire/thèse: | Directeur de mémoire/thèse Cheriet, Mohamed |
Programme: | Maîtrise en ingénierie > Génie des technologies de l'information |
Date de dépôt: | 05 oct. 2021 17:35 |
Dernière modification: | 05 oct. 2021 17:35 |
URI: | https://espace.etsmtl.ca/id/eprint/2733 |
Gestion Actions (Identification requise)
Dernière vérification avant le dépôt |