Detection of spam review on mobile app stores, evaluation of helpfulness of user reviews and extraction of quality aspects using machine learning techniques

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Genc, Necmiye (2019). Detection of spam review on mobile app stores, evaluation of helpfulness of user reviews and extraction of quality aspects using machine learning techniques. Thèse de doctorat électronique, Montréal, École de technologie supérieure.

Prévisualisation	PDF Télécharger (3MB) \| Prévisualisation
Prévisualisation	PDF Télécharger (1MB) \| Prévisualisation

Résumé

As mobile devices have overtaken fixed Internet access, mobile applications and distribution platforms have gained in importance. App stores enable users to search and purchase mobile applications and then to give feedback in the form of reviews and ratings. A review might contain critical information about user experience, feature requests and bug reports. User reviews are valuable not only to developers and software organizations interested in learning the opinion of their customers but also to prospective users who would like to find out what others think about an app.

Even though some surveys have inventoried techniques and methods in opinion mining and sentiment analysis, no systematic literature review (SLR) study had yet reported on mobile app store opinion mining and spam review detection problems. Mining opinions from app store reviews requires pre-processing at the text and content levels, including filtering-out nonopinionated content and evaluating trustworthiness and genuineness of the reviews. In addition, the relevance of the extracted features are not cross-validated with main software engineering concepts.

This research project first conducted a systematic literature review (SLR) on the evaluation of mobile app store opinion mining studies. Next, to fill the identified gaps in the literature, we used a novel convolutional neural network to learn document representation for deceptive spam review detection by characterizing an app store review dataset which includes truthful and spam reviews for the first time in the literature. Our experiments reported that our neural network based method achieved 82.5% accuracy, while a baseline Support Vector Machine (SVM) classification model reached only 70% accuracy despite leveraging various feature combinations.

We next compared four classification models to assess app store user review helpfulness and proposed a predictive model which makes use of review meta-data along with structural and lexical features for helpfulness prediction.

In the last part of this research study, we constructed an annotated app store review dataset for the aspect extraction task, based on ISO 25010 - Systems and software Product Quality Requirements and Evaluation standard and two deep neural network models: Bi-directional Long-Short Term Memory and Conditional Random Field (Bi-LSTM+CRF) and Deep Convolutional Neural Networks and Conditional Random Field (CNN+CRF) for aspect extraction from app store user reviews. Both models achieved nearly 80% F1 score (the weighted average of precision and recall which takes both false positives and false negatives into account) in exact aspect matching and 86% F1 score in partial aspect matching.

Titre traduit

Détection, sur les plates-formes de distribution des applications mobiles, des opinions frauduleuses, évaluation de l’utilité des avis des utilisateurs et extraction des aspects qualité en utilisant des techniques d’apprentissage automatique

Résumé traduit

Alors que les appareils mobiles ont dépassé l’accès Internet fixe, les applications mobiles et les plates-formes de distribution ont pris de l’importance. Ces plates-forme de distribution permettent aux utilisateurs de rechercher et d’acheter des applications mobiles, puis de donner leurs opinions sous forme d’avis et de notes. Un avis peut contenir des informations critiques sur l’expérience utilisateur, les demandes de fonctionnalités et les rapports de bogues. Les avis des utilisateurs sont précieux non seulement pour les développeurs et les éditeurs de logiciels intéressés à connaître l’opinion de leurs clients, mais également pour les utilisateurs potentiels désireux de savoir ce que les autres pensent de l’application mobile.

Bien que certains chercheurs aient répertorié les techniques et méthodes d’analyse d’opinion, aucune étude systématique de la littérature n’a encore fait état de problèmes d’extraction d’opinion et de détection des opinions frauduleuses dans une plate-forme de distribution d’applications mobiles.

L’extraction d’opinions nécessite un pré-traitement au niveau du texte et du contenu, y compris le filtrage du contenu sans opinion et l’évaluation de la fiabilité et de l’authenticité des critiques. La prédiction de l’utilité des applications mobiles et les problèmes de détection des opinions frauduleuses n’ont guère retenu l’attention de la littérature universitaire. De plus, la pertinence des fonctionnalités extraites n’a pas fait l’objet d’une validation croisée avec les principaux concepts de génie logiciel.

Ce projet de recherche a d’abord fait une revue systématique de la littérature sur l’évaluation des études d’extraction des opinions sur les plates-formes de distribution d’applications mobiles. Pour combler les lacunes identifiées dans cette revue de littérature, nous avons ensuite utilisé un réseau de neurones convolutifs pour apprendre à représenter des documents pour la détection de révisions frauduleuses en caractérisant un jeu de données d’avis d’utilisateurs sur des plates-formes de distribution d’applications mobiles, ce qui inclut des analyses de vérités et de fraudes. Nos résultats ont révélé que notre méthode de détection basée sur un réseau de neurones atteignait une précision de 82,5%, tandis qu’un modèle de classification de type Machine Support Vector Machine (SVM) n’atteint que 70% de précision, malgré l’utilisation de diverses combinaisons de fonctions.

Nous avons ensuite comparé quatre modèles de classification afin d’évaluer l’utilité des avis des utilisateurs d’une plate-forme de distribution pour proposer un modèle prédictif reposant sur des méta-données des avis, ainsi que sur des caractéristiques structurelles et lexicales pour la prédiction de l’utilité fonctionnelle de ces avis.

Dans la dernière partie de cette étude, nous avons construit un jeu de données annotées des opinions sur des applications mobiles pour la tâche d’extraction d’aspects de qualité, basé sur la norme ISO 25010 - Normes d’évaluation de la qualité des produits et logiciels. Nous avons ensuite utilisé deux modèles de réseau neuronal profond pour l’extraction d’aspects à partir des avis d’utilisateurs: bidirectionnel long-court avec mémoire de termes et champ aléatoire conditionnel (Bi-LSTM + CRF) et réseaux de neurones à structure profonde et champ aléatoire conditionnel (CNN + CRF). Les deux modèles ont obtenu un score F1 de près de 80% (moyenne pondérée de la précision et du rappel, qui prend en compte à la fois les faux positifs et les faux négatifs) avec l’appariement exact d’aspects, et un score F1 de 86% dans l’appariement partiel.

Type de document:	Mémoire ou thèse (Thèse de doctorat électronique)
Renseignements supplémentaires:	"Thesis presented to École de technologie supérieure in partial fulfillment for the degree of doctor of philosophy". Comprend des références bibliographiques (pages 195-205).
Mots-clés libres:	ingénierie des exigences, apprentissage automatique, exploration de textes, applications mobiles, détection de spam, évaluation de l’utilité des revues, extraction des aspects qualité
Directeur de mémoire/thèse:	Directeur de mémoire/thèse Abran, Alain
Programme:	Doctorat en génie > Génie
Date de dépôt:	06 mars 2020 21:35
Dernière modification:	06 mars 2020 21:35
URI:	https://espace.etsmtl.ca/id/eprint/2463

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt