Approches basées sur l’analyse des sentiments et les techniques d’apprentissage supervisé pour des systèmes de réputation robustes dans l’environnement du commerce électronique

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Elmurngi, Elshrif (2020). Approches basées sur l’analyse des sentiments et les techniques d’apprentissage supervisé pour des systèmes de réputation robustes dans l’environnement du commerce électronique. Thèse de doctorat électronique, Montréal, École de technologie supérieure.

Prévisualisation	PDF Télécharger (1MB) \| Prévisualisation
Prévisualisation	PDF Télécharger (742kB) \| Prévisualisation

Résumé

Les systèmes de réputation en ligne sont une partie nouvelle et active des environnements de commerce électronique tels que eBay, Amazon, Alibaba, etc. Ces sociétés utilisent des systèmes de réputation pour l’évaluation de la confiance en mesurant l’ensemble des commentaires donnés par les acheteurs, ce qui leur permet de calculer le score de réputation de leurs produits. Ces processus d’évaluation et de calcul sont étroitement liés à l’analyse des sentiments et à la fouille des opinions. Ces techniques intègrent de nouvelles caractéristiques aux tâches traditionnelles, comme la détection de la polarité pour les évaluations positives ou négatives. Par exemple, le manque d’honnêteté ou d’effort dans la fourniture des commentaires, par lequel les utilisateurs pourraient créer des commentaires fantômes à partir de faux commentaires afin de soutenir leur réputation. Le problème de la " réputation d’excellence " est courant dans le domaine du commerce électronique, où la plupart des commentaires sont positifs, ce qui entraîne des scores de réputation élevés pour les vendeurs. Un autre problème est que les vendeurs peuvent attribuer des commentaires injustes pour approuver ou rejeter un produit ciblé puisqu’une meilleure réputation mène à des profits plus élevés. Pour que les avis reflètent les expériences et les opinions réelles des utilisateurs, ces avis injustes doivent être détectés.

Le problème des avis injustes peut être aggravé par la complaisance de plusieurs utilisateurs lorsque la crainte de représailles pour de mauvaises notes amène les évaluateurs à être de connivence, à manipuler et à tromper les autres. Il arrive souvent que les avis injustes présentent un patron statistique différent de celui des avis justes. L’objectif principal de cette étude est d’offrir une solution nouvelle et compréhensive pour la conception d’un nouveau modèle pour obtenir le système de réputation le plus précis, qui traite les problématiques existantes, telles que les fausses revues de rétroaction et les revues injustes à partir des revues d’opinion, la collusion et la manipulation et la problématique de la " toute bonne réputation " qui est actuellement rencontrée par les systèmes de réputation.

L’objectif de la recherche proposée est d’utiliser une technique statistique permettant d’exclure les évaluations biaisées et d’illustrer son efficacité via des simulations. Pour ce faire, nous avons d’abord commencé par analyser les revues de films en ligne en utilisant des méthodes d’analyse de sentiment (SA) afin de détecter les fausses revues. Les méthodes SA et de classification textuelle sont appliquées à un ensemble de données de revues de films. Plus précisément, nous comparons cinq algorithmes d’apprentissage machine supervisé : Naïve Bayes (NB), Support Vector Machine (SVM), K-Nearest Neighbors (KNN-IBK), KStar (K*) et Decision Tree (DT-J48) pour la classification des sentiments des revues en utilisant trois bases de données différentes. Pour évaluer la performance de la classification des sentiments, ce travail a mis en oeuvre l’exactitude, la précision, le rappel et la F-mesure comme métriques de performance. Les résultats mesurés de nos expériences montrent que l’algorithme SVM surpasse les autres algorithmes, et qu’il atteint la plus grande précision non seulement dans la classification des textes, mais aussi dans la détection des fausses revues. Deuxièmement, nous avons effectué une étude comparative de quatre algorithmes d’apprentissage machine supervisé : Naïve Bayes (NB), Arbre de décision (DT-J48), Régression logistique (LR) et Machine à vecteurs de support (SVM) pour la classification des sentiments en utilisant trois bases de données de revues en Amazon, incluant les revues de vêtements, chaussures et bijoux, les revues des bébés ainsi que les revues des animaux de compagnie. Afin d’évaluer la performance de la classification des sentiments, ce travail a mis en oeuvre l’exactitude, la précision et le rappel comme mesures de performance. Les résultats de nos expériences montrent que l’algorithme de Régression Logistique (LR) est le meilleur classificateur avec la plus grande précision par rapport aux trois autres classificateurs, non seulement dans la classification des textes, mais aussi dans la détection des revues injustes. Enfin, le but du présent travail est d’utiliser une technique statistique pour exclure les revues injustes et d’illustrer son efficacité par des simulations. De plus, nous avons calculé les scores de réputation à partir des rétroactions des utilisateurs, en nous basant sur un modèle d’analyse du sentiment (MAS), afin d’obtenir des informations utiles à partir des revues, en se basant sur un algorithme de régression logistique avec deux sélections de caractéristiques différentes. Les résultats expérimentaux basés sur deux bases de données différentes démontrent l’efficacité de notre approche dans la récupération d’informations de réputation à partir des revues.

Titre traduit

Approaches based on sentiment analysis and supervised learning techniques for robust reputation systems in the e-commerce environment

Résumé traduit

Online Reputation systems, such as eBay, Amazon, Alibaba, etc., are a novel and active part of E-commerce environments. These corporations use reputation reporting systems for trust evaluation by measuring the overall feedback ratings given by buyers, which enables them to compute the reputation score of their products. Such evaluation and computation processes are closely related to sentiment analysis and opinion mining. These techniques incorporate new features into traditional tasks, like polarity detection for positive or negative reviews. For instance, lack of honesty or effort in providing the feedback reviews, by which users might create phantom feedback from fake reviews in order to support their reputation. The “all excellent reputation” problem is common in the e-commerce domain, where most of the feedback ratings are positive, leading to high reputation scores for the sellers. Another problem is that sellers can write unfair reviews to endorse or reject any given targeted product since a higher reputation leads to higher profits. For reviews to reflect genuine user experiences and opinions, such unfair reviews must be detected.

The problem of unfair reviews may be aggravated by the collusion of multiple users where the fear of bad ratings causes reviewers to collude, manipulate and deceive others. It is often the case that unfair ratings have a different statistical pattern than the fair ratings. The main objective of this study is to offer a novel and comprehensive solution for designing a new model to obtain the most accurate reputation system, which addresses the existing issues, such as fake feedback reviews and unfair reviews from opinion reviews, collusion and manipulation, as well as the ”all good reputation” issue that is being currently encountered by reputation systems.

The purpose of the proposed research is to use a statistical technique for excluding unfair ratings and to illustrate its effectiveness through simulations. In order to do that, we first started by analysing online movie reviews using Sentiment Analysis (SA) methods in order to detect fake reviews. SA and text classification methods were applied to datasets of movie reviews. More specifically, we compared five supervised machine learning algorithms : Naïve Bayes (NB), Support Vector Machine (SVM), K-Nearest Neighbours (KNN-IBK), KStar (K*) and Decision Tree (DT-J48) for sentiment classification of reviews, using three different datasets. In order to evaluate the performance of sentiment classification, this work has implemented accuracy, precision, recall and F-measure as performance measures. The measured results of our experiments show that the SVM algorithm outperforms other algorithms, and that it reaches the highest accuracy not only in text classification, but also in detecting fake reviews. Second, we carried out comparison study of four supervised machine learning algorithms : Naïve Bayes (NB), Decision Tree (DT-J48), Logistic Regression (LR) and Support Vector Machine (SVM) for sentiment classification using three datasets of Amazon reviews, including Clothing, Shoes and Jewelry reviews, Baby reviews as well as Pet Supplies reviews. In order to evaluate the performance of sentiment classification, this work has implemented accuracy, precision and recall as performance measures. Our experiments’ results show that the Logistic Regression (LR) algorithm is the best classifier with the highest accuracy as compared to the other three classifiers, not merely in text classification, but in unfair reviews detection as well. In addition, we have calculated reputation scores from users’ feedback based on a Sentiment Analysis Model (SAM), in order to obtain useful information from reviews, based on a Logistic Regression algorithm with two different feature selections. Experimental results based on two different datasets demonstrate the effectiveness of our approach in capturing reputation information from reviews.

Type de document:	Mémoire ou thèse (Thèse de doctorat électronique)
Renseignements supplémentaires:	"Thèse par articles présentée à l’École de technologie supérieure comme exigence partielle à l’obtention du doctorat en génie". Comprend des références bibliographiques (pages 165-172).
Mots-clés libres:	systèmes de réputation, modèle d’analyse du sentiment (SAM), commerce électronique (EC), classification des sentiments, détection des faux avis, techniques d’apprentissage machine
Directeur de mémoire/thèse:	Directeur de mémoire/thèse Gherbi, Abdelouahed
Programme:	Doctorat en génie > Génie
Date de dépôt:	06 nov. 2020 20:24
Dernière modification:	06 nov. 2020 20:24
URI:	https://espace.etsmtl.ca/id/eprint/2574

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt