Dataset generation and machine learning approaches for Android malware detection

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Namrud, Zakeya (2022). Dataset generation and machine learning approaches for Android malware detection. Thèse de doctorat électronique, Montréal, École de technologie supérieure.

Prévisualisation

PDF
Télécharger (1MB) | Prévisualisation

Résumé

In recent years, Android malware has substantially increased both in incidence and developmental complexity. To address this, machine learning approaches are increasingly used to help Android systems detect such software. Such approaches are built on models and metrics encapsulating dynamic behaviors and/or static characteristics of Android apps. This thesis focuses on the static analysis of Android apps for the extraction of relevant metrics for malware detection by machine learning.

Quality benchmarks are essential to proposing effective machine learning approaches. Therefore, the work presented in this document first proposes scripts able to apply diverse static analyses on an app and extract a set of metrics inspired by various works in the literature. In addition, we propose on this basis a dataset of more than 17,000 apps for the evaluation of machine learning approaches for Android malware detection.

This thesis also includes machine learning experiments using classification strategies that define the legitimate static characteristics of benign versus malicious applications. Put trivially, benign applications will share similar characteristics, while malicious applications will exhibit anomalous characteristics that ought to be identified. Based on the developed datasets, we propose and test the performance of various classification models in detecting malicious applications.

The tested models include common classifiers, as well as more advanced Support Vector Machine and Deep Learning models, whose hyperparameters have been tuned to improve the accuracy and efficiency of malware detection. Finally, we examined on the basis of Android permissions and security risks, the possible discrepancies between permission usage patterns of benign applications versus malware across different app categories.

Titre traduit

Génération de jeux de données et approches basées sur l’apprentissage automatique pour la détection des logiciels malveillants sur Android

Résumé traduit

Les logiciels malveillants sont de plus en plus complexes et nombreux sur Android. Face à cette complexité et présence grandissantes, les méthodes d’apprentissage automatique sont de plus en plus utilisées pour aider les systèmes Android à détecter ces logiciels. Cet apprentissage machine se construit sur des modèles de comportements dynamiques et/ou de caractéristiques statiques des apps Android. La présente thèse s’articule autour de l’analyse statique d’apps Android pour l’extraction de métriques pertinentes pour la détection de logiciels malveillants par apprentissage machine.

L’accès à des bancs d’essais de qualité peut constituer un frein à la proposition d’approches d’apprentissage machine efficaces. En premier abord, le travail présenté dans ce document a donc consisté en la proposition de scripts qui appliquent diverses analyses statiques sur une app et en extraient une suite de métriques inspirées de divers travaux de la littérature. De plus, nous proposons sur cette base un banc d’essai de plus de 17000 apps pour l’évaluation d’approches d’apprentissage machine.

Le présent travail comprend également des expériences d’apprentissage automatique menées en utilisant des stratégies de classification qui définissent les caractéristiques statiques légitimes des applications bénignes en opposition à celles des applications malveillantes. En général, les applications bénignes partagent des caractéristiques similaires, tandis que les applications malveillantes présentent des caractéristiques anormales. En nous appuyant sur les jeux de données développés, nous proposons et testons les performances de divers modèles de classification dans la détection des applications malveillantes.

Les modèles testés incluent des classificateurs courants, ainsi que des modèles plus avancés de Support Vector Machine et Deep Learning, dont les hyperparamètres ont été réglés pour améliorer la précision et l’efficacité de la détection des logiciels malveillants. Enfin, nous avons examiné sur la base des permissions Android, les divergences possibles de patterns d’utilisation entre les applications bénignes et les logiciels malveillants et ce, selon diverses catégories d’apps.

Type de document:	Mémoire ou thèse (Thèse de doctorat électronique)
Renseignements supplémentaires:	"Manuscript-based thesis presented to École de technologie supérieure in partial fulfillment for the degree of doctor of philosophy". Comprend des références bibliographiques (pages 137-148).
Mots-clés libres:	sécurité mobile, analyse statique, ingénierie inverse, informatique mobile, apprentissage machine, apprentissage profond
Directeur de mémoire/thèse:	Directeur de mémoire/thèse Kpodjedo, Sègla
Codirecteur:	Codirecteur Talhi, Chamseddine
Programme:	Doctorat en génie > Génie
Date de dépôt:	22 juin 2022 17:04
Dernière modification:	22 juin 2022 17:04
URI:	https://espace.etsmtl.ca/id/eprint/3021

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt