Multimedia copy detection using audio and video fingerprints

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Ouali, Chahid (2016). Multimedia copy detection using audio and video fingerprints. Thèse de doctorat électronique, Montréal, École de technologie supérieure.

Prévisualisation	PDF Télécharger (5MB) \| Prévisualisation
Prévisualisation	PDF Télécharger (896kB) \| Prévisualisation

Résumé

According to a study by the International Data Corporation (IDC), the digital universe is doubling in size every two years to rich 44 trillion gigabytes by 2020. A large part of this big universe consists of audio and videos (e.g. music, TV shows and films), which are distributed over the Internet in an effortless way. This has increased the need for powerful tools to handle this data in terms of identification, filtering and retrieval. In this context, multimedia copy detection, which consists of identifying duplicate (or near duplicate) multimedia content, has become an emerging and active research area due to its broad applications. Multimedia copy detection can be used in a wide variety of applications such as broadcast monitoring, music identification, copyright control, law enforcement investigation and music library organization. Content-Based Copy Detection (CBCD) has been recently introduced as a solution to the problem of multimedia copy detection. This approach extracts fingerprints from a candidate copy and then compares them against fingerprints of the original content. However, audio and video signals are subjected to various kinds of transformations that make robust fingerprint extraction challenging. Thus, fingerprints should be robust to a variety of audio and video transformations and also discriminate against imposter fingerprints. In addition, the search of a candidate copy against a large dataset of fingerprints should be very fast.

In this thesis, we propose an efficient multimedia copy detection system that is highly robust to a variety of audio and video transformations. We first describe a new audio feature extraction schema that allows the generation of three kinds of audio fingerprints. We then address the problem of video copy detection and we describe two video fingerprint extraction algorithms. In addition, we propose a fusion technique that combines the results achieved separately from the audio and the video parts to tackle the problem of audio+video copy detection. In the last part of this thesis, we address the problem of fingerprint retrieval, and we propose two solutions to improve the speed of the search algorithm. In the first solution we propose to parallelize the similarity search algorithm by using a Graphics Processing Unit (GPU), whereas the second solution is based on a clustering technique.

We evaluate the proposed systems on the TRECVID 2009 and 2010 datasets, and we evaluate our approaches in terms of detection performance, localization accuracy and run time. In addition, we demonstrate the effectiveness of our methods by comparing them to several state-of-the-art audio and video copy detection systems.

Titre traduit

Détection de copies multimédia en utilisant des empreintes digitales de l'audio et du vidéo

Résumé traduit

Selon une étude menée par la firme « International Data Corporation (IDC) », l'univers numérique double de taille tous les deux ans pour atteindre 44 billions de giga-octets en 2020. Une grande partie de ce grand univers est composée de contenu audio et vidéo (p. ex. musique, émissions de télévision, films, etc.), où leurs diffusions et leurs partages sont devenus des tâches répandues et faciles à effectuer. Ceci a augmenté le besoin pour des outils efficaces de traitement de ces données en termes d'identification, de filtrage et de recherche. Dans ce contexte, la détection de copies multimédia qui consiste à identifier des copies d'un même fichier audio/vidéo, est devenue un domaine de recherche émergent et active en raison de ses nombreuses applications. En effet, la détection de copie multimédia peut être utilisée dans une grande variété d'applications telles que la surveillance des médias électroniques, l'identification de la musique, le contrôle des droits d'auteur et l'organisation des bibliothèques de musique. La méthode de détection de copies par le contenu (Content-Based Copy Detection, CBCD) a été introduite récemment comme une solution au problème de détection de copies multimédia. Cette méthode consiste à extraire des empreintes digitales (fingerprints) de la copie, puis à les comparer avec les empreintes digitales du contenu original. Cependant, les signaux audio et vidéo sont soumis à divers types de transformations qui complexifient la tâche d’extraction d'empreintes digitales robustes. En fait, les empreintes digitales devraient être robustes à une variété de transformations audio et vidéo tout en étant discriminantes. En outre, la recherche dans un grand corpus de données d'empreintes digitales doit aussi se faire dans un temps raisonnable.

Dans cette thèse, nous proposons un système de détection de copies multimédia à la fois efficace et robuste contre une variété d’altérations de signaux audio et vidéo. Nous décrivons d'abord une nouvelle approche d’extraction des caractéristiques du signal audio qui permet la génération de trois types d'empreintes digitales audio. Nous abordons dans un deuxième temps le problème de détection de copies vidéo et nous décrivons deux algorithmes d'extraction d'empreintes digitales vidéo. En outre, nous proposons une technique de fusion qui combine les résultats obtenus séparément par le système audio et celui du vidéo afin d’aborder le problème de la détection de copies altérées à la fois par des transformations audio et vidéo. Dans la dernière partie de cette thèse, nous abordons le problème de recherche d'empreintes digitales, et nous proposons deux solutions pour réduire le temps d’exécution de l'algorithme de recherche. La première solution consiste à paralléliser l'algorithme de recherche en utilisant une unité de traitement graphique, alors que la deuxième solution est basée sur une technique de partitionnement de données.

Nous évaluons les approches proposées sur le corpus de données TRECVID 2009 et 2010 en termes de performance de détection, de précision de localisation et de vitesse d’exécution. En outre, nous comparons nos approches à plusieurs autres systèmes de détection de copies audio et vidéo.

Type de document:	Mémoire ou thèse (Thèse de doctorat électronique)
Renseignements supplémentaires:	"Thesis presented to École de technologie supérieure in partial fulfillment of the requirements for the degree of doctor of philosophy". Bibliographie : pages 127-135.
Mots-clés libres:	Son Enregistrement et reproduction Techniques numériques. Vidéo numérique Reproduction. Recherche de l'information électronique. Parallélisme (Informatique) Processeurs graphiques. Regroupement des documents (Informatique) contenu, copie, détection, empreinte digitale, recherche rapide, traitement parallèle, partitionnement de données
Directeur de mémoire/thèse:	Directeur de mémoire/thèse Dumouchel, Pierre
Codirecteur:	Codirecteur Gupta, Vishwa
Programme:	Doctorat en génie > Génie
Date de dépôt:	07 févr. 2017 15:16
Dernière modification:	07 févr. 2017 15:16
URI:	https://espace.etsmtl.ca/id/eprint/1805

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt