La vitrine de diffusion des mémoires et thèses de l'ÉTS
RECHERCHER

Transcodage efficace de MPEG-4 partie 2 à H.264 basé sur les modes de codage, les vecteurs de mouvement et l'information résiduelle de la source vidéo MPEG-4 partie 2

Métoevi, Isabelle Yehouessi (2012). Transcodage efficace de MPEG-4 partie 2 à H.264 basé sur les modes de codage, les vecteurs de mouvement et l'information résiduelle de la source vidéo MPEG-4 partie 2. Thèse de doctorat électronique, Montréal, École de technologie supérieure.

[img]
Prévisualisation
PDF
Télécharger (1MB) | Prévisualisation

Résumé

Le standard MPEG-4 partie 2, développé en 1995 par le groupe MPEG d’ISO, est largement utilisé par les applications multimédias actuelles telles que la télédiffusion, la lecture vidéo en transit, les vidéos mobiles et les jeux vidéos. Toutefois, H.264 (aussi appelé MPEG-4 partie 10 ou MPEG-4 AVC), le dernier standard vidéo développé conjointement en 2003 par ISO et l’UIT, offre des performances de compression nettement supérieures à MPEG-4 partie 2. La qualité visuelle de H.264 est comparable à celle de MPEG-4 partie 2, pour des taux de compression deux à trois fois plus grands. De plus en plus d’applications tendent donc à l’adopter. La coexistence de ces deux standards entraîne inévitablement un problème d’interopérabilité. Le transcodage MPEG-4 partie 2 à H.264 est ainsi devenu une nécessité, non seulement afin d’assurer la communication entre les terminaux supportant ces deux standards, mais également pour les plateformes qui veulent convertir du contenu MPEG-4 partie 2 existant à H.264 dans le but de bénéficier des meilleures performances de compression de ce dernier.

Malheureusement, cette efficacité de compression est acquise au prix d’une grande complexité de traitement, qui rend la conversion MPEG-4 partie 2 à H.264 peu appropriée pour les applications temps réels. Nous avons donc élaboré des algorithmes de transcodage efficaces, dont le but est de réduire la complexité de traitement tout en maintenant une bonne qualité. Deux méthodes de transcodage ont été élaborées.

Nous extrayons les modes de codage (MCs), les vecteurs de mouvement (VMs) et l’information résiduelle durant l’étape de décodage et les exploitons pour réduire la complexité du processus de codage H.264. Nous exploitons, particulièrement, les propriétés de l’information résiduelle. Nous nous servons du lien entre le partitionnement du macrobloc (MB) et l’information résiduelle. Nous utilisons aussi la distribution fréquentielle des MCs H.264 en fonction des MCs MPEG-4 partie 2 pour classifier les MBs et éliminer les MCs candidats H.264 les moins probables. On réduit ainsi, de façon importante, l’ensemble des MCs candidats à tester tout en conservant un bon niveau de qualité visuelle. Notre algorithme innove en tirant encore avantage des propriétés du résiduel dans le processus d’estimation du mouvement. Ce dernier est utilisé comme mesure d’efficacité des VMs, nous permettant de raffiner uniquement ceux qui sont jugés inefficaces. On évite ainsi des raffinements de VMs n’améliorant pas la qualité et qui sont coûteux en calculs. Nous proposons également d’utiliser une mesure relative de l’information résiduelle et d’exploiter la propriété de corrélation des trames successives afin de rendre nos méthodes de transcodage adaptatives aux débits binaires et aux caractéristiques vidéo. Cela nous permet d’obtenir une efficacité de transcodage pour différentes conditions de débit et de résolution.

Nos méthodes ont été testées et comparées aux méthodes les plus efficaces de l’état de l’art. Nous les avons, notamment, comparées, en utilisant une cinquantaine de tests vidéos couvrant plusieurs résolutions allant de QCIF (176×144 pixels) au HD (1920×1080), et ce, pour cinq à six débits binaires. Nous obtenons des gains en accélération de 3× à 5× comparé, à la méthode cascade (décodage et encodage complets) pour des pertes en qualité de 0,15 dB à 0,5 dB en moyenne pour du QCIF sous des codecs IPP de Intel, qui sont déjà nettement optimisés en terme en vitesse. Comparativement aux méthodes de transcodage rapides de l’état de l’art, les algorithmes proposés donnent des résultats significativement meilleurs tant en accélération qu’en qualité visuelle, excepté par rapport à une méthode qui donne de meilleures accélérations, mais au prix d’une perte énorme en qualité (allant jusqu’à 4 dB dans certains cas).

Titre traduit

Efficient MPEG-4 part 2 to H.264 transcoding based on the coding modes, motion vectors and residual information of the MPEG-4 part 2 video source

Résumé anglais

The MPEG-4 part 2 standard developed in 1995 by ISO MPEG is widely used in today’s multimedia applications, such as broadcasting, streaming, mobile video and video games. However, H.264 (also called MPEG-4 part 2 or MPEG-2 AVC), the latest video standard developed jointly by the ISO and the ITU in 2003, offers better compression performances than MPEG-4 part 2. Its visual quality is comparable to that of MPEG-4 part 2, but at a compression rate two to three times higher. While an increasing number of applications is adopting this new standard, the co-existence of the two standards leads to interoperability problems. MPEG-4 part 2 to H.264 transcoding has become a necessity not only to enable communication between terminals supporting these two standards, but also for platforms that want to convert MPEG-4 part 2 content to H.264 to benefit from its improved compression factor.

Unfortunately, H.264 achieves its high-efficiency compression rate at the expense of high computational complexity, making MPEG-4 part 2 to H.264 conversion unsuitable for realtime applications. We have developed two efficient transcoding algorithms, with the aim of reducing such computational complexity while maintaining good visual quality.

We extracted the coding modes (CMs), motion vectors (MVs) and residual information during the MPEG-4 part 2 decoding phase, and used them in the H.264 compression phase to reduce the latter’s computational complexity. In particular, we have exploited several properties of residual information, for example, the relationship between macroblock (MB) partitioning and residual information. Also, we use the frequency distribution of H.264 CMs as a function of MPEG-4 part 2 CMs to classify the MBs and eliminate less probable H.264 candidate CMs. This significantly reduces the set of candidate CMs to test, while preserving good visual quality. Our algorithm innovates again, by taking advantage of the properties of the residual information in the motion estimation phase, where the efficiency of MVs is measured. This allows us to refine only the inefficient ones, thereby avoiding computationally expensive MV refinements that would not contribute to improving visual quality. Furthermore, we propose to use a relative measure of the residual information and exploit the correlation between successive frames to make our transcoding methods adaptive to bit rates and video characteristics. Doing so has allowed us to obtain efficient transcoding for a wide range of bit rates and resolutions.

Our methods have been tested and compared with state-of-the-art transcoding methods using over fifty video tests, which cover various resolutions from QCIF (176×144 pixels) to HD (1920×1080), running each for five or six bit rates. We obtain speed-ups 3× to 5× those of the cascade approach (decode/re-encode), with quality losses of 0.15 dB to 0.5 dB, on average, for QCIF using Intel IPP codecs, which are highly optimized for speed. With the exception of one method that yields a higher speed-up, but at a huge quality loss (up to 4 dB), the proposed algorithms lead to significantly better results, in terms of both speed-up and quality, than the state-of-the-art methods.

Type de document: Mémoire ou thèse (Thèse de doctorat électronique)
Renseignements supplémentaires: "Thèse présentée à l'École de technologie supérieure comme exigence partielle à l'obtention du doctorat en génie". Bibliographie : pages 166-171.
Mots-clés libres: Transcodage. MPEG (Norme de codage vidéo) Compression vidéo Normes. Algorithmes. H.264 MPEG-4 information résiduelle, modes de codage
Directeur de mémoire/thèse:
Directeur de mémoire/thèse
Coulombe, Stéphane
Programme: Doctorat en génie > Génie
Date de dépôt: 28 mars 2014 19:26
Dernière modification: 10 nov. 2014 16:13
URI: http://espace.etsmtl.ca/id/eprint/945

Actions (Identification requise)

Dernière vérification avant le dépôt Dernière vérification avant le dépôt

Statistique

Plus de statistique...