La vitrine de diffusion des mémoires et thèses de l'ÉTS
RECHERCHER

Low-complexity high prediction accuracy visual quality metrics and their applications in H.264/AVC encoding mode decision process

Rezazadeh, Soroosh (2013). Low-complexity high prediction accuracy visual quality metrics and their applications in H.264/AVC encoding mode decision process. Thèse de doctorat électronique, Montréal, École de technologie supérieure.

[img]
Prévisualisation
PDF
Télécharger (1MB) | Prévisualisation
[img]
Prévisualisation
PDF
Télécharger (1MB) | Prévisualisation

Résumé

In this thesis, we develop a new general framework for computing full reference image quality scores in the discrete wavelet domain using the Haar wavelet. The proposed framework presents an excellent tradeoff between accuracy and complexity. In our framework, quality metrics are categorized as either map-based, which generate a quality (distortion) map to be pooled for the final score, e.g., structural similarity (SSIM), or non map-based, which only give a final score, e.g., Peak signal-to-noise ratio (PSNR). For mapbased metrics, the proposed framework defines a contrast map in the wavelet domain for pooling the quality maps.

We also derive a formula to enable the framework to automatically calculate the appropriate level of wavelet decomposition for error-based metrics at a desired viewing distance. To consider the effect of very fine image details in quality assessment, the proposed method defines a multi-level edge map for each image, which comprises only the most informative image subbands.

To clarify the application of the framework in computing quality scores, we give some examples showing how the framework can be applied to improve well-known metrics such as SSIM, visual information fidelity (VIF), PSNR, and absolute difference. We compare the complexity of various algorithms obtained by the framework to the Intel IPP-based H.264 baseline profile encoding using C/C++ implementations. We evaluate the overall performance of the proposed metrics, including their prediction accuracy, on two well-known image quality databases and one video quality database. All the simulation results confirm the efficiency of the proposed framework and quality assessment metrics in improving the prediction accuracy and also reduction of the computational complexity. For example, by using the framework, we can compute the VIF at about 5% of the complexity of its original version, but with higher accuracy.

In the next step, we study how H.264 coding mode decision can benefit from our developed metrics. We integrate the proposed SSEA metric as the distortion measure inside the H.264 mode decision process. The H.264/AVC JM reference software is used as the implementation and verification platform. We propose a search algorithm to determine the Lagrange multiplier value for each quantization parameter (QP). The search is applied on three different types of video sequences having various motion activity features, and the resulting Lagrange multiplier values are tabulated for each of them. Based on our proposed Framework we propose a new quality metric PSNRA, and use it in this part (mode decision). The simulated rate-distortion (RD) curves show that at the same PSNRA, with the SSEA-based mode decision, the bitrate is reduced about 5% on average compared to the conventional SSE-based approach for the sequences with low and medium motion activities. It is notable that the computational complexity is not increased at all by using the proposed SSEA-based approach instead of the conventional SSE-based method. Therefore, the proposed mode decision algorithm can be used in real-time video coding.

Titre traduit

Métriques de qualité visuelle à haute exactitude et à faible complexité de calculs et leur application au processus de décision de modes de l'encodeur H.264/AVC

Résumé traduit

Dans cette thèse, nous développons un nouveau cadre général pour calculer des métriques de qualité d’image avec référence complète dans le domaine des ondelettes discrètes en utilisant l'ondelette de Haar. Le cadre proposé présente un excellent compromis entre l’exactitude et la complexité. Dans notre cadre, les métriques de qualité sont classées soit à base de cartes (map), qui génèrent une carte de qualité (distorsion) dont la contribution à chaque position est mise en commun pour le calcul de la métrique finale, par exemple, la similarité structurelle (SSIM), ou non basées sur des cartes, qui calculent directement la métrique finale, par exemple, le rapport signal sur bruit de crête (PSNR). Pour les métriques basées sur des cartes, le cadre proposé définit une carte de contraste dans le domaine des ondelettes pour la mise en commun des cartes de qualité.

Nous développons aussi une formule permettant de calculer automatiquement le niveau de décomposition en ondelettes approprié pour les métriques basées sur l'erreur en tenant compte de la distance de visualisation désirée. Pour tenir compte de l'effet des détails très fins de l'image dans l'évaluation de la qualité, la méthode proposée définit une carte de contours multi-niveau pour chaque image, qui ne comprend que les sous-bandes d'images les plus informatives.

Pour clarifier l'application du cadre dans le calcul de métriques, nous donnons quelques exemples montrant comment le cadre peut être appliqué pour améliorer la performance de métriques bien connues telles que le SSIM, la fidélité de l'information visuelle (VIF), le PSNR, et la différence absolue. Nous comparons la complexité des différents algorithmes obtenus par le cadre à l’encodage H.264 avec profil de base en utilisant l’implémentation IPP en C/C++ d’Intel. Nous évaluons la performance globale des mesures proposées, y compris leur exactitude de la prédiction, sur deux bases de données de qualité d'image bien connues et une base de données de qualité vidéo. Tous les résultats des simulations confirment l'efficacité du cadre proposé et les mesures d'évaluation de la qualité dans l'amélioration de l’exactitude de la prédiction et aussi la réduction de la complexité de calcul. Par exemple, en utilisant le cadre, nous pouvons calculer le VIF avec environ 5% de la complexité de sa version originale, mais avec une plus grande précision.

Dans la prochaine étape, nous étudions comment le processus de décision de modes de codage en H.264 peut bénéficier des métriques développées. Nous intégrons la métrique SSEA proposée comme mesure de distorsion dans le processus de décision de mode H.264. Le logiciel de référence H.264/AVC JM est utilisé comme plate-forme de mise en oeuvre et de validation. Nous proposons un algorithme de recherche pour déterminer la valeur du multiplicateur de Lagrange pour chaque paramètre de quantification (QP). La recherche est appliquée sur trois différents types de séquences vidéo présentant diverses caractéristiques au niveau de l'intensité du mouvement, et les valeurs du multiplicateur de Lagrange qui en résultent sont compilées pour chacun d'eux. Sur la base de notre cadre proposé, nous proposons une nouvelle métrique de qualité PSNRA, et nous l'utilisons dans cette partie (la décision de mode). Les courbes débit-distorsion (RD) simulées montrent que pour le même PSNRA, avec la décision de mode basée SSEA, le débit est réduit d'environ 5% en moyenne par rapport à l'approche traditionnelle basée SSE sur les séquences avec des niveaux d’intensité de mouvement faibles et moyens. Il est à noter que la complexité de calcul n'est aucunement augmentée en utilisant l'approche basée SSEA proposée au lieu de la méthode traditionnelle basée SSE. Par conséquent, l'algorithme de décision de mode proposé peut être utilisé pour le codage vidéo en temps réel.

Type de document: Mémoire ou thèse (Thèse de doctorat électronique)
Renseignements supplémentaires: "Thesis presented to École de technologie supérieure in partial fulfillment of the requirements for the degree of doctor of philosophy". Bibliographie : pages 149-158.
Mots-clés libres: Imagerie (Technique) Qualité de l'image Évaluation. Vidéo numérique. Cadres d'applications (Informatique) Complexité de calcul (Informatique) Ondelettes. MPEG (Norme de codage vidéo) Équations de Lagrange. Perception des images. métrique, qualité, transformée en ondelettes discrète, évaluation de qualité d'image, système visuel humain (HVS), fidélité de l'information, similarité structurelle, encodage vidéo, H.264, multiplicateur de Lagrange
Directeur de mémoire/thèse:
Directeur de mémoire/thèse
Coulombe, Stéphane
Programme: Doctorat en génie > Génie
Date de dépôt: 25 sept. 2015 20:43
Dernière modification: 07 déc. 2016 02:45
URI: http://espace.etsmtl.ca/id/eprint/1202

Actions (Identification requise)

Dernière vérification avant le dépôt Dernière vérification avant le dépôt

Statistique

Plus de statistique...