Jamali, Mohammadreza (2018). Intra coding complexity reduction in high efficiency video coding using RDO cost modeling and deep reinforcement learning. Thèse de doctorat électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (3MB) | Prévisualisation |
Prévisualisation |
PDF
Télécharger (731kB) | Prévisualisation |
Résumé
Video compression technology has gained much attention in recent years due to the everincreasing popularity of high-definition (HD) and ultra-HD video applications and increased processing power of hardware and software. High efficiency video coding (HEVC)/H.265 is the most recent video coding standard which achieves a significant improvement in compression efficiency as compared to the other standards and provides a 50% bit rate reduction compared to the well-known H.264/advanced video coding (AVC) with the same quality.
The performance improvement of HEVC is at the expense of much higher computational complexity at the encoder, making it challenging to deploy HEVC in real-time applications. In particular, HEVC increases the number of intra coding modes to 35, providing higher coding efficiency than the other video coding standards while increasing encoder complexity, which is mostly due to mode decision process by highly resource-demanding rate-distortion optimization (RDO). In addition, in frame splitting process, H.264/AVC employs 16 × 16 macroblocks, while HEVC introduces coding tree units (CTUs) with a maximum size of 64×64. The CTU may be split recursively and content-adaptively into coding units (CUs) in a quadtree-based manner, resulting in an efficient coding of background regions and objects with various sizes and shapes. In addition to the complexity imposed by mode decision, the frame partitioning process results in a significant computational complexity.
In view of this, in this thesis, the HEVC intra coding is studied and multiple novel methods are proposed to reduce its computational complexity and encoding time. The proposed methods are revolving around two areas of mode decision and CU size decision.
The first proposed method is based on the prediction of the RDO cost by a low-complexity SATD-based metric. Through predicting the RDO cost, the non-promising modes are discarded from further processing giving rise to substantial computation saving. This method provides a 30% time reduction with a 0.8% Bjøntegaard delta rate (BD-Rate) increase as compared to HEVC test model (HM); leading to a desirable trade-off.
In the second contribution, a mode classification in chroma coding is proposed to adaptively reduce chroma intra modes based on block texture. As compared to HM, the chroma mode decision method provides a 6% time reduction with a 0.07% BD-Rate increase.
The third contribution, in this thesis, is a gradient-based method, using the Prewitt operator, to eliminate the non-relevant directional modes from the list of candidates. The proposed method achieves a time reduction of 11.4% with a BD-Rate increase of 0.62% in comparison to HM.
In the fourth proposed method, the most relevant modes of the neighboring blocks are considered to exploit the spatial redundancy across a frame. A classification of SATD costs is also proposed which permits the elimination of several candidate modes prior to RDO. It is shown that these two approaches, combined with the gradient-based algorithm, provide a 35.6% time reduction with a 1.07% BD-Rate loss.
The proposed mode decision methods are combined, resulting in a 47.3% encoding time reduction with a quality loss of 1.37% BD-Rate as compared to the HM.
The fifth contribution, in this thesis, is a fast intra coding method based on global and directional gradients to early terminate the CU splitting and avoid performing the highcomplexity RDO process for the next CU levels. This approach, combined with mode decision, reduces the encoding time by 52% on average, with a small quality loss of 1.50% BD-Rate.
In the sixth contribution, a method based on the Bayesian classification is proposed to reduce the complexity of CU splitting process. Two binary classification problems are considered for early splitting and early splitting termination. It is shown that using the proposed method a 43.2% time reduction with a quality loss of 1.07% BD-Rate can be achieved.
The seventh contribution is a CU size decision method based on reinforcement learning, active feature acquisition and neural networks. This method carries out early splitting and early splitting termination by considering the encoder and CU as an agent-environment system. The proposed method provides a 51.3% time reduction and a 0.84% BD-Rate loss. In addition, combining the proposed mode decision methods with this novel approach gives a total time reduction of 62.4% and a BD-Rate loss of 1.23% comparing to HM.
Titre traduit
Réduction de la complexité du codage intra pour le codage vidéo à haute efficacité à l’aide de la modélisation des coûts RDO et de l’apprentissage par renforcement profond
Résumé traduit
La compression vidéo a retenu l’attention ces dernières années en raison de la popularité croissante des applications vidéo à haute définition (HD) et ultra HD et de la puissance de traitement accrue du matériel et des logiciels. Le codage vidéo à haute efficacité (HEVC)/H.265 est la norme de codage la plus récente. Elle permet une amelioration significative de l’efficacité de la compression par rapport aux normes antérieures et fournit une réduction de débit de 50%, pour la même qualité, par rapport à la célèbre norme H.264/advanced video coding (AVC).
L’amélioration des performances de high efficiency video coding (HEVC) se fait au detriment d’une complexité de calculs beaucoup plus élevée au niveau de l’encodeur, rendant difficile le déploiement de HEVC dans des applications en temps réel. HEVC augmente le nombre de modes de codage intra à 35, offrant une plus grande efficacité de codage que les autres normes de codage vidéo tout en augmentant la complexité du codeur, principalement en raison du processus de décision de mode par optimisation débit-distorsion (RDO). En outre, dans le processus de fractionnement de trame, H.264/AVC utilise des macroblocs de 16 × 16 pixels, tandis que HEVC introduit des unités de codage arborescent (CTUs) avec une taille maximale de 64 × 64. Le CTU peut être fractionné, de manière récursive et adaptative selon le contenu, en unités de codage (CUs) possédant une structure en arbre quaternaire. Il en résulte un codage efficace des régions d’arrière-plan et des objets avec diverses tailles et formes. En plus de la complexité imposée par la décision de mode, le processus de partitionnement de trame entraîne une complexité de calcul importante.
Au vu de cela, dans cette thèse, le codage HEVC intra est étudié et de multiples methods sont proposées pour réduire sa complexité de calculs et son temps de codage. Les methods proposées tournent autour de deux domaines de décision, celui du mode de codage et celui de la taille des CUs.
La première méthode proposée est basée sur la prédiction du coût RDO par une métrique basée sur la SATD de plus faible complexité. Grâce à la prédiction du coût RDO, les modes non prometteurs sont écartés du traitement ultérieur; ce qui entraîne une économie de calculs substantielle. Cette méthode permet une réduction de 30% du temps de traitement avec une augmentation de 0,8% du Bjøntegaard delta rate (BD-Rate) par rapport au modèle de test HEVC (HM), représentant ainsi un compromis souhaitable.
Dans la deuxième contribution, une classification de mode lors du codage chromatique est proposée pour réduire de façon adaptative les modes intra-chromatiques en fonction de la texture du bloc. Par rapport au HM, la méthode proposée de décision de mode chroma fournit une réduction de temps de 6% avec une augmentation de BD-Rate de 0,07%.
La troisième contribution de cette thèse est une méthode basée sur le gradient, utilisant l’opérateur de Prewitt, pour éliminer les modes directionnels non pertinents de la liste des candidats. La méthode proposée permet une réduction du temps de 11,4% avec une augmentation de BD-Rate de 0,62% par rapport au HM.
Dans la quatrième méthode proposée, les modes les plus pertinents des blocs voisins sont considérés pour exploiter la redondance spatiale à travers une trame. Une classification des coûts de SATD est également proposée qui permet l’élimination de plusieurs modes candidats avant le RDO. Nous montrons que ces deux approches, combinées à l’algorithme basé sur le gradient, fournissent une réduction de temps de 35,6% avec une perte de BD-Rate de 1,07%.
Les méthodes de décision de mode proposées sont ensuite combinées, aboutissant à une réduction du temps de codage de 47,3% avec une perte de qualité de 1,37% de BD-Rate par rapport au HM.
La cinquième contribution de cette thèse est une méthode de codage intra rapide basée sur des gradients globaux et directionnels pour terminer rapidement le fractionnement au niveau des CUs et éviter d’effectuer le processus RDO à haute complexité pour les prochains niveaux de CUs. Cette approche, combinée à la décision de mode, réduit le temps de codage de 52% en moyenne, avec une faible perte de qualité de 1,50% de BD-Rate.
Dans la sixième contribution, une méthode basée sur la classification bayésienne est propose pour réduire la complexité du processus de fractionnement des CUs. Deux problèmes de classification binaires sont considérés pour effectuer un fractionnement précoce et un arrêt anticipé du fractionnement. Il est montré qu’en utilisant la méthode proposée, une reduction de temps de 43,2% avec une perte de qualité de 1,07% de BD-Rate peut être obtenue.
La septième contribution est une méthode de décision de taille des CUs basée sur l’apprentissage par renforcement, l’acquisition de caractéristiques actives et les réseaux de neurones. Cette méthode effectue un fractionnement précoce et un arrêt anticipé du fractionnement en considérant le codeur et le CU comme un système agent-environnement. La méthode proposée fournit une réduction du temps de 51,3% avec une perte de BD-Rate de 0,84% . De plus, la combinaison des méthodes de décision de mode proposées avec cette nouvelle approche donne une réduction totale du temps de 62,4% pour une perte de BD-Rate de 1,23% comparativement au HM.
Type de document: | Mémoire ou thèse (Thèse de doctorat électronique) |
---|---|
Renseignements supplémentaires: | "Thesis presented to École de technologie supérieure in partial fulfillment for the degree of doctor of philosophy". Comprend des références bibliographiques (pages 115-121). |
Mots-clés libres: | H.265, HEVC, compression vidéo, codage intra, décision de mode, AVC, décision de la taille des CUs, réduction de complexité |
Directeur de mémoire/thèse: | Directeur de mémoire/thèse Coulombe, Stéphane |
Programme: | Doctorat en génie > Génie |
Date de dépôt: | 13 janv. 2021 16:31 |
Dernière modification: | 13 janv. 2021 16:31 |
URI: | https://espace.etsmtl.ca/id/eprint/2081 |
Gestion Actions (Identification requise)
Dernière vérification avant le dépôt |