Golaghazadeh, Firouzeh (2019). Enhanced quality reconstruction of erroneous video streams using packet filtering based on non-desynchronizing bits and UDP checksum-filtered list decoding. Thèse de doctorat électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (2MB) | Prévisualisation |
Prévisualisation |
PDF
Télécharger (1MB) | Prévisualisation |
Résumé
The latest video coding standards, such as H.264 and H.265, are extremely vulnerable in error-prone networks. Due to their sophisticated spatial and temporal prediction tools, the effect of an error is not limited to the erroneous area but it can easily propagate spatially to the neighboring blocks and temporally to the following frames. Thus, reconstructed video packets at the decoder side may exhibit significant visual quality degradation. Error concealment and error corrections are two mechanisms that have been developed to improve the quality of reconstructed frames in the presence of errors.
In most existing error concealment approaches, the corrupted packets are ignored and only the correctly received information of the surrounding areas (spatially and/or temporally) is used to recover the erroneous area. This is due to the fact that there is no perfect error detection mechanism to identify correctly received blocks within a corrupted packet, and moreover because of the desynchronization problem caused by the transmission errors on the variable-length code (VLC). But, as many studies have shown, the corrupted packets may contain valuable information that can be used to reconstruct adequately of the lost area (e.g. when the error is located at the end of a slice).
On the other hand, error correction approaches, such as list decoding, exploit the corrupted packets to generate several candidate transmitted packets from the corrupted received packet. They then select, among these candidates, the one with the highest likelihood of being the transmitted packet based on the available soft information (e.g. log-likelihood ratio (LLR) of each bit). However, list decoding approaches suffer from a large solution space of candidate transmitted packets. This is worsened when the soft information is not available at the application layer; a more realistic scenario in practice. Indeed, since it is unknown which bits have higher probabilities of having been modified during transmission, the candidate received packets cannot be ranked by likelihood.
In this thesis, we propose various strategies to improve the quality of reconstructed packets which have been lightly damaged during transmission (e.g. at most a single error per packet). We first propose a simple but efficient mechanism to filter damaged packets in order to retain those likely to lead to a very good reconstruction and discard the others. This method can be used as a complement to most existing concealment approaches to enhance their performance. The method is based on the novel concept of non-desynchronizing bits (NDBs) defined, in the context of an H.264 context-adaptive variable-length coding (CAVLC) coded sequence, as a bit whose inversion does not cause desynchronization at the bitstream level nor changes the number of decoded macroblocks. We establish that, on typical coded bitstreams, the NDBs constitute about a one-third (about 30%) of a bitstream, and that the effect on visual quality of flipping one of them in a packet is mostly insignificant. In most cases (90%), the quality of the reconstructed packet when modifying an individual NDB is almost the same as the intact one. We thus demonstrate that keeping, under certain conditions, a corrupted packet as a candidate for the lost area can provide better visual quality compared to the concealment approaches. We finally propose a non-desync-based decoding framework, which retains a corrupted packet, under the condition of not causing desynchronization and not altering the number of expected macroblocks. The framework can be combined with most current concealment approaches. The proposed approach is compared to the frame copy (FC) concealment of Joint Model (JM) software (JM-FC) and a state-of-the-art concealment approach using the spatiotemporal boundary matching algorithm (STBMA) mechanism, in the case of one bit in error, and on average, respectively, provides 3.5 dB and 1.42 dB gain over them.
We then propose a novel list decoding approach called checksum-filtered list decoding (CFLD) which can correct a packet at the bit stream level by exploiting the receiver side user datagram protocol (UDP) checksum value. The proposed approach is able to identify the possible locations of errors by analyzing the pattern of the calculated UDP checksum on the corrupted packet. This makes it possible to considerably reduce the number of candidate transmitted packets in comparison to conventional list decoding approaches, especially when no soft information is available. When a packet composed of N bits contains a single bit in error, instead of considering N candidate packets, as is the case in conventional list decoding approaches, the proposed approach considers approximately N/32 candidate packets, leading to a 97% reduction in the number of candidates. This reduction can increase to 99.6% in the case of a two-bit error. The method’s performance is evaluated using H.264 and high efficiency video coding (HEVC) test model software. We show that, in the case H.264 coded sequence, on average, the CFLD approach is able to correct the packet 66% of the time. It also offers a 2.74 dB gain over JM-FC and 1.14 dB and 1.42 dB gains over STBMA and hard output maximum likelihood decoding (HO-MLD), respectively. Additionally, in the case of HEVC, the CFLD approach corrects the corrupted packet 91% of the time, and offers 2.35 dB and 4.97 dB gains over our implementation of FC concealment in HEVC test model software (HM-FC) in class B (1920×1080) and C (832×480) sequences, respectively.
Titre traduit
Qualité améliorée de la reconstruction des flux vidéos avec erreurs à l’aide d’un filtrage de paquets basé sur des bits non désynchronisants et une approche de décodage en liste filtrée par la somme de contrôle au niveau UDP
Résumé traduit
Les dernières normes de codage vidéo, telles que H.264 et H.265, sont extrêmement vulnérables dans les réseaux sujets aux erreurs. En raison de leurs outils sophistiqués de prédiction spatiale et temporelle, l’effet d’une erreur ne se limite pas à la zone erronée, mais il peut facilement se propager spatialement aux blocs voisins et temporellement aux images suivantes. Ainsi, les paquets vidéos reconstruits au décodeur peuvent présenter une dégradation significative de la qualité visuelle. La dissimulation d’erreurs et les corrections d’erreurs sont deux mécanismes qui ont été développés pour améliorer la qualité des trames reconstruites en présence d’erreurs.
Dans la plupart des approches existantes de dissimulation d’erreurs, les paquets corrompus sont ignorés et seules les informations correctement reçues des zones environnantes (dans l’espace et/ou dans le temps) sont utilisées pour récupérer la zone erronée. Cela est dû au fait qu’il n’existe aucun mécanisme de détection d’erreur parfait pour identifier correctement les blocs reçus dans un paquet corrompu, et aussi au problème de désynchronisation provoqué par les erreurs de transmission sur le code à longueur variable (VLC). Mais, comme de nombreuses études l’ont montré, les paquets corrompus peuvent contenir des informations précieuses pouvant être utilisées pour reconstruire correctement la zone perdue (par exemple, lorsque l’erreur est située à la fin d’une tranche).
D’autre part, les approches de correction d’erreur, telles que le décodage en liste, exploitent les paquets corrompus pour générer plusieurs paquets candidats transmis à partir du paquet reçu corrompu. Ils sélectionnent ensuite, parmi ces candidats, celui qui présente la probabilité la plus élevée d’être le paquet transmis sur la base des informations souples disponibles (par exemple, le rapport log-vraisemblance (LLR) de chaque bit). Cependant, les approches de décodage de liste souffrent d’un grand espace de solutions de paquets transmis candidats. Cela est aggravé lorsque les informations logicielles ne sont pas disponibles au niveau de la couche d’application; un scénario plus réaliste en pratique. En effet, comme on ignore quels bits ont des probabilités plus élevées d’avoir été modifiés au cours de la transmission, les paquets reçus candidats ne peuvent être classés par vraisemblance.
Dans cette thèse, nous proposons différentes stratégies pour améliorer la qualité des paquets reconstruits qui ont été légèrement endommagés lors de la transmission (par exemple au plus une erreur par paquet). Nous proposons d’abord un mécanisme simple mais efficace pour filtrer les paquets endommagés afin de conserver ceux qui sont susceptibles de conduire à une très bonne reconstruction et d’éliminer les autres. Cette méthode peut être utilisée en complément à la plupart des méthodes de dissimulation existantes pour améliorer leurs performances. La méthode est basée sur le nouveau concept de bits non désynchronisants (NDBs) définis dans le contexte d’une séquence compressée à l’aide de codes à longueur variable (CAVLC) en H.264, en tant que bit dont l’inversion ne provoque pas de désynchronisation au niveau du flux binaire ni ne modifie le nombre de macroblocs décodés. Nous établissons que, sur des trains de bits codés typiques, les NDBs constituent environ un tiers (environ 30%) d’un train de bits et que l’effet sur la qualité visuelle du renversement de l’un d’eux dans un paquet est généralement insignifiant. Dans la plupart des cas (90%), la qualité du paquet reconstruit lors de la modification d’un NDB individuel est presque identique à celle du paquet intact. Nous démontrons ainsi que conserver, sous certaines conditions, un paquet corrompu en tant que candidat pour la zone perdue peut fournir une meilleure qualité visuelle que les méthodes de dissimulation. Nous proposons enfin un cadre de décodage non désynchronisé, qui conserve un paquet corrompu, à condition de ne pas provoquer de désynchronisation et de ne pas modifier le nombre de macroblocs attendus. Le cadre peut être combiné avec la plupart des approches de dissimulation actuelles. L’approche proposée est comparée à la copie de trame (FC) du logiciel JM (Joint Model) (JM-FC) et à une approche de dissimulation de pointe utilisant le mécanisme de l’algorithme d’adaptation de limite spatiotemporelle (STBMA), dans le cas d’un bit d’erreur, et fournit en moyenne respectivement un gain de 3,5 dB et 1,42 dB.
Nous proposons ensuite une nouvelle approche de décodage en liste appelée CFLD (checksum-filtered list decoding)) qui permet de corriger un paquet au niveau du train de bits en exploitant la valeur de somme de contrôle du protocole de datagramme utilisateur (UDP) du destinataire. L’approche proposée permet d’identifier les emplacements possibles d’erreurs en analysant le modèle de la somme de contrôle UDP calculée sur le paquet corrompu. Cela permet de réduire considérablement le nombre de paquets candidats transmis par rapport aux approches classiques de décodage en liste, en particulier lorsqu’aucune information souple n’est disponible. Lorsqu’un paquet composé de N bits contient un seul bit erroné, au lieu de considérer les paquets candidats au nombre de N, comme c’est le cas dans les approches de décodage en liste conventionnelles, l’approche proposée prend en compte environ N/32 candidats, entraînant une réduction de 97% du nombre de candidats. Cette réduction peut atteindre 99,6% dans le cas de deux bits erronés. Les performances de la méthode sont évaluées à l’aide de H.264 et H.265. Nous montrons que, dans le cas d’une séquence codée H.264, en moyenne, l’approche CFLD est capable de corriger le paquet 66% du temps. Elle offre également un gain de 2,74 dB sur JM-FC et des gains de 1,14 dB et 1,42 dB sur STBMA et un décodage par vraisemblance maximale en sortie dure (HO-MLD), respectivement. De plus, dans le cas de HEVC, l’approche CFLD corrige le paquet corrompu 91% du temps et offre des gains de 2,35 dB et 4,97 dB sur notre mise en oeuvre de la dissimulation de FC dans le logiciel de modèle de test HEVC (HM-FC) pour les séquences des classes B (1920×1080) et C (832×480), respectivement.
Type de document: | Mémoire ou thèse (Thèse de doctorat électronique) |
---|---|
Renseignements supplémentaires: | "Thesis presented to École de technologie supérieure in partial fulfillment for the degree of doctor of philosophy". Comprend des références bibliographiques (pages 131-137). |
Mots-clés libres: | transmission vidéo, H.264, high efficiency video coding (HEVC), H.265, éléments de syntaxes, bit non désynchronisant (NDB), dissimulation d’erreurs, correction d’erreur vidéo, décodage en liste, somme de contrôle, protocole de datagramme utilisateur (UDP), checksum-filtered list decoding (CFLD) |
Directeur de mémoire/thèse: | Directeur de mémoire/thèse Coulombe, Stéphane |
Codirecteur: | Codirecteur Coudoux, François-Xavier Corlay, Patrick |
Programme: | Doctorat en génie > Génie |
Date de dépôt: | 11 sept. 2019 19:12 |
Dernière modification: | 11 sept. 2019 19:12 |
URI: | https://espace.etsmtl.ca/id/eprint/2359 |
Gestion Actions (Identification requise)
Dernière vérification avant le dépôt |