Source rate control in videoconferencing application using state–action–reward–state–action temporal difference reinforcement learning

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Rezagholizadeh, Ali (2022). Source rate control in videoconferencing application using state–action–reward–state–action temporal difference reinforcement learning. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.

Prévisualisation

PDF
Télécharger (3MB) | Prévisualisation

Résumé

The portion of IP video over the Internet has exceeded 80% and is still increasing. Therefore, it is crucial for video service providers to satisfy the video quality experienced by the end users. Moreover, the Internet has some features such as heterogeneous components and diverse traffic management algorithms that do not guarantee any quality of service. Thus, it is the application’s responsibility to control its flow such to meet the users’ expectations.

Several works proposed the sending rate adjustment algorithms from source rate control to control the packet size with the aim of providing good quality of service (QoS) or quality of experience (QoE). A few works are applied and evaluated in the context of real-time interactive multimedia transmission, i.e., for real-time communication. Such algorithms can be categorized as hand-crafted controlling rules and automatic control. The rule-based methods showed a lack of generalization to other types of networks motivating the study of automatic methods. Existing automatic control algorithms applied in real-time interactive multimedia applications, such as videoconferencing, are based on Reinforcement Learning (RL).

In this work, we propose a tabular RL method,i.e., on-policy State–Action–Reward–State–Action (SARSA) as a one-step Temporal Difference method, to control the source rate, while the other RL-based works on real-time communication apply function approximation (FA) as a way of learning the model. Although tabular RL approaches consume more memory space to store its parameters, the updating of parameters is not approximated like what is done in FA and this can lead to faster convergence to an optimum value. Moreover, the few existing RL methods in a real-time communication environment formulate reward using some objective QoS metrics which can only estimate the QoE that a user experiences. To the best of our knowledge, we represent the first tabular RL method as a rate adjustment control for real-time interactive multimedia transmission. We also propose a new perspective in formulating the rate control problem in RL. We use PSNR, a widely used full reference visual quality metric, to evaluate the video quality perceived by the user.

In this work, after suggesting a way to apply and evaluate a method in a general network environment, we propose a classical-queuing-model-based network simulator for our experiments. We apply and evaluate the proposed method in the videoconferencing context using an H.264 video codec over the simulated network environment. Our proposed method is evaluated and compared with Bounded Neural Network (BNN) over two configurations of the network simulator, i.e., with low and high available bitrate. The results show that SARSA outperforms BNN with significantly better PSNR, packet loss, and bitrate consumption.

Titre traduit

Contrôle de débit de source en visioconférence utilisant l’apprentissage par renforcement état-action-récompense-état-action à différence temporelle

Résumé traduit

La proportion de la vidéo IP sur Internet a dépassé 80% et continue d’augmenter. Par conséquent, il est crucial pour les fournisseurs de services vidéo de fournir une excellente qualité vidéo aux utilisateurs finaux. De plus, Internet présente certaines caractéristiques telles que des composants hétérogènes et divers algorithmes de gestion du trafic qui ne garantissent aucune qualité de service. Ainsi, il est de la responsabilité de l’application de contrôler son débit de manière à répondre aux attentes des utilisateurs.

Plusieurs travaux ont proposé des algorithmes d’ajustement du débit d’envoi à partir du contrôle du débit source pour contrôler la taille des paquets dans le but de fournir une bonne qualité de service (QoS) ou qualité d’expérience (QoE). Quelques travaux sont appliqués et évalués dans le cadre de la transmission multimédia interactive en temps réel, c’est-à-dire pour la communication en temps réel. Ces algorithmes peuvent être classés en règles de contrôle artisanales et en contrôle automatique. Les méthodes basées sur des règles ont montré un manque de généralisation à d’autres types de réseaux motivant l’étude des méthodes automatiques. Les algorithmes de contrôle automatique existants appliqués dans les applications multimédias interactives en temps réel, telles que la visioconférence, sont basés sur l’apprentissage par renforcement (RL).

Dans ce travail, nous proposons une méthode RL tabulaire, c’est-à-dire, sur la politique État-Action-Récompense-État-Action (SARSA) en tant que méthode de différence temporelle en une étape, pour contrôler le débit source, tandis que les autres méthodes basée sur RL fonctionnant pour la communication en temps réel basée sur UDP, appliquent l’approximation de fonction (FA) comme moyen d’apprentissage du modèle. Bien que les approches RL tabulaires consomment plus d’espace mémoire pour stocker leurs paramètres, la mise à jour des paramètres n’est pas approchée comme ce qui est fait dans FA et cela peut conduire à une convergence plus rapide vers une valeur optimale. De plus, les quelques méthodes RL existantes dans un environnement de communication en temps réel formulent des récompenses en utilisant des métriques de QoS objectives qui ne peuvent qu’estimer la QoE qu’un utilisateur expérimente. Au meilleur de nos connaissances, nous présentons la première méthode RL tabulaire pour l’ajustement de débit pour la transmission multimédia interactive en temps réel. Nous proposons également une nouvelle perspective dans la formulation du problème de contrôle de débit en RL. Nous utilisons le PSNR, une métrique de qualité visuelle avec référence largement utilisée, pour évaluer la qualité vidéo perçue par l’utilisateur.

Dans ce travail, après avoir suggéré une manière d’appliquer et d’évaluer notre méthode dans un environnement réseau générique, nous proposons un simulateur de réseau basé sur un modèle de file d’attente classique pour nos expériences. Nous appliquons et évaluons la méthode proposée dans le contexte de la visioconférence en utilisant un codec vidéo H.264 sur l’environnement réseau simulé. Notre méthode proposée est évaluée et comparée au réseau neuronal borné (BNN) sur deux configurations du simulateur de réseau, c’est-à-dire avec un débit binaire disponible faible et élevé. Les résultats montrent que SARSA surpasse BNN avec un PSNR, une perte de paquets et une consommation de débit significativement meilleurs.

Type de document:	Mémoire ou thèse (Mémoire de maîtrise électronique)
Renseignements supplémentaires:	"Thesis presented to École de technologie supérieure in partial fulfillment of a master’s degree with thesis in information technology engineering". Comprend des références bibliographiques (pages 83-89).
Mots-clés libres:	contrôle du débit source, codage adaptatif du débit, visioconférence, communication en temps réel, apprentissage par renforcement
Directeur de mémoire/thèse:	Directeur de mémoire/thèse Coulombe, Stéphane
Codirecteur:	Codirecteur Gagnon, Ghyslain
Programme:	Maîtrise en ingénierie > Génie des technologies de l'information
Date de dépôt:	21 juin 2022 17:26
Dernière modification:	21 juin 2022 17:26
URI:	https://espace.etsmtl.ca/id/eprint/3015

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt