Ho, Manh Tai (2023). L’approche d’apprentissage automatique pour l’optimisation de la robotique en essaim dans l’entrepôt automatisé servi par la communication 5G. Thèse de doctorat électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (2MB) | Prévisualisation |
Résumé
Le réseau sans fil de cinquième génération (5G) fournit des connexions à haut débit, à très faible latence et à haute fiabilité qui peuvent répondre aux exigences de l’Internet industriel des objets (IIoT) dans l’automatisation industrielle, en particulier pour le contrôle robotique. Dans l’entreposage intelligent, la robotique joue un rôle indispensable dans la réalisation de solutions logistiques intelligentes qui comprennent l’organisation, la planification, le contrôle et l’exécution intelligente du flux de marchandises/articles dans l’entrepôt. Les progrès récents des communications sans fil et des technologies de batterie permettent de remplacer de plusieurs travailleurs humains par des systèmes robotiques afin de réduire les coûts de maind’œuvre, d’améliorer l’efficacité du travail en entrepôt et d’augmenter la fiabilité. Cependant, le déploiement de la robotique en essaim impose de nouveaux défis en termes de contrôle pour coordonner de nombreux types de ressources dans l’entrepôt afin de livrer les de services 5G pour la robotique et de planifier des tâches pour les robots.
En particulier, gestion efficace des ressources sans fil dans un réseau 5G hautement dynamique comme dans un entrepôt automatisé est un problème hautement difficile car l’extrême fiabilité et la faible latence avec une grande mobilité des robots ne sont pas résolvables efficacement par l’approche d’optimisation traditionnelle.
À cette fin, dans cette thèse, nous abordons conjointement les deux défis principaux d’un entrepôt automatisé : i)le provisionnement des services 5G et ii) le contrôle de la robotique en essaim. Les contributions principales de cette thèse sont les suivantes :
1. Tout d’abord, nous formulons le problème de provisionnement de services 5G pour servir la robotique en essaim dans l’entrepôt automatisé comme un clustering des multi-point coordonnés (CoMP) conjoints variables dans le temps et une formation de faisceaux de communication ultra-fiable à faible latence (URLLC) 5G. Les approches d’optimisation itératives traditionnelles ne sont pas efficaces pour résoudre ce problème non-convexe en temps réel à cause de leur temps de calcul élevé. Nous proposons ainsi un algorithme de clustering CoMP en utilisant la théorie des jeux combinée à la méthode d’apprentissage automatique Proximal Policy Optimization pour obtenir une solution stationnaire approximative à la solution optimale globale.
2. Deuxièmement, nous étudions le problème du contrôle des systèmes robotiques hétérogènes autonomes en essaim. Nous formulons un problème d’optimisation de contrôle de file d’attente non convexe à long terme pour minimiser la longueur de la file d’attente des tâches à traiter dans l’entrepôt. Les solutions traditionnelles basées sur des approches d’optimisation sont inefficaces pour gérer la nature stochastique du flux de marchandises/tâches et un grand nombre de robots dans le système. Ainsi, nous proposons un algorithme de planification de tâches basé sur l’apprentissage par renforcement profond (DRL) qui utilise la méthode d’optimisation de politique proximale (PPO) pour trouver une politique de planification de tâches optimale. En raison de l’hétérogénéité du système, nous proposons un algorithme basé sur l’apprentissage fédéré pondéré proximal pour implémenter l’algorithme PPO décentralisé qui améliore la performance des agents PPO distribués qui sont déployés dans les différents entrepôts géographiquement distribués. Les résultats de notre démontrent l’efficacité de notre algorithme proposé par rapport aux méthodes existantes.
3. Enfin, nous proposons un modèle pour provisionner des services 5G et controller simultanéement la robotique en essaim dans un entrepôt automatisé. Nous visons à maximiser l’efficacité énergétique à long terme tout en respectant la contrainte de consommation d’énergie des robots et les exigences de communication ultra-fiable et à faible latence (URLLC) entre le contrôleur central et la robotique en essaim. Ce modèle d’optimisation est non-convexe puisque le taux réalisable et la probabilité d’erreur de décodage avec une courte longueur de bloc ne sont ni convexes ni concaves. Nous proposons une approche basée sur l’apprentissage par renforcement profond qui utilise la méthode du gradient de politique déterministe profond (DDPG) et le réseau neuronal convolutif (CNN) pour obtenir une politique de contrôle stationnaire optimale qui consiste en un certain nombre d’actions continues et discrètes. Les résultats expérimentaux montrent que notre algorithme DDPG multi-agent proposé surpasse les solutions existantes dans l’état de l’art en termes de probabilité d’erreur et d’efficacité énergétique.
Titre traduit
A machine learning approach for optimizing swarm robotics in 5G-enabled automated warehouses
Résumé traduit
The fifth generation wireless network (5G) provides high-speed, low-latency and high-reliability connections that can meet the requirements of the Industrial Internet of Things (IIoT) in industrial automation, especially for robotic control. In intelligent storage, robotics play an essential role in achieving intelligent logistics solutions that include organization, planning, control and intelligent execution of goods/items flow in the warehouse. Recent advance in wireless communications and battery technologies make it possible to replace many human workers with robotic systems in order to reduce labor costs, improve warehouse work efficiency, and increase reliability. However, the deployment of swarm robotics poses new challenges in terms of control in order to coordinate many types of resources in the warehouse to deliver 5G services for robotics and plan tasks for robots.
In particular, efficient wireless resource management in a highly dynamic 5G network like in an automated warehouse is a challenging problem because extreme reliability and low latency with high mobility of robots are not efficiently solvable by traditional optimization approach.
To this end, in this thesis, we tackle the two main challenges of an automated warehouse simultaneously : i) provisioning 5G services and ii) controlling swarm robotics. The main contributions of this thesis are as follows :
1. Firstly, we formulate the problem of provisioning 5G services to serve swarm robotics in the automated warehouse as a joint clustering of coordinated multi-points (CoMP) and ultra-reliable low-latency communication (URLLC) 5G beamforming. Traditional iterative optimization approaches are not efficient in solving this non-convex real-time problem due to their high computational time. We thus propose a CoMP clustering algorithm using the combination of game theory and deep reinforcement learning Proximal Policy Optimization (PPO )method to obtain an approximate stationary solution to the global optimal solution.
2. Secondly, we study the problem of controlling autonomous heterogeneous robotic systems in the automated warehouse. We formulate a non-convex long-term queue control optimization problem to minimize the task queue length in the warehouse. Traditional solutions based on optimization approaches are not effective in managing the stochastic nature of the goods/tasks flow and a large number of robots in the system. Therefore, we propose a task scheduling algorithm based on the PPO method to find an optimal task planning policy. Due to the system’s heterogeneity, we propose a federated proximal weighted learning algorithm to implement the decentralized PPO algorithm which improves the performance of distributed PPO agents deployed in different geographically distributed warehouses. Our simulation results demonstrate the effectiveness of our proposed algorithm compared to existing methods.
3. Finally, we propose a model for provisioning 5G services and controlling swarm robotics simultaneously in an automated warehouse. We aim to maximize long-term energy efficiency while meeting the energy consumption constraint of robots and the ultra-reliable low-latency communication (URLLC) requirements between the central controller and the swarm robotics. This optimization model is non-convex since the achievable rate and decoding error probability with short block length are neither convex nor concave. We propose a deep reinforcement learning approach that uses the Deep Deterministic Policy Gradient (DDPG) method and the Convolutional Neural Network (CNN) to obtain an optimal stationary control policy which consists of a number of continuous and discrete actions. The experimental results show that our proposed multi-agent DDPG algorithm outperforms existing solutions in the state-of-the-art in terms of error probability and energy efficiency.
Type de document: | Mémoire ou thèse (Thèse de doctorat électronique) |
---|---|
Renseignements supplémentaires: | "Thèse par articles présentée à l’École de technologie supérieure comme exigence partielle à l’obtention du doctorat en génie". Comprend des références bibliographiques (pages 155–166). |
Mots-clés libres: | provisionnement de services 5G, contrôle robotique, robotique en essaim, théorie de l’optimisation, apprentissage par renforcement profond, apprentissage fédéré |
Directeur de mémoire/thèse: | Directeur de mémoire/thèse Cheriet, Mohamed |
Codirecteur: | Codirecteur Nguyen, Kim Khoa |
Programme: | Doctorat en génie > Génie |
Date de dépôt: | 18 oct. 2023 14:27 |
Dernière modification: | 18 oct. 2023 14:27 |
URI: | https://espace.etsmtl.ca/id/eprint/3295 |
Gestion Actions (Identification requise)
Dernière vérification avant le dépôt |