La vitrine de diffusion des mémoires et thèses de l'ÉTS
RECHERCHER

Face modeling and editing with deep neural networks

Téléchargements

Téléchargements par mois depuis la dernière année

Plus de statistiques...

Aliari, Mohammad Amin (2023). Face modeling and editing with deep neural networks. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.

[thumbnail of ALIARI_Mohammadamin.pdf]
Prévisualisation
PDF
Télécharger (7MB) | Prévisualisation

Résumé

We propose an approach for interactive 3D face editing based on deep generative models. Most of the current face modeling methods rely on linear methods and cannot express complex and non-linear deformations. In contrast to 3D morphable face models based on Principal Component Analysis (PCA), we introduce a novel architecture based on variational autoencoders. Our architecture has multiple encoders (one for each part of the face, such as the nose and mouth) which feed a single decoder. As a result, each sub-vector of the latent vector represents one part. We train our model with a novel loss function that further disentangles the space based on different parts of the face. The output of the network is a whole 3D face. Hence, unlike part-based PCA methods, our model learns to merge the parts intrinsically and does not require an additional merging process. To achieve interactive face modeling, we optimize for the latent variables given vertex positional constraints provided by a user. To avoid unwanted global changes elsewhere on the face, we only optimize the subset of the latent vector that corresponds to the part of the face being modified. Our editing optimization converges in less than a second. Our results show that the proposed approach supports a broader range of editing constraints and generates more realistic 3D faces. Finally, we explore the idea of adding textures to the generated faces as it can complement our generative model and make it more useful.

Titre traduit

Modélisation et édition de visages avec réseaux de neurones profonds

Résumé traduit

Nous proposons une approche basée sur les réseaux génératifs profonds pour l’édition interactive de visages 3D. La plupart des méthodes actuelles pour l’édition de visages se basent sur des méthodes linéaires et ne peuvent pas exprimer de déformations complexes et non linéaires. Par opposition aux modèles 3D déformables basés sur l’analyse en composantes principales (ACP), nous proposons une nouvelle architecture basée sur les autoencodeurs variationnels. Notre architecture a plusieurs encodeurs (un par partie du visage, comme le nez et la bouche) qui sont reliés à un seul décodeur. En conséquence, chaque sous-vecteur du vecteur latent représente une partie du visage. Nous entraînons notre modèle avec une nouvelle fonction de coût, qui désintrique l’espace latent selon les différentes parties du visage. La sortie du réseau est un nouveau visage. Ainsi, contrairement aux méthodes par partie basées sur l’ACP, notre modèle apprend intrinsèquement à regrouper les parties et ne requiert pas de processus additionnel pour joindre les parties du visage. Pour permettre l’édition interactive du visage, nous optimisons les variables latentes selon des contraintes positionnelles sur des sommets, qui sont fournies par l’utilisateur. Pour éviter les changements globaux ailleurs sur le visage, nous optimisons seulement le sous-ensemble du vecteur latent qui correspond à la partie du visage qui est modifiée. Notre optimisation d’édition converge en moins d’une seconde. Nos résultats montrent que l’approche proposée supporte un large éventail de contraintes d’édition et génère des visages 3D plus réalistes. Finalement, nous explorons l’idée d’ajouter des textures aux visages générés puisque ceci complémente notre modèle génératif et le rend plus versatile.

Type de document: Mémoire ou thèse (Mémoire de maîtrise électronique)
Renseignements supplémentaires: "Thesis presented to École de technologie supérieure in partial fulfillment of a master’s degree with thesis in information technology engineering". Comprend des références bibliographiques (pages 49-52).
Mots-clés libres: infographie, modélisation de surface, maillages de polygones, réseaux de neurones profonds, synthèse de texture
Directeur de mémoire/thèse:
Directeur de mémoire/thèse
Paquette, Eric
Programme: Maîtrise en ingénierie > Génie des technologies de l'information
Date de dépôt: 27 oct. 2023 13:04
Dernière modification: 11 mars 2024 17:10
URI: https://espace.etsmtl.ca/id/eprint/3308

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt Dernière vérification avant le dépôt