Doublage visuel des vidéos monoculaires

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Zouaghi, Houssem (2021). Doublage visuel des vidéos monoculaires. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.

Prévisualisation

PDF
Télécharger (10MB) | Prévisualisation

Résumé

Le doublage audio est une technique de reproduction des dialogues des acteurs dans une langue différente de la langue originale. Malgré le succès de cette technique, elle nécessite un travail immense pour trouver les meilleurs mots et phrases qui synchronisent les phonèmes doubles avec les visèmes de l’acteur. Pour remédier à cette limite, plusieurs chercheurs ont travaillé sur le doublage visuel des vidéos. Cette méthode consiste à la modification des visages des acteurs afin de synchroniser les expressions avec la voix doublée. Cependant, les méthodes existantes ont des exigences qui limitent leur utilisation dans notre contexte. Par exemple, la nécessité de la présence de l’acteur pour la numérisation de son visage, la disponibilité de longues vidéos avec différentes expressions ou l’utilisation d’équipements complexes et coûteux.

Dans ce mémoire, l’objectif principal consiste à réaliser un doublage visuel de courtes vidéos publicitaires. Pour ce faire, nous proposons deux méthodes de doublage visuel des vidéos monoculaires. La première approche est principalement basée sur des visages 3D. Dans cette approche, nous reconstruisons les visages 3D de l’acteur et du doubleur. Ensuite, à l’aide d’un modèle de visage bilinéaire, nous extrayons les poids d’identité de la séquence reconstruite de l’acteur et les poids des expressions de la séquence reconstruite du doubleur. Puis, en utilisant de ces deux poids, nous recréons l’animation 3D du visage de l’acteur double. La seconde approche est basée sur l’apprentissage machine avec des images 2D. Nous utilisons un modèle d’apprentissage automatique pour extraire l’identité du visage de l’acteur et la transférer ensuite sur le visage du doubleur. Ensuite, nous fusionnons le résultat du doublage avec les images de la séquence originale.

Les deux approches ont été testées sur une variété d’acteurs et de doubleurs récitant différentes paroles. Les résultats des deux approches sont encourageants et démontrent des progrès pour le doublage visuel automatique avec le minimum d’équipement sur les vidéos monoculaires RVB pré-enregistrées.

Titre traduit

Visual dubbing of monocular videos

Résumé traduit

Audio dubbing is a technique for reproducing actors’ dialogue in a language different from the original language. Despite this technique’s success, it requires immense work to find the best words and phrases that synchronize the dubbed phonemes with the actor’s visemes. To overcome this limitation, several researchers have worked on the visual dubbing of videos. This method consists of modifying the actor’s face to synchronize the expressions with the dubbed voice. However, existing methods have requirements that limit their use in our context. For example, the necessity of the actor’s presence to digitize his face, the availability of long videos with different expressions, or the use of complex and expensive equipment.

In this thesis, the primary purpose is to perform visual dubbing of short advertising videos. To do so, we propose two methods of visual dubbing of monocular videos. The first approach is mainly based on 3D faces. In this approach, we reconstruct the 3D faces of the actor and the dubber. Using a bilinear face model, we extract the identity weights of the actor’s reconstructed sequence and the expression weights of the dubber’s reconstructed sequence. Then, using these two weights, we recreate the 3D animation of the dubbed actor’s face. The second approach is based on machine learning with 2D images. We use a machine learning model to extract the actor’s identity and then transfer it to the dubber’s face. Then, we merge the result of the dubbing with the images of the original sequence.

Both approaches have been tested on a variety of actors and dubbers reciting different speeches. The results are encouraging and demonstrate progress in automatic visual dubbing with minimal equipment on pre-recorded RGB monocular videos.

Type de document:	Mémoire ou thèse (Mémoire de maîtrise électronique)
Renseignements supplémentaires:	"Mémoire présenté a l’École de technologie supérieure comme exigence partielle a l’obtention de la maîtrise avec mémoire en génie des technologies de l’information". Comprend des références bibliographiques (pages 95-102).
Mots-clés libres:	infographie, doublage visuel, animation 3D, reconstruction faciale, modèle bilinéaire
Directeur de mémoire/thèse:	Directeur de mémoire/thèse Paquette, Eric
Programme:	Maîtrise en ingénierie > Génie des technologies de l'information
Date de dépôt:	03 nov. 2021 15:29
Dernière modification:	03 nov. 2021 15:29
URI:	https://espace.etsmtl.ca/id/eprint/2768

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt