Estimation du champ dense de mouvement pour la génération semi-automatique de cartes de profondeur

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Rocheleau, Étienne (2017). Estimation du champ dense de mouvement pour la génération semi-automatique de cartes de profondeur. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.

Prévisualisation	PDF Télécharger (1MB) \| Prévisualisation
Prévisualisation	PDF Télécharger (490kB) \| Prévisualisation

Résumé

Avec la recrudescence de la popularité du cinéma 3D, la demande pour la production de contenu de projection 3D est en croissance. Les options actuelles pour générer du contenu sont souvent très coûteuses, car elles requièrent de l’équipement spécialisé pour filmer directement en 3D ou un effort considérable pour convertir du contenu originellement en 2D en ajoutant la profondeur estimée aux images originelles. Le but de cette recherche est de trouver une technique semi-automatique qui permet de sauver beaucoup de temps à ajouter la profondeur sur des images 2D. Pour y arriver la recherche tente de parvenir, à partir de seulement quelques annotations sur une image clé dans une séquence, à propager l’estimation initiale de profondeur rapidement sur toute l’image annotée puis dans un deuxième temps sur toutes les images qui seraient assez similaires dans une séquence vidéo. Le projet vise à développer une method pour atteindre ce but tout en conservant un temps de traitement assez court et en obtenant des résultats permettant de générer du contenu 3D visuellement plaisant à regarder.

La recherche utilise le principe du Random-walker pour permettre la propagation de l’information dans une image, à partir de seulement quelques annotations, en traitant le problème comme un problème de segmentation. En appliquant une technique itérative, cela permet de séparer le processus d'estimation de la profondeur à partir des annotations de celui de la propagation de cette estimation sur les autres images de la séquence. La technique considère les images comme des graphes dont les noeuds sont les pixels et les arêtes ont un poids calculé selon la similarité entre les pixels reliés. Les résultats obtenus avec cette méthode montrent que la première partie de la méthode, soit l’estimation de la profondeur à partir des annotations d’un utilisateur, donne de bons résultats en ne nécessitant qu’un petit nombre d’annotations. Cependant, la propagation de l’information à travers la séquence d’images nécessiterait des améliorations. Plusieurs problèmes ont été rencontrés comme la presence d’occlusions, la propagation d’erreurs dans la séquence et les potentiels changements d’illuminations.

C’est suite à ces problèmes qu’une recherche a aussi été effectuée pour trouver une technique d’estimation de mouvement qui correspondrait bien aux besoins de la méthode originale. Cette recherche a abouti à une method automatique d’estimation du mouvement dense, c’est-à-dire de trouver le mouvement pour tous les pixels de l’image. La méthode proposée se sert de la similarité calculée des pixels voisins dans la même image et aussi de la similarité avec les pixels de l’image suivante inclus dans un noyau de recherche. La similarité entre les pixels est calculée selon plusieurs caractéristiques d’un pixel incluant les composantes Lab du pixel même et d’un nombre de ses voisins ainsi que des gradients voisins. Les résultats obtenus sont comparés à d’autres méthodes suivant deux mesures d’erreurs comptabilisées par Middlebury. La comparaison montre que la méthode obtient de bons résultats sur les images proposes pour tester, mais la visualisation des résultats selon une coloration représentant le movement permet de mettre en lumière certaines erreurs produites par la méthode. La performance de la méthode a par la suite été améliorée en utilisant les correspondances SIFT trouvées préalablement. La vitesse de calcul a aussi été améliorée en regroupant les pixels similaires de l’image en superpixels ce qui permet de réduire le nombre de comparaisons à effectuer.

Finalement, les effet de la variation des paramètres de contrôle de la méthode sur les résultats obtenus sont décrits en détail et la comparaison entre les résultats obtenus avec ou sans SIFT et en utilisant les superpixels ou pas sont expliqués en présentant les images résultantes. Les principaux problèmes de la méthode sont expliqués et certaines améliorations sont proposes pour les surmonter, mais elles n’ont pas été implémentées.

Titre traduit

Dense motion estimation for semi-automatic depth map generation

Résumé traduit

With the rise in popularity of 3D entertainment, demand for 3D content is growing. Current options to generate 3D content are often really pricey because they either require very advanced equipment to film in 3D or a considerable amount of time to convert 2D content to 3D content by adding information about the depth to the image. The goal of this research is to find a semi-automatic technique to convert 2D content to 3D content that is faster and that generates satisfactory results to use the depth to convert to 3D. To attain this goal, a technique was developed to allow the user to only annotate quickly part of a key frame in a video sequence and then propagate this information to estimate the depth of all pixels in the first image and then through the similar images in the video sequence. Effectively allowing the user to only annotate a few images in a video to convert the whole video to 3D.

The technique uses primarly the Random Walker method to propagate the information from the annotations to the entire image. This phase can be compared to a multi-class graph segmentation problem. Then by developing an iterative method, we can separate the second phase which consists of the propagation of the information of depth that was computed on the first image to the rest of the images in the sequence. The proposed approach considers the image as a graph where the nodes corresponds to the pixels and the edges have a computed weight that corresponds to the similarity of the pixels that are linked. Results obtained with this method show that it performs well on a single image with only a small number of annotations from the user. However, the propagation of the information to other images faces multiple issues. For example, problems can come from the occlusions in an image, the errors are also propagated at the same time as the information in the image and finally there can be problems with variations in illumination in the image.

Following these problems, the research was oriented towards finding a good method to compute the motion between two images to find the exact stereo-correspondence by motion estimation. The results of this research was an automatic dense motion estimation method, which means finding the displacement of each pixels between two images. The proposed approach uses the similarity between neighboring pixels in the same image and the similarity between pixels included in a research kernel in the following image in the sequence to determine the most likely motion for the current pixel. Found motions are kept as a probability and pixels are influenced by other neighboring similar pixels to "agree" on a shared motion. Similarity between pixels is computed using each components of the Lab color space of the current pixels and also a small number of neighboring pixels and the neighboring gradients. Results obtained with the method are compared against a published dataset from Middleburry that regroups motion estimation methods. Test images are determined and two measures of success are defined to compare methods. The comparison with other methods achieves good results on the test images but the visual results shows some small regions containing errors. The performance of the method was further improved by considering SIFT stereo-correspondence, matching results and the speed of the method was improved by regrouping similar pixels under a region called a superpixel. Only a small number of pixels in this superpixel are considered to reduce the total number of computations.

Finally the different effects of the control parameters of the method are explained in another section. And the difference in results with and without SIFT, or with or without the superpixels are also explained. The main problems of the proposed method are explained and some solutions are proposed even if they were not implemented.

Type de document:	Mémoire ou thèse (Mémoire de maîtrise électronique)
Renseignements supplémentaires:	"Mémoire présenté à l'École de technologie supérieure comme exigence partielle à l'obtention de la maîtrise en génie logiciel". Bibliographie : pages 97-100.
Mots-clés libres:	Traitement d'images Techniques numériques. Profondeur (Dimensions) Mouvement. Segmentation d'image. Marches aléatoires (Mathématiques) Imagerie tridimensionnelle. Films en 3D. 2D, carte, estimation, image, estimation de profondeur, estimation de mouvement, Random-Walker, méthode semi-automatique, superpixels, SIFT
Directeur de mémoire/thèse:	Directeur de mémoire/thèse Desrosiers, Christian
Codirecteur:	Codirecteur Vázquez, Carlos
Programme:	Maîtrise en ingénierie > Génie
Date de dépôt:	24 nov. 2017 21:52
Dernière modification:	16 janv. 2018 18:33
URI:	https://espace.etsmtl.ca/id/eprint/1969

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt