Applications of deep learning in visual recognition

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Saadati, Mirmohammad (2023). Applications of deep learning in visual recognition. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.

Prévisualisation

PDF
Télécharger (5MB) | Prévisualisation

Résumé

Animal welfare research has raised concerns regarding the intensification of farm animal housing systems that offer limited opportunity for movement. However, no currently available automated tracking software is able to efficiently and accurately track dairy cow movement across stall-based housing systems. Applying deep learning models to location tracking provides an opportunity for accurate and timely measurement of cow movement within the housing environment. The objective of this study was to develop and validate a location tracking tool to monitor the movement of dairy cows in their tie-stalls using a deep learning approach. Twenty-four lactating Holstein cows were video recorded for a continuous 24-h period on weeks 1, 2, 3, 6, 8, and 10. Individual images showing the in-stall position of each cow were extracted from each 24-h recording at a rate of one image per minute. Three coordinates on each cow were manually annotated on the image sequences to track the location of the left hip, the right hip, and the neck. The final dataset used to validate the deep learning approach consisted of 199,100 Red-Green-Blue images with manual coordinate annotations. The dataset was separated into training and validation sets. Variants of the following deep learning models were tested: VGG Net, Resnet, GoogLeNet, and DenseNet. Model performance was expressed in terms of pixel error for each coordinate annotated from the validation image set. Pixel error was converted to a standard measure in cm using the average pix/cm ratio for each cow in each week. ResNet18 with augmented labels significantly outperformed all other models tested. For the validation image set, the average error from all 3 coordinates was equivalent to a 0.74 cm error in actual physical placement of the coordinates within the stall environment. Based on this high degree of accuracy, the model may be used to analyze the activity patterns of individual cows for optimization of stall spaces and improved ease of movement.

Synthetic Aperture Radar (SAR) imagery captures the physical properties of the Earth by transmitting microwave signals to its surface and analyzing the backscattered signal. It does not depends on sunlight and therefore can be obtained in any condition, such as nighttime and cloudy weather. However, SAR images are noisier than light images and so far it is not clear the level of performance that a modern recognition system could achieve. This work presents an analysis of the performance of deep learning models for the task of land segmentation using SAR images. We present segmentation results on the task of classifying four different land categories (urban, water, vegetation and farm) on six Canadian sites (Montreal, Ottawa, Quebec, Saskatoon, Toronto and Vancouver), with three state-of-the-art deep learning segmentation models. Results show that when enough data and variety on the land appearance are available, deep learning models can achieve an excellent performance despite the high input noise.

Titre traduit

Applications de l’apprentissage en profondeur dans la reconnaissance visuelle

Résumé traduit

La recherche sur le bien-être animal a soulevé des inquiétudes concernant l’intensification du logement des animaux de ferme des systèmes qui offrent des possibilités de mouvement limitées. Cependant, aucun système automatisé actuellement disponible le logiciel de suivi est capable de suivre efficacement et avec précision les mouvements des vaches laitières dans les stalles les systèmes de logement. L’application de modèles d’apprentissage en profondeur au suivi de localisation offre une opportunité pour une mesure précise et opportune du mouvement des vaches dans l’environnement du logement. La L’objectif de cette étude était de développer et de valider un outil de géolocalisation pour surveiller la mouvement des vaches laitières dans leurs stabulations entravées à l’aide d’une approche d’apprentissage en profondeur. Vingt-quatre en lactation Les vaches Holstein ont été enregistrées sur vidéo pendant une période continue de 24 heures les semaines 1, 2, 3, 6, 8 et 10. Des images individuelles montrant la position en stalle de chaque vache ont été extraites de chaque 24-h enregistrement à raison d’une image par minute. Trois coordonnées sur chaque vache ont été manuellement annoté sur les séquences d’images pour suivre l’emplacement de la hanche gauche, de la hanche droite et du cou. L’ensemble de données final utilisé pour valider l’approche d’apprentissage en profondeur consistait en 199 100 Images rouge-vert-bleu avec annotations manuelles des coordonnées. Le jeu de données a été séparé en ensembles de formation et de validation. Des variantes des modèles d’apprentissage en profondeur suivants ont été testées : VGG Net, Resnet, GoogLeNet et DenseNet. Les performances du modèle ont été exprimées en termes de pixels erreur pour chaque coordonnée annotée à partir de l’ensemble d’images de validation. L’erreur de pixel a été convertie en mesure standard en cm en utilisant le rapport pix/cm moyen pour chaque vache chaque semaine. ResNet18 avec des étiquettes augmentées ont nettement surpassé tous les autres modèles testés. Pour la validation ensemble d’images, l’erreur moyenne des 3 coordonnées équivalait à une erreur de 0,74 cm dans la valeur réelle placement physique des coordonnées dans l’environnement de décrochage. Sur la base de ce haut degré de précision, le modèle peut être utilisé pour analyser les modèles d’activité de vaches individuelles pour optimisation des espaces de stalle et amélioration de la facilité de circulation.

L’imagerie radar à synthèse d’ouverture (SAR) capture les propriétés physiques de la Terre en transmettre des signaux micro-ondes à sa surface et analyser le signal rétrodiffusé. Cela fait ne dépend pas de la lumière du soleil et peut donc être obtenu dans n’importe quelle condition, comme la nuit et temps nuageux. Cependant, les images SAR sont plus bruyantes que les images lumineuses et jusqu’à présent, il n’est pas clair que niveau de performance qu’un système de reconnaissance moderne pourrait atteindre. Ce travail présente une analyse des performances des modèles d’apprentissage en profondeur pour la tâche de segmentation des terres à l’aide de SAR images. Nous présentons des résultats de segmentation sur la tâche de classer quatre catégories de terres différentes (urbain, eau, végétation et ferme) sur six sites canadiens (Montréal, Ottawa, Québec, Saskatoon, Toronto et Vancouver), avec trois modèles de segmentation d’apprentissage en profondeur à la fine pointe de la technologie. Résultats montrent que lorsque suffisamment de données et de variété sur l’apparence du terrain sont disponibles, l’apprentissage en profondeur Les modèles peuvent atteindre d’excellentes performances malgré le bruit d’entrée élevé.

Type de document:	Mémoire ou thèse (Mémoire de maîtrise électronique)
Renseignements supplémentaires:	"Thesis presented to École de technologie supérieure in partial fulfillment for a master’s degree with thesis in information technology engineering". Comprend des références bibliographiques (pages 65-72).
Mots-clés libres:	automatisation, vache laitière, pistage, comportement animal, imagerie RSO RADARSAT-2, réseau de neurones à convolution profonde, classification de l’occupation du sol, segmentation sémantique
Directeur de mémoire/thèse:	Directeur de mémoire/thèse Cardinal, Patrick
Codirecteur:	Codirecteur Pedersoli, Marco Vasseur, Elsa
Programme:	Maîtrise en ingénierie > Génie des technologies de l'information
Date de dépôt:	08 mai 2023 13:44
Dernière modification:	08 mai 2023 13:44
URI:	https://espace.etsmtl.ca/id/eprint/3218

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt