En 2007, j'ai fait partie d'un groupe d'étudiants en master chargés de classer le sol (par opposition aux bâtiments, voitures, arbres, etc.) dans une photographie.
Le projet était axé sur le traitement et la compréhension des images, où la tâche consistait à tenter d'extrapoler des parties de photographies panoramiques à 360°. Par exemple, nous prenions la photo ci-dessous (prise avec un véhicule personnalisé) et essayions de découvrir la couverture du sol (c'est-à-dire la route, le trottoir, etc.) sur la photo.
Si nous extrapolons à la main le plan du sol de l'image précédente, nous nous accorderons probablement sur une image ressemblant à celle-ci :
Nous pouvons alors considérer ceci comme la vérité de base.
L'application développée par notre groupe de recherche, Ground Plane Classification (GPC), utilise une taxonomie en six étapes (proposée par M. Egmont-Petersen et al., 2002) comprenant : le prétraitement, la réduction des données, la segmentation, la détection d'objets et la compréhension de l'image (et l'optimisation tout au long du processus). La classification a lieu dans la phase de compréhension de l'image, qui fait appel à un réseau neuronal artificiel Feed Forward spécialement formé à l'aide d'un ensemble d'entraînement de photographies panoramiques.
Nos résultats donnent généralement une marge d'erreur d'environ 3 à 4 %. L'image classée automatiquement ci-dessous présente un taux d'erreur de seulement 1,1%.
À l'origine, nous avions prévu de prendre en compte les coordonnées GPS, mais cela n'a finalement pas fonctionné car (a) elles ne sont pas assez précises et (b) nous ne disposons pas d'une carte qui ressemble aux structures dans le détail souhaité.
N'hésitez pas à en savoir plus ¡!