La vision stéréo Sonka et al: sections 11.4.1, 11.4.4, 11.5.5, 11.5.6, 11.6.1 Suppl: 11.4 au complet vision numérique, dernière révision nov. 2008– P. Hébert
Modèle de base: la paire stéréo alignée Définitions: Point de fixation: intersection des axes optiques cas particulier: point de fixation à l'infini z zp xg xd la disparité (parallaxe) est au dénominateur (en fait, elle croît en s'éloignant du point de fixation donc en allant vers les caméras) F F x D
Le défi: la correspondance Quel point correspond avec quel point ? Deux écoles : . stéréo passive . utilisation d’éclairage structuré
Charles Wheatstone, 1838
Correspondance et reconstruction 3D Q Q' P' Ig Id pg qg pd qd *tirée de Forsyth En fait n*m points possible
La perception (Julesz 60-70) Les stéréogrammes (correspondance malgré l'absence de corrélation locale dans chacune des images prises séparément) *tirée de Nalwa
Défi correspondance: la difficulté est que les deux caméras ne couvrent pas exactement les mêmes parties de la scène; il y a donc en général des régions de l'image qui ne doivent pas être appariées.
La correspondance n'est pas toujours biunivoque arête géométrique arête de texture fausse arête géométrique ces arêtes ne sont pas toutes stables selon le point de vue! zones d'ombre *il peut y avoir un problème près des arêtes
La correspondance hypothèses: approches: les points de la scène sont visibles (en général) des deux points de vue les points correspondants sont similaires dans les images (valide surtout si les points sont beaucoup plus loin que la base de triangulation – surfaces lambertiennes) approches: corrélation de voisinage (permet un ensemble dense de correspondances) correspondance de caractéristiques (ensemble éparse de correspondances). exemple: des points d’intérêt
Approche basée sur la corrélation il faut des régions texturées et des points de vue assez semblables* fonctionnement on sélectionne une fenêtre définissant un voisinage dans l'image gauche on cherche la fenêtre de voisinage correspondante le long de la droite épipolaire dans l'image de droite (si on suppose le volume d'observation fini, la disparité est limitée; on peut donc fixer un intervalle de recherche le long de la droite épipolaire en supposant une disparité initialement à 0) *Remarque: on suppose que tous les pixels de la fenêtre ont la même disparité
Fonctions de corrélation La corrélation normalisée (insensible à une transformation ax+b). La somme est calculée dans un voisinage. On peut obtenir un niveau sous-pixel par interpolation des valeurs de corrélation.
Illustration Voisinage u Voisinage u’
Complément: amélioration Après la première passe, on estime la géométrie de la surface et on déforme les fenêtres de corrélation en conséquence, par un warping! (Forsyth, fig. 11.11, Faugeras et al., Lucas et Kanade 1981, Szeliski 2004)
Exploitation de contraintes unicité: un point de l'image gauche ne peut correspondre qu'à un seul point de l'image droite cohérence: corrélation maximum G <->D i.e. le point gauche doit être le correspondant optimal de son correspondant à droite Ordre continuité de la disparité * La section 11.6.1 du livre présente une section intéressante sur les contraintes.
Méthodes de mise en correspondance méthode hiérarchique multirésolution (disponible dans openCV) programmation dynamique appariement de deux séquences (le long des épipolaires) basé sur la contrainte d’ordre Pour plus de performance, on applique d’abord la recherche à basse résolution puis on se sert de la solution comme point de départ pour le niveau suivant.
Autre approche Exploiter la capacité de calcul des cartes graphiques Hypothèses sur le volume Recherche de la photoconsistence (photohull)
Correspondance de caractéristiques Il s’agit d’une correspondance qui n’est pas dense Droites et points d'arêtes (perpendiculaires aux droites épipolaires) utile dans des environnements structurés comme l'intérieur de bâtiments Points d’intérêt ** Centre de cercles (idée des capteurs laser à triangulation) On peut examiner la corrélation autour des caractérisitques. ** Voir le document sur les SIFT dans les références
La reconstruction 3D une paire stéréo alignée et la rectification la reconstruction pour le cas général cas calibré (seul cas présenté ici) seuls les paramètres intrinsèques sont connus (reconstruction 3D à un facteur d'échelle près) cas non calibré (reconstruction à une projection près)
La rectification idée: appliquer une transformation aux deux images pour que les droites épipolaires soient parallèles et alignées (on se retrouve donc dans le cas le plus simple) intérêt: la recherche du point correspondant sur les droites épipolaires est grandement simplifiée Comment rectifier?: on peut procéder en supposant connus 1- les paramètres intrinsèques et extrinsèques ou 2- non. Nous nous limiterons au premier cas.
La rectification *tirées de Trucco
La rectification on tournera les plans images autour des centres de projection Supposons l'origine des images au point principal et la longueur F (on l'obtient en développant le produit vectoriel)
La rectification … C’est une homographie! Chaque pixel de la caméra gauche devient: Même principe pour les pixels de la caméra droite avec où R est la matrice de rotation associée à l'orientation de la caméra droite par rapport à la caméra gauche En pratique comme on obtient des valeurs fractionnaires pour les positions de pixel, on part plutôt de l'image cible et on applique la transformation inverse pour obtenir le pixel de l'image originale à recopier. On applique alors l'interpolation bilinéaire sur l'image originale. La rectification est en fait une homographie car on simule une rotation de la caméra autour du centre de projection. C’est une homographie!
La reconstruction: cas général calibré En pratique, à cause de l'erreur, les projecteurs ne se croisent pas. (C'est la méthode du point milieu.)
Reconstruction: cas calibré il y a différentes façons: ex: le point milieu (Hartley, dans son article Triangulation, critique cette méthode. Il minimise plutôt la distance entre la projection du point 3D dans les images et les droites épipolaires) les projecteurs le segment qui lie les deux projecteurs doit être perpendiculaire à ceux-ci. Il reste à calculer le point milieu.
Liste des méthodes méthode du point milieu approche algébrique on écrit le système linéaire (équations de 4 plans + 3 inc.) on cherche le point 3D qui minimise la distance aux 4 plans minimisation de l’erreur de reprojection (bundle adjustment) on cherche le point 3D tel que sa projection dans chacune des images est près des points image observés rectifier la paire et appliquer le calcul avec la disparité
Remarques En pratique, on calibre la paire stéréo au moyen d'une cible. On obtient la transformation entre la cible et chacune des caméras. Il faut alors composer ces transformations pour obtenir la transformation entre chacune des caméras. (schéma au tableau) Une approche plus stable consiste à imposer une contrainte de rigidité entre les deux caméras.
Fin du bloc de base Un sujet de recherche très actif au cours des dernières années: la stéréoscopie multivue Site de référence: vision.middlebury.edu/stereo