Représentation en objets vidéo pour un codage progressif et concurrentiel des séquences d’images Marc Chaumont Encadrants H. Nicolas & S. Pateux Équipe.

Slides:



Advertisements
Présentations similaires
L ’ADSL : Analyse technique et champs d ’application
Advertisements

Transport de Cinq point hein ? par satellite La Semaine du Son 2012 Michel CHABROL
La haute définition par aDSl
Distance inter-locuteur
Enregistreur numérique KXR 2416 ULTRAK
Jean-Gabriel REMY Ingénieur Général CGTI - MINEFI
EVALUATION GS fin d'année
Les numéros
Les identités remarquables
RESEAUX & COMMUNICATIONS
Aude BOURDON Fabrice DUCOURTIOUX DESS Réseaux
Résidences Universitaires Câblage informatique
Pourquoi? Vidéo : un outil d’intercommunication personnelle, systèmes vidéo communicants. - acquérir en temps réel, coder, transmettre, décoder, récupérer.
Programme du cours (I) 1. Introduction. Vidéo dans des systèmes multimédia 2. Aspects technologiques Formats, numérisation, résolution. Interpolation temporelle.
Vidéo Numérique: Analyse et Codage Cours en Master ISM Partie I Jenny Benois -Pineau Université Bordeaux -1 Vidéo Numérique: Analyse et Codage Cours en.
Les premier codecs des images animées :
H.264/MPEG4 AVC H.263/MPEG4 V1. H.264/MPEG4 AVC Principes clés : Codage intra-image et inter-image par des blocs de taille variable et par combinaison.
Dpt. Télécommunications, Services & Usages Théorie de l information H. Benoit-Cattin Introduction 2. Vue densemble 3. Sources discrètes & Entropie.
Réalisé par : M. Anis MEFTAH Encadré par : M. Marc Antonini
Aires Activité 4 p 149 1°) N°22 page 156 N°23 page 156 N°38 page 157
Le codage, la compression et l’édition vidéo
Le réseau très haut débit en
Présentation TNT La Télévision Numérique Terrestre (TNT) est un système de diffusion terrestre qui date de la fin des années 80 Elle véhicule les signaux.
Equipements réseau : modem
Transmission de l’information Réseau domestique
La compression d’images animées
Media Voix Données Images Gestion des connexions multimédias
Le Syndicat Mixte du Pays Plateau de Caux Maritime, en tant que chef de file, a répondu en janvier 2010 à l’ « Appel à projet national pour le développement.
Les solutions techniques comparées Accès Internet :
ADSL Asymmetric Digital Subscriber Line
Couverture haut débit Communes du canton de Marsanne
Le Codage M P E G PAR ERAUD yann BLAS Tony CANUTE Amirt.
Institut TELECOM / TELECOM Bretagne
Video Numérique – Formats
Chaîne de Transmission
Joseph Désiré Topomondzo (Actuellement à l’ENIB)
Divers procédés de modulation sont utilisés dans le domaine hertzien et dans le domaine câblé pour transporter les informations numériques Ces techniques.
Le matériel Les composants de l’ordinateur
Préparation au montage
INDUSTRIE sa Tel : 0033(0) Fax : Projet: SKIP CAPSULES – v.1 Client: CARDIVAL HEALTH.
Chapitre 4 L’information
LES NOMBRES PREMIERS ET COMPOSÉS
Logiciel gratuit à télécharger à cette adresse :
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
Les unités de stockage amovibles
Le multiplexage Réalisé par: Amama Ahmed Bahria Mohamed Amine.
Atelier Franco-Marocain STIC Mai 2001
+21 Anticipations économiques en Europe Decembre 2013 Indicateur > +20 Indicateur 0 á +20 Indicateur 0 á -20 Indicateur < -20 Union européenne total: +14.
Sleep Heart Health Study (1) Etude longitudinale Nord-américaine : –Polysomnographie réalisée entre 1994 et 1998 –5 442 patients inclus sans antécédents.
SUJET D’ENTRAINEMENT n°1
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Bases de la micro informatique
4.chaine de télévision radiologique ; applications radioscopiques et radiographiques (angiographie numérisée : DSA = digital subtraction angiography)
Racines carrées Carrés parfaits.
La pub du marchand de pc ?  INTEL Core2Duo E8500 2X3,16Ghz  Samsung 750Gb SATA2 7200Trs  4 Gb Kingston DDR2 800Mhz  Nvidia GTX Mb PROCESSEUR.
TRANSMISSION D’INFORMATION PAR FIBRE OPTIQUE
UN NOUVEAU STOCKAGE OPTIQUE : LE BLU-RAY
Présentation Définition Rôle Place dans le réseau
La HD, nous y sommes ! Pourtant …
Régulation de débit pour MPEG-4 SVC
Définition Fonctionnalité Intégration dans un réseau
RESEAUX & COMMUNICATIONS
Les solutions haut débit destinées aux Collectivités Locales
Formation Ramage 27 Février 2015
Le haut-débit À VILLERS AU FLOS
Les techniques de transmission
Hxcbv c jvc,fikxmtnyàp)foezacqrhezndze hz. gijgkhh,jlkhn hgjgj.
Les Réseaux Informatiques Rappels
PROJET THD GARD 16/02/2018.
Transcription de la présentation:

Représentation en objets vidéo pour un codage progressif et concurrentiel des séquences d’images Marc Chaumont Encadrants H. Nicolas & S. Pateux Équipe Temics

Contexte Pourquoi compresser le signal vidéo? mchaumon: 1 fibre optique : 40 Gb/s Contexte Pourquoi compresser le signal vidéo? Débit d’un signal vidéo sans compression : 237 Mb/s (télévision SDTV (images 720x576)) Volume d’un signal vidéo sans compression : 1,22 Térabits (1h1/2 de film) Débits disponibles : RTC : 56Kb/s, ADSL : 8Mb/s Capacité de stockage disponible : DVD R/W capacité : 38 Gb Débits et volumes d’un signal vidéo sans compression : 237Mb/s pour la télévision SDTV (images 720x576) 1h1/2 de film : 1,22 Térabits 58 Mb/s pour les CDs vidéos (images 352x288) 1h1/2 de film : 306 Gigabits Débits disponibles : RTC : 56Kb/s, ADSL : jusqu’à 8Mb/s, 1 fibre optique : 40 Gbit/s (256 canaux : 10,2 Tbit/s sur 100 kilomètres Capacité de stockage disponible : DVD R/W capacité = 4,7 Go En MPEG 2 environ 4 Mbit/s  Nécessite de compresser ...

Contexte Une standardisation des codeurs mchaumon: effort de recherche bien antérieur. Traitement de l’image, puis codeurs ... année 80 codeurs par régions (Kunt 85), année 90 codeurs par objet et modèles. à coté de ces standard, autre codeur proposé par le monde de la recherche : plus spécialisé, ou ayant des approches différentes (objet, basés modèle…) standard permet de ce positionner par rapport à quelque chose que tout le monde connaît. mchaumon: MPEG1, Video CD, MP3 …jusqu’à 1.5Mb/s MPEG 2, Digital Television, DVD … MPEG4, multimédia Contexte Une standardisation des codeurs H264/AVC JM2 :  39%* de gain sur MPEG4 (ASP)  49%* de gain sur H.263 (HLP)  64%* sur MPEG2 *[Schwarz et al. 02], à distorsion égale QCIF et CIF (10Hz 15Hz) (28<=PSNR<=36) Débits et volumes d’un signal vidéo sans compression : 237Mb/s pour la télévision SDTV (images 720x576) 1h1/2 de film : 1,22 Térabits 58 Mb/s pour les CDs vidéos (images 352x288) 1h1/2 de film : 306 Gigabits Débits disponibles : RTC : 56Kb/s, ADSL : jusqu’à 8Mb/s, 1 fibre optique : 40 Gbit/s (256 canaux : 10,2 Tbit/s sur 100 kilomètres Capacité de stockage disponible : DVD R/W capacité = 4,7 Go En MPEG 2 environ 4 Mbit/s

Contexte Approches connexes Années 80, le codage par région : MORPHECO [Salembier et al. 95], ... Image 50 séquence coastguard Débits et volumes d’un signal vidéo sans compression : 237Mb/s pour la télévision SDTV (images 720x576) 1h1/2 de film : 1,22 Térabits 58 Mb/s pour les CDs vidéos (images 352x288) 1h1/2 de film : 306 Gigabits Débits disponibles : RTC : 56Kb/s, ADSL : jusqu’à 8Mb/s, 1 fibre optique : 40 Gbit/s (256 canaux : 10,2 Tbit/s sur 100 kilomètres Capacité de stockage disponible : DVD R/W capacité = 4,7 Go En MPEG 2 environ 4 Mbit/s carte des régions (carte de segmentation) valeur d’intensité par région

Contexte Approches connexes Années 80, le codage par région : MORPHECO [Salembier et al. 95], ... (+) : basé sur des critères psychovisuels (-) : une carte coûteuse à coder (nombreuses régions) (-) : gestion difficile des occultations (car projection des cartes) (-) : artefact de contour Débits et volumes d’un signal vidéo sans compression : 237Mb/s pour la télévision SDTV (images 720x576) 1h1/2 de film : 1,22 Térabits 58 Mb/s pour les CDs vidéos (images 352x288) 1h1/2 de film : 306 Gigabits Débits disponibles : RTC : 56Kb/s, ADSL : jusqu’à 8Mb/s, 1 fibre optique : 40 Gbit/s (256 canaux : 10,2 Tbit/s sur 100 kilomètres Capacité de stockage disponible : DVD R/W capacité = 4,7 Go En MPEG 2 environ 4 Mbit/s

Contexte Approches connexes Années 90, le codage OBASC (object-based analysis-synthesis coder) : Codage par SPRITE [MPEG4] [Okada et al. 01] Codage par couches [Schwarz et al. 00] [Han et al. 98] Codage par modèle [Hötter 90], [Galpin 02], [Eisert et al. 99] Débits et volumes d’un signal vidéo sans compression : 237Mb/s pour la télévision SDTV (images 720x576) 1h1/2 de film : 1,22 Térabits 58 Mb/s pour les CDs vidéos (images 352x288) 1h1/2 de film : 306 Gigabits Débits disponibles : RTC : 56Kb/s, ADSL : jusqu’à 8Mb/s, 1 fibre optique : 40 Gbit/s (256 canaux : 10,2 Tbit/s sur 100 kilomètres Capacité de stockage disponible : DVD R/W capacité = 4,7 Go En MPEG 2 environ 4 Mbit/s

Contexte Approches connexes Années 90, le codage OBASC texture de l’image 50 zone de Image 50 séquence coastguard Débits et volumes d’un signal vidéo sans compression : 237Mb/s pour la télévision SDTV (images 720x576) 1h1/2 de film : 1,22 Térabits 58 Mb/s pour les CDs vidéos (images 352x288) 1h1/2 de film : 306 Gigabits Débits disponibles : RTC : 56Kb/s, ADSL : jusqu’à 8Mb/s, 1 fibre optique : 40 Gbit/s (256 canaux : 10,2 Tbit/s sur 100 kilomètres Capacité de stockage disponible : DVD R/W capacité = 4,7 Go En MPEG 2 environ 4 Mbit/s masque par objet + ordre de profondeur 1 texture par objet pour un groupe d’images

Contexte Approches connexes Années 90, le codage OBASC (+) : 1 masque par objet  + stable temporellement que l’approche région  occultations mieux gérées (z-ordre)  codage moins coûteux que l’approche région (+) : 1 texture par objet pour un groupe d’images  meilleure gestion des textures qui apparaissent Débits et volumes d’un signal vidéo sans compression : 237Mb/s pour la télévision SDTV (images 720x576) 1h1/2 de film : 1,22 Térabits 58 Mb/s pour les CDs vidéos (images 352x288) 1h1/2 de film : 306 Gigabits Débits disponibles : RTC : 56Kb/s, ADSL : jusqu’à 8Mb/s, 1 fibre optique : 40 Gbit/s (256 canaux : 10,2 Tbit/s sur 100 kilomètres Capacité de stockage disponible : DVD R/W capacité = 4,7 Go En MPEG 2 environ 4 Mbit/s

Contexte Principe du codage objet z-ordre formes images z-ordre formes images 1 - ANALYSE 2 - CODAGE 3 - DECODAGE S E G M N T A I O reg1 ou obj1 S Y N T H E répartition des débits entre objets séquence z-ordre images formes z-ordre PAS de FORMES images reg2 ou obj2 séquence reconstruite 1 - ANALYSE 2 - CODAGE 3 - DECODAGE

Contexte Par rapport au codage non objet ... Les difficultés : la segmentation la répartition des débits la composition Les points intéressants : composition d’objets vidéos

Contexte Par rapport au codage non objet ... Les difficultés : la segmentation la répartition des débits la composition Les points intéressants : répartition des débits : visage 80 Kb/s fond 15 Kb/s forme 6 Kb/s

Contexte Par rapport au codage non objet ... Les difficultés : la segmentation la répartition des débits la composition Les points intéressants : l’estimation du mouvement est plus performante codage non objet codage objet

Contexte Par rapport au codage non objet ... Les difficultés : la segmentation la répartition des débits la composition Les points intéressants : l’estimation du mouvement est plus performante compromis entre approche basée pixel et basée modèle

Contexte Fil conducteur Le codage objet est-il intéressant ? Une réponse à travers 2 axes d’étude : la comparaison du codage objet vs. non objet Étude du CODAGE DYNAMIQUE la segmentation en objets vidéo Étude de la SEGMENTATION mchaumon: CODAGE DYNAMIQUE je possède les masques, qu’est-ce que je gagne par rapport au codage non objet ? SEGMENTATION Je ne possède pas les masques, est-ce possible de les obtenir automatiquement ?

Plan 1 - Contexte (efficacité du codage objet ?) mchaumon: première partie : expérimental (pas de réelle nouveauté) implémentation deuxième partie : une contribution et une approche (+ philosophique) de la segmentation modélisation 1 - Contexte (efficacité du codage objet ?) 2 - Le codage dynamique d’objet vidéo définition du codage dynamique mise en place d’un schéma - optimisation débit-distorsion analyse des résultats 3 - La segmentation en objets vidéo état de l’art - lacune des approches existantes proposition d’un modèle d’objet - résolution par clustering 3D 4 - Conclusion - contributions - perspectives

Le codage dynamique Définition Introduit par [Ebrahimi et al. 95] et [Reusens et al. 97] : principe : mise en concurrence de plusieurs techniques de codage ou codeurs sur une image ou une région mise en œuvre : par optimisation débit-distorsion Principe identique : dans le codeur H264/AVC dans les codeurs MPEG ... mchaumon: Kunt epfl … principe d ’optimisation. Pour nous optimisation débit distorsion

Le codage dynamique Pour les objets vidéos Principe : Mise en concurrence de plusieurs codeurs sur plusieurs objets Objectif : Déterminer la meilleure configuration codeur - objet - débit/qualité mchaumon: pour chaque objet : trouver le meilleur codeur et la qualité ou débit approprié

Le codage dynamique Schéma du codage dynamique mchaumon: réflexion 1 : complexe en temps de calcul, mais existe tech prédiction et facilement parallelisable, augmentation rapidité des proc …. Pascal Fleury Réflexion 2 : possible sur plus de 2 objet Réflexion 3 : pb au niveau de la synthèse : trou - aliasing … détailler les codeurs revenir sur question importante : intérêt codage objet mchaumon: il a fallut : - définir une mesure de distortion - adapter le codeur H264/AVC - mettre en place le codeur par mosaique - gérer les problème de composition d’objet [Galpin et al. 01] [Balter et al. 03]

Le codage dynamique Schéma du codage dynamique [ITU-T Rec. H.264 / ISO/IEC 11496-10, 02] JM5

Le codage dynamique Schéma du codage dynamique [Cammas et al. 03]

Le codage dynamique Schéma du codage dynamique [Marquant 00] [Pateux et al. 01]

Le codage dynamique m3dcoder, représentation des données séquence originale GOP 108-119 1 maillage 3D GOP 108-119 1 texture plaquée GOP 108-119 + les mouvements caméra

Le codage dynamique m3dcoder, inconvénients/avantages mchaumon: nécessite de trouver le modèle 3D : scéne rigide, peu d ’objet spéculaire, suffisament de mouvement, mouvement non dégénérés, Adapté aux structures rigides ayant un mouvement 3D Le codage dynamique m3dcoder, inconvénients/avantages (-) : difficile de trouver le modèle 3D (+) : représentation très efficace à faible débit séquence originale GOP 108-119 séquence reconstruite GOP 108-119

Le codage dynamique Sprite, représentation des données 1 image mosaïque GOP 0-90 + les mouvements paramétriques textures originales

Le codage dynamique Sprite, inconvénients/avantages mchaumon: images 0 - 17 Le codage dynamique Sprite, inconvénients/avantages (-) : nécessite un mouvement global (+) : représentation très efficace à faible débit textures originales objet vidéo fond reconstruit

Le codage dynamique wavelet 3D, représentation des données textures originales GOP 0-8 maillage 2D GOP 0-8 textures projetées* GOP 0-8 *remarque : notion de prolongement de texture (« padding »)

Le codage dynamique wavelet 3D, inconvénients/avantages mchaumon: objet vidéo reconstruit 132.7Kb/S PSNRtext=30.1 Le codage dynamique wavelet 3D, inconvénients/avantages (-) : nécessite des mouvements peu chahutés (+) : représentation « scalable » objet vidéo original objet vidéo reconstruit R = 132.7 Kb/s

Le codage dynamique H264/AVC, représentation des données textures originales mouvements blocs textures blocs

Le codage dynamique H264/AVC, inconvénients/avantages mchaumon: objet vidéo reconstruit 55Kb/s PSNR=31,8 Le codage dynamique H264/AVC, inconvénients/avantages (+) : représentation très efficace pour tous types de séquences objet vidéo original objet vidéo reconstruit R = 55 Kb/s

Le codage dynamique Domaine d'efficacité de chaque codeur mchaumon: m3dcoder mouvement supérieur à 10 pixels, pourcentage de point commun première dernière image supérieur à 30%, erreur de correspondance inférieur au 1/2 pixel Le codage dynamique Domaine d'efficacité de chaque codeur

Le codage dynamique Schéma du codage dynamique

Le codage dynamique EQM dans le domaine texture textures projetées vers temps référence codeurs séquences textures codées Sprite EQMtext EQMtext WLT 3D EQMtext m3dcoder

Le codage dynamique Optimisation R+D avec contrainte sur R mchaumon: explication à la main … formulation lagrangienne : non contrainte : algo (on fixe lambda) on calcul tout les J on garde le meilleur codeur par objet, on itère sur les lambda. Qualité uniforme: 1 lambda par objet, calcul de chaque J par objet avec contrainte de qualité identique. Puis, on déduite le Rtotal et on recommence. Objectif : Résolution par formulation Lagrangienne : Pour une qualité uniforme :

Le codage dynamique Séquence Foreman CIF 15Hz mchaumon: interpolation des courbes … interpolation par polynome de degré 3 par morceaux. (tangente aux bords) dévellopper…??? Le codage dynamique Séquence Foreman CIF 15Hz mchaumon: m3dcoder échoue… avant-plan, pas de sprite Une tendance : à partir haut débit H264 dépasse tout le monde Remarques : EQM dans le domaine texture interpolation des courbes Constat : à faible débit, pas de suprématie H264/AVC objet performant à partir des débits moyen arrière-plan H264/AVC Ondelette 3D Mosaïque distorsion (EQM) débit (Kbits/s) avant-plan H264/AVC Ondelette 3D mchaumon: dire: 1 pas 1 codeur supérieur distorsion (EQM) mchaumon: CIF 15Hz débit (Kbits/s)

Le codage dynamique Séquence Foreman R = 93Kb/s arrière-plan H264/AVC Ondelette 3D Mosaïque distorsion (EQM) 13 débit (Kbits/s) avant-plan H264/AVC Ondelette 3D codage dynamique* débit = 99 Kb/s** PSNRtext = 33.4 dB distorsion (EQM) 80 débit (Kbits/s) * utilisation d’antialiasing lors de la composition ** 6 kb/s pour la forme  codage de forme avec pertes

Le codage dynamique Séquence Foreman R = 256Kb/s arrière-plan H264/AVC Ondelette 3D Mosaïque distorsion (EQM) 109 débit (Kbits/s) avant-plan H264/AVC Ondelette 3D codage dynamique débit = 262 Kb/s* PSNRtext = 36.2 dB distorsion (EQM) 147 débit (Kbits/s) * 6 kb/s pour la forme

Le codage dynamique Codage objet vs. non objet débit = 99 Kb/s PSNRtext = 33.4 dB codage H264/AVC débit = 100 Kb/s PSNR = 32.9 dB

Le codage dynamique Codage objet vs. non objet débit = 262 Kb/s PSNRtext = 36.2 dB codage H264/AVC débit = 268 Kb/s PSNR = 37.6 dB

Le codage dynamique Séquence Stefan 352x240 15Hz mchaumon: Rem: le mouvement peut être faux, ca ne ce voit pas (mise à part sur les bords) -> le mouvement peut subir beaucoup de perte, indépendament de la texture… cf article ICIP 2003 pb 1 fortement dépendant de la segmentation : pb2 on déborde :débit perdu à coder des informations non nécessaires pour le joueur. Pb3 semantique : la balle à disparu… Le codage dynamique Séquence Stefan 352x240 15Hz codage dynamique débit = 100 Kb/s* PSNRtext = 27.2 dB codage H264/AVC débit = 105 Kb/s PSNR = 26.7 dB joueur : 70 Kb/s (H264/AVC) fond : 25 Kb/s (mosaïque+mvt affine) forme : 5 kb/s *

Le codage dynamique Séquence Escalier 25 Hz mchaumon: *PSNR = 25.1 dB Le codage dynamique Séquence Escalier 25 Hz codage m3dcoder débit = 100 Kb/s PSNRtext = 31.3 dB codage H264/AVC débit = 113 Kb/s PSNR = 28.3 dB

Le codage dynamique Bénéfices et inconvénients Les points positifs : répartition du débit entre objets codage en fonction de l’objet efficacité à faible débit (<256 Kb/s, CIF 15 Hz) donne une réponse favorable au codage par objet Les points négatifs : évaluation difficile du résultat de composition résultat du codage fortement dépendant de la segmentation hiérarchisation du débit uniquement par intervalles complexe en temps de calcul au codeur

Plan 1 - Contexte (efficacité du codage objet ?) mchaumon: première partie : expérimental (pas de réelle nouveauté) implémentation confirmé l’hypothèse selon laquelle le codage par objet peut mener à des résultats égal ou supérieur au codage non objet. deuxième partie : une contribution et une approche (+ philosophique) de la segmentation modélisation 1 - Contexte (efficacité du codage objet ?) 2 - Le codage dynamique d’objet vidéo définition du codage dynamique mise en place d’un schéma - optimisation débit-distorsion analyse des résultats 3 - La segmentation en objets vidéo état de l’art - lacune des approches existantes proposition d’un modèle d’objet - résolution par clustering 3D 4 - Conclusion - contributions - perspectives

La segmentation en objets Objectif des techniques actuelles mchaumon: il manque peut être un transparent référence ? Et explication techniques. La segmentation en objets Objectif des techniques actuelles mchaumon: approches morphologiques approche statistiques approches variationnelles Déterminer des homogénéités (approches régions) techniques de croissance de régions ligne de partage des eaux [Meyer et al. 90] techniques de division & fusion [Horowitz et al. 74] techniques de classification Clustering [Ball et al. 66], Maximum de Vraisemblance [Dempster at al. 77] Déterminer des ruptures d’homogénéités (approches contours) techniques de contour actif Snakes [Kass et al. 88], Contour Actif Geodesic [Casselles et al. 97], Contour Actif Basé région [Jehan-Besson et al. 03], [Paragios et al. 98] mchaumon: A. P. Dempster, N. M. Laird, D. B. Rubin. Maximum-Likelihood from incomplete data via the EM algorihm. Journal of Royal Statistic Soc. Ser. B (methodological), 39:1-38, 1977 mchaumon: * [HOR-74] Horowitz S.L., Pavlidis T., "Picture segmentation by a directed split-and-merge procedure", Conference on Pattern Recognition, Copenhagen, Août 1974.

La segmentation en objets Vision synthétique de la segmentation mchaumon: il manque peut être un transparent référence ? Et explication techniques. La segmentation en objets Vision synthétique de la segmentation Une modélisation énergétique prenant en compte le modèle recherché un terme d’attache aux données des termes de régularisation du problème De nombreux outils pour résoudre la minimisation approche régions approche contours

La segmentation en objets Un constat mchaumon: Temporal segmentation not stable along time Difficulty to use temporal tracking process for non-rigid objects Difficulty to manage overlapped areas Proposed solution: use of a long term segmentation approach La segmentation en objets Un constat mchaumon: pas de modèle : seulement des régions homogènes Problème de gestion des occultations (pas de prise en compte du long terme). mchaumon: soit recherche soit pas prise … soit mise en concurrence ... Lacunes de nombreuses approches : recherche des régions plutôt que des objets mise en concurrence entre 2 objets seulement peu de prise en compte de la dimension temporelle long terme mchaumon: modèle objet : problème initialisation pb détermination automatique? Pour nous un objet c’est un mouvement et des textures ... mchaumon: possible car machine puissante : depuis peu...

La segmentation en objets Du court terme ... segmentation en « couches », [Wang et al. 94] (regroupement de mouvements affines + construction de mosaïques) objet fond objet parterre objet arbre mchaumon: [Wang et al 94] mise en concurrence de plusieurs mouvements affine entre 2 images groupe d’images

La segmentation en objets Du court terme ... segmentation en « couches », [Wang et al. 94] (regroupement de mouvements affines + construction de mosaïques) (+) : réelle notion objet (« les couches ») (+) : concurrence de plus de 2 objets (-) : mouvements simples (-) : calcul seulement entre 2 images (pas de long terme)

La segmentation en objets … au long terme segmentation en « tubes », [Porikli et al. 01] (segmentation sur la dimension temporelle) groupe d’images (axe t)

La segmentation en objets … au long terme segmentation en « tubes », [Porikli et al. 01] (segmentation sur la dimension temporelle) (+) : approche long terme (volume d’images) (+) : concurrence de plusieurs modèles de texture (-) : pas de mise en concurrence mouvement (tube objet) (un ensemble de tubes peuvent potentiellement former un objet) mchaumon: tube : concurrence de texture seulement objet : notion mettant en jeu au moins les textures et un mouvement sans rupture. Un ensemble de tubes forment potentiellement un objet tube peut échouer si le mouvement est trop important

La segmentation en objets Notre proposition trouver un modèle définissant un objet utilisation d’un mouvement fin travailler sur un groupe d’images stabilité de la segmentation gestion des zones d’occultations mettre en concurrence plusieurs objets

La segmentation en objets Notre modèle mchaumon: par rapport à Wang : mouvement + complexe, sur du long terme, et proposition de modèle. La segmentation en objets Notre modèle mchaumon: insister sur la différence avec du tracking : on à qu’une vague idée de l ’endroit ou se trouve l ’objet : « germe » Modélisation spatio-temporelle d’un objet : un objet est une mosaïque se déformant sans rupture : le temps : le germe : la position mchaumon: insister sur la définition d’un objet : défini par son mouvement. Propre au codage vidéo? Texture fixe, mouvement propre. mchaumon: objet, zone de mouvement qui se distingue : image au temps t : mosaïque du germe k : mouvement du germe k du temps t vers tref : bruit Gaussien de modèle

La segmentation en objets Illustration des données nécessaires mchaumon: séquence 30Hz objectif : mettre en concurrence les mouvements et les textures pour affecter chaque pixel à un objet. séquence mobile & calendar mosaïque du germe ballon mouvement du germe ballon données utilisées par notre modèle d’objet vidéo

La segmentation en objets Schéma général mchaumon: initialisation beaucoup possibilité : extraction de zone homogènes en texture et en mouvement (exemple segmentationen volume) ou approche par brique. insister sur zone gossière. (pas très bien positionnés) La segmentation en objets Schéma général O P G Extraction de K germes (K fixé) clustering affine par morceau long terme initialisation Estimation du mouvement des K germes O P G , segmentation en objets Recherche de K objets sachant notre modèle

La segmentation en objet Formulation énergétique discrète mchaumon: objectif obtenir les cartes de segmentation (proba) mchaumon: Rfinal : calcul des expressions de manière analytique et avec quelques modifs sur la formule : Pi,k,t et Mi,k,t. La segmentation en objet Formulation énergétique discrète Trouver une étiquette e(i,t) [1,K] en minimisant E Régularisation temporelle : Régularisation spatiale : Attache aux données :

La segmentation en objet Formulation énergétique probabiliste mchaumon: objectif obtenir les cartes de segmentation (proba) Avec Pi,k,t les probabilités ( = la segmentation objet) : mchaumon: Rfinal : calcul des expressions de manière analytique et avec quelques modifs sur la formule : Pi,k,t et Mi,k,t. Régularisation spatiale : Régularisation temporelle : Attache aux données : mchaumon: meilleur description des données, notion de proportion d ’appartenance à un modèle et de confiance (degré d ’appartenance à un modèle) Domaine continu, concept de convergence et de minimum existent (pas le cas dans tech hard).p68; possible de dérivé … descente de gradient plutôt que ICM

La segmentation objet Résolution par clustering* 3D mchaumon: pi,k,t fait intervenir l’erreur pour un temps t entre la mosaïque projetée et l’image et les termes de régularisation. Un algorithme itératif : Calcul des … obtention des probabilités c’est-à-dire de la segmentation itération * l’utilisation de l’outil de « clustering » est inspirée de [Castagno 98] remarque : introduction d’une classe rejet

La segmentation en objets Résultats mchaumon: Rejet 300 cf CD 5 (icip rochester) La segmentation en objets Résultats objet ballon objet calendrier objet train objet tapisserie

La segmentation en objets Résultats objet ballon objet calendrier objet train objet tapisserie

La segmentation en objets Résultats objet visage objet fond

La segmentation en objets Bénéfices et inconvénients du C3D Les points positifs : un mouvement assez souple une texture stable une classe rejet une stabilité temporelle un algorithme intéressant dans une chaîne d’analyse Les points négatifs : un nombre d’objet fixé des frontières trop éloignées des frontières de texture une forte complexité des objets simples à coder mchaumon: chaîne d’analyse : suite de brique de base.

Plan 1 - Contexte (efficacité du codage objet ?) mchaumon: première partie : expérimental (pas de réelle nouveauté) implémentation confirmé l’hypothèse selon laquelle le codage par objet peut mener à des résultats égal ou supérieur au codage non objet. deuxième partie : une contribution et une approche (+ philosophique) de la segmentation modélisation 1 - Contexte (efficacité du codage objet ?) 2 - Le codage dynamique d’objet vidéo définition du codage dynamique mise en place d’un schéma - optimisation débit-distorsion analyse des résultats 3 - La segmentation en objets vidéo état de l’art - lacune des approches existantes proposition d’un modèle d’objet - résolution par clustering 3D 4 - Conclusion - contributions - perspectives

Conclusion Le codage objet est-il intéressant ? Je possède les masques, est-ce que je gagne par rapport au codage non objet ? oui, à faible débit par codage dynamique codage dynamique débit = 99 Kb/s codage H264/AVC débit = 100 Kb/s

Conclusion Le codage objet est-il intéressant ? mchaumon:: 1. extraction de zones fixes 2. extraction d’un mouvement global 3. extraction d’objets (exemple Clustering 3D)) Conclusion Le codage objet est-il intéressant ? Je ne possède pas les masques, est-ce possible de les obtenir automatiquement ? oui, dans les cas simples une segmentation approximative peut suffire mchaumon: Je ne possède pas les masques, est-ce possible de les obtenir automatiquement ? oui, dans les cas simples (une approche séquentielle peut aider : 1. extraction de zones fixes 2. extraction d’un mouvement global 3. extraction d’objets (exemple Clustering 3D)) Exemple de segmentation quasi automatique (C3D) suivie d’un codage mchaumon: GOP 0-10 séq CIF 30Hz balle 82, calendrier 158, tapisserie 158, train 83. En prenant 5Kbs pour chaque forme on obtient un débit de 500Kb/s Mais ca serait bien inférieur si l’intra avait été amortie... codage ondelette 3D pour chaque objet

Synthèse des travaux et contributions La segmentation mchaumon: modèle adapté au codage…et tends vers une certaine sémantique mise en concurrence: nouveaux algo c3d: propriété nouvelle … séquentiel succession de rafinement et permet de cerner mieux le type de séquence et le nombre d’objet. Un modèle d’objet vidéo sous forme mouvement/texture utilisation d’un mouvement long terme (maillage) utilisation de mosaïques pour les textures mise en concurrence de plusieurs objets Un algorithme de clustering 3D une initialisation par clustering affine long terme une classe rejet pour le clustering 3D la possibilité d’évaluer les résultats grâce aux probabilités La notion d’approche séquentielle utilisation d’algorithmes de recherche d’objets spécifiques

Synthèse des travaux et contributions Le codage dynamique mchaumon: un travail d ’expérimentation qui permet d ’avoir un retour (intérêt : analyse des résultats) ... Une répartition automatique des débits et des codeurs : utilisation des codeurs parmi les plus performants modification du codeur H264/AVC pour le rendre objet utilisation des codeurs ayant des approches différentes une métrique de distorsion : PSNR dans le domaine texture optimisation débit-distorsion Une gestion des problèmes de composition d’objets une technique d’« antialiasing » prolongement de texture (« padding »)

Synthèse des travaux et contributions Le codage objet avec un flux hiérarchisé Une représentation surfacique d’un groupe de contours notion de contour « réel » de l ’objet prolongement de contours (« padding ») notion de continuité spatio-temporelle Un codeur de contour codage ondelettes des représentations L’insertion dans un codeur totalement hiérarchique (mouvement - texture - forme)

Perspectives Pour le codage objet hiérarchique : impact de la répartition : texture, mouvement, forme codeur contour : généraliser à n’importe quelle forme codeur contour : taille GOP, z-order local, distorsion ... Pour la segmentation : déterminer le nombre d’objets affiner les résultats aux frontières d’objets Pour le codage dynamique : déterminer l’impact psychovisuel du codage dynamique étudier la « scalabilité » pour le codage dynamique mchaumon: Insister sur ce que l’on à fait depuis : prog dynamique résultats de scalabilité codeur objet problème de scalabilités des contours mchaumon: suite : 1/2 ATER recherche plus axé sur le codeur WLT3D (pas forcément objet) chose à faire : - le mouvement … - changer la représentation groupe d ’image donne surface (similaire à groupe de contour donne surface) résoud pb d ’échantillonage, comment coder cette surface (EBCOT) ... mchaumon: segmentation : nb classe : regarder techniques segmentant sur un volume 3D. 2 approches possibles : 1_ raisonner par niveau (comme porikli niveau pixel/nano, tube/micro, groupe de tube/macro) + prise en compte du mouvement clustering affine. 2_ raisonner par séquentialité (logo, zone fixe, mouvement affine) pb sensibilité des choix. Ou les 2 ??? Dans tout les cas, l’agglomération est basé sur un mouvement plus complexe qu’une simple translation. Affinage : insertion dans la formulation énergétique d’une distance aux contours issu d’une segmentation régions ou d’un carte de gradiants mchaumon: codage hiérarchique Nouveaux résultat sur la scalabilité du codeur ondelette 3D objet (présenté à ICIP 2003). Représenter les texture pour un GOP comme une surface et non plus une image (résoud problème échnatillonage) -> revoir structure + estim mvt + codage EBCOT adapté. Codeur contour : prog dynamique pour mise en correspondance de contour. Premier test : amélioration en débit et en qualité. mchaumon: codage dynamique impact psychovisuel : actuellement les mesure de distorsion sont adapté à un codeur particulier. Il faudrait prendre en compte les contours, les textures importante et les problèmes propre à chaque codeur. Ex. M. Carnec, D Barba Ecole Polytech Nantes. + VQEG proposer une couche basse avec un codeur puis la couche haute avec un autre : (il faut une représentation scalable du codeur…) perspective à très long terme...

...

...

...

... Résultat d’un codage de forme mchaumon: D = 0.54 ... Résultat d’un codage de forme mchaumon: GOP 0-5 image 0-30 masques R = 5Kb/s masques originaux

Contexte MPEG4-version2 vs. H264/AVC mchaumon: ITU-T Rec. H.264 / ISO/IEC 11496-10, "Advanced Video Coding", Final Committee Draft, Document JVT-E022, September 2002 Débits et volumes d’un signal vidéo sans compression : 237Mb/s pour la télévision SDTV (images 720x576) 1h1/2 de film : 1,22 Térabits 58 Mb/s pour les CDs vidéos (images 352x288) 1h1/2 de film : 306 Gigabits Débits disponibles : RTC : 56Kb/s, ADSL : jusqu’à 8Mb/s, 1 fibre optique : 40 Gbit/s (256 canaux : 10,2 Tbit/s sur 100 kilomètres Capacité de stockage disponible : DVD R/W capacité = 4,7 Go En MPEG 2 environ 4 Mbit/s http://www.balooga.com/thumbs.php3?dir=mpeg4

Contexte Approches connexes Codage par région : MORPHECO [Salembier et al. 95] … Codage OBASC (object-based analysis-synthesis coder) : Codage par SPRITE [MPEG4] [Okada et al. 01] Codage par couches [Schwarz et al. 00] [Han et al. 98] Codage par modèle [Hötter 90], [Galpin 02], [Eisert et al. 99] Débits et volumes d’un signal vidéo sans compression : 237Mb/s pour la télévision SDTV (images 720x576) 1h1/2 de film : 1,22 Térabits 58 Mb/s pour les CDs vidéos (images 352x288) 1h1/2 de film : 306 Gigabits Débits disponibles : RTC : 56Kb/s, ADSL : jusqu’à 8Mb/s, 1 fibre optique : 40 Gbit/s (256 canaux : 10,2 Tbit/s sur 100 kilomètres Capacité de stockage disponible : DVD R/W capacité = 4,7 Go En MPEG 2 environ 4 Mbit/s approche région approche objet années 80 années 90

Contexte Définition d’un objet vidéo Les informations à coder : textures mouvement formes