Représentation en objets vidéo pour un codage progressif et concurrentiel des séquences d’images Marc Chaumont Encadrants H. Nicolas & S. Pateux Équipe.

Représentation en objets vidéo pour un codage progressif et concurrentiel des séquences d’images
Marc Chaumont Encadrants H. Nicolas & S. Pateux Équipe Temics

Contexte Pourquoi compresser le signal vidéo?
mchaumon: 1 fibre optique : 40 Gb/s Contexte Pourquoi compresser le signal vidéo? Débit d’un signal vidéo sans compression : 237 Mb/s (télévision SDTV (images 720x576)) Volume d’un signal vidéo sans compression : 1,22 Térabits (1h1/2 de film) Débits disponibles : RTC : 56Kb/s, ADSL : 8Mb/s Capacité de stockage disponible : DVD R/W capacité : 38 Gb Débits et volumes d’un signal vidéo sans compression : 237Mb/s pour la télévision SDTV (images 720x576) 1h1/2 de film : 1,22 Térabits 58 Mb/s pour les CDs vidéos (images 352x288) 1h1/2 de film : 306 Gigabits Débits disponibles : RTC : 56Kb/s, ADSL : jusqu’à 8Mb/s, 1 fibre optique : 40 Gbit/s (256 canaux : 10,2 Tbit/s sur 100 kilomètres Capacité de stockage disponible : DVD R/W capacité = 4,7 Go En MPEG 2 environ 4 Mbit/s  Nécessite de compresser ...

Contexte Une standardisation des codeurs
mchaumon: effort de recherche bien antérieur. Traitement de l’image, puis codeurs ... année 80 codeurs par régions (Kunt 85), année 90 codeurs par objet et modèles. à coté de ces standard, autre codeur proposé par le monde de la recherche : plus spécialisé, ou ayant des approches différentes (objet, basés modèle…) standard permet de ce positionner par rapport à quelque chose que tout le monde connaît. mchaumon: MPEG1, Video CD, MP3 …jusqu’à 1.5Mb/s MPEG 2, Digital Television, DVD … MPEG4, multimédia Contexte Une standardisation des codeurs H264/AVC JM2 :  39%* de gain sur MPEG4 (ASP)  49%* de gain sur H.263 (HLP)  64%* sur MPEG2 *[Schwarz et al. 02], à distorsion égale QCIF et CIF (10Hz 15Hz) (28<=PSNR<=36) Débits et volumes d’un signal vidéo sans compression : 237Mb/s pour la télévision SDTV (images 720x576) 1h1/2 de film : 1,22 Térabits 58 Mb/s pour les CDs vidéos (images 352x288) 1h1/2 de film : 306 Gigabits Débits disponibles : RTC : 56Kb/s, ADSL : jusqu’à 8Mb/s, 1 fibre optique : 40 Gbit/s (256 canaux : 10,2 Tbit/s sur 100 kilomètres Capacité de stockage disponible : DVD R/W capacité = 4,7 Go En MPEG 2 environ 4 Mbit/s

Contexte Approches connexes
Années 80, le codage par région : MORPHECO [Salembier et al. 95], ... Image 50 séquence coastguard Débits et volumes d’un signal vidéo sans compression : 237Mb/s pour la télévision SDTV (images 720x576) 1h1/2 de film : 1,22 Térabits 58 Mb/s pour les CDs vidéos (images 352x288) 1h1/2 de film : 306 Gigabits Débits disponibles : RTC : 56Kb/s, ADSL : jusqu’à 8Mb/s, 1 fibre optique : 40 Gbit/s (256 canaux : 10,2 Tbit/s sur 100 kilomètres Capacité de stockage disponible : DVD R/W capacité = 4,7 Go En MPEG 2 environ 4 Mbit/s carte des régions (carte de segmentation) valeur d’intensité par région

Années 80, le codage par région : MORPHECO [Salembier et al. 95], ... (+) : basé sur des critères psychovisuels (-) : une carte coûteuse à coder (nombreuses régions) (-) : gestion difficile des occultations (car projection des cartes) (-) : artefact de contour Débits et volumes d’un signal vidéo sans compression : 237Mb/s pour la télévision SDTV (images 720x576) 1h1/2 de film : 1,22 Térabits 58 Mb/s pour les CDs vidéos (images 352x288) 1h1/2 de film : 306 Gigabits Débits disponibles : RTC : 56Kb/s, ADSL : jusqu’à 8Mb/s, 1 fibre optique : 40 Gbit/s (256 canaux : 10,2 Tbit/s sur 100 kilomètres Capacité de stockage disponible : DVD R/W capacité = 4,7 Go En MPEG 2 environ 4 Mbit/s

Années 90, le codage OBASC (object-based analysis-synthesis coder) : Codage par SPRITE [MPEG4] [Okada et al. 01] Codage par couches [Schwarz et al. 00] [Han et al. 98] Codage par modèle [Hötter 90], [Galpin 02], [Eisert et al. 99] Débits et volumes d’un signal vidéo sans compression : 237Mb/s pour la télévision SDTV (images 720x576) 1h1/2 de film : 1,22 Térabits 58 Mb/s pour les CDs vidéos (images 352x288) 1h1/2 de film : 306 Gigabits Débits disponibles : RTC : 56Kb/s, ADSL : jusqu’à 8Mb/s, 1 fibre optique : 40 Gbit/s (256 canaux : 10,2 Tbit/s sur 100 kilomètres Capacité de stockage disponible : DVD R/W capacité = 4,7 Go En MPEG 2 environ 4 Mbit/s

Années 90, le codage OBASC texture de l’image 50 zone de Image 50 séquence coastguard Débits et volumes d’un signal vidéo sans compression : 237Mb/s pour la télévision SDTV (images 720x576) 1h1/2 de film : 1,22 Térabits 58 Mb/s pour les CDs vidéos (images 352x288) 1h1/2 de film : 306 Gigabits Débits disponibles : RTC : 56Kb/s, ADSL : jusqu’à 8Mb/s, 1 fibre optique : 40 Gbit/s (256 canaux : 10,2 Tbit/s sur 100 kilomètres Capacité de stockage disponible : DVD R/W capacité = 4,7 Go En MPEG 2 environ 4 Mbit/s masque par objet + ordre de profondeur 1 texture par objet pour un groupe d’images

Années 90, le codage OBASC (+) : 1 masque par objet  + stable temporellement que l’approche région  occultations mieux gérées (z-ordre)  codage moins coûteux que l’approche région (+) : 1 texture par objet pour un groupe d’images  meilleure gestion des textures qui apparaissent Débits et volumes d’un signal vidéo sans compression : 237Mb/s pour la télévision SDTV (images 720x576) 1h1/2 de film : 1,22 Térabits 58 Mb/s pour les CDs vidéos (images 352x288) 1h1/2 de film : 306 Gigabits Débits disponibles : RTC : 56Kb/s, ADSL : jusqu’à 8Mb/s, 1 fibre optique : 40 Gbit/s (256 canaux : 10,2 Tbit/s sur 100 kilomètres Capacité de stockage disponible : DVD R/W capacité = 4,7 Go En MPEG 2 environ 4 Mbit/s

Contexte Principe du codage objet
z-ordre formes images z-ordre formes images 1 - ANALYSE 2 - CODAGE 3 - DECODAGE S E G M N T A I O reg1 ou obj1 S Y N T H E répartition des débits entre objets séquence z-ordre images formes z-ordre PAS de FORMES images reg2 ou obj2 séquence reconstruite 1 - ANALYSE 2 - CODAGE 3 - DECODAGE

Contexte Par rapport au codage non objet ...
Les difficultés : la segmentation la répartition des débits la composition Les points intéressants : composition d’objets vidéos

Les difficultés : la segmentation la répartition des débits la composition Les points intéressants : répartition des débits : visage 80 Kb/s fond Kb/s forme Kb/s

Les difficultés : la segmentation la répartition des débits la composition Les points intéressants : l’estimation du mouvement est plus performante codage non objet codage objet

Les difficultés : la segmentation la répartition des débits la composition Les points intéressants : l’estimation du mouvement est plus performante compromis entre approche basée pixel et basée modèle

Contexte Fil conducteur
Le codage objet est-il intéressant ? Une réponse à travers 2 axes d’étude : la comparaison du codage objet vs. non objet Étude du CODAGE DYNAMIQUE la segmentation en objets vidéo Étude de la SEGMENTATION mchaumon: CODAGE DYNAMIQUE je possède les masques, qu’est-ce que je gagne par rapport au codage non objet ? SEGMENTATION Je ne possède pas les masques, est-ce possible de les obtenir automatiquement ?

Plan 1 - Contexte (efficacité du codage objet ?)
mchaumon: première partie : expérimental (pas de réelle nouveauté) implémentation deuxième partie : une contribution et une approche (+ philosophique) de la segmentation modélisation 1 - Contexte (efficacité du codage objet ?) 2 - Le codage dynamique d’objet vidéo définition du codage dynamique mise en place d’un schéma - optimisation débit-distorsion analyse des résultats 3 - La segmentation en objets vidéo état de l’art - lacune des approches existantes proposition d’un modèle d’objet - résolution par clustering 3D 4 - Conclusion - contributions - perspectives

Le codage dynamique Définition
Introduit par [Ebrahimi et al. 95] et [Reusens et al. 97] : principe : mise en concurrence de plusieurs techniques de codage ou codeurs sur une image ou une région mise en œuvre : par optimisation débit-distorsion Principe identique : dans le codeur H264/AVC dans les codeurs MPEG ... mchaumon: Kunt epfl … principe d ’optimisation. Pour nous optimisation débit distorsion

Le codage dynamique Pour les objets vidéos
Principe : Mise en concurrence de plusieurs codeurs sur plusieurs objets Objectif : Déterminer la meilleure configuration codeur - objet - débit/qualité mchaumon: pour chaque objet : trouver le meilleur codeur et la qualité ou débit approprié

Le codage dynamique Schéma du codage dynamique
mchaumon: réflexion 1 : complexe en temps de calcul, mais existe tech prédiction et facilement parallelisable, augmentation rapidité des proc …. Pascal Fleury Réflexion 2 : possible sur plus de 2 objet Réflexion 3 : pb au niveau de la synthèse : trou - aliasing … détailler les codeurs revenir sur question importante : intérêt codage objet mchaumon: il a fallut : - définir une mesure de distortion - adapter le codeur H264/AVC - mettre en place le codeur par mosaique - gérer les problème de composition d’objet [Galpin et al. 01] [Balter et al. 03]

[ITU-T Rec. H.264 / ISO/IEC , 02] JM5

[Cammas et al. 03]

[Marquant 00] [Pateux et al. 01]

Le codage dynamique m3dcoder, représentation des données
séquence originale GOP 1 maillage 3D GOP 1 texture plaquée GOP + les mouvements caméra

Le codage dynamique m3dcoder, inconvénients/avantages
mchaumon: nécessite de trouver le modèle 3D : scéne rigide, peu d ’objet spéculaire, suffisament de mouvement, mouvement non dégénérés, Adapté aux structures rigides ayant un mouvement 3D Le codage dynamique m3dcoder, inconvénients/avantages (-) : difficile de trouver le modèle 3D (+) : représentation très efficace à faible débit séquence originale GOP séquence reconstruite GOP

Le codage dynamique Sprite, représentation des données
1 image mosaïque GOP 0-90 + les mouvements paramétriques textures originales

Le codage dynamique Sprite, inconvénients/avantages
mchaumon: images Le codage dynamique Sprite, inconvénients/avantages (-) : nécessite un mouvement global (+) : représentation très efficace à faible débit textures originales objet vidéo fond reconstruit

Le codage dynamique wavelet 3D, représentation des données
textures originales GOP 0-8 maillage 2D GOP 0-8 textures projetées* GOP 0-8 *remarque : notion de prolongement de texture (« padding »)

Le codage dynamique wavelet 3D, inconvénients/avantages
mchaumon: objet vidéo reconstruit 132.7Kb/S PSNRtext=30.1 Le codage dynamique wavelet 3D, inconvénients/avantages (-) : nécessite des mouvements peu chahutés (+) : représentation « scalable » objet vidéo original objet vidéo reconstruit R = Kb/s

Le codage dynamique H264/AVC, représentation des données
textures originales mouvements blocs textures blocs

Le codage dynamique H264/AVC, inconvénients/avantages
mchaumon: objet vidéo reconstruit 55Kb/s PSNR=31,8 Le codage dynamique H264/AVC, inconvénients/avantages (+) : représentation très efficace pour tous types de séquences objet vidéo original objet vidéo reconstruit R = 55 Kb/s

Le codage dynamique Domaine d'efficacité de chaque codeur
mchaumon: m3dcoder mouvement supérieur à 10 pixels, pourcentage de point commun première dernière image supérieur à 30%, erreur de correspondance inférieur au 1/2 pixel Le codage dynamique Domaine d'efficacité de chaque codeur

Le codage dynamique EQM dans le domaine texture
textures projetées vers temps référence codeurs séquences textures codées Sprite EQMtext EQMtext WLT 3D EQMtext m3dcoder

Le codage dynamique Optimisation R+D avec contrainte sur R
mchaumon: explication à la main … formulation lagrangienne : non contrainte : algo (on fixe lambda) on calcul tout les J on garde le meilleur codeur par objet, on itère sur les lambda. Qualité uniforme: 1 lambda par objet, calcul de chaque J par objet avec contrainte de qualité identique. Puis, on déduite le Rtotal et on recommence. Objectif : Résolution par formulation Lagrangienne : Pour une qualité uniforme :

Le codage dynamique Séquence Foreman CIF 15Hz
mchaumon: interpolation des courbes … interpolation par polynome de degré 3 par morceaux. (tangente aux bords) dévellopper…??? Le codage dynamique Séquence Foreman CIF 15Hz mchaumon: m3dcoder échoue… avant-plan, pas de sprite Une tendance : à partir haut débit H264 dépasse tout le monde Remarques : EQM dans le domaine texture interpolation des courbes Constat : à faible débit, pas de suprématie H264/AVC objet performant à partir des débits moyen arrière-plan H264/AVC Ondelette 3D Mosaïque distorsion (EQM) débit (Kbits/s) avant-plan H264/AVC Ondelette 3D mchaumon: dire: 1 pas 1 codeur supérieur distorsion (EQM) mchaumon: CIF 15Hz débit (Kbits/s)

Le codage dynamique Séquence Foreman R = 93Kb/s
arrière-plan H264/AVC Ondelette 3D Mosaïque distorsion (EQM) 13 débit (Kbits/s) avant-plan H264/AVC Ondelette 3D codage dynamique* débit = 99 Kb/s** PSNRtext = 33.4 dB distorsion (EQM) 80 débit (Kbits/s) * utilisation d’antialiasing lors de la composition ** 6 kb/s pour la forme  codage de forme avec pertes

Le codage dynamique Séquence Foreman R = 256Kb/s
arrière-plan H264/AVC Ondelette 3D Mosaïque distorsion (EQM) 109 débit (Kbits/s) avant-plan H264/AVC Ondelette 3D codage dynamique débit = 262 Kb/s* PSNRtext = 36.2 dB distorsion (EQM) 147 débit (Kbits/s) * 6 kb/s pour la forme

Le codage dynamique Codage objet vs. non objet
débit = 99 Kb/s PSNRtext = 33.4 dB codage H264/AVC débit = 100 Kb/s PSNR = 32.9 dB

Le codage dynamique Codage objet vs. non objet
débit = 262 Kb/s PSNRtext = 36.2 dB codage H264/AVC débit = 268 Kb/s PSNR = 37.6 dB

Le codage dynamique Séquence Stefan 352x240 15Hz
mchaumon: Rem: le mouvement peut être faux, ca ne ce voit pas (mise à part sur les bords) -> le mouvement peut subir beaucoup de perte, indépendament de la texture… cf article ICIP 2003 pb 1 fortement dépendant de la segmentation : pb2 on déborde :débit perdu à coder des informations non nécessaires pour le joueur. Pb3 semantique : la balle à disparu… Le codage dynamique Séquence Stefan 352x240 15Hz codage dynamique débit = 100 Kb/s* PSNRtext = 27.2 dB codage H264/AVC débit = 105 Kb/s PSNR = 26.7 dB joueur : 70 Kb/s (H264/AVC) fond : 25 Kb/s (mosaïque+mvt affine) forme : 5 kb/s *

Le codage dynamique Séquence Escalier 25 Hz
mchaumon: *PSNR = 25.1 dB Le codage dynamique Séquence Escalier 25 Hz codage m3dcoder débit = 100 Kb/s PSNRtext = 31.3 dB codage H264/AVC débit = 113 Kb/s PSNR = 28.3 dB

Le codage dynamique Bénéfices et inconvénients
Les points positifs : répartition du débit entre objets codage en fonction de l’objet efficacité à faible débit (<256 Kb/s, CIF 15 Hz) donne une réponse favorable au codage par objet Les points négatifs : évaluation difficile du résultat de composition résultat du codage fortement dépendant de la segmentation hiérarchisation du débit uniquement par intervalles complexe en temps de calcul au codeur

mchaumon: première partie : expérimental (pas de réelle nouveauté) implémentation confirmé l’hypothèse selon laquelle le codage par objet peut mener à des résultats égal ou supérieur au codage non objet. deuxième partie : une contribution et une approche (+ philosophique) de la segmentation modélisation 1 - Contexte (efficacité du codage objet ?) 2 - Le codage dynamique d’objet vidéo définition du codage dynamique mise en place d’un schéma - optimisation débit-distorsion analyse des résultats 3 - La segmentation en objets vidéo état de l’art - lacune des approches existantes proposition d’un modèle d’objet - résolution par clustering 3D 4 - Conclusion - contributions - perspectives

La segmentation en objets Objectif des techniques actuelles
mchaumon: il manque peut être un transparent référence ? Et explication techniques. La segmentation en objets Objectif des techniques actuelles mchaumon: approches morphologiques approche statistiques approches variationnelles Déterminer des homogénéités (approches régions) techniques de croissance de régions ligne de partage des eaux [Meyer et al. 90] techniques de division & fusion [Horowitz et al. 74] techniques de classification Clustering [Ball et al. 66], Maximum de Vraisemblance [Dempster at al. 77] Déterminer des ruptures d’homogénéités (approches contours) techniques de contour actif Snakes [Kass et al. 88], Contour Actif Geodesic [Casselles et al. 97], Contour Actif Basé région [Jehan-Besson et al. 03], [Paragios et al. 98] mchaumon: A. P. Dempster, N. M. Laird, D. B. Rubin. Maximum-Likelihood from incomplete data via the EM algorihm. Journal of Royal Statistic Soc. Ser. B (methodological), 39:1-38, 1977 mchaumon: * [HOR-74] Horowitz S.L., Pavlidis T., "Picture segmentation by a directed split-and-merge procedure", Conference on Pattern Recognition, Copenhagen, Août 1974.

La segmentation en objets Vision synthétique de la segmentation
mchaumon: il manque peut être un transparent référence ? Et explication techniques. La segmentation en objets Vision synthétique de la segmentation Une modélisation énergétique prenant en compte le modèle recherché un terme d’attache aux données des termes de régularisation du problème De nombreux outils pour résoudre la minimisation approche régions approche contours

La segmentation en objets Un constat
mchaumon: Temporal segmentation not stable along time Difficulty to use temporal tracking process for non-rigid objects Difficulty to manage overlapped areas Proposed solution: use of a long term segmentation approach La segmentation en objets Un constat mchaumon: pas de modèle : seulement des régions homogènes Problème de gestion des occultations (pas de prise en compte du long terme). mchaumon: soit recherche soit pas prise … soit mise en concurrence ... Lacunes de nombreuses approches : recherche des régions plutôt que des objets mise en concurrence entre 2 objets seulement peu de prise en compte de la dimension temporelle long terme mchaumon: modèle objet : problème initialisation pb détermination automatique? Pour nous un objet c’est un mouvement et des textures ... mchaumon: possible car machine puissante : depuis peu...

La segmentation en objets Du court terme ...
segmentation en « couches », [Wang et al. 94] (regroupement de mouvements affines + construction de mosaïques) objet fond objet parterre objet arbre mchaumon: [Wang et al 94] mise en concurrence de plusieurs mouvements affine entre 2 images groupe d’images

La segmentation en objets Du court terme ...
segmentation en « couches », [Wang et al. 94] (regroupement de mouvements affines + construction de mosaïques) (+) : réelle notion objet (« les couches ») (+) : concurrence de plus de 2 objets (-) : mouvements simples (-) : calcul seulement entre 2 images (pas de long terme)

La segmentation en objets … au long terme
segmentation en « tubes », [Porikli et al. 01] (segmentation sur la dimension temporelle) groupe d’images (axe t)

La segmentation en objets … au long terme
segmentation en « tubes », [Porikli et al. 01] (segmentation sur la dimension temporelle) (+) : approche long terme (volume d’images) (+) : concurrence de plusieurs modèles de texture (-) : pas de mise en concurrence mouvement (tube objet) (un ensemble de tubes peuvent potentiellement former un objet) mchaumon: tube : concurrence de texture seulement objet : notion mettant en jeu au moins les textures et un mouvement sans rupture. Un ensemble de tubes forment potentiellement un objet tube peut échouer si le mouvement est trop important

La segmentation en objets Notre proposition
trouver un modèle définissant un objet utilisation d’un mouvement fin travailler sur un groupe d’images stabilité de la segmentation gestion des zones d’occultations mettre en concurrence plusieurs objets

La segmentation en objets Notre modèle
mchaumon: par rapport à Wang : mouvement + complexe, sur du long terme, et proposition de modèle. La segmentation en objets Notre modèle mchaumon: insister sur la différence avec du tracking : on à qu’une vague idée de l ’endroit ou se trouve l ’objet : « germe » Modélisation spatio-temporelle d’un objet : un objet est une mosaïque se déformant sans rupture : le temps : le germe : la position mchaumon: insister sur la définition d’un objet : défini par son mouvement. Propre au codage vidéo? Texture fixe, mouvement propre. mchaumon: objet, zone de mouvement qui se distingue : image au temps t : mosaïque du germe k : mouvement du germe k du temps t vers tref : bruit Gaussien de modèle

La segmentation en objets Illustration des données nécessaires
mchaumon: séquence 30Hz objectif : mettre en concurrence les mouvements et les textures pour affecter chaque pixel à un objet. séquence mobile & calendar mosaïque du germe ballon mouvement du germe ballon données utilisées par notre modèle d’objet vidéo

La segmentation en objets Schéma général
mchaumon: initialisation beaucoup possibilité : extraction de zone homogènes en texture et en mouvement (exemple segmentationen volume) ou approche par brique. insister sur zone gossière. (pas très bien positionnés) La segmentation en objets Schéma général O P G Extraction de K germes (K fixé) clustering affine par morceau long terme initialisation Estimation du mouvement des K germes O P G , segmentation en objets Recherche de K objets sachant notre modèle

La segmentation en objet Formulation énergétique discrète
mchaumon: objectif obtenir les cartes de segmentation (proba) mchaumon: Rfinal : calcul des expressions de manière analytique et avec quelques modifs sur la formule : Pi,k,t et Mi,k,t. La segmentation en objet Formulation énergétique discrète Trouver une étiquette e(i,t) [1,K] en minimisant E Régularisation temporelle : Régularisation spatiale : Attache aux données :

La segmentation en objet Formulation énergétique probabiliste
mchaumon: objectif obtenir les cartes de segmentation (proba) Avec Pi,k,t les probabilités ( = la segmentation objet) : mchaumon: Rfinal : calcul des expressions de manière analytique et avec quelques modifs sur la formule : Pi,k,t et Mi,k,t. Régularisation spatiale : Régularisation temporelle : Attache aux données : mchaumon: meilleur description des données, notion de proportion d ’appartenance à un modèle et de confiance (degré d ’appartenance à un modèle) Domaine continu, concept de convergence et de minimum existent (pas le cas dans tech hard).p68; possible de dérivé … descente de gradient plutôt que ICM

La segmentation objet Résolution par clustering* 3D
mchaumon: pi,k,t fait intervenir l’erreur pour un temps t entre la mosaïque projetée et l’image et les termes de régularisation. Un algorithme itératif : Calcul des … obtention des probabilités c’est-à-dire de la segmentation itération * l’utilisation de l’outil de « clustering » est inspirée de [Castagno 98] remarque : introduction d’une classe rejet

La segmentation en objets Résultats
mchaumon: Rejet 300 cf CD 5 (icip rochester) La segmentation en objets Résultats objet ballon objet calendrier objet train objet tapisserie

objet ballon objet calendrier objet train objet tapisserie

objet visage objet fond

La segmentation en objets Bénéfices et inconvénients du C3D
Les points positifs : un mouvement assez souple une texture stable une classe rejet une stabilité temporelle un algorithme intéressant dans une chaîne d’analyse Les points négatifs : un nombre d’objet fixé des frontières trop éloignées des frontières de texture une forte complexité des objets simples à coder mchaumon: chaîne d’analyse : suite de brique de base.

mchaumon: première partie : expérimental (pas de réelle nouveauté) implémentation confirmé l’hypothèse selon laquelle le codage par objet peut mener à des résultats égal ou supérieur au codage non objet. deuxième partie : une contribution et une approche (+ philosophique) de la segmentation modélisation 1 - Contexte (efficacité du codage objet ?) 2 - Le codage dynamique d’objet vidéo définition du codage dynamique mise en place d’un schéma - optimisation débit-distorsion analyse des résultats 3 - La segmentation en objets vidéo état de l’art - lacune des approches existantes proposition d’un modèle d’objet - résolution par clustering 3D 4 - Conclusion - contributions - perspectives

Conclusion Le codage objet est-il intéressant ?
Je possède les masques, est-ce que je gagne par rapport au codage non objet ? oui, à faible débit par codage dynamique codage dynamique débit = 99 Kb/s codage H264/AVC débit = 100 Kb/s

Conclusion Le codage objet est-il intéressant ?
mchaumon:: 1. extraction de zones fixes 2. extraction d’un mouvement global 3. extraction d’objets (exemple Clustering 3D)) Conclusion Le codage objet est-il intéressant ? Je ne possède pas les masques, est-ce possible de les obtenir automatiquement ? oui, dans les cas simples une segmentation approximative peut suffire mchaumon: Je ne possède pas les masques, est-ce possible de les obtenir automatiquement ? oui, dans les cas simples (une approche séquentielle peut aider : 1. extraction de zones fixes 2. extraction d’un mouvement global 3. extraction d’objets (exemple Clustering 3D)) Exemple de segmentation quasi automatique (C3D) suivie d’un codage mchaumon: GOP 0-10 séq CIF 30Hz balle 82, calendrier 158, tapisserie 158, train 83. En prenant 5Kbs pour chaque forme on obtient un débit de 500Kb/s Mais ca serait bien inférieur si l’intra avait été amortie... codage ondelette 3D pour chaque objet

Synthèse des travaux et contributions La segmentation
mchaumon: modèle adapté au codage…et tends vers une certaine sémantique mise en concurrence: nouveaux algo c3d: propriété nouvelle … séquentiel succession de rafinement et permet de cerner mieux le type de séquence et le nombre d’objet. Un modèle d’objet vidéo sous forme mouvement/texture utilisation d’un mouvement long terme (maillage) utilisation de mosaïques pour les textures mise en concurrence de plusieurs objets Un algorithme de clustering 3D une initialisation par clustering affine long terme une classe rejet pour le clustering 3D la possibilité d’évaluer les résultats grâce aux probabilités La notion d’approche séquentielle utilisation d’algorithmes de recherche d’objets spécifiques

Synthèse des travaux et contributions Le codage dynamique
mchaumon: un travail d ’expérimentation qui permet d ’avoir un retour (intérêt : analyse des résultats) ... Une répartition automatique des débits et des codeurs : utilisation des codeurs parmi les plus performants modification du codeur H264/AVC pour le rendre objet utilisation des codeurs ayant des approches différentes une métrique de distorsion : PSNR dans le domaine texture optimisation débit-distorsion Une gestion des problèmes de composition d’objets une technique d’« antialiasing » prolongement de texture (« padding »)

Synthèse des travaux et contributions Le codage objet avec un flux hiérarchisé
Une représentation surfacique d’un groupe de contours notion de contour « réel » de l ’objet prolongement de contours (« padding ») notion de continuité spatio-temporelle Un codeur de contour codage ondelettes des représentations L’insertion dans un codeur totalement hiérarchique (mouvement - texture - forme)

Perspectives Pour le codage objet hiérarchique :
impact de la répartition : texture, mouvement, forme codeur contour : généraliser à n’importe quelle forme codeur contour : taille GOP, z-order local, distorsion ... Pour la segmentation : déterminer le nombre d’objets affiner les résultats aux frontières d’objets Pour le codage dynamique : déterminer l’impact psychovisuel du codage dynamique étudier la « scalabilité » pour le codage dynamique mchaumon: Insister sur ce que l’on à fait depuis : prog dynamique résultats de scalabilité codeur objet problème de scalabilités des contours mchaumon: suite : 1/2 ATER recherche plus axé sur le codeur WLT3D (pas forcément objet) chose à faire : - le mouvement … - changer la représentation groupe d ’image donne surface (similaire à groupe de contour donne surface) résoud pb d ’échantillonage, comment coder cette surface (EBCOT) ... mchaumon: segmentation : nb classe : regarder techniques segmentant sur un volume 3D. 2 approches possibles : 1_ raisonner par niveau (comme porikli niveau pixel/nano, tube/micro, groupe de tube/macro) + prise en compte du mouvement clustering affine. 2_ raisonner par séquentialité (logo, zone fixe, mouvement affine) pb sensibilité des choix. Ou les 2 ??? Dans tout les cas, l’agglomération est basé sur un mouvement plus complexe qu’une simple translation. Affinage : insertion dans la formulation énergétique d’une distance aux contours issu d’une segmentation régions ou d’un carte de gradiants mchaumon: codage hiérarchique Nouveaux résultat sur la scalabilité du codeur ondelette 3D objet (présenté à ICIP 2003). Représenter les texture pour un GOP comme une surface et non plus une image (résoud problème échnatillonage) -> revoir structure + estim mvt + codage EBCOT adapté. Codeur contour : prog dynamique pour mise en correspondance de contour. Premier test : amélioration en débit et en qualité. mchaumon: codage dynamique impact psychovisuel : actuellement les mesure de distorsion sont adapté à un codeur particulier. Il faudrait prendre en compte les contours, les textures importante et les problèmes propre à chaque codeur. Ex. M. Carnec, D Barba Ecole Polytech Nantes. + VQEG proposer une couche basse avec un codeur puis la couche haute avec un autre : (il faut une représentation scalable du codeur…) perspective à très long terme...

... Résultat d’un codage de forme
mchaumon: D = 0.54 ... Résultat d’un codage de forme mchaumon: GOP 0-5 image 0-30 masques R = 5Kb/s masques originaux

Contexte MPEG4-version2 vs. H264/AVC
mchaumon: ITU-T Rec. H.264 / ISO/IEC , "Advanced Video Coding", Final Committee Draft, Document JVT-E022, September 2002 Débits et volumes d’un signal vidéo sans compression : 237Mb/s pour la télévision SDTV (images 720x576) 1h1/2 de film : 1,22 Térabits 58 Mb/s pour les CDs vidéos (images 352x288) 1h1/2 de film : 306 Gigabits Débits disponibles : RTC : 56Kb/s, ADSL : jusqu’à 8Mb/s, 1 fibre optique : 40 Gbit/s (256 canaux : 10,2 Tbit/s sur 100 kilomètres Capacité de stockage disponible : DVD R/W capacité = 4,7 Go En MPEG 2 environ 4 Mbit/s

Codage par région : MORPHECO [Salembier et al. 95] … Codage OBASC (object-based analysis-synthesis coder) : Codage par SPRITE [MPEG4] [Okada et al. 01] Codage par couches [Schwarz et al. 00] [Han et al. 98] Codage par modèle [Hötter 90], [Galpin 02], [Eisert et al. 99] Débits et volumes d’un signal vidéo sans compression : 237Mb/s pour la télévision SDTV (images 720x576) 1h1/2 de film : 1,22 Térabits 58 Mb/s pour les CDs vidéos (images 352x288) 1h1/2 de film : 306 Gigabits Débits disponibles : RTC : 56Kb/s, ADSL : jusqu’à 8Mb/s, 1 fibre optique : 40 Gbit/s (256 canaux : 10,2 Tbit/s sur 100 kilomètres Capacité de stockage disponible : DVD R/W capacité = 4,7 Go En MPEG 2 environ 4 Mbit/s approche région approche objet années 80 années 90

Contexte Définition d’un objet vidéo
Les informations à coder : textures mouvement formes

Représentation en objets vidéo pour un codage progressif et concurrentiel des séquences d’images Marc Chaumont Encadrants H. Nicolas & S. Pateux Équipe.

Présentations similaires

Présentation au sujet: "Représentation en objets vidéo pour un codage progressif et concurrentiel des séquences d’images Marc Chaumont Encadrants H. Nicolas & S. Pateux Équipe."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Représentation en objets vidéo pour un codage progressif et concurrentiel des séquences d’images Marc Chaumont Encadrants H. Nicolas & S. Pateux Équipe.

Présentations similaires

Présentation au sujet: "Représentation en objets vidéo pour un codage progressif et concurrentiel des séquences d’images Marc Chaumont Encadrants H. Nicolas & S. Pateux Équipe."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back