Laboratoire Bordelais de Recherche en Informatique 23/02/ Chapitrage des documents audio- visuels numériques Un plan de montage est une unité de base. Afin dassurer une description moins redondante – groupement des plans en scènes t=2283t=2457 t=2646 t=2802 …t=11322 t=11526 t=13698
Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Groupement en scènes Typologie des approches : (1) Considérer des images-clés représentatives de chaque plan et les regrouper en classes-scènes dans lespace de description des images (2) Considérer des descripteurs globaux pour les plans de montage et regrouper les plans dans lespace de description des plans (3) trouver les frontières significatives de rupture du contenu vidéo ou audio/vidéo
Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Algorithmes de classification-groupement appliqués au groupement en scènes Les descripteurs vidéo sont représentés par des vecteurs Il sagit de partitionner lespace ou un domaine en classes – scènes Classification : supervisée et non-supervisée. - CS : les classes sont connues a priori, on doit affecter à chaque vecteur dentrée sa classe (ex. scènes de lintérieur / de lextérieur après lapprentissage) -CSN : les classes sont à déterminer en fonction de la distribution (structure) des données dans lespace.
Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Algorithme de K-moyennes(I) J. MacQueen, Some methods for classification and analysis of multivariate observations, Proc. Of the Fifth Berkley Symposium on Math. Stat. And Prob., pp. 281 – 296, 1967 Principe : CNS avec le nombre des classes connus a priori. Paramètre : le nombre k de classes entrée : un échantillon de M vecteurs-descritpeurs x 1,... x M. (1) Choisir k centres initiaux c 1,... c k (2). Pour chacun des M vecteurs, l'affecter à la classe i dont le centre c i est le plus proche (3). Si aucun élément ne change de classe alors arrêt. (4). Calculer les nouveaux centres : pour tout i, c i est la moyenne des éléments de la classe i ( 5). Aller en 2
Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Classification hiérarchique agglomérative Principes : (1) A linitialisation chaque vecteur descripteur dans léchantillon de données forme une classe. (2) Tant que le nombre de classes est supérieur à k ( à la limite k=1) Regrouper les classes les plus proches au sens dune distance D Distance entre les classes lien minimal lien maximal distance moyenne daprès A. Laurent, LIRMM
Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Dendrogramme daprès S. Benini, ICIP2006
Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Problèmes sous-jacents Choisir les descripteurs x des plans vidéo : descripteurs de bas – niveau ( couleur dominante, activité en mouvement,…) descripteurs de niveau « moyen » sémantique : ex. présence des visages Définir des mesures de similarité adéquates : Euclidienne – calculs importants, uniforme Hamming : représentation binaire (booléenne) « Distorsion de codage » Difficultés dévaluation par rapport à la vérité terrain « manuelle »
Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Graphe de scènes et Story Units (M. Yeung96) Graphe de transition des scènes (STG) – une représentation compacte de la structure (scénario) dune vidéo STG est un graphe orienté avec V - ensemble des nœuds, E – ensemble des arêtes - ensemble des plans de montage dune vidéo
Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Graphe de scènes et Story Units (M. Yeung96) Les plans de montage dans chaque sont similaires entre eux. Continuité temporelle : pour le couple U, W donnée dans V, si il existe des plans (continuité dans le temps) Définissons - les indices du premier plan et du dernier plan représentés pas le graphe G Si STG G est construit à partir des plans alors et
Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Graphe de scènes et Story Units(II) Associons un graphe non-orienté à G. et G ont le même ensemble des nœuds et -pour tout de G il existe larête correspondante dans avec les mêmes nœuds incidents. Arête de rupture dans : est une arête de rupture si se décompose en deux composantes connexes. Lensemble des arêtes de rupture partitionne en ensemble des sous-graphes connexes, non-connéctés entre eux Il induit la partition correspondante sur G : avec la même F Story Unit représenté par est une séquence des plans Arêtes de rupture transitions entre story units
Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Graphe de scènes et Story Units (III) Groupement des plans dans les classes (clusteirng) Ci – une classe comportant les plans vidéo similaires Définissions Objectif : construire une partition de lensemble des plans en classes telle que Méthode : classification agglomerative hiérarchique (complete – link)
Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Graphe de scènes et Story Units (IV) Algorithme de classification (Complete-link) 1.Initialiser chaque cluster par un plan vidéo, NumCluster :=N 2. Arrêter si pour toutes les classes ou NumCluster=1 3. Trouver le couple des classes R et S les moins dissimilaires 4. Fusionner R et S dans une nouvelle classe NumCluster:=NumCluster Aller à 2.
Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Graphe de scènes et Story Units (V) Classification avec les contraintes temporelles Distance temporelle entre les plans La longueur de la fenêtre temporelle comme contrainte pour le processus de classification Le même algorithme de classification mais avec une distance modifiée :
Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Graphe de scènes et Story Units (VI) Distance –couleur ( ou corrélation) entre les plans -sappuie sur les images clés, ou un ensemble des images clés. -plusieurs choix sont possibles
Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Segmentation en Scènes/Hyperscènes avec des descripteurs spatio-temporels Scène (notée Si) : regroupement de plans consécutifs temporellement Hyper-scène (notée Hi) : regroupement de scènes non consécutives Plan Scène Hyper- scène Methode de J. Benois-Pineau, D. Barba, W. Dupuy, A. Manoury, H. Nicolas Hyper- scène
Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Block-diagramme Estimation du mouvement Segmentation en plan Suppression des objets Mesure de similarité Clustering en scène Clustering en hyper-scène Création des mosaïque couleur 1D Document vidéo codé MPEG2 Carte des outliers Images sans objets Liste des plans Paramètres du mouvement mosaïque couleur 1D Signatures couleur Similarité entre plans Regroupement en scènes Regroupement en Hyper-scènes
Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Espace de descripteurs spatio-temporels pour le groupement Signature visuelle : descripteur global dun plan vidéo permettant didentifier des plans sans ambiguïté. Exemples : histogramme couleur de tout un plan vidéo, vecteur des mesures des points caractéristiques spatio- temporels (x,y,t) etc.. Mosaïque Mosaïque 1D.
Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Mosaïque 1D : signature couleur dun plan Descripteur intégrant à la fois les informations spatiales et le mouvement vecteur–couleur obtenu par compensation du mouvement dans le domaine de la transformée Radon – « X-ray »
Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Mosaïques 1D Calcul des images X-Ray Relation entre le mouvement 2D et 1D 2D 1D J. BENOIS-PINEAU, W. DUPUY, D. BARBA TSI/2003, pp – 1200, Hermes-Lavoisier
Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Modèle de mouvement : affine à 3 paramètres translation (2), divergence (1) Méthode : estimation paramétrique robuste du mouvement global de la caméra entre couples dimages ( type I-P ou type P-P) à partir des vecteurs de déplacement (par macro-bloc) extraits du flux MPEG2 Interpolation des paramètres manquants pour les images de type I Informations de position des objets en mouvement : élimination des outliers Estimation du mouvement dx = t x + f(x-x g ) dy = t y + f(y-y g )
Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Document « Chancre coloré du platane », CERIMES © ( Plan n°32 le parasite en culture sur une coupe de platane : zoom avant)
Laboratoire Bordelais de Recherche en Informatique 23/02/2014
Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Champs de déplacement
Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Compensation du mouvement 1D Compensation dans le répère de la première image, Antilope, CERIMES Calcul des coordonnées 1D Début du plan -finalement au moment de temps de référence
Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Calcul des mosaïques 1D Calcul de la valeur Chancre coloré de platane, CERIMES
Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Groupement des plans en hyper-scènes Distance entre deux plans : BD – distance « des fonds » - est basée sur la compensation du mouvement entre les mosaïques CD – distance couleur : appariement de n segments de mosaïque Mos i avec n segments de Mosaïque Mos j (daprès H. Nicolas, A. Manoury, 2004)
Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Structurations de référence Hyperscène sémantique (« plancton ») Structuration manuelle sémantique (professionnel CERIMES) Structuration manuelle basée couleur (usager standard) Hyperscène couleur (« bleu vif »)
Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Structuration automatique (séquence Chancre) Exemples dhyper scènes similaires à la structuration manuelle H1 H2 H3 H4
Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Structuration automatique (séquence Chancre) Exemples dhyper scènes différentes des structurations manuelles, mais cohérentes H3 H1 H2 H4 Exemple dune hyper scène automatique peu cohérente
Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Performances Séquence « Chancre » - Plan recall et plan précision (%) calculé pour la structuration automatique et par référence à la structuration couleur Catégorie 1Catégorie 2Catégorie 3 Plan-recallPlan-précisionPlan-recallPlan-précisionPlan-recallPlan-précision
Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Indexation cross-média en scènes par détection des ruptures significatives du contenu Modèle du monde : coupure vidéo et silence audio – frontière dune scène J. Nesvadba, N. Louis, J. Benois-Pineau, M. Desainte-Catherine, M.K. Middelink, « Semantic content segmentation of audio-visual documents using cross –media analysis »
Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Mesure Statistique « Jitter » - « tremblement » audio-visuel
Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Méthode de décision Soit deux hypothèses : H0: Changement de scène. H1: Pas de changement de scène. P(H0) + P(H1) = 1. Théorème de Bayes– x un événement indépendant. Log-vraisemblance :
Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Résultats (I) Corpus composé de: 60 minutes de séries 30 minutes de magazine 100 minutes de film Deux types de résultats Résultats sur un mélange de genres vidéo en utilisant les détecteurs audio et vidéo automatiques. Résultats sur un mélange de genres vidéo en utilisant les détecteurs audio et vidéo idéaux.
Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Résultats (II) Détecteurs réelsDétecteurs idéaux RappelPrécisionRappelPrécision Jitter fixe +/ %46.00%94.44%71.43% Jitter fixe +/ %40.33%97.78%49.16% Jitter fixe +/ %31.65%98.89%32.72% Méthode statistique 73.33%45.52%93.34%72.41%