Laboratoire Bordelais de Recherche en Informatique 23/02/2014 5. Chapitrage des documents audio- visuels numériques Un plan de montage est une unité de.

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

Introduction à l’analyse
Traitement d’images : concepts fondamentaux
Traitement d’images : concepts avancés
Licence pro MPCQ : Cours
Apprentissage spectral
1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août
Classification et prédiction
Regroupement (clustering)
Regroupement (clustering)
RECONNAISSANCE DE FORMES
6. Quantification des signaux visuels. Codage prédictif (MICD)
1. Représentation du mouvement dans le plan - image
Laboratoire Bordelais de Recherche en Informatique 23/02/ Caractérisation du mouvement et méthodes par comparaison du mouvement - Présument une.
3. Analyse et estimation du mouvement dans la vidéo
4. Descripteurs du contenu
H.264/MPEG4 AVC H.263/MPEG4 V1. H.264/MPEG4 AVC Principes clés : Codage intra-image et inter-image par des blocs de taille variable et par combinaison.
5’. Extraction d’objets pour le chapitrage des documents audio-visuels numériques Objectifs : extraire les objets des séquences vidéo et indexer le contenu.
4.2. Descripteurs : BoF et BoW
Piecewise Affine Registration of Biological Images
Xialong Dai, Siamak Khorram
Indexation textuelle : Systèmes de recherche d’informations
Segmentation de séquences d’images au sens du mouvement
Identification des personnes par l’iris
Concepts avancés en mathématiques et informatique appliquées
Monique THONNAT et Nathanaël ROTA Projet ORION
1 Cours numéro 3 Graphes et informatique Définitions Exemple de modélisation Utilisation de ce document strictement réservée aux étudiants de l IFSIC.
Recherche d’un même objet / scène
Concepts avancés en mathématiques et informatique appliquées MAP-6014.
Approche statistique semi-paramétrique du recalage iconique d’images
Méthode des k plus proches voisins
Construction de modèles visuels
La segmentation
RECONNAISSANCE DE FORMES
Coloration gap sommet identifiante de graphes
Interprétation de séquences dimages pour des applications MédiaSpace Alberto AVANZI François BREMOND Monique THONNAT Projet ORION INRIA de Sophia Antipolis.
II- L’algorithme du recuit simulé (pseudo-code)
Synthèse Applications des réseaux de neurones en reconnaissance de formes et en vision par ordinateur.
Systèmes mécaniques et électriques
Courbes de Bézier.
Apprentissage semi-supervisé
Design dun système de vision embarqué. Application:
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Appariement de deux images
Interprétation automatique
Cours #9 Segmentation Découverte 4- Segmentation Introduction
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
I MAGIS est un projet commun CNRS - INPG - INRIA - UJF iMAGIS-GRAVIR / IMAG Optimisation à base de flot de graphe pour l'acquisition d'informations 3D.
Géométrie épipolaire (deux vues)
Segmentation (1ère partie)
1 Modèles de particules Reeves, W. T., "Particle Systems - A technique for Modeling a Class of Fuzzy Objects," SIGGRAPH 83, Reeves, W. T., and.
Graphes 1. Introduction 2. Définition 3. Représentation mémoire
Projet Télédétection Vidéo Surveillance Deovan Thipphavanh – Mokrani Abdeslam – Naoui Saïd Master 2 Pro SIS / 2006.
Monitoring Détection de séquences vidéo en temps réel dans une grande base de données Julien Law-to 23/07/2004.
Suivi d’individus et interprétation vidéo
Classification : objectifs
Modèles Mathématiques et représentation discrètes pour la description des images couleur Luc Brun.
DESIGN MULTIMÉDIA Initiation aux bases de La scénarisation multimédia
Présentation RFIA janvier 2002
Apparence globale 1 image = 1 vecteur Base apprentissage Rotation –capture les variabilités Troncature –Quelques coefficients Représentation linéaire Espace.
SUJETS SPÉCIAUX EN INFORMATIQUE I
Monitoring Détection de séquences vidéo en temps réel dans une grande base de données Julien Law-to 22/06/2004.
Combating Web Spam with TrustRank. OSINI Aurélien.
Sabrina Tollari, Hervé Glotin, Jacques Le Maitre
Traitements d'images et Vision par ordinateur
PIF-6003 Sujets spéciaux en informatique I
Exemple et critique d’un système de vision simple Patrick Hébert (dernière révision septembre 2008) Référence complémentaire: Shapiro et Stockman: chap.
Reconnaissance d’objets 3D –point de vue complètement différent –pas d’invariant 3D Difficultés :
Jean Gaudart1 Détection de clusters spatiaux d'évènements Jean Gaudart Labo. Biostatistiques Faculté de Médecine de Marseille.
Transcription de la présentation:

Laboratoire Bordelais de Recherche en Informatique 23/02/ Chapitrage des documents audio- visuels numériques Un plan de montage est une unité de base. Afin dassurer une description moins redondante – groupement des plans en scènes t=2283t=2457 t=2646 t=2802 …t=11322 t=11526 t=13698

Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Groupement en scènes Typologie des approches : (1) Considérer des images-clés représentatives de chaque plan et les regrouper en classes-scènes dans lespace de description des images (2) Considérer des descripteurs globaux pour les plans de montage et regrouper les plans dans lespace de description des plans (3) trouver les frontières significatives de rupture du contenu vidéo ou audio/vidéo

Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Algorithmes de classification-groupement appliqués au groupement en scènes Les descripteurs vidéo sont représentés par des vecteurs Il sagit de partitionner lespace ou un domaine en classes – scènes Classification : supervisée et non-supervisée. - CS : les classes sont connues a priori, on doit affecter à chaque vecteur dentrée sa classe (ex. scènes de lintérieur / de lextérieur après lapprentissage) -CSN : les classes sont à déterminer en fonction de la distribution (structure) des données dans lespace.

Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Algorithme de K-moyennes(I) J. MacQueen, Some methods for classification and analysis of multivariate observations, Proc. Of the Fifth Berkley Symposium on Math. Stat. And Prob., pp. 281 – 296, 1967 Principe : CNS avec le nombre des classes connus a priori. Paramètre : le nombre k de classes entrée : un échantillon de M vecteurs-descritpeurs x 1,... x M. (1) Choisir k centres initiaux c 1,... c k (2). Pour chacun des M vecteurs, l'affecter à la classe i dont le centre c i est le plus proche (3). Si aucun élément ne change de classe alors arrêt. (4). Calculer les nouveaux centres : pour tout i, c i est la moyenne des éléments de la classe i ( 5). Aller en 2

Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Classification hiérarchique agglomérative Principes : (1) A linitialisation chaque vecteur descripteur dans léchantillon de données forme une classe. (2) Tant que le nombre de classes est supérieur à k ( à la limite k=1) Regrouper les classes les plus proches au sens dune distance D Distance entre les classes lien minimal lien maximal distance moyenne daprès A. Laurent, LIRMM

Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Dendrogramme daprès S. Benini, ICIP2006

Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Problèmes sous-jacents Choisir les descripteurs x des plans vidéo : descripteurs de bas – niveau ( couleur dominante, activité en mouvement,…) descripteurs de niveau « moyen » sémantique : ex. présence des visages Définir des mesures de similarité adéquates : Euclidienne – calculs importants, uniforme Hamming : représentation binaire (booléenne) « Distorsion de codage » Difficultés dévaluation par rapport à la vérité terrain « manuelle »

Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Graphe de scènes et Story Units (M. Yeung96) Graphe de transition des scènes (STG) – une représentation compacte de la structure (scénario) dune vidéo STG est un graphe orienté avec V - ensemble des nœuds, E – ensemble des arêtes - ensemble des plans de montage dune vidéo

Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Graphe de scènes et Story Units (M. Yeung96) Les plans de montage dans chaque sont similaires entre eux. Continuité temporelle : pour le couple U, W donnée dans V, si il existe des plans (continuité dans le temps) Définissons - les indices du premier plan et du dernier plan représentés pas le graphe G Si STG G est construit à partir des plans alors et

Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Graphe de scènes et Story Units(II) Associons un graphe non-orienté à G. et G ont le même ensemble des nœuds et -pour tout de G il existe larête correspondante dans avec les mêmes nœuds incidents. Arête de rupture dans : est une arête de rupture si se décompose en deux composantes connexes. Lensemble des arêtes de rupture partitionne en ensemble des sous-graphes connexes, non-connéctés entre eux Il induit la partition correspondante sur G : avec la même F Story Unit représenté par est une séquence des plans Arêtes de rupture transitions entre story units

Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Graphe de scènes et Story Units (III) Groupement des plans dans les classes (clusteirng) Ci – une classe comportant les plans vidéo similaires Définissions Objectif : construire une partition de lensemble des plans en classes telle que Méthode : classification agglomerative hiérarchique (complete – link)

Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Graphe de scènes et Story Units (IV) Algorithme de classification (Complete-link) 1.Initialiser chaque cluster par un plan vidéo, NumCluster :=N 2. Arrêter si pour toutes les classes ou NumCluster=1 3. Trouver le couple des classes R et S les moins dissimilaires 4. Fusionner R et S dans une nouvelle classe NumCluster:=NumCluster Aller à 2.

Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Graphe de scènes et Story Units (V) Classification avec les contraintes temporelles Distance temporelle entre les plans La longueur de la fenêtre temporelle comme contrainte pour le processus de classification Le même algorithme de classification mais avec une distance modifiée :

Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Graphe de scènes et Story Units (VI) Distance –couleur ( ou corrélation) entre les plans -sappuie sur les images clés, ou un ensemble des images clés. -plusieurs choix sont possibles

Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Segmentation en Scènes/Hyperscènes avec des descripteurs spatio-temporels Scène (notée Si) : regroupement de plans consécutifs temporellement Hyper-scène (notée Hi) : regroupement de scènes non consécutives Plan Scène Hyper- scène Methode de J. Benois-Pineau, D. Barba, W. Dupuy, A. Manoury, H. Nicolas Hyper- scène

Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Block-diagramme Estimation du mouvement Segmentation en plan Suppression des objets Mesure de similarité Clustering en scène Clustering en hyper-scène Création des mosaïque couleur 1D Document vidéo codé MPEG2 Carte des outliers Images sans objets Liste des plans Paramètres du mouvement mosaïque couleur 1D Signatures couleur Similarité entre plans Regroupement en scènes Regroupement en Hyper-scènes

Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Espace de descripteurs spatio-temporels pour le groupement Signature visuelle : descripteur global dun plan vidéo permettant didentifier des plans sans ambiguïté. Exemples : histogramme couleur de tout un plan vidéo, vecteur des mesures des points caractéristiques spatio- temporels (x,y,t) etc.. Mosaïque Mosaïque 1D.

Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Mosaïque 1D : signature couleur dun plan Descripteur intégrant à la fois les informations spatiales et le mouvement vecteur–couleur obtenu par compensation du mouvement dans le domaine de la transformée Radon – « X-ray »

Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Mosaïques 1D Calcul des images X-Ray Relation entre le mouvement 2D et 1D 2D 1D J. BENOIS-PINEAU, W. DUPUY, D. BARBA TSI/2003, pp – 1200, Hermes-Lavoisier

Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Modèle de mouvement : affine à 3 paramètres translation (2), divergence (1) Méthode : estimation paramétrique robuste du mouvement global de la caméra entre couples dimages ( type I-P ou type P-P) à partir des vecteurs de déplacement (par macro-bloc) extraits du flux MPEG2 Interpolation des paramètres manquants pour les images de type I Informations de position des objets en mouvement : élimination des outliers Estimation du mouvement dx = t x + f(x-x g ) dy = t y + f(y-y g )

Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Document « Chancre coloré du platane », CERIMES © ( Plan n°32 le parasite en culture sur une coupe de platane : zoom avant)

Laboratoire Bordelais de Recherche en Informatique 23/02/2014

Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Champs de déplacement

Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Compensation du mouvement 1D Compensation dans le répère de la première image, Antilope, CERIMES Calcul des coordonnées 1D Début du plan -finalement au moment de temps de référence

Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Calcul des mosaïques 1D Calcul de la valeur Chancre coloré de platane, CERIMES

Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Groupement des plans en hyper-scènes Distance entre deux plans : BD – distance « des fonds » - est basée sur la compensation du mouvement entre les mosaïques CD – distance couleur : appariement de n segments de mosaïque Mos i avec n segments de Mosaïque Mos j (daprès H. Nicolas, A. Manoury, 2004)

Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Structurations de référence Hyperscène sémantique (« plancton ») Structuration manuelle sémantique (professionnel CERIMES) Structuration manuelle basée couleur (usager standard) Hyperscène couleur (« bleu vif »)

Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Structuration automatique (séquence Chancre) Exemples dhyper scènes similaires à la structuration manuelle H1 H2 H3 H4

Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Structuration automatique (séquence Chancre) Exemples dhyper scènes différentes des structurations manuelles, mais cohérentes H3 H1 H2 H4 Exemple dune hyper scène automatique peu cohérente

Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Performances Séquence « Chancre » - Plan recall et plan précision (%) calculé pour la structuration automatique et par référence à la structuration couleur Catégorie 1Catégorie 2Catégorie 3 Plan-recallPlan-précisionPlan-recallPlan-précisionPlan-recallPlan-précision

Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Indexation cross-média en scènes par détection des ruptures significatives du contenu Modèle du monde : coupure vidéo et silence audio – frontière dune scène J. Nesvadba, N. Louis, J. Benois-Pineau, M. Desainte-Catherine, M.K. Middelink, « Semantic content segmentation of audio-visual documents using cross –media analysis »

Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Mesure Statistique « Jitter » - « tremblement » audio-visuel

Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Méthode de décision Soit deux hypothèses : H0: Changement de scène. H1: Pas de changement de scène. P(H0) + P(H1) = 1. Théorème de Bayes– x un événement indépendant. Log-vraisemblance :

Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Résultats (I) Corpus composé de: 60 minutes de séries 30 minutes de magazine 100 minutes de film Deux types de résultats Résultats sur un mélange de genres vidéo en utilisant les détecteurs audio et vidéo automatiques. Résultats sur un mélange de genres vidéo en utilisant les détecteurs audio et vidéo idéaux.

Laboratoire Bordelais de Recherche en Informatique 23/02/2014 Résultats (II) Détecteurs réelsDétecteurs idéaux RappelPrécisionRappelPrécision Jitter fixe +/ %46.00%94.44%71.43% Jitter fixe +/ %40.33%97.78%49.16% Jitter fixe +/ %31.65%98.89%32.72% Méthode statistique 73.33%45.52%93.34%72.41%