Indexation et recherche de vidéo

Indexation et recherche de vidéo
Chapitre V Indexation et recherche de vidéo

Plan Introduction Segmentation d’une vidéo en plans
Indexation et recherche de vidéo par les trames représentatives Indexation et recherche de vidéo par le mouvement Représentation et abstraction de vidéo Conclusion

Introduction : Les méthodes utilisées pour la recherche et l’indexation de vidéo : Méthodes basées sur les métadonnées. Les métadonnées sont tels que le titre de la vidéo, l’auteur, le producteur, le réalisateur, la date de production et le type de vidéo. Méthode textuelle. La vidéo est indexée et recherchée en se basant sur les sous-titres qui lui sont associées. Méthode basée sur l’audio. La reconnaissance de la parole est appliquée au signal audio.

Introduction : Les méthodes basées sur le contenu.
1ère approche. Elle considère la vidéo comme une collection de trames indépendantes (images). Pb : a) Elle ne prend pas en compte les relations temporelles entre les trames. b) Elle devra traiter un grand nombre de trames. 2ème approche. La vidéo est segmentée en groupe de trame. L’indexation et la recherche de vidéo dans ce cas sont basées sur la trame représentante du groupe. Les approches intégrées (utilisent deux ou plusieurs de ces méthodes).

Segmentation en plans :
La segmentation en plans est l'identification automatique des bornes des plans dans une vidéo (points de montage définis à l'origine par le réalisateur) Les trames d’un plan sont telles que : 1. Les trames représentent la même scène; 2. Les trames sont associées à une seule opération de la caméra; 3. Les trames contiennent un événement ou une action telle que la présence d'un objet; 4. Les trames sont choisies comme une entité indexable.

Les étapes de RI par le plan sont :
• La première étape concerne la segmentation de la vidéo en plans. Cette étape est appelée segmentation temporelle de la vidéo ou détection de plans. • La deuxième étape est l’indexation des plans. L'approche utilisée dans cette étape est d’identifier les trames clés ou les trames représentatives (trame r) pour chaque plan. On utilise pour cela les méthodes d’indexation d’image du chapitre 5. • La troisième étape est l’application d’une mesure de similarité entre les requêtes et les plans et rechercher les plans ayant une grandes similarité. On utilise pour cela les méthodes de recherche et d’extraction d’image du chapitre 5.

Types de transitions entre plans :
Transition brusque Transition progressive (les fondus au noir(dissolve), les fondus enchaînés (dissolve), les volets (fade-in, fade-out), etc.)

fondus au noir fondus enchaînés violets

Technique de base de segmentation
La question clé de détection de plans est comment mesurer les différences du trame-à-trame. 1ère méthode : La mesure la plus simple est la somme des différences du pixel-à-pixel entre trames avoisinantes. Si la somme est plus grande qu'un seuil préfixé, une borne de plan est détectée entre ces deux trames. Pb : De fausses bornes de plans sont détectées. Deux trames dans un plan peuvent avoir une grande différence pixel-à-pixel si un objet est en mouvement dans ces trames.

2ème méthode : Elle utilise l’histogramme de couleur pour mesurer la distance entre les trames voisines. Le principe derrière cette méthode est que le mouvement d'objet induit une petite différence de l'histogramme. La différence entre la ième trame et son successeur est donné par la formule suivante: Si SDi est plus grand qu'un seuil prédéfini, une borne de plan est déclarée.

Pour la vidéo couleur, cette méthode prend en compte les composantes couleurs. Pour réduire le calcul, nous choisissons seulement deux ou trois bits significatifs de chaque composante. Par exemple, si trois bits pour chaque composante couleur sont utilisés, l'histogramme a un total de 512 bins. 3ème méthode : Elle est une modification de la deuxième méthode. La distance de trame est calculée comme suit: Elle appelée test χ2 Le seuil est normalement choisi comme la moyenne de la différence du trame-à-trame plus une petite valeur de tolérance.

Détection de plans avec transition progressive
Dans la pratique, les techniques de base précitées ne peuvent pas détecter les bornes des plans quand la transition entre les trames est progressive. La méthode de la twin-comparison : Elle permet de détecter les transitions brusques ainsi que les transitions progressives. Elle utilise deux seuils de différence : Le seuil Th qui détecte les points de montage, et un second seuil plus petit Tl qui détecte les trames potentielles où un changement progressive peut se produire.

Si la somme des différences trame-à-trame est supérieur à Th , une borne de plan est détectée

Segmentation de vidéo dans le domaine compressé
La plupart des vidéos sont stockés dans un format compressé. Il serait donc avantageux de réaliser la segmentation en plans directement sur les données compressées. Vidéo compressé par MPEG Deux types d'information sont utilisés pour la segmentation de la vidéo : les coefficients DCT et l’information de mouvement.

Segmentation Les coefficients DCT :
Dans MPEG, la transformation DCT est appliquée aux blocs des trames I. Par conséquent, les coefficients DCT pour chaque bloc sont facilement obtenus du flux vidéo MPEG. Parmi les 64 coefficients DCT de chaque bloc, le premier coefficient, appelé le coefficient DC, représente l'intensité moyenne de ce bloc.

Une image DC est formée en utilisant les coefficients DC de chaque bloc. L'image DC est 64 fois plus petite que l'image originale, mais contient la caractéristique principale de l'image originale. Les distances trame-à-trame discuté précédemment peuvent encore être utilisées. Mais les calculs de ces distances sont beaucoup plus rapides. Les coefficients DCT peuvent être tirés directement du flux MPEG

Segmentation par l’information de mouvement: On démarre du principe qu’une suite d’images contenant peu de mouvement peut être regroupée pour former un plan vidéo en excluant le mouvement de panning et le zooming de la caméra qui peuvent induire le mouvement d’objet sur une vidéo. Elle peut être utilisée en deux étapes. 1ère étape : déterminer les opérations de la caméra telles que le panning et le zooming basées sur les directions des vecteurs de mouvement. 2ème étape : segmenter la vidéo en comptant le nombre de macro-blocs codés des trames B. Si le nombre de macro-blocs codés des trames B est au-dessous d'un certain seuil, c'est possible qu'une borne de plan se produise autour de cette trame.

Indexation et recherche basées sur les trames clés (trames r)
Une façon de créer un index d’un plan est d'utiliser une trame représentative ou trame clé ( trame r) pour chaque plan. La trame r capture le contenu principal du plan. Durant la recherche les requêtes sont comparées avec les descripteurs des trames r. Comment choisir une trame r pour un plan?

Choix des trames r Deux questions s’imposent :
combien de trames r devraient être utilisées dans un plan? comment choisir ces trames r dans un plan? Réponse à la 1ère question : Si les plans sont complètement statiques, toute trame dans le plan peut être utilisée comme trame représentative. S’il y a beaucoup de mouvement d'objet dans le plan. Plusieurs méthodes sont proposées : 1ère méthode : Elle utilise une trame r pour chaque plan. L’inconvénient de cette méthode est qu'elle ne prend pas en compte la longueur et le changement de contenu des plans.

2ème méthode : Elle assigne un certain nombre de trames r aux plans de façon proportionnelle à leur longueur. Si la longueur d'un plan est égale à ou moins une seconde, seule une trame r est assignée au plan. Si la longueur d'un plan est plus longue qu'une seconde, une trame r est assignée à chaque seconde de vidéo. La deuxième méthode prend en compte la longueur du plan, mais elle ignore son contenu. 3ème méthode : Elle divise un plan en sous plans et affecte une trame r à chaque sous plan. Les sous plans sont détectés en se basant sur les changements dans le contenu. Le changement de contenu est déterminé en utilisant les vecteurs de mouvement, le flux optique et la différence du trame-à-trame.

Réponse à la 2ème question : 1ère méthode : La première trame de chaque segment est utilisée comme trame r. Ce choix est basé sur l'observation que les cinématographes essaient de "caractériser" un segment avec les premières trames. Donc la première trame d'un segment capture le contenu total du segment. 2ème méthode : Une trame moyenne est définie tel que chaque pixel de cette trame soit la moyenne des pixels de toutes les trames du segment. La trame r à choisir est la plus similaire à cette trame moyenne. 3ème méthode : On calcule l’histogramme moyen de toutes les trames du segment. La trame dont l'histogramme est le plus proche de cet histogramme moyen est sélectionnée comme trame représentative.

Indexation et recherche par le mouvement
L’information de mouvement est intrinsèquement liée au contenu spatio-temporel et dynamique des données vidéos, où plusieurs types de mouvement sont en général présents, incluant mouvements globaux de la caméra et mouvements des objets individuels.

Indexation et recherche par le mouvement
L’IR par les trames r ignorent la dimension temps et l’information de mouvement. L’IR par le mouvement complète L’IR par les trames r. L’objectif de l’IR par le mouvement est de capturer les caractéristiques du mouvement en une forme concise et réelle pour un champ de mouvement éparse ou dense (donc simplifier l’extraction des caractéristiques de mouvement et simplifier le calcul de similarité basé sur le mouvement). L’information de mouvement est intrinsèquement liée au contenu spatio-temporel et dynamique des données vidéos, où plusieurs types de mouvement sont en général présents, incluant mouvements globaux de la caméra et mouvements des objets individuels.

Flot optique : Si un pixel à (x, y) et au temps t se déplace vers (x+ vx , y+ vy) au temps (t+δt), en supposant que l’intensité reste la même, on a : I(x, y, t)= I(x+ vx , y+ vy , t+δt ) où I est l’intensité de l’image et est le vecteur de flot optique. Schématiquement un flot optique peut être est comme ci-contre :

Description de mouvement MPEG-7

Descripteur de Mouvement 3D de la Caméra
(Camera Motion Descriptor) Ce descripteur est fondé sur une modélisation complète des mouvements d’une caméra 3D, illustré comme suit : Ces mouvements correspondant à des manipulations physiques dans l’espace 3D, s'ajoutent ceux de zoom-avant et zoom-arrière, dus au changement de focale.

Les paramètres de mouvement associés à une caméra
La caméra est spécifié par trois paramètres de translation Tx, Ty, Tz, trois paramètres de rotation, notés Rx, Ry, Rz et un paramètre qui contrôle le zoom, noté Rzoom.

Les vitesses apparentes 2D, notées induites par la projection perspective des mouvements 3D de la caméra dans la scène 2D, s’expriment par : où f désigne la distance focale de la caméra.

le descripteur retient les "quantités" de ces mouvements individuels, définies à base de mesures de l’aire de recouvrement d’images successives correspondant à chaque mouvement individuel de la caméra.

Pour pouvoir caractériser le mouvement global sur l’ensemble des trames vidéos d’un plan ou d’une scène, une deuxième approche, à base de moments statistiques du premier et deuxième ordre, calculés sur l’ensemble des vecteurs de mouvement 2D, a été adoptée par MPEG-7. Il s’agit du descripteur d’activité de mouvement.

Descripteur d’activité de mouvement (Motion Activity Descriptor)
Ce descripteur offre une mesure de la quantité du mouvement présent dans un plan. Il exploite les vecteurs de compensation de mouvement associés aux macroblocs MPEG (blocs carrés de dimension 16 × 16 pixels), codés en mode prédictif. L’avantage réside ici dans le fait que ces vecteurs sont déjà inclus dans les flux MPEG-1, 2 et 4 et peuvent être déterminés sans nécessiter un décodage complet de la vidéo. Quant aux macroblocs codés en mode intra, qui n’ont pas de vecteur mouvement associé, leur vitesse est considérée comme nulle. our chaque vecteur de vitesse vi = (vix, viy), on calcule son amplitude ai et son orientation θi , données par :

Le descripteur d’activité de mouvement est composé des éléments suivants :
- L'intensité de l'activité du mouvement, représentée sous forme d’un nombre entier prenant ses valeurs entre 1 et 5. Elle correspond intuitivement à des niveaux croissants d’activité de mouvement. Comme exemples de vidéos de faible activité de mouvement citons les interviews, les présentations de journaux télévisés. Parmi les séquences typiques d’une forte activité, on retrouve les retransmissions sportives ou les scènes d’action dans des films (poursuites, cascades, etc.). - La direction dominante du mouvement, résultant d’une quantification grossière de l'orientation moyenne sur 8 directions. Elle est représenté par un entier de 8 bits. - La distribution temporelle de l'activité sur l’ensemble d'un plan, représentée par un histogramme à 5 intervalles, correspondant chacun aux 5 niveaux d'intensité du mouvement. Chaque intervalle exprime la durée relative de chaque niveau d'intensité dans la séquence considérée. - La distribution spatiale de l’activité. Pour une personne qui parle, une seule région est active. Une rue peut avoir plusieurs régions actives. Elle est exprimée par 3 entiers de 16 bits. Seul le premier attribut est obligatoire. Les autres sont facultatifs. Ce descripteur MPEG-7 peut prendre un espace mémoire de 3 jusqu’à 52 bits.

Descripteur de Trajectoire (Motion Trajectory Descriptor)
Les trajectoires fournissent une représentation simplifiée du mouvement d'un objet dans une séquence vidéo, à partir de points clés (keypoints) correspondant aux positions d’un point d’intérêt de l’objet (le plus souvent, son centre de gravité) à différents instants temporels. Pour déterminer les positions de l’objet à l’intérieur d’un intervalle temporel [ta,tb] un mécanisme d’interpolation est défini les équations suivantes :

Le descripteur de mouvement paramétrique (Parametric Motion Descriptor)
Le principe consiste à représenter le mouvement d'un objet entre deux trames successives par un modèle de transformation géométrique paramétrique, quadratique, projective, affine, affine simplifié ou constant.

Les modèles affines permettent de caractériser une large classe de mouvements 2D, comme des translations, rotations et changement d’échelle.

Représentation et abstraction de la vidéo
La vidéo est riche en information. Elle exige un grand espace mémoire et elle possède une dimension temps. Donc il est important de disposer d’outils de visualisation, présentation et navigation, facilitant l’accès de l’utilisateur aux contenus multimédias à de multiples niveaux d’abstraction. Il y a plusieurs approches d'organisation et de représentation des vidéos d'une manière compacte. Classification thématique (par sujet) Icône de mouvement ou icône de vidéo Navigateur hiérarchique de vidéo Storyboard Video skimming Les mosaiques

Classification thématique (par sujet)

Icône de mouvement ou icône de vidéo

Navigateur hiérarchique de vidéo

Storyboard

Video skimming (Voir original and skimmed video)

Les mosaiques (Mosaicking, video sprites)
Ce sont des images panoramiques obtenues après avoir aligné, par juxtaposition et composition, plusieurs images du même plan. Dans cette approche, le contenu de chaque plans est résumé par une image mosaïque

Conclusion

Indexation et recherche de vidéo

Présentations similaires

Présentation au sujet: "Indexation et recherche de vidéo"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Indexation et recherche de vidéo

Présentations similaires

Présentation au sujet: "Indexation et recherche de vidéo"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back