S. Jouteau, A. Cornuéjols, M. Sebag (LRI)

Slides:



Advertisements
Présentations similaires
Apprentissage supervisé et non supervisé sur les données INDANA
Advertisements

Traitement d’images : concepts avancés
Distance inter-locuteur
Systèmes d ’Information :
A. Cornuéjols IAA (basé sur Rob Schapires IJCAI99 talk) Combiner des apprenants: le boosting.
Data Mining.
Classification et prédiction
Classification et prédiction
Règles d’association.
Transition image classique image numérique
RECONNAISSANCE DE FORMES
Image et apprentissage
JXDVDTEK – Une DVDthèque en Java et XML
Modèle Entités-Associations
Application de réseaux bayésiens à la détection de fumées polluantes
Yann Chevaleyre et Jean-Daniel Zucker
Estimation du mouvement dans des images biomédicales
3. Analyse et estimation du mouvement dans la vidéo
Complexité et Classification
Les tests d’hypothèses
Le pixel ~ Échelle de grandeur en 2 2n (avec n nombre entier)
1 Efficient Data and Program Integration Using Binding Patterns Ioana Manolescu, Luc Bouganim, Francoise Fabret, Eric Simon INRIA.
Alexandre Aussem, Jean-Marc Petit LIMOS, Clermont-Ferrand
BDA'02 1 Tolérance aux fautes (TaF) adaptable pour les systèmes à composants : application à un gestionnaire de données Phuong-Quynh Duong, Elizabeth Pérez-Cortés,
Fusion de données SENSO
Image Processing using Finite Automata Jean-Christophe Janodet Journée SATTIC.
1 Analyse de la variance multivariée Michel Tenenhaus.
Génération de colonnes
Apprendre à partir des observations
Un neurone élémentaire
Des RRA à la diagnosticabilité
Application des algorithmes génétiques
15. 1 MILLION $ $ $ $ $ $ $ $ $ $ 04.
Analyse factorielle.
Classification Multi Source En Intégrant La Texture
Applications du perceptron multicouche
Réalisateur : PHAM TRONG TÔN Tuteur : Dr. NGUYEN DINH THUC
Concepts avancés en mathématiques et informatique appliquées MAP-6014.
Introduction à la conception de Bases de Données Relationnelles
Suppression des Itemsets Clés Non- Essentiels en Classification V. Phan-Luong Université Aix-Marseille Laboratoire d'Informatique Fondamentale de Marseille.
1.2 COMPOSANTES DES VECTEURS
Méthode des k plus proches voisins
LA PHOTO LA LUMIÈRE.
Construction de modèles visuels
Rappel... Solution itérative de systèmes linéaires (suite et fin).
RECONNAISSANCE DE FORMES
Plan d’expérience dynamique pour la maximisation
Corrélation Principe fondamental d’une analyse de corrélation
3.2 PRODUIT VECTORIEL Cours 7.
Universté de la Manouba
Cours de Base de Données & Langage SQL
Structure discriminante (analyse discriminante)
1 Séminaire LOVe du 29/03/07 Combinaison d'objets (fusion centralisée) T3.2 Combinaison de pistages (fusion décentralisée) T3.3.
Chapitre 4 : Morphologie Mathématique
Pr. M. Talibi Alaoui Département Mathématique et Informatique
Introduction au calcul quantique
Initiation aux bases de données et à la programmation événementielle
Cours #9 Segmentation Découverte 4- Segmentation Introduction
Caractérisation texturale des surfaces boisées dans une image Ikonos de la région de Montréal Pierre Bugnet Langis.
Fouille de données issues de capteurs : problématique et méthodes Journée “Les Capteurs en Agriculture” Paris 18 avril 2014 Pascal Poncelet
Christelle Scharff IFI 2004
Les réseaux de neurones à réservoir en traitement d’images
Institut de sciences et technologies Département d’informatique
Apprentissage « machine »
6° Conférence Francophone de Modélisation et de simulation 3 / 5 Avril Rabat Outil d’aide à l’analyse des interactions de contraintes pour l’ordonnancement.
Classification de données par l’algorithme FPSO-GA
Les réseaux de neurones à réservoir en traitement d’images
Hervé Guillaume Université Paris-Sud Groupe Perception Située – LIMSI CNRS Directeur Scientifique : Philippe Tarroux Amorçage contextuel pour la perception.
Initiation aux bases de données et à la programmation événementielle
Exemple et critique d’un système de vision simple Patrick Hébert (dernière révision septembre 2008) Référence complémentaire: Shapiro et Stockman: chap.
Transcription de la présentation:

Nouveaux résultats en classification à l’aide d’un codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard (LIMSI) CNRS - Université de Paris-Sud, Orsay EGC-03.

Données en grandes dimensions Définies par un très grand nombre d’attributs (Note : l’un des 10 pbs soulevés lors du congrès mondial de mathématiques en 2000) Exemples : Puces ADN E.g. 6400 gènes, organismes sains ou irradiés Images E.g. 256*256*(256 niveaux de gris) Formes présentes dans l’image En grande dimension : • le volume des hypercubes tend à se concentrer dans les coins • Le volume d’une hyperellipsoïde tend à se concentrer dans la « peau » Donc les données multivariables ont tendance à se concentrer sur des structures de dimension plus faible. Bases d’images de scènes naturelles : Car encore mal maîtrisées Statistique différente de la statistique des images en milieu artificiel Journée « Fouille d’images » 01/04/03

L’objectif Identifier des régularités dans des données de très grandes dimensions Apprentissage supervisé multi-classes Beaucoup de dimensions + peu d’exemples = Difficulté pour distinguer vraies régularités et coïncidences Journée « Fouille d’images » 01/04/03

Prétraitements Réduction de dimension Sélection d’attributs Élimination des redondances (ACP, …) Recherche de corrélations (attribut-classe) Modélisation : hypothèses sur la statistique du signal Analyse de Fourrier Analyse en ondelettes Journée « Fouille d’images » 01/04/03

Cas de l’analyse de scènes Scènes naturelles ≠ scènes artificielles Observations neurobiologiques : codage clairsemé Hypothèse : signal résultant d’une superposition de « formes latentes » Analyse en composantes indépendantes (ACI) Journée « Fouille d’images » 01/04/03

L’analyse en composantes indépendantes ( Introduite en 1984. Développée dans les 90s ) Hyp. de base : les données résultent d’une combinaison linéaire de formes latentes Recherche de ces formes latentes Mais : Inapplicable en grande dimension Hypothèse de linéarité Journée « Fouille d’images » 01/04/03

L’ACI en analyse de scènes Les scènes sont décomposées en imagettes … … codées par des superpositions linéaires de formes latentes Journée « Fouille d’images » 01/04/03

Le projet Peut-on rechercher directement un codage clairsemé ? Idée : adapter des techniques de fouilles de données Recherche de motifs fréquents Journée « Fouille d’images » 01/04/03

Les motifs fréquents Codage clairsemé En général : Le problème Étant donné une base de données consistant en tuples, trouver des règles d’association prédisant avec confiance quels items se trouvent souvent ensemble (Frequent ItemSets) Exemple canonique (mais mythique) Les caddys dans les supermachés Un tuple = ensemble d’items achetés ensemble En général : Beaucoup de motifs fréquents Mais peu qui soient vérifiés ensemble Codage clairsemé Journée « Fouille d’images » 01/04/03

Contraintes sur les motifs Représentativité Chaque image correspond à un nombre suffisant de motifs Codage clairsemé Chaque image correspond à un nombre limité de motifs Orthogonalité des motifs Chaque couple de motifs a peu d’images en commun + Contraintes sémantiques E.g. : motifs connexes (zones de l’image) E.g. : motifs en ligne (contours) … Journée « Fouille d’images » 01/04/03

Les données Base d’images tirées de la base COREL 12 classes différentes de scènes Base de 1080 images (90 images / classe) 128 x 128 = 16384 en 128 niveaux de gris ou : 64 x 64 = 4096 en 32 ou 16 niveaux de gris On utilise 540 images pour chercher 1000 motifs fréquents Journée « Fouille d’images » 01/04/03

La base d’images Journée « Fouille d’images » 01/04/03

Pour images 32 x 32 en 64 niveaux de gris Constat L’application directe de APRIORI est impossible Il y a trop de motifs fréquents Pour images 32 x 32 en 64 niveaux de gris Il faut adapter l’algorithme et faire une recherche stochastique et non plus exhaustive Nb. élts / motif 1 2 3 4 5 6 Nb motifs 2 103 110 103 3,8 106 80 106 1,15 109 12,5 109 Journée « Fouille d’images » 01/04/03

Adaptation de l’algorithme Recherche itérative et stochastique de motifs fréquents Paramètres : taux de couverture e. Nombre de motifs cherchés = N Nombre de motifs trouvés = n Tant que n ≤ N faire Choix dans un exemple xi encore peu couvert d’un premier atome a0 présent dans au moins e des exemples motif <- a0 Tant que taux de couverture de motif > e faire Tirer au hasard un atome a de xi couvrant au moins e des exemples et peu utilisé dans les motifs existants et satisfaisant les contraintes sémantiques Si motif+a couvre au moins e des exemple alors motif <- motif +a fin si Fin tant que Journée « Fouille d’images » 01/04/03

Les expériences Nouvelles contraintes (choix des pixels) Paramètres Min : les moins présents dans les motifs Connexe : touchant les précédents Ligne : formant des lignes Paramètres Taille image : 64 x 64 x 16 (niveaux de gris) Taux de couverture : 1, 2, 5, 10 % Journée « Fouille d’images » 01/04/03

Codage clairsemé Nb de FIS / images 10 20 30 40 50 Journée « Fouille d’images » 01/04/03

Codage clairsemé Nb de FIS / images Journée « Fouille d’images » 01/04/03

Orthogonalité Nb images par couple de motifs Journée « Fouille d’images » 01/04/03

FIS : min_1% Journée « Fouille d’images » 01/04/03

FIS : min_1% Journée « Fouille d’images » 01/04/03

FIS : connexe_1% Journée « Fouille d’images » 01/04/03

FIS : connexe_1% Journée « Fouille d’images » 01/04/03

FIS : ligne_1% Journée « Fouille d’images » 01/04/03

FIS : ligne_1% Journée « Fouille d’images » 01/04/03

Analyse Difficilement interprétables !! Pas de contours, même quand contraintes dans ce sens Malheureusement pas de comparaison possible avec ACI puisque ACI non praticable Journée « Fouille d’images » 01/04/03

La classification : le protocole Apprentissage d’une base de 1000 motifs sur 540 images Les paramètres : Taille image (32 x 32, 64 x 64 ou 128 x 128) Niveaux de gris (16, 32 ou 64) Taux de couverture (1%, 2%, 5% ou 10%) Test sur les 540 images restantes (répété 10 fois) Note : Tous les résultats sont disponibles sur : http://www.eleves.iie.cnam.fr/jouteau Journée « Fouille d’images » 01/04/03

La classification : la méthode Chaque exemple (dans X) est décrit par ses motifs (dans F(X)) Un nouvel exemple est classé par une méthode de plus proches voisins (dans l’espace de redescription F(X) ) 1-ppv ou k-ppv avec pondération en fonction de la distance X F(X) x Journée « Fouille d’images » 01/04/03

Performances (e = 5%) Journée « Fouille d’images » 01/04/03

Avec un réseau de neurones RBF Journée « Fouille d’images » 01/04/03

Comparaison Journée « Fouille d’images » 01/04/03

Performances en classification Résultats Meilleurs résultats pour e = 2 ou 5 % Assez comparable : min, connexe, ligne Bien meilleurs que méthode RN Peut mieux faire … Avec un appariement plus souple Journée « Fouille d’images » 01/04/03

Analyse Quelles sont les propriétés de ce recodage ? X F(X) Pourquoi ça marche (si bien) ? Recodage non supervisé !! Puis une méthode de plus proche(s) voisin(s) X F(X) x Quelles sont les propriétés de ce recodage ? Journée « Fouille d’images » 01/04/03

Codage d’une image Partie de l’image couverte par les motifs Image présents dans l’image Journée « Fouille d’images » 01/04/03

Analyse fonctionnelle Approches classiques … et moins classiques Analyse fonctionnelle +/- 4 PCA Apprent. artificiel ICA Indép. des données Réduction Orthogonalité Approximation Approximation. Recouvre deux concepts : Densité : capable d’approximer partout dans l’espace Approximation : capacité de reconstruire assez fidèlement les données ACP : Réduction de la redondance dans les données, mesurées par les corrélations entre les données en termes de statistique du deuxième ordre (maximisation de variance) ICA : Les formes latentes sont supposées statistiquement indépendantes. Elles sont de distribution non gaussienne Combinaison linéaire et matrice carrée Pas de contraintes d’orthogonalité Journée « Fouille d’images » 01/04/03

Le codage par motifs fréquents Ne permet pas la reconstruction des entrées Les motifs sont orthogonaux : mais par rapport aux exemples d’apprentissage !! Espace Tous les points d’apprentissage sont orthogonaux dans cet espace Journée « Fouille d’images » 01/04/03

Conclusion Peut-être un nouveau type de traitement du signal Analyse théorique en cours Expérimentations sur les scènes naturelles (poursuite du travail) sur les puces ADN sur la classification de textes de NewsGroups Peut-être un nouveau type de traitement du signal Journée « Fouille d’images » 01/04/03