Apprentissage de règles à partir de données multi-instances

Slides:



Advertisements
Présentations similaires
Sintaks : Tentative de guide de mise en œuvre Michel Hassenforder.
Advertisements

MOT Éditeur de modèles de connaissances par objets typés
QUALIFICATION COMPORTEMENTALE DES BASES DE DONNEES CLIENTS
Soutenance du stage de DEA.
S. Jouteau, A. Cornuéjols, M. Sebag (LRI)
Fabrice Lauri, François Charpillet, Daniel Szer
Traitement d’images : concepts avancés
Thomas G. Dietterich Approximate Statistical Tests for Comparing
Managing Domain Knowledge and Multiple Models with Boosting Peng Zang – Charles Isbell.
Relational Learning as a Search in a Critical Region Lou Fedon 9 Mars 2006.
Détecteurs de fautes pour réseaux dynamiques P. Sens, L. Arantes, M. Bouillaguet Projet REGAL.
A. Cornuéjols IAA (basé sur Rob Schapires IJCAI99 talk) Combiner des apprenants: le boosting.
Classification et prédiction
Classification et prédiction
Efficient Simplification of Point-Sampled Surfaces
Apprentissage supervisé à partir de séquences
Apprentissage relationnel Apprentissage Data Mining ILP.
LIRMM 1 Journée Deuxièmes années Département Microélectronique LIRMM.
Application de réseaux bayésiens à la détection de fumées polluantes
Yann Chevaleyre et Jean-Daniel Zucker
Algèbre relationnelle
3. Analyse et estimation du mouvement dans la vidéo
Master Génie Biologique et Informatique, première année
Génération interactive dimages projectives : Application à la Radiothérapie Pierre BLUNIER Du 01/12/2002 au 28/03/2003 Centre Léon Bérard.
A Pyramid Approach to Subpixel Registration Based on Intensity
Complexité et Classification
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
Cliques & Bicliques Maximales
Tests et Validation du logiciel
Christelle Scharff IFI Juin 2004
Sélection automatique d’index et de vues matérialisées
DEA instrumentation et commande
Christelle Scharff IFI 2004
To Tune or not to Tune? To Tune or not to Tune? A Lightweight Physical Design Alerter Costa Jean-Denis Le Yaouanc Aurélie Mécanismes de SGBD 2007.
Apprendre à partir des observations
Contrôles d'accès aux données
Application des algorithmes génétiques
Classification Multi Source En Intégrant La Texture
Applications du perceptron multicouche
Journée thématique du GDR IFS « Réduction de modèle en IFS » ENSAM – Jeudi 18 mai 2006 Validation de l’approche de la réduction a priori - POD sur l'équation.
Méthode des k plus proches voisins
Programmation logique Démonstrateur automatique
Construction de modèles visuels
MOT Éditeur de modèles de connaissances par objets typés
Prédiction multi-step de la volatilité : le modèle ARIMA-GARCH appliqué aux séries temporelles d’affaiblissement par la pluie sur les liaisons Terre-Satellite.
Révisions - IA Généralité: problèmes de lIA Recherche Logique Traitement de lincertitude Apprentissage Langue naturelle.
Introduction à la programmation linéaire
Design dun système de vision embarqué. Application:
Géométrie analytique Distance entre deux points.
Filtrage de Kalman et aperçu probabiliste
Apprentissage par arbre de décision
ASI 3 Méthodes numériques pour l’ingénieur
Aide à la conception de systèmes distribués
Caswell 2001 Sinauer Associates
Amélioration de la simulation stochastique
Mise-à-jour de données de haute incertitude spatiale Présentation dans le cadre du groupe de discussion sur la fusion de données géospatiales – 22 nov.
Calcul parallèle => partitionner les données en sous-groupes associés aux processeurs. P0 P2 P1.
1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.
Les réseaux de neurones à réservoir en traitement d’images
Institut de sciences et technologies Département d’informatique
Initiation à la conception des systèmes d'informations
Soutenance de Stage DEA / DESS
Knowledge discovery in Databases (KDD)
Méthode des moindres carrés (1)
GPA-779 Application des systèmes experts et des réseaux de neurones.
Extreemly Random Trees + SubWindows HOURRI Soufiane NAIT ABDELLAH OUALI Ismail OUFQIR Anouar OUSSAFI Mohammed.
Apprentissage semi-supervisé avec des modèles discriminants : application au résumé automatique de texte Massih-Réza Amini LIP6, Université de Paris VI.
Du Cahier des Charges à la Spécification Formelle ?
Café In: A quoi ca sert la recherche sur la programmation? Comment peut on faire travailler des ordinateurs ensemble? Ludovic Henrio SCALE TeamSCALE Team.
Transcription de la présentation:

Apprentissage de règles à partir de données multi-instances Soutenance de thèse de Yann Chevaleyre sous la direction de Jean-Daniel Zucker Université de Paris VI – LIP6 - équipe ACASA

Cadre et motivation - + + - multi-instances B 128 55 182 47 75 200 Contient un extincteur + Ne contient pas d ’extincteur - Une image contient un extincteur ssi R > 110 et B < 180 atom(m1,a1,c), charge(a1,0.21), atom(m1,a2,h), charge(a2,-0.1), bond(a1,a2), atom(m1,a3,c), ... mutagène + non mutagène - Une molécule M est mutagène ssi atom(M,A1,X),charge(A1,0.17), atom(M,A2,c),bond(A1,A2),... Représentation relationelle Représentation Att/Val Représentation intermédiaire ? multi-instances

La représentation multi-instances Représentation Att/Val classique: Représentation multi-instance: est représenté par exemplei Vecteur A/V xi R V B 128 55 182 exemple i Vecteur A/V xi,1 est représenté par Vecteur A/V xi,2 Vecteur A/V xi,r instances sac

Sources de données multi-instances Données « naturellement » multi-instances, i.e. ayant plusieurs configurations x1 x2 45° x1 x2 45° Reformulation de représentations plus complexes (clauses prolog, BD relationelles …) [Zucker et Ganascia 96], [Alphonse et Rouveirol 2000],[Lavrac01] atom(m1,a1,c), charge(a1,0.21), atom(m1,a2,h), charge(a2,-0.1), bond(a1,a2), atom(m1,a3,c), ...

Problématique Les algorithmes existants Numériques Symboliques & numériques IteratedDiscrimAPR [Dietterich97] * hyper-rectangles DiverseDensity [Maron98] * point dans l ’espace des inst. citation-kNN [Zucker et Wang 00] * k-ppv Enigme+ [Zucker et Ganascia94] * ensembles de règles Relic [Ruffo00] * arbres de décision Concevoir des algorithmes efficaces traiter des données symboliques et numériques générer des hypothèses compréhensibles

Plan 1) L ’apprentissage multi-instances linéaire 2) Extension d ’un algorithme top-down - principe, extension de RIPPER, complexité 3) Analyse et amélioration de l ’extension multi-instances de Ripper les littéraux indiscernables, les modèles génératifs, mesure de couverture probabiliste 4) Prise en compte du bruit multi-instances 5) Expérimentations Conclusion et perspectives

Le problème d ’apprentissage A partir de B+,B- ensembles de sacs positifs (resp. négatifs), trouver une hypothèse correcte Problème d ’apprentissage multi-instances un sac est classé + ssi il possède une instance ayant la propriété P1 et une instance ayant la propriété P2,etc... langage multi-linéaire langage k-linéaire

Le problème d ’apprentissage A partir de B+,B- ensembles de sacs positifs (resp. négatifs), trouver une hypothèse correcte Problème d ’apprentissage multi-instances un sac est classé + ssi il possède k instances ayant la propriété P langage k-linéaire

Le problème d ’apprentissage MI linéaire A partir de B+,B- ensembles de sacs positifs (resp. négatifs), trouver une hypothèse correcte Problème d ’apprentissage multi-instances un sac est classé + ssi il possède une instance ayant la propriété P langage linéaire Trouver une fonction h qui couvre au moins une instances de chaque sac positif et aucune instance des sacs négatifs Problème multi-instances [Dietterich 97] Avec le langage linéaire, on cherche un concept h propositionnel. Algorithmes propositionnels efficaces et précis Ripper (Cohen 95), C4.5 (Quinlan 93) adapter un algorithme propositionnel au cas multi-instances

Approche: Extension d ’un algorithme d apprentissage top-down Représenter l ’ensemble des sacs sous la forme d ’un ensemble de vecteurs. b2- ajout de bag-id et du label à chaque instance b1+ Mesurer la couverture au sens multi-instances de l ’hypothèse en cours de raffinement

Extension de l ’algorithme Ripper (Cohen 95) Naive-RipperMi [Chevaleyre, Zucker 00] est l ’extension de Ripper au cas multi-instances Algorithme Accuracy Type d'hypothèse Iterated Discrimin 92.4 APR Diverse Density 88.9 point dans l'espace des inst Ripper-MI 88 ens. de règles (avg 7 litterals) Tilde 87 arbre de décision d'ordre 1 All positive APR 80.4 APR Multi-Inst 76.7 APR Naive-Ripper-MI a été testé sur les bases multi-instances musk (Dietterich 97) Sur musk1 (5,2 inst. par sac en moyenne), bonnes performances. Sur musk2 (65 instances par sac), performances moyennes (77%).

Complexité et précision de NaiveRipperMi Validation de NaiveRipperMi sur des BD artificielles Temps CPU : linéaire en fonction du nb de sacs et d ’instances (50000 sacs, 10 inst / sac, 12 attributs : 1 min) TILDE [blockheel98] FOIL [quinlan90] NaiveRipperMI 90 s 700 s 3 s 10 20 30 40 50 Taux d ’erreur (%) 5 10 15 20 25 Nombre d ’instances par sac

Chausses trappes de l ’apprentissage multi-instances 3 chausses trappes survenant lors de l ’apprentissage Les littéraux erronés  modification de l ’élagage Les littéraux contradictoires  partitionnement de l ’espace des instances Les littéraux indiscernables Y X 2 4 6 8 10 12 sac de triangles blancs sac de carrés blancs ... 5 sacs + 5 sacs - sac de triangles noirs sac de carrés noirs ...

Chausses trappes: les littéraux indiscernables Quand le nombre d ’instances par sac augmente, les littéraux initiaux couvrent tous les sacs. X Y 2 4 6 8 10 12 Concept cible Y > 5

Chausses trappes: les littéraux indiscernables Quand le nombre d ’instances par sac augmente, les littéraux initiaux couvrent tous les sacs. Y Concept cible 6 4 2 2 4 6 X > 7 8 10 12 X

Chausses trappes: les littéraux indiscernables Important lorsque nb d ’instances >> nb d ’attributs Remèdes en PLI  lookahead Foil [Quinlan90], Tilde [Blockheel98]  top-down / bottom-up Progol [Muggleton 95]  relational clichés [Morin, Matwin 00] Accroissement de la complexité Prendre en compte le nombre d ’instances couvertes

Modèles génératifs multi-instances il modélise la façon dont les données ont été construites Modèle < D,f> (d ’après [Blum 98]) r instances sont tirées i.i.d. d ’une distribution D le sac résultant est étiqueté selon un concept f Limitations Nb instance/sac  Proba(sac- )  Une seule distribution pour les + et les - Les données réelles respectent rarement ce modèle

Un nouveau modèle génératif multi-instances Modèle < D+, D-, f,qneg> + - r-1 instances tirées de D+ 1 instance tirée du concept f r instances tirées de D- Caractéristiques Pr(sac- ) = qneg Deux distributions pour les + et les - Facilement extensible à un nombre variable d’instances Ne subsume pas < D,f>

Une heuristique basée sur le nouveau modèle Calculer pour chaque sac positif: Pr(l’une des instances couvertes  concept cible) Y 6 Y > 5 4 Concept cible 2 2 4 6 8 10 12 X

Calcul Analytique de la Probabilité k= nb d ’instances de b+ couvertes r= nb d ’inst. total de b+ Pr(l ’une des instances couvertes de b+  concept cible) = k Propriétés Nombre d’ instance variable 0 instances couvertes  Pr = 0 r instances couvertes  Pr = 1 Si les données ne respectent pas ce modèle, cela n ’a pas trop d ’impact négatif

Analyse de RipperMi: expérimentations TILDE FOIL NaiveRipperMI RipperMI-refined-cov 10 20 30 40 50 Taux d ’erreur (%) 5 10 15 20 25 Nombre d ’instances par sac Sur le problème de la mutagénèse représenté sous forme multi- instances, NaiveRipperMi: 78% RipperMi-refined-cov: 82%

Le bruit multi-instances Modèles usuels de bruit: bruit de classification, d’attribut, bruit malicieux Modèles de bruit typiquement multi-instances  Instances de sac + remplacée par des instances de sac -  Instances manquantes Sources de bruit d ’instances manquantes  Propositionalisation stochastique [Sebag 97]  occlusion d ’une partie de l ’objet

Le bruit multi-instances: q instances retirées Soit b, un sac positif, et h une hypothèse On suppose que q instances par sac ont été retirées Si h ne couvre aucune instance de b : - connaissance de q exponentiellement imprécis en q Alternative à la mesure de couverture probabiliste Même si le nombre « q réel » est grand, utiliser q petit plutot que rien +

Prise en compte du bruit multi-instances BD Musk1: Seules les configurations les plus probables ont été encodées (10-validation croisée) q

IF Color = red AND size > 53 Application : apprentissage perceptif d ’un robot [Collaboration Bredeche] W Je vois un extincteur Que vois tu ? lab = extinct IF Color = red AND size > 53 THEN Extincteur

Description abstraite de l’image m x n pixels Application à apprentissage perceptif d ’un robot: résultats Porte Humain Porte Cendrier Ascenseur Description abstraite de l’image m x n pixels Porte Cendrier Extincteur Ascenseur Images étiquetées 350 images 160 x 120 pixels 6,3 Mo

Application à apprentissage perceptif d ’un robot: complexité

Description abstraite de l ’image 8 x 6 pixels Application à l ’apprentissage supervisé d ’un robot Description abstraite de l ’image 8 x 6 pixels … Motif de reformulation: … … PLIC [Bredeche,chevaleyre 01] : Reformulation itérative d ’une grille de pixels

Conclusion La représentation MI offre une bonne alternative à Att/val Analyse de la spécificité de l ’apprentissage MI Nouveau modèle génératif < D+, D-, f,qneg> plus réaliste Identification de trois chausses-trappes Conception et validation d ’un modèle de bruit MI Algorithme RipperMI capable de gros volumes de données (40Mo) rapidement (linéaire) et générant des hyp. concices Les littéraux erronés  modification de l ’élagage Les littéraux contradictoires  partitionnement de l ’espace des instances Les littéraux indiscernables  couverture probabiliste

Perspectives Développement de modèles plus réalistes, pour obtenir de meilleurs heuristiques (éventuellement non linéaire) Développement de techniques de sélection d’instances et d ’attributs lorsque le nombre d ’instances est grand, lors d ’une MI-propositionalisation par exemple Autres algorithmes : méthode bottom-up Extension des techniques d ’estimation de densité et p-concepts au multi-instances Fiabilité et rapidité de RipperMI => Nombreuses applications, en particulier intégrées dans des robots mobiles

---------------------- calling RippMi ------------------- RippMi -m -R -k10 -c -a+freq -ins "/home/bredeche/Experimentations/SdgAll/w23.data" --------------------------------------------------------- Handling MIP problem option: will set random seed from clock 10-fold cross-validation data is noisy find rules for least frequent classes first allow numerical symbolic improvements Final hypothesis is: true :- valH1>=254, stdevB1<=56, stdevS1<=58, valB2<=128 (64/0). true :- ampH3>=254, y1>=3, ampV1>=250, S1<=91 (47/0). true :- ampH3>=254, V3<=110.5, ampR3<=220.5, S1<=185 (31/0). true :- ampH3>=253, ampV1>=239, ampG3<=227, H2<=50, stdevG3>=47 (12/0). true :- ampH3>=253, y1>=3, ampR1>=245, stdevV2<=37, H1>=71 (7/0). true :- B3<=1, stdevS1>=44, R1<=74 (4/0). true :- R3>=244, B1>=211, ampR1>=151 (3/0). true :- stdevV1>=89, ampH2<=23, B3<=44 (2/0). default false (178/1). =============================== summary =============================== Train error rate: 14.93% +/- 0.70% << Average time: 11.94 +/- 0.16 sec Hypothesis size: 8 rules, 40 conditions 1 2 3