La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

CAP 2001 Algorithmes pour lapprentissage de règles à partir de données multi-instance Yann Chevaleyre et Jean-Daniel Zucker Université de Paris VI – LIP6.

Présentations similaires


Présentation au sujet: "CAP 2001 Algorithmes pour lapprentissage de règles à partir de données multi-instance Yann Chevaleyre et Jean-Daniel Zucker Université de Paris VI – LIP6."— Transcription de la présentation:

1 CAP 2001 Algorithmes pour lapprentissage de règles à partir de données multi-instance Yann Chevaleyre et Jean-Daniel Zucker Université de Paris VI – LIP6 - CNRS

2 CAP 2001 description atomique Motivations Représentation Att/Val Représentation relationelle description globale - peu expressif + algorithmes performants + très expressif - difficilement apprenable, nécessite des biais forts Représentation MI La plupart des algorithmes d apprentissage MI utilisent des données numériques, et génèrent des hypothèses difficilement interprétables La plupart des algorithmes d apprentissage MI utilisent des données numériques, et génèrent des hypothèses difficilement interprétables Notre but: concevoir des algorithmes efficaces, utilisant des données symboliques et numériques, et générant des hypothèses compréhensibles comme des listes de décision Notre but: concevoir des algorithmes efficaces, utilisant des données symboliques et numériques, et générant des hypothèses compréhensibles comme des listes de décision Le choix du langage de représentation des données a un effet déterminant sur l apprentissage Le choix du langage de représentation des données a un effet déterminant sur l apprentissage

3 CAP 2001 Plan 1) L apprentissage multi-instances –La représentation multi-instances, sources de données multi-instances, le problème d apprentissage multi-instances 2) Extension d un algorithme d apprentissage propositionnel –Méthode, extension de l algorithme Ripper 3) Analyse de l extension multi-instances de Ripper –Les littéraux contradictoires, les littéraux non significatifs, les littéraux indiscernables Conclusion et perspectives

4 CAP 2001 La représentation multi-instances: définition lab i {0,1} est représenté par Vecteur A/V x i exemple i est représenté par Vecteur A/V x i,1 Vecteur A/V x i,2 Vecteur A/V x i,r + exemple i + instancessac lab i {0,1} Représentation Att/Val classique: Représentation multi-instance:

5 CAP 2001 Sources de données multi-instances Les objets complexes (images, molécules, …) sont facilement représentables sous forme de sacs d instances Les objets complexes (images, molécules, …) sont facilement représentables sous forme de sacs d instances Les Bases de données relationelles peuvent l être aussi Les Bases de données relationelles peuvent l être aussi Des langages de représentations plus complexes (faits datalog, clauses prolog,…) peuvent être MI-propositionalisés [zucker98], [Alphonse et Rouveirol 2000] Des langages de représentations plus complexes (faits datalog, clauses prolog,…) peuvent être MI-propositionalisés [zucker98], [Alphonse et Rouveirol 2000] 0,n 1

6 CAP 2001 Le problème d apprentissage MI A partir de B +,B - ensembles de sacs positifs (resp. négatifs), trouver H, hypothèse consistante Il existe un fonction f, telle que : lab(b)=1 ssi x b, f (x) Problème d apprentissage multi-instances sans biais biais single-tuple Problème multi-instances [Dietterich 97] Trouver une fonction h qui couvre au moins une instancesde chaque sac positif et aucune instance des sacs négatifs Note: la fonction h a pour domaine l espace des instances, et non plus l espace des sacs.

7 CAP 2001 Extension d un algorithme d apprentissage de règles Représenter l ensemble des sacs sous la forme d un ensemble de vecteurs. Représenter l ensemble des sacs sous la forme d un ensemble de vecteurs. b1+ b2- ajout de bag-id et du label à chaque instance Mesurer le degré de consistance au sens multi-instances de l hypothèse en cours de raffinement Au lieu de mesurer p(r), n(r), nombre de vecteurs couverts par r, on calcule p*(r), n*(r), le nombre de sacs dont r couvre au moins une instance Mesurer le degré de consistance au sens multi-instances de l hypothèse en cours de raffinement Au lieu de mesurer p(r), n(r), nombre de vecteurs couverts par r, on calcule p*(r), n*(r), le nombre de sacs dont r couvre au moins une instance

8 CAP 2001 Extension de l algorithme Ripper (Cohen 95) Ripper (Cohen 95) est un algorithme d apprentissage de règles rapide, pouvant traiter un grand nombre d exemples, et se comparant à C4.5 Ripper (Cohen 95) est un algorithme d apprentissage de règles rapide, pouvant traiter un grand nombre d exemples, et se comparant à C4.5 Naive-RipperMi est l extension de Ripper au cas multi-instances Naive-RipperMi est l extension de Ripper au cas multi-instances Naive-Ripper-MI a été testé sur les bases multi-instances musk (Dietterich 97). Sur musk1 (5,2 instances par sac en moyenne), il obtint de bonnes performances. Sur musk2 (65 instances par sac), performances très moyennes (77%). Naive-Ripper-MI a été testé sur les bases multi-instances musk (Dietterich 97). Sur musk1 (5,2 instances par sac en moyenne), il obtint de bonnes performances. Sur musk2 (65 instances par sac), performances très moyennes (77%).

9 CAP 2001 Analyse de l algorithme Naive-RipperMI Objectif: Analyse des pathologies liées au problème multi-instances et à l algorithme Naive-Ripper-MI. Objectif: Analyse des pathologies liées au problème multi-instances et à l algorithme Naive-Ripper-MI. 5 sacs positifs: 5 sacs positifs: le sac des triangles blancs le sac des carrés blancs... le sac des triangles noirs le sac des carrés noirs... 5 sacs négatifs: 5 sacs négatifs: Y X Les littéraux contradictoires Les littéraux contradictoires Les littéraux non significatifs Les littéraux non significatifs Les littéraux indiscernables Les littéraux indiscernables Moyen: étude de NaiveRipperMi sur une BD simple Moyen: étude de NaiveRipperMi sur une BD simple

10 CAP 2001 Tâche d apprentissage: découvrir une règle couvrant de chaque sac positif Tâche d apprentissage: découvrir une règle couvrant au moins une instance de chaque sac positif Concept cible : Concept cible : Y X X > 5 & X < 9 & Y > 3 Analyse de l algorithme Naive-RipperMI

11 CAP 2001 Y X ière étape: Naive-RipperMi génère une première règle 1 ière étape: Naive-RipperMi génère une première règle X > 11 & Y < 5 Analyse de Naive-RipperMi: les littéraux contradictoires Concept cible : Concept cible : X > 5 & X < 9 & Y > 3 Littéraux contradictoires

12 CAP 2001 Y X ième étape: Naive-RipperMi supprime le(s) sac(s) couvert(s) par la règle induite, et induit une nouvelle règle... 2ième étape: Naive-RipperMi supprime le(s) sac(s) couvert(s) par la règle induite, et induit une nouvelle règle... Analyse de Naive-RipperMi: les littéraux contradictoires

13 CAP 2001 Analyse de Naive-RipperMi: les littéraux contradictoires Phénomène Phénomène spécifiquement multi-instances Contrairement aux autres pathologies mono-instances (overfitting, problèmes de sélection d attributs), Contrairement aux autres pathologies mono-instances (overfitting, problèmes de sélection d attributs), l accroissement du nombre d exemples ne résout rien. On ne peut pas « rattraper » une règle comportant un littéral contradictoire par raffinage successifs On ne peut pas « rattraper » une règle comportant un littéral contradictoire par raffinage successifs Le principe de l algorithme par couverture élimine réduit les chances de trouver le concept cible Le principe de l algorithme par couverture élimine réduit les chances de trouver le concept cible Si le littéral l est contradictoire, alors l ne l est pas. Il suffit donc, lorsqu on choisit le littéral l d examiner en même temps l => Il suffit donc, lorsqu on choisit le littéral l d examiner en même temps l => partition de l espace des instances

14 CAP 2001 Analyse de Naive-RipperMi: les littéraux contradictoires Y X Construction d une de l espace des instances Construction d une partition de l espace des instances On extrait la meilleure règle : X 5 & Y > 3 On extrait la meilleure règle : X 5 & Y > 3

15 CAP 2001 Analyse de Naive-RipperMi: les littéraux non significatifs En apprentissage multi-instances, les littéraux peuvent se trouver n importe où dans la règle, et non plus seulement à la fin En apprentissage multi-instances, les littéraux non significatifs peuvent se trouver n importe où dans la règle, et non plus seulement à la fin Utiliser un élagage Utiliser un élagage global Y X Y 3 & X > 5 & X 3 & X > 5 & X < 9

16 CAP 2001 X Y Analyse de Naive-RipperMi: les littéraux indiscernables Quand le nombre d instances par sac augmente, les littéraux initiaux couvrent tous les sacs. Quand le nombre d instances par sac augmente, les littéraux initiaux couvrent tous les sacs. On ne dispose pas d assez d information pour en choisir un

17 CAP 2001 X Y Quand le nombre d instances par sac augmente, les littéraux initiaux couvrent tous les sacs. Quand le nombre d instances par sac augmente, les littéraux initiaux couvrent tous les sacs. On ne dispose pas d assez d information pour en choisir un Analyse de Naive-RipperMi: les littéraux indiscernables

18 CAP 2001 Analyse de Naive-RipperMi: les littéraux indiscernables Solution : Solution : Prendre en compte le nombre d instances couverts à l aide d un modèle sur les données Calculer Pr(instance couverte concept cible) Calculer Pr(instance couverte concept cible) X Y Concept cible Y > 5

19 CAP 2001 Analyse de Naive-RipperMi: les littéraux indiscernables Modèle choisit: Un sac b+ ayant r instances est composé de: 1 instance concept cible r-1 instances tirées aléatoirement d une distribution D Calcul de Pr(instance couverte concept cible) Modèle choisit: Un sac b+ ayant r instances est composé de: 1 instance concept cible r-1 instances tirées aléatoirement d une distribution D Calcul de Pr(instance couverte concept cible)

20 CAP 2001 Ce phénomène est fréquent lorsque ne nombre d instances par sac est grand Ce phénomène est fréquent lorsque ne nombre d instances par sac est grand Construire une de l espace des instances Construire une partition de l espace des instances

21 CAP 2001 Nombre d instances par sac Taux d erreur (%)


Télécharger ppt "CAP 2001 Algorithmes pour lapprentissage de règles à partir de données multi-instance Yann Chevaleyre et Jean-Daniel Zucker Université de Paris VI – LIP6."

Présentations similaires


Annonces Google