Algorithmes pour l’apprentissage de règles à partir de données multi-instance Yann Chevaleyre et Jean-Daniel Zucker Université de Paris VI – LIP6 - CNRS
Représentation Att/Val Représentation relationelle Motivations Le choix du langage de représentation des données a un effet déterminant sur l ’apprentissage + très expressif - difficilement apprenable, nécessite des biais forts description atomique description globale - peu expressif + algorithmes performants Représentation Att/Val Représentation MI Représentation relationelle La plupart des algorithmes d ’apprentissage MI utilisent des données numériques, et génèrent des hypothèses difficilement interprétables Notre but: concevoir des algorithmes efficaces, utilisant des données symboliques et numériques, et générant des hypothèses compréhensibles comme des listes de décision
Plan 1) L ’apprentissage multi-instances La représentation multi-instances, sources de données multi-instances, le problème d ’apprentissage multi-instances 2) Extension d ’un algorithme d ’apprentissage propositionnel Méthode, extension de l ’algorithme Ripper 3) Analyse de l ’extension multi-instances de Ripper Les littéraux contradictoires, les littéraux non significatifs, les littéraux indiscernables Conclusion et perspectives
La représentation multi-instances: définition Représentation Att/Val classique: Représentation multi-instance: est représenté par exemplei + Vecteur A/V xi labi {0,1} Vecteur A/V xi,1 exemple i est représenté par Vecteur A/V xi,2 + labi {0,1} Vecteur A/V xi,r instances sac
Sources de données multi-instances Les objets complexes (images, molécules, …) sont facilement représentables sous forme de sacs d ’instances Les Bases de données relationelles peuvent l ’être aussi 1 0,n Des langages de représentations plus complexes (faits datalog, clauses prolog,…) peuvent être MI-propositionalisés [zucker98], [Alphonse et Rouveirol 2000]
Le problème d ’apprentissage MI A partir de B+,B- ensembles de sacs positifs (resp. négatifs), trouver H, hypothèse consistante Problème d ’apprentissage multi-instances sans biais Il existe un fonction f, telle que : lab(b)=1 ssi x b, f (x) biais single-tuple Trouver une fonction h qui couvre au moins une instancesde chaque sac positif et aucune instance des sacs négatifs Problème multi-instances [Dietterich 97] Note: la fonction h a pour domaine l ’espace des instances, et non plus l ’espace des sacs.
Extension d ’un algorithme d apprentissage de règles Représenter l ’ensemble des sacs sous la forme d ’un ensemble de vecteurs. b1+ ajout de bag-id et du label à chaque instance b2- Mesurer le degré de consistance au sens multi-instances de l ’hypothèse en cours de raffinement Au lieu de mesurer p(r), n(r), nombre de vecteurs couverts par r, on calcule p*(r), n*(r), le nombre de sacs dont r couvre au moins une instance
Extension de l ’algorithme Ripper (Cohen 95) Ripper (Cohen 95) est un algorithme d ’apprentissage de règles rapide, pouvant traiter un grand nombre d ’exemples, et se comparant à C4.5 Naive-RipperMi est l ’extension de Ripper au cas multi-instances Naive-Ripper-MI a été testé sur les bases multi-instances musk (Dietterich 97). Sur musk1 (5,2 instances par sac en moyenne), il obtint de bonnes performances. Sur musk2 (65 instances par sac), performances très moyennes (77%).
Analyse de l ’algorithme Naive-RipperMI Objectif: Analyse des pathologies liées au problème multi-instances et à l ’algorithme Naive-Ripper-MI. Les littéraux contradictoires Les littéraux non significatifs Les littéraux indiscernables Moyen: étude de NaiveRipperMi sur une BD simple Y X 2 4 6 8 10 12 le sac des triangles blancs le sac des carrés blancs ... 5 sacs positifs: 5 sacs négatifs: le sac des triangles noirs le sac des carrés noirs ...
Analyse de l ’algorithme Naive-RipperMI Tâche d ’apprentissage: découvrir une règle couvrant au moins une instance de chaque sac positif Concept cible : X > 5 & X < 9 & Y > 3 Y X 2 4 6 8 10 12
Analyse de Naive-RipperMi: les littéraux contradictoires 1ière étape: Naive-RipperMi génère une première règle X > 11 & Y < 5 Littéraux contradictoires Concept cible : X > 5 & X < 9 & Y > 3 Y X 2 4 6 8 10 12
Analyse de Naive-RipperMi: les littéraux contradictoires 2ième étape: Naive-RipperMi supprime le(s) sac(s) couvert(s) par la règle induite, et induit une nouvelle règle... Y X 2 4 6 8 10 12
Analyse de Naive-RipperMi: les littéraux contradictoires Phénomène spécifiquement multi-instances Contrairement aux autres pathologies mono-instances (overfitting, problèmes de sélection d ’attributs), l ’accroissement du nombre d ’exemples ne résout rien. On ne peut pas « rattraper » une règle comportant un littéral contradictoire par raffinage successifs Le principe de l ’algorithme par couverture élimine réduit les chances de trouver le concept cible Si le littéral l est contradictoire, alors l ne l ’est pas. Il suffit donc, lorsqu ’on choisit le littéral l d ’examiner en même temps l => partition de l ’espace des instances
Analyse de Naive-RipperMi: les littéraux contradictoires Construction d ’une partition de l ’espace des instances On extrait la meilleure règle : X < 11 & Y < 6 & X > 5 & Y > 3 Y X 6 8 10 2 4 2 4 12
Analyse de Naive-RipperMi: les littéraux non significatifs En apprentissage multi-instances, les littéraux non significatifs peuvent se trouver n ’importe où dans la règle, et non plus seulement à la fin Utiliser un élagage global Y < 6 & Y > 3 & X > 5 & X < 9 Y X 2 4 6 8 10 12
Analyse de Naive-RipperMi: les littéraux indiscernables Quand le nombre d ’instances par sac augmente, les littéraux initiaux couvrent tous les sacs. On ne dispose pas d ’assez d ’information pour en choisir un X Y 2 4 6 8 10 12
Analyse de Naive-RipperMi: les littéraux indiscernables Quand le nombre d ’instances par sac augmente, les littéraux initiaux couvrent tous les sacs. On ne dispose pas d ’assez d ’information pour en choisir un X Y 2 4 6 8 10 12
Analyse de Naive-RipperMi: les littéraux indiscernables Solution : Prendre en compte le nombre d ’instances couverts à l ’aide d ’un modèle sur les données Calculer Pr(instance couverte concept cible) Y 6 Y > 5 4 Concept cible 2 2 4 6 8 10 12 X
Analyse de Naive-RipperMi: les littéraux indiscernables Modèle choisit: Un sac b+ ayant r instances est composé de: 1 instance concept cible r-1 instances tirées aléatoirement d ’une distribution D Calcul de Pr(instance couverte concept cible)
Ce phénomène est fréquent lorsque ne nombre d ’instances par sac est grand Construire une partition de l ’espace des instances
Taux d ’erreur (%) Nombre d ’instances par sac