Extraction des règles dassociation à partir dun corpus spécialisé Jérôme AZÉ & Mathieu ROCHE Laboratoire de Recherche en Informatique EGC, Lyon janvier 2003
2 Motivations (1/5) n Extraire des connaissances spécifiques au corpus étudié : règles dassociation. BUT : Permettre à lexpert du domaine de mieux comprendre les interactions entre les différents concepts du corpus étudié.
EGC, Lyon janvier Motivations (2/5) n 4 corpus étudiés : Corpus de 100 introductions darticles en anglais écrits par des auteurs anglophones sur le domaine de la « fouille de données » (369 Ko). Corpus de plus de 6000 résumés darticles en anglais sur la biologie Moléculaire (9424 Ko). Corpus en français de plus de 1000 Curiculum Vitae (VediorBis, 2470 Ko) Corpus en français relatif aux Ressources Humaines (PerfomanSe, 3784 Ko).
EGC, Lyon janvier Motivations (3/5) Extraction paramétrée de la terminologie du domaine Mathieu Roche, EGC p Une nouvelle mesure de qualité pour lextraction de pépites de connaissances - Jérôme Azé, EGC p Classification conceptuelle Règles dassociation Corpus Remarque : intervention de lexpert tout au long du processus
EGC, Lyon janvier Motivations (4/5) n 1ère étape : Terminologie et classification conceptuelle Influence avis-extérieur esprit-de-conquête Expansion caractère-expansif personne-aussi-communicative RelationAction
EGC, Lyon janvier Motivations (5/5) n 2ème étape : Extraction des connaissances Corpus des Ressources Humaines : stress environnement Corpus de la Fouille de données : NatofInput Output
EGC, Lyon janvier Plan de lexposé n Motivations n Classification conceptuelle Recherche terminologique Construction des classes n Extraction des connaissances Discrétisation Extraction des règles dassociation n Validations n Conclusions et perspectives
EGC, Lyon janvier Construction des classes Classification conceptuelle Corpus brut
EGC, Lyon janvier Étapes de notre travail (1/3) ère étape : Nettoyage Corpus brut Corpus nettoyé
EGC, Lyon janvier Le nettoyage n Types de nettoyage : - Enlever les noms, prénoms, coordonnées, etc. (pour les articles et les CVs) - Uniformiser les références CORPUS FOUILLE DE DONNEES :Remplacer ([lettres+année], [numéro], etc.) par « a paper » ou « papers » si ces références sont précédées de la préposition « in », sinon on supprime ces références. - Généraliser certains noms : CORPUS DE BIOLOGIE MOLECULAIRE Remplacer : carboxyl-terminal carboxyl-termini, C00H- terminal, C02H-terminal, etc. par C-term.
EGC, Lyon janvier Étapes de notre travail (2/3) ère étape : Nettoyage Corpus brut Corpus nettoyé ème étape : Recherche de termes Corpus avec termes Exemple de prise en compte de la terminologie du domaine : Considérer le terme « solution miracle » plutôt que chacun des mots « solution » et « miracle ».
EGC, Lyon janvier Étapes de notre travail (3/3) ère étape : Nettoyage 2ème étape : Recherche de termes 3ème étape : Construction des classes Classification conceptuelle Corpus avec termes Corpus brut Corpus nettoyé
EGC, Lyon janvier Corpus nettoyé 2ème étape activité professionnelle tête froide circuit fermé intérêt général Corpus avec prise en compte de la terminologie Liste de termes Détection de la terminologie (1/5)
EGC, Lyon janvier Étiqueteur grammatical Corpus nettoyé Corpus étiqueté Détection de la terminologie (2/5) Mais pour des personnes très spontanées... Mais/COO pour/PREP des/DTN:pl personnes/SBC:pl très/ADV spontanées/ADJ... Étiqueteur de Brill
EGC, Lyon janvier Étiqueteur grammatical Corpus nettoyé Corpus étiqueté Détection de la terminologie (3/5) Améliorations de létiqueteur de Brill : Ajouter : - des règles lexicales et contextuelles propres au domaine - ajout détiquettes spécifiques au domaine
EGC, Lyon janvier Étiqueteur grammatical Extraction des candidats-termes Corpus nettoyéCorpus étiqueté Détection de la terminologie (4/5) Candidats termes extraits : Nom-Nom Adjectif-Nom Nom-Adjectif Nom-Préposition-Nom Formule-Nom... tête froide activité professionnelle circuit fermé intérêt général
EGC, Lyon janvier Étiqueteur grammatical Extraction des candidats-termes Sélection des meilleurs candidats-termes Corpus nettoyé Corpus étiqueté tête froide activité professionnelle circuit fermé intérêt général Détection de la terminologie (5/5) activité pofessionnelle tête froide circuit fermé intérêt général
EGC, Lyon janvier Sélection des meilleurs candidats-termes du domaine (1/2) Information Mutuelle : calcul du degré dindépendance entre les deux mots qui composent les candidats-termes (Church, 1990).
EGC, Lyon janvier Sélection des meilleurs candidats-termes du domaine (2/2) Mesure dassociation : isobarycentre des valeurs normalisées de linformation mutuelle et du nombre doccurrences (Jacquemin, 1997). Rapport de Vraisemblance (Dunning, 1993).
EGC, Lyon janvier Évaluation des résultats obtenus (1/3) n Évaluation des résultats La courbe délévation (lift chart) donne la précision en fonction de la proportion de termes extraits.
EGC, Lyon janvier n Corpus de la Fouille de Données Évaluation des résultats obtenus (2/3)
EGC, Lyon janvier n Corpus des Ressources Humaines Évaluation des résultats obtenus (3/3)
EGC, Lyon janvier Paramètres ajoutés pour privilégier les termes du domaine (1/2) Élagage progressif Privilégier les termes qui apparaissent dans des textes différents. Privilégier les termes déjà reconnus par des auteurs.
EGC, Lyon janvier Paramètres ajoutés pour privilégier les termes du domaine (2/2) A la n-ième itération de la recherche terminologique, privilégier les termes composés des mots issus des termes retenus à la (n-1)-ième itération.
EGC, Lyon janvier Construction des classes (1/3) Classes Corpus avec prise en compte de la terminologie 3ème étape Termes + Relations syntaxiques (Shallow Parser) + ROWAN
EGC, Lyon janvier Construction des classes (2/3) n Pour lutter contre la polysémie, on ne caractérise pas la présence de concepts par la présence de noms, mais par celles de termes ou de relations syntaxiques.
EGC, Lyon janvier Construction des classes (3/3) Analyse syntaxique Relations grammaticales Ce sentiment n'empêche pas une inquiétude … … Analyse de Shallow Parser Corpus nettoyé avec terminologie
EGC, Lyon janvier
EGC, Lyon janvier Extrait dune classification 0 (tempérament:Nom,démonstratif:Adjectif)expansion 0 (promouvoir:Verbe,ambiance:Objet)influence 0 (précaution:Nom,excessif:Adjectif)influence 0 (rôle:Sujet,dynamiser:Verbe)influence 0 (solliciter:Verbe,conseil:Objet)influence 0 caractère-expansifexpansion 0 prétexte-de-progrèsinfluence 0 rôle-moteurinfluence 1 expansionRelationAction 1 influenceRelationAction 2 RelationActionToutesRelations
EGC, Lyon janvier Prochaine étape : extraction des connaissances Classification conceptuelle Règles dassociation Corpus
EGC, Lyon janvier Extraction des connaissances Classes conceptuelles … … …. Représentation fréquentielle du corpus … … …. Représentation discrète du corpus Concept_1 concept_15 Concept_3 concept_8 concept_6 … Règles
EGC, Lyon janvier Données manipulées n Extrait de la matrice des fréquences doccurrence des concepts dans le corpus des Ressources Humaines
EGC, Lyon janvier Discrétisation des données Pourquoi ? n Règles dassociation attributs discrets (booléens) n Données discrètes plus compréhensibles que données continues [Freq(influence) 0.03] [Faible présence influence] [Forte présence activité]
EGC, Lyon janvier Discrétisation des données Comment ? n Problème non supervisé –(peu de méthodes (Liu et al.,journal of DM and KD 2002)) n Utilisation dinformations a priori sur les résultats recherchés (Chickering, ICDM 01) a priori sur la distribution des données (uniforme, binomiale, gaussienne, etc.) a priori sur le nombre de valeurs discrètes
EGC, Lyon janvier Discrétisation : Notre approche n Discrétisation de chaque concept indépendamment les uns des autres n Isoler les valeurs nulles = absence du concept dans les textes n Equi-répartir les valeurs non nulles dans k valeurs discrètes (k fixé par lexpert) –Utilisation dune interface permettant de contrôler les différents paramètres (k, concepts à discrétiser)
EGC, Lyon janvier Discrétisation Un exemple k=2
EGC, Lyon janvier Discrétisation Un exemple
EGC, Lyon janvier Interface de discrétisation
EGC, Lyon janvier Interface de discrétisation
EGC, Lyon janvier Extraction des connaissances … … …. Représentation discrète du corpus activite_2 relationnel_1 relationnel_2 activite_1 communication_2 … Règles
EGC, Lyon janvier Connaissances recherchées n Pépites de connaissances –Règles dassociation : A B –Peu contredites par les données –Pas de contrainte sur le support Connaissances nouvelles pour lexpert
EGC, Lyon janvier Actuellement n Extraction des règles dassociation en deux étapes –Extraction des Frequent Item Sets (FIS) Contrainte sur le support des FIS (à la Apriori) –Extraction des règles à partir des FIS à laide dune mesure de qualité
EGC, Lyon janvier Notre approche n Objectifs –pouvoir extraire des pépites de connaissances dans les données –minimiser lintervention de lexpert dans le processus dextraction –extraire le sous-ensemble de règles les moins-contredites par les données
EGC, Lyon janvier Moindre-Contradiction (Azé,Kodratoff, EGC02) A B
EGC, Lyon janvier Moindre-Contradiction B A B A
EGC, Lyon janvier Propriétés n Ni monotone, ni anti-monotone… –pas délagage possible du treillis –besoin de nouvelles conditions délagage règles A B où B est réduit à un concept et A est une conjonction dau plus K concepts ne pas spécialiser les « meilleures » règles utiliser un seuil délagage « contextuel »
EGC, Lyon janvier Moindre Contradiction n Seuil délagage « contextuel » –Soit = { R / mc(R) > 0 } (confiance > 0.5) –soit E = moyenne ( ) et E =écart-type( ) –seuil délagage T= E + E n Élagage des règles –Soit R une règle, si mc(R) > T alors R est présentée à lexpert mais aucune spécialisation de R ne sera calculée (Sahar, KDD99)
EGC, Lyon janvier Exemple n Soit une base de données contenant 6 attributs (A, B, C, D, E et F). Considérons les règles concluant sur F (voir treillis des prémisses). BCDCDEBDEBCEABCACDADEABDABEACE BCDEABCDACDEABDEABCE ABBCCDDEBDBEACADAECE ABCDE ABCDE
EGC, Lyon janvier Exemple n Soit = {AB, AC, AD, BC, BE, CD, DE} {R, mc(R) > 0)} n et {AD, CD} situées au delà de T = E + E ABBCCD*DEBDBEACAD*AECE ABCDE BCDCDEBDEBCEABCACDADEABDABEACE BCDEABCDACDEABDEABCE ABCDE
EGC, Lyon janvier Exemple n Soit = {AB, AC, AD, BC, BE, CD, DE} {R, mc(R) > 0)} n et {AD, CD} situées au delà de T= E + E BCDCDEBDEBCEABCACDADEABDABEACE BCDEABCDACDEABDEABCE ABBCCD*DEBDBEACAD*AECE ABCDE ABCDE
EGC, Lyon janvier Exemple n Soit = {AB, AC, AD, BC, BE, CD, DE} {R, mc(R) > 0)} n et {AD, CD} situées au delà de T= E + E BDEBCEABCABEACE ABCE ABBCCD*DEBDBEACAD*AECE ABCDE
EGC, Lyon janvier Validations n Expérimentations sur deux corpus –Introductions darticles sur la fouille de données –Ressources humaines n Classifications réalisées par des experts
EGC, Lyon janvier Quelques règles (Ressources Humaines)
EGC, Lyon janvier Conclusions et perspectives n Lien entre TALN et Fouille de Données n Rôle important lexpert dans le processus de fouille de textes n Étude de leffet du bruit sur le processus global –Amélioration de la partie TALN (Brill, etc) –Utilisation de modèles de bruit pour la fouille de données
EGC, Lyon janvier Annexes
EGC, Lyon janvier Mesure dassociation (Jacquemin, 1997) Principe de la mesure utilisée : isobarycentre des valeurs normalisées de linformation mutuelle et du nombre doccurrences.
EGC, Lyon janvier Rapport de Vraisemblance (Dunning, 1993) L(L x,L y ) = a log(a) + b log(b) + c log(c) + d log(d) - (a+b) log(a+b) - (a+c) log(a+c) - (b+d) log(b+d) - (c+d) log(c+d) + N log(N)