Extraction des règles dassociation à partir dun corpus spécialisé Jérôme AZÉ & Mathieu ROCHE Laboratoire de Recherche en Informatique EGC, Lyon 22-24 janvier.

Slides:



Advertisements
Présentations similaires
MOT Éditeur de modèles de connaissances par objets typés
Advertisements

Material/Sources: Daniel Bardou, Julie Dugdale &
Atelier PARIS21 pour l'Afrique de l'Ouest. Dakar, janvier AFRISTAT, outil d appui au d é veloppement de la Statistique en Afrique subsaharienne.
F. Genova, Forum Observatoire de Paris, 27/11/20031 Lobservatoire virtuel astronomique.
Classification et prédiction
Classification et prédiction
Règles d’association.
Apprentissage supervisé à partir de séquences
Les frontières ouvertes
« Extraction des connaissances
Fouille de textes : Extraction Itérative de la Terminologie
INFORSID'04 - Biarritz 1 Étude de Mesures de Qualité pour Classer les Termes Extraits de Corpus Spécialisés Mathieu Roche, Oriane Matte-Tailliez, Yves.
JADT'04 - Mars 2004, Belgique 1 EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés Mathieu Roche,
EXIT : EXtraction Itérative de la Terminologie
Introduction Pour concrétiser l’enseignement assisté par ordinateur
Inférence statistique
Construction d’ontologies à partir de textes
Eric BONJOUR, Maryvonne DULMET
Etude de la dynamique des groupes et des objets intermédiaires de conception, en s’appuyant sur la dynamique de l’émergence des état problèmes Reza MOVAHEDKHAH,
Yann Chevaleyre et Jean-Daniel Zucker
Étude thématique Protégé 2000 Mathieu Besnard Elie Huvier.
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
« Modélisation de lapprentissage des mots écrits avec un réseau de type ART » Stage de fin détude de DESS de Sciences Cognitives Appliquées Effectué
Fusion de données SENSO
- DESS IGSI – Conception objet des SI -Etude de cas – Marie-Laure POITOU.
Sélection automatique d’index et de vues matérialisées
Programmes du cycle terminal
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
Initiation au système d’information et aux bases de données
Colloque iFRAP17 septembre La loi Dutreil : Un début de solution Pierre BERGER Avocat Associé (Cabinet FIDAL)
Rapport du projet 53 François Barre, Vincent Borrel, Guillaume Dupuy,
Initiation à la conception de systèmes d'information
Heuristiques A. Introduction B. Recherche d ’une branche
UE : 3.4. S4 Initiation à la démarche de recherche
Introduction à la conception de Bases de Données Relationnelles
Sherbrooke le 3 avril Aspects économiques liés à lintégration des services de maintien à lautonomie Volet Implantation et fonctionnement Danièle.
Programmation linéaire
Société Française de Médecine Générale
Présenté par Mathieu Almeida, Amine Ghozlane
Retour dexpérience Challenge PKDD Plan Types de données fournies lors des challenges Démarche suivie lors des 3 challenges.
SYSTEMES D’INFORMATION
Comité lectroniques (P01E)
SCIENCES DE L ’INGENIEUR
MOT Éditeur de modèles de connaissances par objets typés
Mamadou Dieye, Mohamed Rafik Doulache,
Projet Acquisition de connaissances Réalisé par Anne-Laure B ERRÉE, Andra Maria B LAJ, Stéphanie C HARLET, Diana D RAGUSIN, Daphné D USSAUD, Emeline E.
Styles dinteraction dans les PocketPC: analyses et comparaisons Roberto Ortelli, Juillet 2003.
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Les Réseaux « peer to peer »
S.V.T. Classe de 5ème Présentation du cours
Koeln - 15 and 16 May Services de logistique privés et publics à Venise et Padoue Champs de recherche Equal – Logicomp IT-G-VEN-018 Gilberto Gobbo.
CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière.
1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.
LA POSE D’UN DIAGNOSTIC Jm bouthors - Consultant
Projet Acquisition de connaissances Réalisé par Anne-Laure B ERRÉE, Andra Maria B LAJ, Stéphanie C HARLET, Diana D RAGUSIN, Daphné D USSAUD, Emeline E.
Mini Projet. Rappel : Apriori (1) Algorithme par niveau permettant l’extraction des motifs fréquents (ie. AprioriCAM appliqué à la contrainte anti-monotone.
Dominique LAURENT Patrick SEGUELA
Colloque JOCAIR 2006, Amiens Les forums de discussion en milieu éducatif, Etat de recherches et des questions France Henri, Bernadette Charlier et Daniel.
Olivier Leclair, Université Laval Un algorithme de fouille dans une représentation des données par objets: une application médicale SIMON, Arnaud.
Classification de données par l’algorithme FPSO-GA
2 Processus de conception de BD
Thibault ROY & Olivier SAGIT Exposé du mercredi 17 décembre 2003 Apprentissage Interactif Apprentissage avec SpamAssassin UFR de Sciences Département d’Informatique.
Présenté par Mathieu Almeida, Amine Ghozlane
TEXT MINING Fouille de textes
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
Le Traitement Automatique des Langues (TAL)
Projet Acquisition de connaissances Réalisé par Anne-Laure B ERRÉE, Andra Maria B LAJ, Stéphanie C HARLET, Diana D RAGUSIN, Daphné D USSAUD, Emeline E.
Introduction aux statistiques Intervalles de confiance
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
UQÀM DDL-8430 didactique de la grammaire Analyse de matériel didactique Nouvelle grammaire pratique : 2ème année du 1 er cycle du secondaire Myriam Laporte.
Transcription de la présentation:

Extraction des règles dassociation à partir dun corpus spécialisé Jérôme AZÉ & Mathieu ROCHE Laboratoire de Recherche en Informatique EGC, Lyon janvier 2003

2 Motivations (1/5) n Extraire des connaissances spécifiques au corpus étudié : règles dassociation. BUT : Permettre à lexpert du domaine de mieux comprendre les interactions entre les différents concepts du corpus étudié.

EGC, Lyon janvier Motivations (2/5) n 4 corpus étudiés : Corpus de 100 introductions darticles en anglais écrits par des auteurs anglophones sur le domaine de la « fouille de données » (369 Ko). Corpus de plus de 6000 résumés darticles en anglais sur la biologie Moléculaire (9424 Ko). Corpus en français de plus de 1000 Curiculum Vitae (VediorBis, 2470 Ko) Corpus en français relatif aux Ressources Humaines (PerfomanSe, 3784 Ko).

EGC, Lyon janvier Motivations (3/5) Extraction paramétrée de la terminologie du domaine Mathieu Roche, EGC p Une nouvelle mesure de qualité pour lextraction de pépites de connaissances - Jérôme Azé, EGC p Classification conceptuelle Règles dassociation Corpus Remarque : intervention de lexpert tout au long du processus

EGC, Lyon janvier Motivations (4/5) n 1ère étape : Terminologie et classification conceptuelle Influence avis-extérieur esprit-de-conquête Expansion caractère-expansif personne-aussi-communicative RelationAction

EGC, Lyon janvier Motivations (5/5) n 2ème étape : Extraction des connaissances Corpus des Ressources Humaines : stress environnement Corpus de la Fouille de données : NatofInput Output

EGC, Lyon janvier Plan de lexposé n Motivations n Classification conceptuelle Recherche terminologique Construction des classes n Extraction des connaissances Discrétisation Extraction des règles dassociation n Validations n Conclusions et perspectives

EGC, Lyon janvier Construction des classes Classification conceptuelle Corpus brut

EGC, Lyon janvier Étapes de notre travail (1/3) ère étape : Nettoyage Corpus brut Corpus nettoyé

EGC, Lyon janvier Le nettoyage n Types de nettoyage : - Enlever les noms, prénoms, coordonnées, etc. (pour les articles et les CVs) - Uniformiser les références CORPUS FOUILLE DE DONNEES :Remplacer ([lettres+année], [numéro], etc.) par « a paper » ou « papers » si ces références sont précédées de la préposition « in », sinon on supprime ces références. - Généraliser certains noms : CORPUS DE BIOLOGIE MOLECULAIRE Remplacer : carboxyl-terminal carboxyl-termini, C00H- terminal, C02H-terminal, etc. par C-term.

EGC, Lyon janvier Étapes de notre travail (2/3) ère étape : Nettoyage Corpus brut Corpus nettoyé ème étape : Recherche de termes Corpus avec termes Exemple de prise en compte de la terminologie du domaine : Considérer le terme « solution miracle » plutôt que chacun des mots « solution » et « miracle ».

EGC, Lyon janvier Étapes de notre travail (3/3) ère étape : Nettoyage 2ème étape : Recherche de termes 3ème étape : Construction des classes Classification conceptuelle Corpus avec termes Corpus brut Corpus nettoyé

EGC, Lyon janvier Corpus nettoyé 2ème étape activité professionnelle tête froide circuit fermé intérêt général Corpus avec prise en compte de la terminologie Liste de termes Détection de la terminologie (1/5)

EGC, Lyon janvier Étiqueteur grammatical Corpus nettoyé Corpus étiqueté Détection de la terminologie (2/5) Mais pour des personnes très spontanées... Mais/COO pour/PREP des/DTN:pl personnes/SBC:pl très/ADV spontanées/ADJ... Étiqueteur de Brill

EGC, Lyon janvier Étiqueteur grammatical Corpus nettoyé Corpus étiqueté Détection de la terminologie (3/5) Améliorations de létiqueteur de Brill : Ajouter : - des règles lexicales et contextuelles propres au domaine - ajout détiquettes spécifiques au domaine

EGC, Lyon janvier Étiqueteur grammatical Extraction des candidats-termes Corpus nettoyéCorpus étiqueté Détection de la terminologie (4/5) Candidats termes extraits : Nom-Nom Adjectif-Nom Nom-Adjectif Nom-Préposition-Nom Formule-Nom... tête froide activité professionnelle circuit fermé intérêt général

EGC, Lyon janvier Étiqueteur grammatical Extraction des candidats-termes Sélection des meilleurs candidats-termes Corpus nettoyé Corpus étiqueté tête froide activité professionnelle circuit fermé intérêt général Détection de la terminologie (5/5) activité pofessionnelle tête froide circuit fermé intérêt général

EGC, Lyon janvier Sélection des meilleurs candidats-termes du domaine (1/2) Information Mutuelle : calcul du degré dindépendance entre les deux mots qui composent les candidats-termes (Church, 1990).

EGC, Lyon janvier Sélection des meilleurs candidats-termes du domaine (2/2) Mesure dassociation : isobarycentre des valeurs normalisées de linformation mutuelle et du nombre doccurrences (Jacquemin, 1997). Rapport de Vraisemblance (Dunning, 1993).

EGC, Lyon janvier Évaluation des résultats obtenus (1/3) n Évaluation des résultats La courbe délévation (lift chart) donne la précision en fonction de la proportion de termes extraits.

EGC, Lyon janvier n Corpus de la Fouille de Données Évaluation des résultats obtenus (2/3)

EGC, Lyon janvier n Corpus des Ressources Humaines Évaluation des résultats obtenus (3/3)

EGC, Lyon janvier Paramètres ajoutés pour privilégier les termes du domaine (1/2) Élagage progressif Privilégier les termes qui apparaissent dans des textes différents. Privilégier les termes déjà reconnus par des auteurs.

EGC, Lyon janvier Paramètres ajoutés pour privilégier les termes du domaine (2/2) A la n-ième itération de la recherche terminologique, privilégier les termes composés des mots issus des termes retenus à la (n-1)-ième itération.

EGC, Lyon janvier Construction des classes (1/3) Classes Corpus avec prise en compte de la terminologie 3ème étape Termes + Relations syntaxiques (Shallow Parser) + ROWAN

EGC, Lyon janvier Construction des classes (2/3) n Pour lutter contre la polysémie, on ne caractérise pas la présence de concepts par la présence de noms, mais par celles de termes ou de relations syntaxiques.

EGC, Lyon janvier Construction des classes (3/3) Analyse syntaxique Relations grammaticales Ce sentiment n'empêche pas une inquiétude … … Analyse de Shallow Parser Corpus nettoyé avec terminologie

EGC, Lyon janvier

EGC, Lyon janvier Extrait dune classification 0 (tempérament:Nom,démonstratif:Adjectif)expansion 0 (promouvoir:Verbe,ambiance:Objet)influence 0 (précaution:Nom,excessif:Adjectif)influence 0 (rôle:Sujet,dynamiser:Verbe)influence 0 (solliciter:Verbe,conseil:Objet)influence 0 caractère-expansifexpansion 0 prétexte-de-progrèsinfluence 0 rôle-moteurinfluence 1 expansionRelationAction 1 influenceRelationAction 2 RelationActionToutesRelations

EGC, Lyon janvier Prochaine étape : extraction des connaissances Classification conceptuelle Règles dassociation Corpus

EGC, Lyon janvier Extraction des connaissances Classes conceptuelles … … …. Représentation fréquentielle du corpus … … …. Représentation discrète du corpus Concept_1 concept_15 Concept_3 concept_8 concept_6 … Règles

EGC, Lyon janvier Données manipulées n Extrait de la matrice des fréquences doccurrence des concepts dans le corpus des Ressources Humaines

EGC, Lyon janvier Discrétisation des données Pourquoi ? n Règles dassociation attributs discrets (booléens) n Données discrètes plus compréhensibles que données continues [Freq(influence) 0.03] [Faible présence influence] [Forte présence activité]

EGC, Lyon janvier Discrétisation des données Comment ? n Problème non supervisé –(peu de méthodes (Liu et al.,journal of DM and KD 2002)) n Utilisation dinformations a priori sur les résultats recherchés (Chickering, ICDM 01) a priori sur la distribution des données (uniforme, binomiale, gaussienne, etc.) a priori sur le nombre de valeurs discrètes

EGC, Lyon janvier Discrétisation : Notre approche n Discrétisation de chaque concept indépendamment les uns des autres n Isoler les valeurs nulles = absence du concept dans les textes n Equi-répartir les valeurs non nulles dans k valeurs discrètes (k fixé par lexpert) –Utilisation dune interface permettant de contrôler les différents paramètres (k, concepts à discrétiser)

EGC, Lyon janvier Discrétisation Un exemple k=2

EGC, Lyon janvier Discrétisation Un exemple

EGC, Lyon janvier Interface de discrétisation

EGC, Lyon janvier Interface de discrétisation

EGC, Lyon janvier Extraction des connaissances … … …. Représentation discrète du corpus activite_2 relationnel_1 relationnel_2 activite_1 communication_2 … Règles

EGC, Lyon janvier Connaissances recherchées n Pépites de connaissances –Règles dassociation : A B –Peu contredites par les données –Pas de contrainte sur le support Connaissances nouvelles pour lexpert

EGC, Lyon janvier Actuellement n Extraction des règles dassociation en deux étapes –Extraction des Frequent Item Sets (FIS) Contrainte sur le support des FIS (à la Apriori) –Extraction des règles à partir des FIS à laide dune mesure de qualité

EGC, Lyon janvier Notre approche n Objectifs –pouvoir extraire des pépites de connaissances dans les données –minimiser lintervention de lexpert dans le processus dextraction –extraire le sous-ensemble de règles les moins-contredites par les données

EGC, Lyon janvier Moindre-Contradiction (Azé,Kodratoff, EGC02) A B

EGC, Lyon janvier Moindre-Contradiction B A B A

EGC, Lyon janvier Propriétés n Ni monotone, ni anti-monotone… –pas délagage possible du treillis –besoin de nouvelles conditions délagage règles A B où B est réduit à un concept et A est une conjonction dau plus K concepts ne pas spécialiser les « meilleures » règles utiliser un seuil délagage « contextuel »

EGC, Lyon janvier Moindre Contradiction n Seuil délagage « contextuel » –Soit = { R / mc(R) > 0 } (confiance > 0.5) –soit E = moyenne ( ) et E =écart-type( ) –seuil délagage T= E + E n Élagage des règles –Soit R une règle, si mc(R) > T alors R est présentée à lexpert mais aucune spécialisation de R ne sera calculée (Sahar, KDD99)

EGC, Lyon janvier Exemple n Soit une base de données contenant 6 attributs (A, B, C, D, E et F). Considérons les règles concluant sur F (voir treillis des prémisses). BCDCDEBDEBCEABCACDADEABDABEACE BCDEABCDACDEABDEABCE ABBCCDDEBDBEACADAECE ABCDE ABCDE

EGC, Lyon janvier Exemple n Soit = {AB, AC, AD, BC, BE, CD, DE} {R, mc(R) > 0)} n et {AD, CD} situées au delà de T = E + E ABBCCD*DEBDBEACAD*AECE ABCDE BCDCDEBDEBCEABCACDADEABDABEACE BCDEABCDACDEABDEABCE ABCDE

EGC, Lyon janvier Exemple n Soit = {AB, AC, AD, BC, BE, CD, DE} {R, mc(R) > 0)} n et {AD, CD} situées au delà de T= E + E BCDCDEBDEBCEABCACDADEABDABEACE BCDEABCDACDEABDEABCE ABBCCD*DEBDBEACAD*AECE ABCDE ABCDE

EGC, Lyon janvier Exemple n Soit = {AB, AC, AD, BC, BE, CD, DE} {R, mc(R) > 0)} n et {AD, CD} situées au delà de T= E + E BDEBCEABCABEACE ABCE ABBCCD*DEBDBEACAD*AECE ABCDE

EGC, Lyon janvier Validations n Expérimentations sur deux corpus –Introductions darticles sur la fouille de données –Ressources humaines n Classifications réalisées par des experts

EGC, Lyon janvier Quelques règles (Ressources Humaines)

EGC, Lyon janvier Conclusions et perspectives n Lien entre TALN et Fouille de Données n Rôle important lexpert dans le processus de fouille de textes n Étude de leffet du bruit sur le processus global –Amélioration de la partie TALN (Brill, etc) –Utilisation de modèles de bruit pour la fouille de données

EGC, Lyon janvier Annexes

EGC, Lyon janvier Mesure dassociation (Jacquemin, 1997) Principe de la mesure utilisée : isobarycentre des valeurs normalisées de linformation mutuelle et du nombre doccurrences.

EGC, Lyon janvier Rapport de Vraisemblance (Dunning, 1993) L(L x,L y ) = a log(a) + b log(b) + c log(c) + d log(d) - (a+b) log(a+b) - (a+c) log(a+c) - (b+d) log(b+d) - (c+d) log(c+d) + N log(N)