La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Extraction des règles dassociation à partir dun corpus spécialisé Jérôme AZÉ & Mathieu ROCHE Laboratoire de Recherche en Informatique EGC, Lyon 22-24 janvier.

Présentations similaires


Présentation au sujet: "Extraction des règles dassociation à partir dun corpus spécialisé Jérôme AZÉ & Mathieu ROCHE Laboratoire de Recherche en Informatique EGC, Lyon 22-24 janvier."— Transcription de la présentation:

1 Extraction des règles dassociation à partir dun corpus spécialisé Jérôme AZÉ & Mathieu ROCHE Laboratoire de Recherche en Informatique EGC, Lyon janvier 2003

2 2 Motivations (1/5) n Extraire des connaissances spécifiques au corpus étudié : règles dassociation. BUT : Permettre à lexpert du domaine de mieux comprendre les interactions entre les différents concepts du corpus étudié.

3 EGC, Lyon janvier Motivations (2/5) n 4 corpus étudiés : Corpus de 100 introductions darticles en anglais écrits par des auteurs anglophones sur le domaine de la « fouille de données » (369 Ko). Corpus de plus de 6000 résumés darticles en anglais sur la biologie Moléculaire (9424 Ko). Corpus en français de plus de 1000 Curiculum Vitae (VediorBis, 2470 Ko) Corpus en français relatif aux Ressources Humaines (PerfomanSe, 3784 Ko).

4 EGC, Lyon janvier Motivations (3/5) Extraction paramétrée de la terminologie du domaine Mathieu Roche, EGC p Une nouvelle mesure de qualité pour lextraction de pépites de connaissances - Jérôme Azé, EGC p Classification conceptuelle Règles dassociation Corpus Remarque : intervention de lexpert tout au long du processus

5 EGC, Lyon janvier Motivations (4/5) n 1ère étape : Terminologie et classification conceptuelle Influence avis-extérieur esprit-de-conquête Expansion caractère-expansif personne-aussi-communicative RelationAction

6 EGC, Lyon janvier Motivations (5/5) n 2ème étape : Extraction des connaissances Corpus des Ressources Humaines : stress environnement Corpus de la Fouille de données : NatofInput Output

7 EGC, Lyon janvier Plan de lexposé n Motivations n Classification conceptuelle Recherche terminologique Construction des classes n Extraction des connaissances Discrétisation Extraction des règles dassociation n Validations n Conclusions et perspectives

8 EGC, Lyon janvier Construction des classes Classification conceptuelle Corpus brut

9 EGC, Lyon janvier Étapes de notre travail (1/3) ère étape : Nettoyage Corpus brut Corpus nettoyé

10 EGC, Lyon janvier Le nettoyage n Types de nettoyage : - Enlever les noms, prénoms, coordonnées, etc. (pour les articles et les CVs) - Uniformiser les références CORPUS FOUILLE DE DONNEES :Remplacer ([lettres+année], [numéro], etc.) par « a paper » ou « papers » si ces références sont précédées de la préposition « in », sinon on supprime ces références. - Généraliser certains noms : CORPUS DE BIOLOGIE MOLECULAIRE Remplacer : carboxyl-terminal carboxyl-termini, C00H- terminal, C02H-terminal, etc. par C-term.

11 EGC, Lyon janvier Étapes de notre travail (2/3) ère étape : Nettoyage Corpus brut Corpus nettoyé ème étape : Recherche de termes Corpus avec termes Exemple de prise en compte de la terminologie du domaine : Considérer le terme « solution miracle » plutôt que chacun des mots « solution » et « miracle ».

12 EGC, Lyon janvier Étapes de notre travail (3/3) ère étape : Nettoyage 2ème étape : Recherche de termes 3ème étape : Construction des classes Classification conceptuelle Corpus avec termes Corpus brut Corpus nettoyé

13 EGC, Lyon janvier Corpus nettoyé 2ème étape activité professionnelle tête froide circuit fermé intérêt général Corpus avec prise en compte de la terminologie Liste de termes Détection de la terminologie (1/5)

14 EGC, Lyon janvier Étiqueteur grammatical Corpus nettoyé Corpus étiqueté Détection de la terminologie (2/5) Mais pour des personnes très spontanées... Mais/COO pour/PREP des/DTN:pl personnes/SBC:pl très/ADV spontanées/ADJ... Étiqueteur de Brill

15 EGC, Lyon janvier Étiqueteur grammatical Corpus nettoyé Corpus étiqueté Détection de la terminologie (3/5) Améliorations de létiqueteur de Brill : Ajouter : - des règles lexicales et contextuelles propres au domaine - ajout détiquettes spécifiques au domaine

16 EGC, Lyon janvier Étiqueteur grammatical Extraction des candidats-termes Corpus nettoyéCorpus étiqueté Détection de la terminologie (4/5) Candidats termes extraits : Nom-Nom Adjectif-Nom Nom-Adjectif Nom-Préposition-Nom Formule-Nom... tête froide activité professionnelle circuit fermé intérêt général

17 EGC, Lyon janvier Étiqueteur grammatical Extraction des candidats-termes Sélection des meilleurs candidats-termes Corpus nettoyé Corpus étiqueté tête froide activité professionnelle circuit fermé intérêt général Détection de la terminologie (5/5) activité pofessionnelle tête froide circuit fermé intérêt général

18 EGC, Lyon janvier Sélection des meilleurs candidats-termes du domaine (1/2) Information Mutuelle : calcul du degré dindépendance entre les deux mots qui composent les candidats-termes (Church, 1990).

19 EGC, Lyon janvier Sélection des meilleurs candidats-termes du domaine (2/2) Mesure dassociation : isobarycentre des valeurs normalisées de linformation mutuelle et du nombre doccurrences (Jacquemin, 1997). Rapport de Vraisemblance (Dunning, 1993).

20 EGC, Lyon janvier Évaluation des résultats obtenus (1/3) n Évaluation des résultats La courbe délévation (lift chart) donne la précision en fonction de la proportion de termes extraits.

21 EGC, Lyon janvier n Corpus de la Fouille de Données Évaluation des résultats obtenus (2/3)

22 EGC, Lyon janvier n Corpus des Ressources Humaines Évaluation des résultats obtenus (3/3)

23 EGC, Lyon janvier Paramètres ajoutés pour privilégier les termes du domaine (1/2) Élagage progressif Privilégier les termes qui apparaissent dans des textes différents. Privilégier les termes déjà reconnus par des auteurs.

24 EGC, Lyon janvier Paramètres ajoutés pour privilégier les termes du domaine (2/2) A la n-ième itération de la recherche terminologique, privilégier les termes composés des mots issus des termes retenus à la (n-1)-ième itération.

25 EGC, Lyon janvier Construction des classes (1/3) Classes Corpus avec prise en compte de la terminologie 3ème étape Termes + Relations syntaxiques (Shallow Parser) + ROWAN

26 EGC, Lyon janvier Construction des classes (2/3) n Pour lutter contre la polysémie, on ne caractérise pas la présence de concepts par la présence de noms, mais par celles de termes ou de relations syntaxiques.

27 EGC, Lyon janvier Construction des classes (3/3) Analyse syntaxique Relations grammaticales Ce sentiment n'empêche pas une inquiétude … … Analyse de Shallow Parser Corpus nettoyé avec terminologie

28 EGC, Lyon janvier

29 EGC, Lyon janvier Extrait dune classification 0 (tempérament:Nom,démonstratif:Adjectif)expansion 0 (promouvoir:Verbe,ambiance:Objet)influence 0 (précaution:Nom,excessif:Adjectif)influence 0 (rôle:Sujet,dynamiser:Verbe)influence 0 (solliciter:Verbe,conseil:Objet)influence 0 caractère-expansifexpansion 0 prétexte-de-progrèsinfluence 0 rôle-moteurinfluence 1 expansionRelationAction 1 influenceRelationAction 2 RelationActionToutesRelations

30 EGC, Lyon janvier Prochaine étape : extraction des connaissances Classification conceptuelle Règles dassociation Corpus

31 EGC, Lyon janvier Extraction des connaissances Classes conceptuelles … … …. Représentation fréquentielle du corpus … … …. Représentation discrète du corpus Concept_1 concept_15 Concept_3 concept_8 concept_6 … Règles

32 EGC, Lyon janvier Données manipulées n Extrait de la matrice des fréquences doccurrence des concepts dans le corpus des Ressources Humaines

33 EGC, Lyon janvier Discrétisation des données Pourquoi ? n Règles dassociation attributs discrets (booléens) n Données discrètes plus compréhensibles que données continues [Freq(influence) 0.03] [Faible présence influence] [Forte présence activité]

34 EGC, Lyon janvier Discrétisation des données Comment ? n Problème non supervisé –(peu de méthodes (Liu et al.,journal of DM and KD 2002)) n Utilisation dinformations a priori sur les résultats recherchés (Chickering, ICDM 01) a priori sur la distribution des données (uniforme, binomiale, gaussienne, etc.) a priori sur le nombre de valeurs discrètes

35 EGC, Lyon janvier Discrétisation : Notre approche n Discrétisation de chaque concept indépendamment les uns des autres n Isoler les valeurs nulles = absence du concept dans les textes n Equi-répartir les valeurs non nulles dans k valeurs discrètes (k fixé par lexpert) –Utilisation dune interface permettant de contrôler les différents paramètres (k, concepts à discrétiser)

36 EGC, Lyon janvier Discrétisation Un exemple k=2

37 EGC, Lyon janvier Discrétisation Un exemple

38 EGC, Lyon janvier Interface de discrétisation

39 EGC, Lyon janvier Interface de discrétisation

40 EGC, Lyon janvier Extraction des connaissances … … …. Représentation discrète du corpus activite_2 relationnel_1 relationnel_2 activite_1 communication_2 … Règles

41 EGC, Lyon janvier Connaissances recherchées n Pépites de connaissances –Règles dassociation : A B –Peu contredites par les données –Pas de contrainte sur le support Connaissances nouvelles pour lexpert

42 EGC, Lyon janvier Actuellement n Extraction des règles dassociation en deux étapes –Extraction des Frequent Item Sets (FIS) Contrainte sur le support des FIS (à la Apriori) –Extraction des règles à partir des FIS à laide dune mesure de qualité

43 EGC, Lyon janvier Notre approche n Objectifs –pouvoir extraire des pépites de connaissances dans les données –minimiser lintervention de lexpert dans le processus dextraction –extraire le sous-ensemble de règles les moins-contredites par les données

44 EGC, Lyon janvier Moindre-Contradiction (Azé,Kodratoff, EGC02) A B

45 EGC, Lyon janvier Moindre-Contradiction B A B A

46 EGC, Lyon janvier Propriétés n Ni monotone, ni anti-monotone… –pas délagage possible du treillis –besoin de nouvelles conditions délagage règles A B où B est réduit à un concept et A est une conjonction dau plus K concepts ne pas spécialiser les « meilleures » règles utiliser un seuil délagage « contextuel »

47 EGC, Lyon janvier Moindre Contradiction n Seuil délagage « contextuel » –Soit = { R / mc(R) > 0 } (confiance > 0.5) –soit E = moyenne ( ) et E =écart-type( ) –seuil délagage T= E + E n Élagage des règles –Soit R une règle, si mc(R) > T alors R est présentée à lexpert mais aucune spécialisation de R ne sera calculée (Sahar, KDD99)

48 EGC, Lyon janvier Exemple n Soit une base de données contenant 6 attributs (A, B, C, D, E et F). Considérons les règles concluant sur F (voir treillis des prémisses). BCDCDEBDEBCEABCACDADEABDABEACE BCDEABCDACDEABDEABCE ABBCCDDEBDBEACADAECE ABCDE ABCDE

49 EGC, Lyon janvier Exemple n Soit = {AB, AC, AD, BC, BE, CD, DE} {R, mc(R) > 0)} n et {AD, CD} situées au delà de T = E + E ABBCCD*DEBDBEACAD*AECE ABCDE BCDCDEBDEBCEABCACDADEABDABEACE BCDEABCDACDEABDEABCE ABCDE

50 EGC, Lyon janvier Exemple n Soit = {AB, AC, AD, BC, BE, CD, DE} {R, mc(R) > 0)} n et {AD, CD} situées au delà de T= E + E BCDCDEBDEBCEABCACDADEABDABEACE BCDEABCDACDEABDEABCE ABBCCD*DEBDBEACAD*AECE ABCDE ABCDE

51 EGC, Lyon janvier Exemple n Soit = {AB, AC, AD, BC, BE, CD, DE} {R, mc(R) > 0)} n et {AD, CD} situées au delà de T= E + E BDEBCEABCABEACE ABCE ABBCCD*DEBDBEACAD*AECE ABCDE

52 EGC, Lyon janvier Validations n Expérimentations sur deux corpus –Introductions darticles sur la fouille de données –Ressources humaines n Classifications réalisées par des experts

53 EGC, Lyon janvier Quelques règles (Ressources Humaines)

54 EGC, Lyon janvier Conclusions et perspectives n Lien entre TALN et Fouille de Données n Rôle important lexpert dans le processus de fouille de textes n Étude de leffet du bruit sur le processus global –Amélioration de la partie TALN (Brill, etc) –Utilisation de modèles de bruit pour la fouille de données

55 EGC, Lyon janvier Annexes

56 EGC, Lyon janvier Mesure dassociation (Jacquemin, 1997) Principe de la mesure utilisée : isobarycentre des valeurs normalisées de linformation mutuelle et du nombre doccurrences.

57 EGC, Lyon janvier Rapport de Vraisemblance (Dunning, 1993) L(L x,L y ) = a log(a) + b log(b) + c log(c) + d log(d) - (a+b) log(a+b) - (a+c) log(a+c) - (b+d) log(b+d) - (c+d) log(c+d) + N log(N)


Télécharger ppt "Extraction des règles dassociation à partir dun corpus spécialisé Jérôme AZÉ & Mathieu ROCHE Laboratoire de Recherche en Informatique EGC, Lyon 22-24 janvier."

Présentations similaires


Annonces Google