La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Extraction des règles dassociation à partir dun corpus spécialisé Jérôme AZÉ & Mathieu ROCHE Laboratoire de Recherche en Informatique EGC, Lyon 22-24 janvier.

Présentations similaires


Présentation au sujet: "Extraction des règles dassociation à partir dun corpus spécialisé Jérôme AZÉ & Mathieu ROCHE Laboratoire de Recherche en Informatique EGC, Lyon 22-24 janvier."— Transcription de la présentation:

1 Extraction des règles dassociation à partir dun corpus spécialisé Jérôme AZÉ & Mathieu ROCHE Laboratoire de Recherche en Informatique EGC, Lyon 22-24 janvier 2003

2 2 Motivations (1/5) n Extraire des connaissances spécifiques au corpus étudié : règles dassociation. BUT : Permettre à lexpert du domaine de mieux comprendre les interactions entre les différents concepts du corpus étudié.

3 EGC, Lyon 22-24 janvier 20033 Motivations (2/5) n 4 corpus étudiés : Corpus de 100 introductions darticles en anglais écrits par des auteurs anglophones sur le domaine de la « fouille de données » (369 Ko). Corpus de plus de 6000 résumés darticles en anglais sur la biologie Moléculaire (9424 Ko). Corpus en français de plus de 1000 Curiculum Vitae (VediorBis, 2470 Ko) Corpus en français relatif aux Ressources Humaines (PerfomanSe, 3784 Ko).

4 EGC, Lyon 22-24 janvier 20034 Motivations (3/5) Extraction paramétrée de la terminologie du domaine Mathieu Roche, EGC2003 - p 295-306 Une nouvelle mesure de qualité pour lextraction de pépites de connaissances - Jérôme Azé, EGC2003 - p171-182 Classification conceptuelle Règles dassociation Corpus Remarque : intervention de lexpert tout au long du processus

5 EGC, Lyon 22-24 janvier 20035 Motivations (4/5) n 1ère étape : Terminologie et classification conceptuelle Influence avis-extérieur esprit-de-conquête Expansion caractère-expansif personne-aussi-communicative RelationAction

6 EGC, Lyon 22-24 janvier 20036 Motivations (5/5) n 2ème étape : Extraction des connaissances Corpus des Ressources Humaines : stress environnement Corpus de la Fouille de données : NatofInput Output

7 EGC, Lyon 22-24 janvier 20037 Plan de lexposé n Motivations n Classification conceptuelle Recherche terminologique Construction des classes n Extraction des connaissances Discrétisation Extraction des règles dassociation n Validations n Conclusions et perspectives

8 EGC, Lyon 22-24 janvier 20038 Construction des classes - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Classification conceptuelle Corpus brut

9 EGC, Lyon 22-24 janvier 20039 Étapes de notre travail (1/3) - - - - - - - - - - - - - - - - - - - - - - - - - - 1ère étape : Nettoyage Corpus brut Corpus nettoyé - - - - - - - - - - - - - - - - - - - - - - - - - -

10 EGC, Lyon 22-24 janvier 200310 Le nettoyage n Types de nettoyage : - Enlever les noms, prénoms, coordonnées, etc. (pour les articles et les CVs) - Uniformiser les références CORPUS FOUILLE DE DONNEES :Remplacer ([lettres+année], [numéro], etc.) par « a paper » ou « papers » si ces références sont précédées de la préposition « in », sinon on supprime ces références. - Généraliser certains noms : CORPUS DE BIOLOGIE MOLECULAIRE Remplacer : carboxyl-terminal carboxyl-termini, C00H- terminal, C02H-terminal, etc. par C-term.

11 EGC, Lyon 22-24 janvier 200311 Étapes de notre travail (2/3) - - - - - - - - - - - - - - - - - - - - - - - - - - 1ère étape : Nettoyage Corpus brut Corpus nettoyé - - - - - - - - - - - - - - - - - - - - - - - - - - 2ème étape : Recherche de termes Corpus avec termes - - - - - - - - - - - - - - - - - - - - - - - - - - Exemple de prise en compte de la terminologie du domaine : Considérer le terme « solution miracle » plutôt que chacun des mots « solution » et « miracle ».

12 EGC, Lyon 22-24 janvier 200312 Étapes de notre travail (3/3) - - - - - - - - - - - - - - - - - - - - - - - - - - 1ère étape : Nettoyage 2ème étape : Recherche de termes 3ème étape : Construction des classes Classification conceptuelle Corpus avec termes Corpus brut Corpus nettoyé - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

13 EGC, Lyon 22-24 janvier 200313 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Corpus nettoyé 2ème étape activité professionnelle tête froide circuit fermé intérêt général Corpus avec prise en compte de la terminologie - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Liste de termes Détection de la terminologie (1/5)

14 EGC, Lyon 22-24 janvier 200314 - - - - - - - - - - - - - - - - - - - - - - - - - - Étiqueteur grammatical Corpus nettoyé Corpus étiqueté - - - - - - - - - - - - - - - - - - - - - - - - - - Détection de la terminologie (2/5) Mais pour des personnes très spontanées... Mais/COO pour/PREP des/DTN:pl personnes/SBC:pl très/ADV spontanées/ADJ... Étiqueteur de Brill

15 EGC, Lyon 22-24 janvier 200315 - - - - - - - - - - - - - - - - - - - - - - - - - - Étiqueteur grammatical Corpus nettoyé Corpus étiqueté - - - - - - - - - - - - - - - - - - - - - - - - - - Détection de la terminologie (3/5) Améliorations de létiqueteur de Brill : Ajouter : - des règles lexicales et contextuelles propres au domaine - ajout détiquettes spécifiques au domaine

16 EGC, Lyon 22-24 janvier 200316 - - - - - - - - - - - - - - - - - - - - - - - - - - Étiqueteur grammatical Extraction des candidats-termes Corpus nettoyéCorpus étiqueté - - - - - - - - - - - - - - - - - - - - - - - - - - Détection de la terminologie (4/5) Candidats termes extraits : Nom-Nom Adjectif-Nom Nom-Adjectif Nom-Préposition-Nom Formule-Nom... tête froide activité professionnelle circuit fermé intérêt général

17 EGC, Lyon 22-24 janvier 200317 - - - - - - - - - - - - - - - - - - - - - - - - - - Étiqueteur grammatical Extraction des candidats-termes Sélection des meilleurs candidats-termes Corpus nettoyé Corpus étiqueté - - - - - - - - - - - - - - - - - - - - - - - - - - tête froide activité professionnelle circuit fermé intérêt général Détection de la terminologie (5/5) activité pofessionnelle tête froide circuit fermé intérêt général

18 EGC, Lyon 22-24 janvier 200318 Sélection des meilleurs candidats-termes du domaine (1/2) Information Mutuelle : calcul du degré dindépendance entre les deux mots qui composent les candidats-termes (Church, 1990).

19 EGC, Lyon 22-24 janvier 200319 Sélection des meilleurs candidats-termes du domaine (2/2) Mesure dassociation : isobarycentre des valeurs normalisées de linformation mutuelle et du nombre doccurrences (Jacquemin, 1997). Rapport de Vraisemblance (Dunning, 1993).

20 EGC, Lyon 22-24 janvier 200320 Évaluation des résultats obtenus (1/3) n Évaluation des résultats La courbe délévation (lift chart) donne la précision en fonction de la proportion de termes extraits.

21 EGC, Lyon 22-24 janvier 200321 n Corpus de la Fouille de Données Évaluation des résultats obtenus (2/3)

22 EGC, Lyon 22-24 janvier 200322 n Corpus des Ressources Humaines Évaluation des résultats obtenus (3/3)

23 EGC, Lyon 22-24 janvier 200323 Paramètres ajoutés pour privilégier les termes du domaine (1/2) Élagage progressif Privilégier les termes qui apparaissent dans des textes différents. Privilégier les termes déjà reconnus par des auteurs.

24 EGC, Lyon 22-24 janvier 200324 Paramètres ajoutés pour privilégier les termes du domaine (2/2) A la n-ième itération de la recherche terminologique, privilégier les termes composés des mots issus des termes retenus à la (n-1)-ième itération.

25 EGC, Lyon 22-24 janvier 200325 Construction des classes (1/3) - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Classes Corpus avec prise en compte de la terminologie 3ème étape Termes + Relations syntaxiques (Shallow Parser) + ROWAN

26 EGC, Lyon 22-24 janvier 200326 Construction des classes (2/3) n Pour lutter contre la polysémie, on ne caractérise pas la présence de concepts par la présence de noms, mais par celles de termes ou de relations syntaxiques.

27 EGC, Lyon 22-24 janvier 200327 Construction des classes (3/3) - - - - - - - - - - - - - - - - - - - - - - - - - - Analyse syntaxique Relations grammaticales - - - - - - - - - - - - - - - - - - - - - - - - - - Ce sentiment n'empêche pas une inquiétude … SUBJ(3@sentiment 5@empêcher) DOBJ(5@empêcher 8@inquiétude) … Analyse de Shallow Parser Corpus nettoyé avec terminologie

28 EGC, Lyon 22-24 janvier 200328

29 EGC, Lyon 22-24 janvier 200329 Extrait dune classification 0 (tempérament:Nom,démonstratif:Adjectif)expansion 0 (promouvoir:Verbe,ambiance:Objet)influence 0 (précaution:Nom,excessif:Adjectif)influence 0 (rôle:Sujet,dynamiser:Verbe)influence 0 (solliciter:Verbe,conseil:Objet)influence 0 caractère-expansifexpansion 0 prétexte-de-progrèsinfluence 0 rôle-moteurinfluence 1 expansionRelationAction 1 influenceRelationAction 2 RelationActionToutesRelations

30 EGC, Lyon 22-24 janvier 200330 Prochaine étape : extraction des connaissances Classification conceptuelle Règles dassociation Corpus

31 EGC, Lyon 22-24 janvier 200331 Extraction des connaissances Classes conceptuelles 0.2 0.45 0.01 0 0 0.054 … 0.015 0.121 0 0.108 … …. Représentation fréquentielle du corpus 2 2 1 0 0 1 … 1 2 0 2 … …. Représentation discrète du corpus Concept_1 concept_15 Concept_3 concept_8 concept_6 … Règles

32 EGC, Lyon 22-24 janvier 200332 Données manipulées n Extrait de la matrice des fréquences doccurrence des concepts dans le corpus des Ressources Humaines

33 EGC, Lyon 22-24 janvier 200333 Discrétisation des données Pourquoi ? n Règles dassociation attributs discrets (booléens) n Données discrètes plus compréhensibles que données continues [Freq(influence) 0.03] [Faible présence influence] [Forte présence activité]

34 EGC, Lyon 22-24 janvier 200334 Discrétisation des données Comment ? n Problème non supervisé –(peu de méthodes (Liu et al.,journal of DM and KD 2002)) n Utilisation dinformations a priori sur les résultats recherchés (Chickering, ICDM 01) a priori sur la distribution des données (uniforme, binomiale, gaussienne, etc.) a priori sur le nombre de valeurs discrètes

35 EGC, Lyon 22-24 janvier 200335 Discrétisation : Notre approche n Discrétisation de chaque concept indépendamment les uns des autres n Isoler les valeurs nulles = absence du concept dans les textes n Equi-répartir les valeurs non nulles dans k valeurs discrètes (k fixé par lexpert) –Utilisation dune interface permettant de contrôler les différents paramètres (k, concepts à discrétiser)

36 EGC, Lyon 22-24 janvier 200336 Discrétisation Un exemple 0 0 0 2 2 1 1 1 k=2

37 EGC, Lyon 22-24 janvier 200337 Discrétisation Un exemple

38 EGC, Lyon 22-24 janvier 200338 Interface de discrétisation

39 EGC, Lyon 22-24 janvier 200339 Interface de discrétisation

40 EGC, Lyon 22-24 janvier 200340 Extraction des connaissances 2 2 1 0 0 1 … 1 2 0 2 … …. Représentation discrète du corpus activite_2 relationnel_1 relationnel_2 activite_1 communication_2 … Règles

41 EGC, Lyon 22-24 janvier 200341 Connaissances recherchées n Pépites de connaissances –Règles dassociation : A B –Peu contredites par les données –Pas de contrainte sur le support Connaissances nouvelles pour lexpert

42 EGC, Lyon 22-24 janvier 200342 Actuellement n Extraction des règles dassociation en deux étapes –Extraction des Frequent Item Sets (FIS) Contrainte sur le support des FIS (à la Apriori) –Extraction des règles à partir des FIS à laide dune mesure de qualité

43 EGC, Lyon 22-24 janvier 200343 Notre approche n Objectifs –pouvoir extraire des pépites de connaissances dans les données –minimiser lintervention de lexpert dans le processus dextraction –extraire le sous-ensemble de règles les moins-contredites par les données

44 EGC, Lyon 22-24 janvier 200344 Moindre-Contradiction (Azé,Kodratoff, EGC02) A B

45 EGC, Lyon 22-24 janvier 200345 Moindre-Contradiction B A B A

46 EGC, Lyon 22-24 janvier 200346 Propriétés n Ni monotone, ni anti-monotone… –pas délagage possible du treillis –besoin de nouvelles conditions délagage règles A B où B est réduit à un concept et A est une conjonction dau plus K concepts ne pas spécialiser les « meilleures » règles utiliser un seuil délagage « contextuel »

47 EGC, Lyon 22-24 janvier 200347 Moindre Contradiction n Seuil délagage « contextuel » –Soit = { R / mc(R) > 0 } (confiance > 0.5) –soit E = moyenne ( ) et E =écart-type( ) –seuil délagage T= E + E n Élagage des règles –Soit R une règle, si mc(R) > T alors R est présentée à lexpert mais aucune spécialisation de R ne sera calculée (Sahar, KDD99)

48 EGC, Lyon 22-24 janvier 200348 Exemple n Soit une base de données contenant 6 attributs (A, B, C, D, E et F). Considérons les règles concluant sur F (voir treillis des prémisses). BCDCDEBDEBCEABCACDADEABDABEACE BCDEABCDACDEABDEABCE ABBCCDDEBDBEACADAECE ABCDE ABCDE

49 EGC, Lyon 22-24 janvier 200349 Exemple n Soit = {AB, AC, AD, BC, BE, CD, DE} {R, mc(R) > 0)} n et {AD, CD} situées au delà de T = E + E ABBCCD*DEBDBEACAD*AECE ABCDE BCDCDEBDEBCEABCACDADEABDABEACE BCDEABCDACDEABDEABCE ABCDE

50 EGC, Lyon 22-24 janvier 200350 Exemple n Soit = {AB, AC, AD, BC, BE, CD, DE} {R, mc(R) > 0)} n et {AD, CD} situées au delà de T= E + E BCDCDEBDEBCEABCACDADEABDABEACE BCDEABCDACDEABDEABCE ABBCCD*DEBDBEACAD*AECE ABCDE ABCDE

51 EGC, Lyon 22-24 janvier 200351 Exemple n Soit = {AB, AC, AD, BC, BE, CD, DE} {R, mc(R) > 0)} n et {AD, CD} situées au delà de T= E + E BDEBCEABCABEACE ABCE ABBCCD*DEBDBEACAD*AECE ABCDE

52 EGC, Lyon 22-24 janvier 200352 Validations n Expérimentations sur deux corpus –Introductions darticles sur la fouille de données –Ressources humaines n Classifications réalisées par des experts

53 EGC, Lyon 22-24 janvier 200353 Quelques règles (Ressources Humaines)

54 EGC, Lyon 22-24 janvier 200354 Conclusions et perspectives n Lien entre TALN et Fouille de Données n Rôle important lexpert dans le processus de fouille de textes n Étude de leffet du bruit sur le processus global –Amélioration de la partie TALN (Brill, etc) –Utilisation de modèles de bruit pour la fouille de données

55 EGC, Lyon 22-24 janvier 200355 Annexes

56 EGC, Lyon 22-24 janvier 200356 Mesure dassociation (Jacquemin, 1997) Principe de la mesure utilisée : isobarycentre des valeurs normalisées de linformation mutuelle et du nombre doccurrences.

57 EGC, Lyon 22-24 janvier 200357 Rapport de Vraisemblance (Dunning, 1993) L(L x,L y ) = a log(a) + b log(b) + c log(c) + d log(d) - (a+b) log(a+b) - (a+c) log(a+c) - (b+d) log(b+d) - (c+d) log(c+d) + N log(N)


Télécharger ppt "Extraction des règles dassociation à partir dun corpus spécialisé Jérôme AZÉ & Mathieu ROCHE Laboratoire de Recherche en Informatique EGC, Lyon 22-24 janvier."

Présentations similaires


Annonces Google