La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Approche numérique et approche symbolique de lacquisition de connaissances sémantiques en corpus : opposition ou combinaison ? Pascale Sébillot Équipe.

Présentations similaires


Présentation au sujet: "Approche numérique et approche symbolique de lacquisition de connaissances sémantiques en corpus : opposition ou combinaison ? Pascale Sébillot Équipe."— Transcription de la présentation:

1 Approche numérique et approche symbolique de lacquisition de connaissances sémantiques en corpus : opposition ou combinaison ? Pascale Sébillot Équipe TexMex, IRISA, Rennes

2 Plan I- Approche numérique versus symbolique précisions terminologiques principes généraux de lapproche numérique principes généraux de lapproche symbolique II- Une expérience dacquisition de relations sémantiques nomino-verbales par programmation logique inductive (PLI) principes de la PLI expérimentation et résultats III- Opposition définitive ? quelle approche dans quels cas ? tentatives de rapprochements

3 Précisions terminologiques Opposition numérique vs symbolique et non numérique vs linguistique Techniques dacquisition fondées sur la notion de classifieur couples (n-uplets) respectant ou non la relation cible classifieurs regroupables selon les attributs utilisés pour repérer les éléments respectant la relation Exploitation de laspect fréquentiel (app. numérique) ou dindices structurels (app. symbolique) Laspect des données exploitées par le classifieur ne préjuge pas de la technique quil utilise (techniques dapprentissage numérique produisant des classifieurs symboliques)

4 Approche numérique I.e. acquisition à partir dindices numériques Exploitation de laspect fréquentiel des données Utilisation de techniques statistiques Extraction déléments respectant la relation réalisée au niveau du corpus

5 Indices statistiques Cooccurrences dans une fenêtre (ou contexte syntaxique) Mots apparaissant ensemble de manière statistiquement significative Coefficients dassociation table de contingence coefficient dinformation mutuelle IM= log 2 (a/(a+b)(a+c)) test du 2 (Church-Gale 91) = (ad-bc) 2 /((a+b)(a+c)(b+c)(b+d)) (Church-Hanks 89) : extraction de termes complexes par variante de lIM prenant en compte la précédence linéaire Segments répétés (Lebart-Salem 94) m2m2 mkm2mkm2 m1m1 ab mlm1mlm1 cd

6 Analyse distributionnelle Linguistique Harrissienne (Harris et al. 89) Approches en 3 étapes extraction des cooccurrents d'un mot mise en évidence de la proximité/distance des mots 2 à 2 selon leurs cooccurrents regroupement en classes Classes sémantiques… Grefenstette 94, Bouaud et al. 97…

7 Points faibles et forts de lapproche numérique Manque dinterprétabilité Détection au niveau du corpus… Caractère automatique Portabilité

8 Approche symbolique I.e. acquisition à partir dindices structurels Exploitation de laspect structurel des données Utilisation dindices collectés sur le contexte dune occurrence de mots en relation Classifieur : souvent un ensemble de règles sappuyant sur des indices lexicaux, morphosyntaxiques… Deux grandes familles approche linguistique approche par apprentissage

9 Approche linguistique Définitions opérationnelles des éléments à acquérir, établies par expertise linguistique Indices structurels donnés a priori Patrons, marqueurs Lexter (Bourigault 94)…

10 Approche linguistique Seek (Jouis 95) : règles d'exploration contextuelle plus de 220 règles SI ALORS OU manipulant plus de 3300 marqueurs linguistiques, construites manuellement détection de couples de mots en relation binaire (localisation, tout à partie…)

11 Approche par apprentissage Marqueurs de la relation issus dune analyse dexemples et non dune connaissance linguistique a priori extraction de patrons à partir dexemples Hearst (92) : méthodologie en 5 étapes 1. choisir une relation cible R 2. réunir une liste de paires en relation R 3. trouver les phrases contenant ces paires ; enregistrer leurs contextes lexical et syntaxique 4. trouver les points communs entre ces contextes ; supposer que cest un schéma de R 5. appliquer les schémas pour avoir de nouvelles paires et retourner en 3

12 Approche par apprentissage Patrons inférés appliqués sur le corpus pour extraire des unités en relation Hearst : phase 4 manuelle Hyponymie – Prométhée (Morin 99) Automatisation par calcul de similarité entre contextes lexico-syntaxiques doccurrences de paires N-N en relation classes Schémas représentatifs obtenus par généralisation dun contexte de chaque classe par suppression des attributs non communs aux autres contextes SN tel que LISTE (arbres fruitiers tels que des pommiers, des poiriers…)

13 Points faibles et forts de lapproche symbolique Nécessité de données en entrée (patrons, exemples) Hypothèse de lapproche linguistique : indices de relations ne dépendent pas des domaines Interprétabilité, détection au niveau de loccurrence Définition opérationnelle dun concept Intérêt quand une relation est connue partiellement en extension et pas en intention, cest-à-dire non formalisée par une règle Assise théorique de la généralisation automatique à partir dexemples apprentissage artificiel (automatique) symbolique

14 Plan I- Approche numérique versus symbolique précisions terminologiques principes généraux de lapproche numérique principes généraux de lapproche symbolique II- Une expérience dacquisition de relations sémantiques nomino-verbales par programmation logique inductive (PLI) principes de la PLI expérimentation et résultats III- Opposition définitive ? quelle approche dans quels cas ? tentatives de rapprochements

15 Principes de la PLI Induction – rappel a) Tous les hommes sont mortels mortel(X) :- homme(X). b) Or Socrate est un homme homme(Socrate). c) Donc Socrate est mortel mortel(Socrate). À partir de a) et b), déduction de c) (ex. démonstration automatique) À partir de a) et c), abduction de b) (ex. diagnostic automatique) À partir de b) et c), induction de a)

16 Principes de la PLI [Muggleton & De Raedt 94] Technique dapprentissage symbolique supervisée E + et E - : exemples positifs et négatifs (contre-exemples) B : connaissances préalables (background knowledge) B, E +, E - exprimés en logique des prédicats But : lalgorithme de PLI infère, par généralisation des exemples positifs, des règles (hypothèses, clauses) H qui caractérisent les exemples positifs par rapport aux négatifs possibilité dautoriser un peu de bruit (exemples négatifs couverts) Intérêt : exemples à manipuler contenant un nombre variables dobjets et relations entre objets importantes

17 Exemple : apprendre quels animaux volent E + = {vole(canari). vole(chauve-souris).} E - = {:-vole(chien).} B = {oiseau(canari). mamm(chien). mamm(chauve-souris). ailé(chauve-souris). ailé(canari).} H = {vole(X) :- ailé(X).} vole(X). vole(X) :- oiseau(X).vole(X) :- mamm(X). vole(X) :- oiseau(X), mamm(X). vole(X) :- ailé(X). EhEh général spécifique

18 Un peu plus formellement… Choix du langage des exemples et du langage des hypothèses Lien entre les deux espaces : notion de couverture Hypothèses organisées par une notion de généralisation Algorithme de PLI (ALEPH - Srinivasan 00) 1. choisir un exemple dans E + ; arrêt sil ny en a plus 2. définir un espace de recherche dhypothèses à partir de lexemple et du langage dhypothèses 3. rechercher lhypothèse h dans lespace de solutions maximisant une fonction de score Sc 4. conserver cette hypothèse et ôter les exemples quelle couvre (explique) ; retourner en 1

19 Expérience dacquisition de relations sémantiques N-V par PLI Travail réalisé avec C. Fabre (Erss), P. Bouillon (Tim/Issco) et V. Claveau (Olst) logiciel ASARES Acquisition de couples N-V sémantiquement liés Liens définis dans la structure des qualia du Lexique génératif (Pustejovsky 95) : rôles qualia télique : fonction ou but dun objet (couper – couteau) agentif : mode de création dun objet (construire – maison) couple N-V qualia par la suite Pas da priori sur les structures portant les rôles qualia dans un corpus Méthode symbolique dacquisition : intérêt linguistique (schémas porteurs, verbalisation des rôles)

20 Extraction symbolique supervisée Concept à apprendre : distinguer les paires N-V qualia des non-qualia en contexte (en corpus) Informations utilisées contexte (informations apportées par étiquetages) ordre et distance entre N et V, succession des mots Construction densembles dexemples E + et E - par un expert e + : « À laide des manettes, déverrouiller le siège et... » e - : « Gonfler la roue à la pression prescrite... » Règles générées = patrons dextraction interprétables fonction ?

21 couples qualia Extraction symbolique supervisée E + et E - expert LG corpus corpus étiqueté Étiquetages système PLI patrons dextraction B ?

22 Corpus et étiquetages Manuel de maintenance dhélicoptères de MATRA-CCR corpus technique : nombreux termes concrets vocabulaire et structures syntaxiques homogènes mots, 700 Koctets Étiquetage catégoriel segmentation, lemmatisation, étiquetage (moins de 2% derreurs) manettes est un nom commun au pluriel Étiquetage sémantique ( Bouillon et al. 00) construction dune hiérarchie d'étiquettes (à partir de WordNet)hiérarchie d'étiquettes ex : un instrument est un type dartefact, dobjet... manettes désigne un instrument moins de 1.5% derreurs

23 common_noun

24 Corpus et étiquetages Exemple de phrase étiquetée #(SENT 114\3COMPÀ_l'aide_desBOSà_l'aide_de#prep\rman 114\18TOKmanettesmanette#noun_pl\ins 114\26PUNCT,,#wpunct\virg 114\28TOKdéverrouillerdéverrouiller#verb_inf\acp 114\42TOKlele#det_sg\ddef 114\45TOKsiègesiège#noun_sg\art 114\52TOKetet#conj_coord\rconj 114\55LSPLITl'il#pron\ppers 114\57TOKavanceravancer#verb_inf\acp 115\1TOKpourpour#prep\rpour... identifiantlemme étiquette catégorielle étiquette sémantique

25 Exemples et connaissances a priori Exemples description des mots de la phrase étiquettes catégorielles étiquettes sémantiques description des successions de mots distance en nombre de mots et verbes entre N et V Connaissances préalables : entre autres les hiérarchies des étiquettes catégorielles et sémantiques pour permettre des généralisations

26 Spécificités Hypothèse bien formée pour identifier une paire N-V qualia clause donnant des informations sur les mots (N, V, mots du contexte) ou sur les positions respectives du N et du V dans la phrase Prise en compte des connaissances hiérarchiques Règles linguistiquement pertinentes concision : au plus une information catégorielle et sémantique par mot introduction de variables uniquement si contraintes

27 Mise en œuvre Codage exemple dans E + is_qualia(m114_18, m114_28). Background knowledge instrument(M) :- tags(M,_,ins). artifact(M) :- instrument(M). object(M) :- artifact(M).... dans B sentence_beginning(m114_ 3). tags(m114_3, prep, rman). suc(m114_3, m114_18). tags(m114_18, noun_pl, ins). suc(m114_18, m_114_26).... À laide des manettes, déverrouiller le siège et lavancer pour…

28 Inférence des patrons dextraction Supervision : 3000 exemples positifs et 3000 négatifs Apprentissage : 20min (vs 12h+ sans modifications) Résultats : 9 patrons inférés is_qualia(N,V) :- precedes(V,N), near_verb(N,V), infinitive(V), action_verb(V). V daction à linfinitif + (tout sauf un verbe)* + N obturer avec les bouchons is_qualia(N,V) :- precedes(V,N), suc(V,C), colon(C), pred(N,D), punctuation(D), singular_common_noun(N). V + : + (tout mot)* + [:,;] + N ouvrir : le capot coulissant, le capot droit et…

29 Résultats - validation Validation théorique de lapprentissage et de ses paramétrages (validation croisée) Validation empirique jeu de test sous-corpus de mots focus sur 7 noms : vis, écrou, porte, voyant… 286 paires annotées par des experts du LG, dont 66 qualia

30 Résultats - validation Application des 9 patrons et comparaison des résultats dextraction des patrons inférés à ceux des experts Calcul taux de rappel taux de précision F-mesure (2PR/(P+R)) coefficient Φ ( ((TP*TN)-(FP*FN))/ sqr(PrP*PrN*AP*AN) )

31 Résultats - validation Application des 9 patrons dextraction au sous-corpus Résultats sous forme de liste ordonnée de couples N-V associés à un score (nb de détections) un couple détecté plusieurs fois est plus « sûr » quun couple détecté 1 fois N 1 -V 1 score 1 N 2 -V 2 score 2... N i -V i score i... qualia précision rappel non-qualia qualia précision rappel non-qualia

32 Résultats - validation Application des 9 patrons dextraction au sous-corpus Résultats sous forme de liste ordonnée de couples N-V associés à un score (nb de détections) un couple détecté plusieurs fois est plus « sûr » quun couple détecté 1 fois Influence du choix dun seuil s sur R et P Rappel et précision pour toutes les valeurs de s possibles courbe rappel-précision Choix : valeur optimisant le coefficient Φ

33 Résultats - validation Étalon : densité (précision moyenne obtenue par un système aléatoire)

34 Résultats - validation SystèmePrécision (P)Rappel (R)F-mesureΦ PLI62.2%92.4%

35 Comparaison avec des méthodes dextraction statistiques Cooccurrences de N et V dans une phrase, basées sur les lemmes Meilleure précision mais taux de rappel plus faible Travail uniquement sur les lemmes alors que la PLI bénéficie dinformations sémantiques et catégorielles Pas besoin de supervision Système Précision (P) Rappel (R) F-mesure PLI 62.2% 92.4% coeff Ochiai 82.4% 42.4% 0.56 coeff IM % 36.4% test chi2 78.1% 37.9% coeff loglike 80% 42.4% 0.554

36 Rappel-précision Asares/IM 3

37 Comparaison avec une méthode syntaxique manuelle Extraction basée sur une analyse syntaxique : annotation syntaxique (sujet, objet, modifieur) manuelle des paires N-V Paire N-V détectée (qualia) si en relation syntaxique Le lien qualia est plus quun simple lien syntaxique (rappel) (poser lensemble : rondelle, vis et serrer au couple) SystèmePrécision (P)Rappel (R)F-mesure PLI62.2%92.4%0.744 lien synt.79.2%86.4%0.826

38 Pertinence linguistique des patrons dextraction 1. is_qualia(N,V) :- precedes(V, N), near_verb(N, V), infinitive(V), action_verb(V). 2. is_qualia(N, V) :- contiguous(N, V). 3. is_qualia(N, V) :- precedes(V, N), near_word(N, V), near_ verb(N, V), suc(V,C), preposition(C). 4. is_qualia(N, V) :- near_word(N, V), sentence_beginning(N). 5. is_qualia(N, V) :- precedes(V, N), singular_common_noun(N), suc(V,C), colon(C), pred(N,D), punctuation(D). 6. is_qualia(N, V) :- near_word(N, V), suc(V,C), suc(C,D), action_verb(D). 7. is_qualia(N, V) :- precedes(N, V), near_word(N, V), pred(N,C), punctuation(C). 8. is_qualia(N, V) :- near_verb(N, V), pred(V,C), pred(C,D), pred(D,E), preposition(E), sentence_beginning(N). 9. is_qualia(N, V) :- precedes(N, V), near_verb(N, V), pred(N,C), subordinating_conjunction(C).

39 Pertinence linguistique des patrons dextraction À ce niveau de généralisation, peu de marqueurs linguistiques usuels sauf informations morphologiques et sémantiques pour les verbes infinitifs et verbes daction privilégiés Autres critères proximité : N et V proches dans la phrase, sans verbe entre eux position : N ou V souvent en début de phrase (en particulier V) ponctuations telles que « : » «, » « ; » catégorisation morphosyntaxique 1 e clause verbe daction à linfinitif débrancher les prises, déposer les obturateurs…

40 Pertinence linguistique des patrons dextraction Patrons propres au corpus et interprétables Recoupement en partie de structures trouvées manuellement (Galy 00) V infinitif + déterminant + N (visser le bouchon) N + V (un bouchon obture) être + V participe passé + par + déterminant + N (sont obturées par les bouchons) … Pertinence des structures infinitives, patrons avec N et V proches Généralisations des structures de Galy (actif et passif clause 2) Non trouvés : marqueurs polylexicaux (avoir pour but de…) Mais indices nouveaux par rapport à lanalyse manuelle

41 Plan I- Approche numérique versus symbolique précisions terminologiques principes généraux de lapproche numérique principes généraux de lapproche symbolique II- Une expérience dacquisition de relations sémantiques nomino-verbales par programmation logique inductive (PLI) principes de la PLI expérimentation et résultats III- Opposition définitive ? quelle approche dans quels cas ? tentatives de rapprochements

42 Quelle approche dans quels cas ? Numérique méthodes portables, automatiques résultats peu interprétables détection au niveau du corpus : une occurrence (retenue ou non) pas explicable cas rares potentiellement problématiques Symbolique connaissances a priori (patrons, exemples) résultats interprétables détection au niveau de loccurrence cas rares pouvant être pris en compte

43 Quelle approche dans quels cas ? Approche statistique très fréquemment efficace … mais problème si relation sémantique très spécifique (cf. transparent suivant) Recours dans ce cas à une approche symbolique Idem quand besoin dexplication Autres contraintes (ou indices) taille du corpus nombre dexemples patrons a priori

44 Structuration au sein dune classe sémantique Construction automatique de classes par similarité de vecteurs de contexte Mélange de synonymes, antonymes, hyperonymes… potentiellement problématique dans un cadre applicatif Apprentissage symbolique de ces relations ou approche numérique possible ? Structuration a posteriori au sein dune classe Résultats très préliminaires

45 Exemple Découpage automatique du corpus du Monde diplomatique en sous- corpus thématiquement homogènes focus sur les nouvelles technologies Classe {bouleversement, évolution, explosion, innovation, mutation, progrès, révolution} Conservation des mots dans les contextes de tous les membres de la classe pour définir une distance Classification hiérarchique groupant dabord les mots les moins proches des autres bouleversement, explosion, puis mutation, puis révolution, puis évolution ; {progrès, innovation} à part Pas forcément convaincant…

46 Idées… Appliquer des patrons connus pour structurer les éléments de la classe si nécessaire Combiner du numérique et du symbolique Cumuler les avantages des approches statistiques (automaticité) supervisées symboliques (qualité des résultats, interprétabilité) Travail effectué dans le cadre de lapprentissage de patrons dextraction de couples qualia

47 couples qualia Extraction symbolique supervisée E + et E - expert LG système PLI patrons dextraction corpus corpus étiqueté Étiquetages Acquisition statistique couples E+E+ E-E- Extraction semi-supervisée Mises en pratique de la combinaison par deux algorithmes combinaison séquentielle : bootstrapping mutuel ( Riloff 99 ) combinaison intégrée B

48 Approches semi-supervisées Système dextraction séquentiel combinaison séquentielle des systèmes statistique et symbolique bootstrapping mutuel (Jones et al. 990 : chaque système prend en entrées les sorties de lautre contrainte : débuter par la méthode statistique Système dextraction intégré intégration des résultats statistiques dans la phase dapprentissage forte influence des paires les plus statistiquement significatives sur linférence une extraction statistique + une phase dapprentissage par PLI ; moins coûteux

49 Extraction symbolique séquentielle Combinaison séquentielle de lextraction statistique et symbolique Bootstrapping mutuel ( Riloff 99) : chaque technique utilise en entrée la sortie de lautre Contrainte : débuter par la méthode statistique qui ne nécessite que le corpus Mise en œuvre simple aucune modification des techniques dextraction

50 Algorithme dextraction séquentielle Itération extraction statistique à laide des fréquences (scores) indiquées dans L PLI L IM3 constitution de E + et E - à partir de L IM3 apprentissage par PLI sur E + et E - L R application des règles de L R au corpus L PLI Initialisation L R = {is_qualia(N,V).} application des règles de L R au corpus L PLI Arrêt quand L PLI identique 2 tours de suite

51 Extraction mixte séquentielle ens. E + et E - système PLI + B (patrons) L R corpus étiqueté L PLI (couples) extraction statistique L IM3 (couples) Initialisation E+E+ E-E-

52 Extraction symbolique intégrée Retour aux pas 2 et 3 de lalgorithme de PLI 2- définir un espace de recherche dhypothèses E h à partir de lexemple et du langage dhypothèsesE h 3- rechercher lhypothèse h dans lespace de solutions maximisant une fonction de score Sc Sc(h) = fct(|E + h |, |E - h |) Sc(h) = |E + h | - |E - h | Poids associé à chaque exemple ou contre-exemple selon son score IM 3 : w(e) Sc(h) redéfinie en fct( w(e), w(e)) e E h + e E h - Sc(h) = w(e) - w(e) e E h + e E h -

53 Espace de recherche

54 Extraction symbolique intégrée Intégration des résultats statistiques dans la phase dapprentissage Forte influence des paires les plus statistiquement significatives sur linférence Normalisation des poids (somme de poids des exemples positifs = somme de poids des exemples négatifs) Une extraction statistique + une phase dapprentissage par PLI ; moins coûteux

55 Évaluation des performances

56 Performances optimales des 4 systèmes PrécisionRappelF-mesure Asares supervisé 62.2%92.4%0.744 IM %36.4%0.522 mixte séquentiel 62.0%93.9%0.747 mixte intégré 60.2%89.4%0.720

57 Évaluation des performances Résultats dextraction similaires à la version supervisée Grande similitude entre les patrons générés par le système supervisé et les semi-supervisés Apprentissage entièrement automatique plus de phases de supervision nécessaires

58 Remarques conclusives Ce que jai dit ne pas faire limpasse sur lapproche symbolique Ce que je nai surtout pas dit oublier lapproche numérique Ce en que je crois fortement combiner

59 Approche numérique et approche symbolique de lacquisition de connaissances sémantiques en corpus : opposition ou combinaison ? Pascale Sébillot Équipe TexMex, IRISA, Rennes Merci de votre attention


Télécharger ppt "Approche numérique et approche symbolique de lacquisition de connaissances sémantiques en corpus : opposition ou combinaison ? Pascale Sébillot Équipe."

Présentations similaires


Annonces Google