La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Apprentissage faiblement supervisé de paraphrases Florence Duclaye - 28 janvier 2003 - LIMSI Équipe Langues Naturelles, France Télécom R&D, Lannion Département.

Présentations similaires


Présentation au sujet: "Apprentissage faiblement supervisé de paraphrases Florence Duclaye - 28 janvier 2003 - LIMSI Équipe Langues Naturelles, France Télécom R&D, Lannion Département."— Transcription de la présentation:

1 Apprentissage faiblement supervisé de paraphrases Florence Duclaye - 28 janvier LIMSI Équipe Langues Naturelles, France Télécom R&D, Lannion Département INFRES, Groupe Information, Interaction, Intelligence, ENST, Paris

2 France Télécom R&D, 25/04/2014 Déroulement de la présentation Présentation du sujet et du contexte général Sujet de recherche Précisions terminologiques préliminaires Etat de lart Système dapprentissage automatique de paraphrases Aperçu général Procédures dacquisition, de classification et de filtrage des paraphrases Résultats Conclusions et perspectives

3 France Télécom R&D, 25/04/2014 Présentation du sujet de recherche Sujet : Lapprentissage automatique de paraphrases sur le Web pour lamélioration dun système de questions-réponses. Exemple : Question : Quelle est la hauteur de la Tour Eiffel ? Réponse : La hauteur de la Tour Eiffel est 300 mètres. Paraphrases possibles de la réponse : La Tour Eiffel culmine à 300 mètres. La Tour Eiffel fait 300 mètres de haut. …

4 France Télécom R&D, 25/04/2014 Précisions terminologiques préliminaires Paraphrase Subjectivité de la relation déquivalence de sens Différents types de paraphrases Invariant sémantique entre les phrases, sur lequel peuvent se greffer diverses modifications sémantiques (règles dinférence chez Lin et Pantel, Univ. Alberta, Canada) Dépendance par rapport au contexte Formulation : Pour linstant, forme verbale (ex : acheter) dune relation sémantique. Par la suite, forme verbale ou nominalisée (ex : lacquisition de … par …). Tuple darguments : Ensemble des arguments régis par une formulation (ex : AOL - Netscape)

5 France Télécom R&D, 25/04/2014 Quelques éléments intéressants de létat de lart Barzilay (Univ. Cornell, USA) et McKeown (Univ. Columbia, USA) Apprentissage de paraphrases à partir de corpus parallèles (Harris) Lin (Univ. Alberta, Canada) et Pantel (Univ. Alberta, Canada) Apprentissage de règles dinférence pour le QA Ellen Riloff (Univ. Utah, USA) : Bootstrapping pour lextraction de lexiques sémantiques Kentaro Torisawa (Univ. Tokyo) : Apprentissage de paraphrases avec lalgo EM Seigei Brin (Google) : Extraction de relations à partir du Web Thomas Hofmann et Jan Puzicha : LSA, PLSA Peter Turney (Institut des technologies de linformation, Ottawa) : fouille du Web à la découverte de relations de synonymie

6 France Télécom R&D, 25/04/2014 Fonctionnement global du système dapprentissage de paraphrases (1/3)

7 France Télécom R&D, 25/04/2014 Fonctionnement global du système dapprentissage de paraphrases (2/3) Extracteur de formulationsExtracteur d'arguments Phrase 1... Phrase k Requête 1... Requête k Phrase 1... Phrase l Requête 1... Requête l Ens. de tuples d'argument {a 1,..., a k } Ens. de formulations {f 1,...,f j } Phrase initiale ETAPE D'ACQUISITION E T A P E D ECLASSIFICATIONECLASSIFICATION

8 France Télécom R&D, 25/04/2014 Fonctionnement global du système dapprentissage de paraphrases (3/3)

9 France Télécom R&D, 25/04/2014 Procédure dacquisition automatique de paraphrases potentielles Technique employée : bootstrapping Outil utilisé : système de questions-réponses + analyseur syntaxique Éléments acquis alternativement : formulations et tuples dargs Hypothèse de départ : hypothèse distributionnelle de Harris

10 France Télécom R&D, 25/04/2014 Utilisation du système de questions- réponses comme outil dIE (1/3)

11 France Télécom R&D, 25/04/2014 Utilisation du système de questions- réponses comme outil dIE (2/3) Analyseur utilisé par le système de Questions-Réponses : produit une analyse syntaxique par étiquetage parenthésé (chunks) Exemple : GS2 : GN-NP GV-CT GN-NCGP-NPSEPF Hermann Melville est lauteur de Moby Dick. GS1 GN-NP GN-NP GV-CT GN-D GN-NC GP-S GN-NP GN-NP SEPF [Hermann] [Melville] [être] [le] [auteur] [de] [Moby] [Dick] [.]

12 France Télécom R&D, 25/04/2014 La requête est envoyée telle quelle au système Ex : tuple darguments : Melville – Moby Dick -> = requête Patrons dextraction des formulations et des tuples darguments écrits spécialement pour nos besoins Ex : Melville [GV] Moby Dick ;Moby Dick [GV] Melville [GN-NP] a écrit [GN-NP] Accès restreint aux 1000 premiers résultats des moteurs de recherche (previews) Utilisation du système de questions- réponses comme outil dIE (3/3)

13 France Télécom R&D, 25/04/2014 Acquisition automatique : quelques mots sur le corpus utilisé AVANTAGES Application immédiate : QA sur le Web Source dinformations linguistiques constamment mise à jour Redondance des informations Variété des informations sous des formes linguistiques différentes Information linguistique en contexte INCONVÉNIENTS Corpus mouvant Hétérogénéité, non pertinence des données -> bruit Forte dépendance vis-à-vis des moteurs de recherche utilisés Rapidité daccès au Web très variable Corpus de taille difficile à évaluer

14 France Télécom R&D, 25/04/2014 Extracteur de formulationsExtracteur d'arguments Phrase 1... Phrase k Requête 1... Requête k Phrase 1... Phrase l Requête 1... Requête l Ens. de tuples d'argument {a 1,..., a k } Ens. de formulations {f 1,...,f j } Phrase initiale ETAPE D'ACQUISITION E T A P E D ECLASSIFICATIONECLASSIFICATION

15 France Télécom R&D, 25/04/2014 Procédure de classification et de filtrage des paraphrases potentielles acquises (1/2) Apprentissage très faiblement supervisé Classification (2 classes) Nombreuses méthodes de calcul possibles EM, diverses mesures de similarité/distance comme Jaccard, … Multiples stratégies de filtrage possibles Ex : conserver x meilleures formulations, prendre un seuil, … Méthodes testées : algo EM, Jaccard pondéré

16 France Télécom R&D, 25/04/2014 Procédure de classification et de filtrage des paraphrases potentielles acquises (2/2) vouloir intégrerchoisitacquiertrachèteachetait AOL – Netscape Vivendi – Seagram00220 HP – Compaq10060 Apple – Astarte00021 … Exemple de tableau de comptages doccurrences :

17 France Télécom R&D, 25/04/2014 Filtrage par Estimation-Maximisation (1/4) Objectif : classer chaque formulation acquise comme une paraphrase valide de la relation sémantique de départ ou une paraphrase invalide, en se basant sur des données de cooccurrence entre formulations et tuples darguments. Supervision très faible : On a un exemple positif de départ (rép. à une question) On considère que chaque phrase (1 formulation f et 1 tuple darguments a) est générée par le modèle stochastique suivant : f : formulation a : tuple darguments S : ens. des relations sémantiques exprimées dans les phrases du corpus (S = 1 ou 0)

18 France Télécom R&D, 25/04/2014 Estimation Maximisation f : formulation a : tuple darguments s : relation sémantique N : comptage doccurrences Filtrage par Estimation-Maximisation (2/4)

19 France Télécom R&D, 25/04/2014 Puis on fait tourner EM (itérations de E-steps et de M-steps) jusquà convergence des paramètres maximisés f i : formulation de départ a i : tuple dargts de départ f : autres formulations a : autres tuples darguments S : relation sémantique Filtrage par Estimation-Maximisation (3/4)

20 France Télécom R&D, 25/04/2014 Étape finale de classification : Mais on peut imaginer plusieurs autres stratégies de classification différentes Filtrage par Estimation-Maximisation (4/4)

21 France Télécom R&D, 25/04/2014 Résultats quantitatifs obtenus sur EM Stratégie de filtrage : Estimation-Maximisation (1ère itération) Indice de filtrage Taux de sélectionPrécision 744%42.9% (3.5% – 100%) %47.3% (1.7% - 100%) %47.3% (6.1% - 100%) %54.9% (2.8% - 100%) 18610%66.6% (2.8% - 100%) %65.4% (3.3% - 100%)

22 France Télécom R&D, 25/04/2014 Résultats qualitatifs : un exemple Relation dachat 1ère itération : ' acheter', ' pour intégrer, vouloir réssusciter,' utiliser', " c' être", ' tester le navigateur', ' de vouloir intégrer', ' ramasser', ' parler', ' choisir,' permettre, signer,' supplanter', 'envoie au diable', ' lire, ' sélectionner', ' compter', ' signifier', ' collaborer pour intégrer', ' enfant utiliser', ' modifier,' choisir d,' défiler', ' lancer', ' dévoiler', ' qui acheter', ' absorber,' publier', ' envoyer un message' 2ème itération : ' acheter', ' pour intégrer', ' vouloir réssusciter', ' choisir', ' utiliser', " c' être", ' tester le navigateur', ' de vouloir intégrer', ' parler,' ramasser', " n' être", ' venir', ' passer', ' voir', ' féliciter', ' permettre', ' sélectionner', 'envoie au diable', ' lire', ' compter', ' supplanter, ' signer', ' détrôner', ' qui devancer', ' dominer', ' prendre', ' battre', ' signifier', ' devenir, ' dépasser', ' ils parler', ' collaborer pour intégrer', ' enfant utiliser', ' qui signifier', ' qui parler', ' remplacer le magnétoscope', ' rejoindre' 3ème itération : ' acheter,' pour intégrer', ' vouloir réssusciter', ' utiliser', " c' être", ' tester le navigateur', ' de vouloir intégrer', ' parler', ' ramasser', ' choisir', " n' être", ' venir,' passer', ' féliciter', ' voir', ' permettre', 'envoie au diable', ' sélectionner', ' lire', ' compter', ' tracer', ' aimer', ' encourager', ' venir renforcer', ' obliger, ' à louer la', ' autoriser', ' rester sur', ' recevoir', ' qui voir', ' grouper'

23 France Télécom R&D, 25/04/2014 Filtrage par la mesure de Jaccard pondérée (1/2) Objectif : calculer lindice de similarité entre chaque formulation acquise et la formulation de départ, en se basant sur des données de cooccurrence entre formulations et tuples darguments. Principe : Nb de caractéristiques partagées (intersection) / union des caractéris.

24 France Télécom R&D, 25/04/2014 Filtrage par la mesure de Jaccard pondérée (2/2) Étape finale de classification : Conservation des N meilleures formulations Leurs distances d(F, F 1 ) doivent être les plus fortes de toutes les formulations (F 1 = formulation de départ)

25 France Télécom R&D, 25/04/2014 Conclusions Mise en place dun outil dapprentissage automatique de paraphrases faiblement supervisé (1 exemple positif dapprentissage) Stratégies de classification et de filtrage testées basées sur EM, Jaccard pondéré Intérêts : Paraphrases : amélioration du système de QA (réponses + rapides et + fiables, complexification des questions possibles), classification automatique de documents, recherche dinformations, résumé automatique, TAO, … Formulations thématiques (ex : AOL a acheté Netscape -> lancer, englober, investir, détenir, sauver, lorgner, …) : constitution dannuaires thématiques Couples dentités nommées acquis (ex : Castro dirige Cuba -> Irak – Saddam Husseim, Milosevic – Serbie, Chili – Salvador Allende, …) : lexiques sémantiques, constitution de BDD spécialisées Mécanisme dapprentissage indépendant de la langue visée

26 France Télécom R&D, 25/04/2014 Amélioration acquisition : Formulations plus complexes (ex : lacquisition de Y par X, analyse en dépendances) Reclassification préliminaire des previews : utilisation dinformations contextuelles pour améliorer la constitution du corpus à chaque requête Amélioration du filtrage : Autres méthodes de calcul de similarité (Chi2, cosinus, …) Autres stratégies de filtrage (prendre plusieurs phrases de départ, conserver les x meilleures formulations, exemples négatifs avec les y plus mauvaises formulations, supervision manuelle, éliminer les arguments avec peu de productions, …) Évaluation de mes travaux sur le système de QA Perspectives pour les mois à venir

27 France Télécom R&D, 25/04/2014 Références bibliographiques E. Riloff : Learning Dictionaries for Information Extraction by multi-level bootstrapping, AAAI99. R. Barzilay, K. McKeown : Extracting paraphrases from a parallel corpus, ACL01. D. Lin, P. Pantel : Discovery of inference rules for QA, NL Engineering 7(4) : , X. Zhu, R. Rosenfeld : Improving Trigram Language Modeling with the World Wide Web, ICASSP01. C. Fuchs : La Paraphrase, PUF, T. Hofmann : Probabilistic Latent Semantic Analysis, UAI99. Publications de thèse : F. Duclaye, P. Filoche, J. Sitko, O. Collin : A Polish Question-Answering for Business Information, BIS02 F. Duclaye, F. Yvon, O. Collin : Using the Web as a linguistic resource for learning reformulations automatically, LREC02

28 France Télécom R&D, 25/04/2014 Merci !


Télécharger ppt "Apprentissage faiblement supervisé de paraphrases Florence Duclaye - 28 janvier 2003 - LIMSI Équipe Langues Naturelles, France Télécom R&D, Lannion Département."

Présentations similaires


Annonces Google