Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parPascale Salomon Modifié depuis plus de 10 années
1
La résolution de la référence et son évaluation: un Atelier de Traitement de la Référence mettant en œuvre les « représentations mentales » Andrei Popescu-BelisISSCO, Université de Génève http://www.issco.unige.ch/staff/andrei Isabelle Robba LIMSI, Orsay http://www.limsi.fr/Individu/isabelle Gérard Sabah LIMSI, Orsay http://www.limsi.fr/Individu/gs Journée ATALA du 18 novembre 2000
2
22 CERVICAL Communication et Référence : Vers une Informatique Collaborant Avec la Linguistique Soutenu par le GIS Sciences de la Cognition (1996) Équipe Langue et Dialogue du LORIA (CNRS & INRIA) Groupe Langage et Cognition du LIMSI-CNRS Responsable scientifique : Anne Reboul (LORIA) Buts : solutions théoriques du problème de la référence et mises en œuvre pratiques
3
33 La notion de « représentation mentale » Une approche sémantico-pragmatique de la référence Aspects principaux du projet : –développement dune sémantique-pragmatique de la référence –développement doutils informatiques compatibles
4
44 Intermédiaire entre la réalité des référents et le discours où apparaissent les expressions référentielles = une représentation de la situation Ensemble des données hétérogènes, perceptuelles, linguistiques et conceptuelles pertinentes relative au même objet Deux missions pour la notion de représentation mentale
5
55 Contenu dune représentation mentale étiquette ou adresse données encyclopédiques –informations catégorielles informations sémantiques informations fonctionnelles –notations spécifiques entrée logique aspects visuels – image par défaut – notation visuelle informations spatiales – orientation intrinsèque – position et déplacements entrée lexicale{ER}
6
66 Opérations sur les représentations mentales Création Modification Duplication Fusion Groupement Extraction
7
77 Mise en œuvre informatique Présentation par Andrei Popescu-Belis Isabelle Robba
8
88 Les « représentations mentales » CERVICAL –RM : une structure gérant les propriétés des référents –opérations sur les RM en fonction des énoncés Solution de compromis adoptée : –« RM » = ensemble des expressions désignant une même entité (objet, personnage) au long de la communication –« RM » = liste dER coréférentes dans un texte programme « résolvant les références » dans les textes = regrouper les ER coréférentes ressources et outils = évaluer le résolveur sur des textes narratifs, en français
9
99 Réalisations : traitement de la référence Mécanisme du résolveur –pour chaque expression référentielle ER : –appliquer les contraintes de sélection pour déterminer les RM compatibles avec lER –rattacher lER à la RM la plus active, ou créer une nouvelle RM –recalculer les activations des RM (en fonction de lopération) Contraintes de sélection (ER ER) –sémantique, genre, nombre Heuristiques de combinaison (ER RM) –compatibilité avec x % des ER (0<x<100) Calcul de lactivation –nature de lER, position Taille de la mémoire des RM
10
10 Fonctionnement du résolveur Pour chaque ER : contraintes de sélection (ER RM i ) calcul des activations des RM
11
11 Atelier de traitement de la référence Modules réalisés Autres modules Données Résultats : nécessitent le calcul de la qualité dune réponse
12
12 Les ressources textuelles Utilisées à la fois pour tester et pour évaluer les méthodes mises en œuvre. Deux textes littéraires ont été choisis : Une nouvelle tirée des Chroniques Italiennes de Stendhal Encodé au Limsi en SGML : toutes les ER ont été étiquetées, ainsi que les RM Le premier chapitre du Père Goriot de Balzac Encodé au Loria en SGML : les ER correspondant aux principaux personnages, lieux et objets ont été étiquetées, ainsi que les RM Les ER sont ensuite converties en objets (du langage Smalltalk), puis analysées par lanalyseur LFG développé au LIMSI. Les RM sont engendrées automatiquement à partir des étiquettes SGML. Elles constituent la clé permettant lévaluation.
13
13 VA : Vittoria Accoramboni, Stendhal LPG : Le Père Goriot, Balzac LPG éq. : les 10 premières pages de LPG Amélioration des ressources - autres types de textes : documentation technique, articles de journaux... - automatisation de lanalyse des ER et ajout de connaissances sémantiques Caractéristiques des textes utilisés
14
14 Le problème de lévaluation Évaluer un système de TAL –mesurer sa « qualité » ou son utilité par rapport à une tâche et éventuellement un type dutilisateur –ici, mesurer la capacité de notre résolveur (ou dun autre) à regrouper les ER coréférentes Proposition dun modèle formel –mesure de qualité : distance entre une clé (réponse correcte) et une réponse (du système) Critères de cohérence des mesures de qualité –savoir quand une mesure atteint 0% –savoir quand une mesure atteint 100% –savoir comparer deux mesures (sévérité relative)
15
15 Évaluation de la résolution de la référence: exemple CLÉ Le sommet Ouest(1) se trouve à 3854m. Pour l'(2)atteindre, emprunter sur 150m un petit couloir(3) qui(4) est souvent glacé. Ce couloir(5) démarre derrière le sommet Sud(6) (3742m), qui(7) est, lui(8), facile à atteindre. Ce deuxième sommet(9) est bien visible, car il(10) est très saillant. Pour rejoindre ce petit bastion(11), on doit le(12) viser depuis le grand couloir inférieur(13), assez facile à gravir. Bien qu'il(14) soit initialement large, celui-ci(15) se(16) resserre peu à peu. Attention, ce rassurant entonnoir(17) reste très longtemps enneigé. RÉPONSE Le sommet Ouest (1) se trouve à 3854m. Pour l' (2)atteindre, emprunter sur 150m un petit couloir (3) qui (4) est souvent glacé. Ce couloir (5) démarre derrière le sommet Sud (6) (3742m), qui (7) est, lui (8), facile à atteindre. Ce deuxième sommet (9) est bien visible, car il (10) est très saillant. Pour rejoindre ce petit bastion (11), on doit le (12) viser depuis le grand couloir inférieur (13), assez facile à gravir. Bien qu' il (14) soit initialement large, celui-ci (15) se (16) resserre peu à peu. Attention, ce rassurant entonnoir (17) reste très longtemps enneigé.
16
16 Une représentation des réponses On suppose que le système dispose des ER correctes Analyse de lexemple : K1 : 1, 2 K2 : 3, 4, 5 K3 : 6, 7, 8, 9, 10, 11, 12 K4 : 13, 14, 15, 16, 17 R1 : 1, 2, 6, 7, 8, 9, 10 R2 : 3, 4, 5, 11, 12, 13, 14, 15, 16 R3 : 17 Qualité de la réponse : distance par rapport à la partition correcte du même ensemble dER
17
17 Mesures existantes et proposées Utilisation des liens de coréférences –Les partitions sont les classes d équivalence pour la relation de coréférence (ensembles d ER coréférentes) ~ Rappel : nombre de liens trouvés parmi les liens corrects ~ Précision : nombre de liens corrects parmi le total de liens postulés Inconvénients des mesures existantes –mesure MUC : indulgente, fondée sur la coréférence ( RM) –mesure B 3 : plus indulgente, natteint jamais zéro –mesure : un seul nombre, à partir de MUC Mesures proposées –mesures C (noyaux) et XC (noyaux exclusifs) : plus sévères –coefficients distributionnels : indicatifs –mesure entropique exemple
18
18 Théorie de linformation et référence … expr 1 …… expr 2 … … expr 3 … Application du modèle du canal de communication à linformation référentielle … expr 6 … Variable aléatoire source K Événement = production dune ER Valeur = « référent émis » Variable aléatoire récepteur R Événement = le même Valeur = « référent compris » … expr 11 …
19
19 Théorie de linformation et référence Linformation moyenne de la v.a. source H(p K ) ou entropie de la distribution de probabilité p K information référentielle source H(P K ) % la partition clé Linformation moyenne de la v.a. récepteur H(p R ) ou entropie de la distribution de probabilité p R information référentielle récepteur H(P R ) % la partition réponse Linformation moyenne véhiculée par le récepteur à propos de la source H(p K )–H(p K |p R ) pertes dinformation référentielle H(P K |P R ) Linformation moyenne véhiculée par la source à propos du récepteur H(p R )–H(p R |p K ) gains injustifiés dinformation référentielle H(P R |P K )
20
20 Calcul de lentropie H(..) et lentropie conditionnelle H(..|..) grâce aux corrélations statistiques entre représentations mentales de lémetteur et du récepteur Théorème : H(P R ) = H(P K ) – H(P R |P K ) + H(P K |P R ) Interprétation : information référentielle Information référentielle émise Pertes en ligne Gains injustifiés Information référentielle reçue Théorème : les représentations de lémetteur et du récepteur sont identiques (compréhension parfaite) si et seulement si il ny a ni pertes en ligne ni gains injustifiés
21
21 Rappel et précision entropiques Rappel = quantité dinformation pertinente dans linformation reçue : [ H(P R )–H(P R |P K ) ] / H(P R ) Précision = quantité dinformation pertinente reçue par rapport à linformation transmise : [ H(P K )–H(P K |P R ) ] / H(P K ) Avantages –interprétation cohérente dun modèle théorique existant –nombreuses propriétés démontrables –possibilité de vérifier les critères de cohérence des mesures –possibilité de décrire tous les cas dégalité à zéro –application à la fois à la compréhension de textes et à la communication entre agents
22
22 Évaluation numérique du RDR Textes utilisés –VA : 638 ER372 RM-clé –LPG : 3359 ER480 RM-clé –LPG.eq :686 ER216 RM-clé Résultats dans la meilleure configuration du système –f-mesure : 2 / (1/r + 1/p) MUCB 3 CXCH VA.74.75.57.50.74.89 LPG.eq.69.53.20.39.50.71 LPG.78.43.09.43.44.61
23
23 Résultats obtenus Optimum de la mémoire des référents : ~20 RM Optimisation automatique des paramètres numériques : –gains denviron 2-3% sur VA et LPG.eq –optimisation indépendante du texte (sur les 3 textes) Mesure de la pertinence des règles : –la contrainte de sélection la plus importante est la compatibilité sémantique, puis laccord en genre –les heuristiques suivantes ne semblent pas pertinentes : ER indéfinie créer une nouvelle RM ER définie rattacher cette ER à une RM existante nécessité de distinguer des « cas référentiels » plus fins
24
24 Conclusion Atelier de Traitement de la Référence –résolveur de références dans les textes –balisage de ressources, outils –évaluation : nouvelles mesures de qualité, preuves –méthodes danalyse des résultats numériques Perspectives –ajout incrémental de connaissances en préservant la robustesse –implémentation des résultats théoriques sur les RM –utilisation des cas référentiels mis en évidence –intégration à « CARAMEL » résolveur de références : « processus conscient » –intégration à des applications
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.