La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Méthode de modélisation et dextraction des informations géographiques contenues dans des textes Van Tien NGUYEN Mauro GAIO Université de Pau et des Pays.

Présentations similaires


Présentation au sujet: "Méthode de modélisation et dextraction des informations géographiques contenues dans des textes Van Tien NGUYEN Mauro GAIO Université de Pau et des Pays."— Transcription de la présentation:

1 Méthode de modélisation et dextraction des informations géographiques contenues dans des textes Van Tien NGUYEN Mauro GAIO Université de Pau et des Pays de lAdour RTE2011, 16 mai 2011, Chambéry

2 Introduction Récits de voyage Contexte : projet ANR GEONTO Objectif : Enrichir une ontologie topographique existante Traitement automatique (Notre travail) … Ontologie géographique de lIGN 2 … Termes candidats BD Topo BD carto

3 Plan dexposé Problématique & état de lart Proposition dun modèle Chaîne de traitement automatique Expérimentation & évaluation Conclusion 3

4 Problématique [...] Après avoir contemplé, avec une admiration mêlée deffroi, la charpente altière des Monts-Maudits, nous songeâmes bientôt à descendre sur le territoire aride au sud de la région dAragon. Le temps était menaçant : de légers brouillards parcouraient les hauteurs, et précédaient des nuages dune teinte grisâtre, qui roulaient vers nous, venant de louest des Pyrénées, un orage samoncelait : il ne tarda pas à éclater. Ayant renvoyé nos chevaux et payé le tribut accoutumé à la complaisance des carabineros (douaniers) espagnols, nos guides chargèrent nos provisions sur leurs épaules, et nous descendîmes, assez lestement, vers le pied de la Maladetta, laissant à notre droite les roches calcaires de la Pèna-Blanca. Arrivés au fond de la vallée du Plan-des-Etangs, qui est plus élevée que sa voisine, la vallée latérale de l hospice de Bagnères, de 446 mètres, nous laissâmes derrière nous une cabane habitée pendant lété par des bergers espagnols, pour remonter, par un plan rocailleux, jusquau gouffre de Tourmon, qui absorbe les eaux dun torrent rapide, descendant de la partie orientale du glacier de la Maladetta [...]. Un exemple sur des termes à extraire Comment filtrer les termes ? 4

5 Représentation formelle des concepts spatiaux dans la langue Entités nommées géographiques Connecteurs spatiaux Verbes de mouvement Représentation de la connaissance 5 État de lart (1)

6 État de lart (2) 6 Concepts spatiaux La localisation dans l'espace (entité concrète, repère spatial) (Borillo 1998, Vandeloise 1986) : « Vallée dOssau » « Roches calcaires de la Pèna-Blanca » Mais « jambon de Bayonne » ou « maire de Chambéry » ? Relations spatiales: Relations topologiques : adjacence à, à l'intérieur de, … (Egenhofer & R.D. (1991)) Relations directionnelles : au sud de, au nord de, …(Ligozat (1998)) Relations métriques : à 10 km de, à 10mn d'ici…

7 État de lart (3) 7 Expression du déplacement Verbes de mouvement (Boons (1987), Laur (1991), Sarda (2000)) : Verbes initiaux : quitter, partir, sortir, séchapper, séloigner, etc. Verbes finaux : arriver à, atteindre, entrer dans, regagner, etc. Verbes médians : traverser, descendre, franchir, parcourir, passer par, se déplacer dans, etc. Verbes de perception (déplacement virtuel, mouvement du regard) Problème plus général des entités nommées Nom de personne, Nom d'entreprise, Nom de Lieu, … Ressources de Nom de lieux, les gazetteers : Geonames, BDNyme, Word Gazetteer, GEOnet Names Server (GNS), etc.

8 Représentation de la connaissance Le modèle générique des Relations n-aire du W3C –J'ai remonté la vallée en me promenant jusqu'à Luz. –Je vais me rendre à la ville de Pau en passant par Dax. –Nous prenons le chemin du port de la Picade, en passant devant le trou du Toro. Cas particulier des relations n-aires (triplet VPT) –Jai traversé le gave de Pau –Nous regagnâmes nos logements respectifs à Bagnères-de-Luchon –Nous sommes arrivés au sud de la vallée du Plan-des-Etangs –Nous songeâmes bientôt à descendre sur le territoire aride au sud de la région dAragon État de lart (4) 8

9 Proposition dun modèle Triplet VPT (Verbe, Préposition, Toponyme) Comment marquer les triplets VPT afin dextraire des informations géographiques ? 9 (*) : Composant pourra figurer de zéro à plusieurs fois dans le modèle VPT.

10 Chaîne de traitement Objectif: – Marquer les triplets VPT – Extraire des termes ayant une connotation géographique Methode: – Patterns lexico-syntaxiques définis par des grammaires hors contextes – Diverses ressources lexicales 10

11 Chaîne de traitement

12 Grammaire hors contexte Définition – Lensemble des règles qui permettent de remplacer plusieurs entités consécutives par une seule de plus haut niveau label(X) –> label1(X1), label2(X2),...., labeln(Xn) Notre grammaire Marquage des groupes de nom commun (4 cas) : – groupeNomCommun(G) --> nom(N) + adjectif(A) (territoire aride) (territoire) (aride) Marquage des groupes de nom propre (14 cas) : – groupePropre(GP) --> nomPropre(NP) (Aragon) (Aragon) – groupePropre(GP) –> nomPropre(NP1), de, nomPropre(NP2) (Mont de Marsan) (Mont) (de) (Marsan) Marquage des toponymes (10 cas) : toponyme(T) –> groupeNC(G1), indirection(I), groupeNC(G2), de, nomToponymique(NT). (territoire aride (territoire aride) (au sud de) (région) (Aragon) au sud de la région dAragon) 12

13 Marquage des VPT 13 1 cas typique parmi 15 cas traités : VPT(verbe :V...pre :P...toponyme :T) Verbe(V), Preposition(P), Toponyme(T). (descendre) (sur) Quelques cas complexe bien marqués Je suis parti à cheval pour Gavarnie à 7 heures, cas où se trouvent également exprimés le temps et la manière de se déplacer ; Jai remonté à pied la vallée dOssau jusquà Laruns, cas où le Toponyme est composé de plusieurs noms toponymiques ; Je partis en conséquence pour Bagnères de Luchon une seconde fois et, passant par le Tourmalet, un beau village près de la Hourquette dArreau et un autre au sud de la belle vallée de Louron, cas où sont impliqués plusieurs VPT dans une même phrase. « descendre sur le territoire aride au sud de la région dAragon » (territoire aride au sud de la région dAragon)

14 Ressources utilisées Gazetteer BDNyme (http ://www.ign.fr) : 44315 noms de lieu Geonames (http ://geonames.org) : 118301 noms de lieu Verbe de déplacement|perception 47 verbes de déplacement à partir des travaux de (Talmy (2000), Boons (1987), Laur (1991), Sarda (2000)) 50 verbes de perception (selon notre obersvation des corpus) Ontologie/thésaurus Ontologie de lIGN Thésaurus RAMEAU de la BnF 14

15 Un paragraphe étiqueté 15

16 Expérimentation(1) 16 Logiciel : Linguastream, Java, TreeTagger Corpus : 12 récits de voyage numérisés et fournis par la médiathèque de Pau Résultats: 1390 triplets VPT marqués 283 termes extraits dont 178 validés par experts La précision : Type de verbeNb de termes validés a (*) Nb de termes extraits b (*) Précision (a/b) Verbe de déplacement6277750,81 Verbe de perception1782290,78 Tous80910040,81 Verbe de perception apporte un gain (*) : Les termes peuvent être identiques pour les triplets VPT différents

17 Calcul du rappel : - Une tâche couteuse qui demande lannotation manuelle des corpus –Notre démarche : Estimer automatiquement le rappel pour chaque terme extrait (validé par expert) x : nombre d'extractions par les triplets VPT y : nombre doccurrences dans le corpus Rappel = x/y –Rappel moyen = 0,06 Expérimentation(2 ) 17 TermexyRappel(x/y) corniche11 1.000 rameau23 0.667 logements12 0.500 auberge411 0.364 hôtel424 0.167 château1274 0.162 vallée117790 0.148 col35354 0.099 grotte559 0.085 route23369 0.062 pic34578 0.059 sommet19468 0.041 chaîne1205 0.005 pied1358 0.003

18 Expérimentation(3) Des verbes plus fréquents dans les corpus 18

19 Bruit La polysémie du verbe : « […] jai quitté le confort de la vie de Bordeaux » Linexactitude de la sortie de lanalyseur morphologique : « Il serai devenu un peu fier vis-à-vis de ses camarades dArrens[...] » 19 TermeNombre de fois extrait camarades1 direction1 jour1 minutes1 vie2 maire2 profondeur2 suite2 marbière1 enfance1

20 Silence Les gazetteers incomplets : "...nous grimpons sur le plateau dEsquierry" La structure verbale passive : "...le pic de Néthou, na été encore gravi par personne... " Erreur détiquetage de lanalyseur morphologique : "...Arrivés au fond de la vallée du Plandes-Etangs,... " Aucune indication ne permet de filtrer le syntagme à extraire : "Pour ce qui est des variations du niveau du gouffre, il y a, en effet, une crue et une baisse..." Des triplets VPT implicites : "Jusquà cette ville, nous avons longé la Garonne". 20

21 Conclusion & perspective 21 Un modèle opérationnel permettant dextraire et de représenter des concepts spatiaux Notre méthode offre les avantages suivants : Modulaire, et extensible : chaque élément du modèle est marqué par un module Capacité à traiter des configurations complexes Autres applications du modèle VPT Reconnaissance dentités nommées géographiques Perspective : les autres Relations n-aire Je vais me rendre à la ville de Pau en passant par Dax. Nous prenons le chemin du port de la Picade, en passant devant le trou du Toro. J'ai remonté la vallée en me promenant jusqu'à Luz.

22 22 Merci de votre attention!


Télécharger ppt "Méthode de modélisation et dextraction des informations géographiques contenues dans des textes Van Tien NGUYEN Mauro GAIO Université de Pau et des Pays."

Présentations similaires


Annonces Google