Prolexbase : Un dictionnaire relationnel multilingue de noms propres Denis Maurel1, Mickaël Tran1, Thierry Grass2, Duško Vitas3 1Université François-Rabelais de Tours, LI 2Université François-Rabelais de Tours, L&R 3Faculté des Mathématiques de Belgrade
Un lexique sémantique
Elle est commune aux langues traitées. Sémantique La sémantique de notre dictionnaire s’appuie sur une ontologie autour du nom propre conceptuel et de ses relations. Elle est commune aux langues traitées.
Une ontologie multilingue de noms propres Pivot : le nom propre conceptuel AR : Adjectif relationnel NR : Nom relationnel
Le nom propre conceptuel Œuvre Produit Ergonyme Fête Histoire Manifestation Pragmonyme Edifice Vaisseau Voie Toponyme Catastrophe Météorologie Astronyme Géonyme Hydronyme Célébrité Patronyme Prénom Pseudo anthroponyme Anthroponyme Association Ensemble Entreprise Institution Organisation Ville Ergonyme Toponyme Pays Région Supranational • Point de vue diachronique : Saint-Pétersbourg et Leningrad • Point de vue diastratique : Parigot et Parisien • Point de vue diatextuel : Cité phocéenne et Marseille • Point de vue diatopique : Nantes et Naoned Un nom propre conceptuel ne correspond pas au référent linguistique, mais à un certain point de vue sur ce référent. Historique Religieux Fictif Un nom propre conceptuel est hyponyme d’un type et d’une essence. 26 types et 4 supertypes hyperonymes 3 essences
Les relations • Synonymie : Saint-Pétersbourg et Leningrad Cité phocéenne et Marseille • Méronymie : Tours Région Centre France LU Danone France Onu la Prise de la Bastille la Révolution française Un lien vers d'autres dictionnaires (langue générale, par exemple Eurowordnet) est prévu par une relation d’export. • Prédication : Paris est la capitale de la France Ray Norda est le patron de Novell Jacques Chirac est le locataire de l'Elysée Aaron est le frère de Moïse
Un lexique morphosyntaxique
Elle est particulière à une langue donnée. Morphosyntaxe La morphosyntaxe de notre dictionnaire est construite autour du prolexème associé à des grammaires locales . Elle est particulière à une langue donnée.
La partie particulière à une langue donnée Le niveau linguistique regroupe les lemmes correspondant à un même nom propre dans une langue donnée : le Prolexème. Les formes fléchies constituent le niveau des instances.
Exemple
Des exemples de grammaire locale Au niveau des expansions : Au niveau des prédicats :
La traduction Un système de TA doit donc être basé non sur des dictionnaires bilingues (ni, à plus forte raison, multilingues) mais sur […] des descriptions lexicales de différentes langues effectuées d’après les mêmes principes. Blanco X. (2001), Dictionnaires électroniques et traduction automatique espagnol-français, Langages, 143:66 Beograaninov est un dérivé de Belgrade (un adjectif possessif)
Les anaphores Relation de prédication Paris accueille avec perplexité l’initiative de Tony Blair... Les discussions qui ont eu lieu sur ce sujet en Grande-Bretagne…, laissent penser que Londres cherche à tirer les leçons de la Bosnie et de l’Albanie… La Grande-Bretagne et la France, qui ont opéré de manière très étroite, seraient dans une position délicate si les Américains venaient à se retirer… Les Britanniques, qui ont eu des échanges avec Washington sur leur nouvelle initiative, pensent que les États-Unis pourraient revoir leur position. Paris accueille avec perplexité l’initiative de Tony Blair... Les discussions qui ont eu lieu sur ce sujet en Grande-Bretagne…, laissent penser que Londres cherche à tirer les leçons de la Bosnie et de l’Albanie… La Grande-Bretagne et la France, qui ont opéré de manière très étroite, seraient dans une position délicate si les Américains venaient à se retirer… Les Britanniques, qui ont eu des échanges avec Washington sur leur nouvelle initiative, pensent que les États-Unis pourraient revoir leur position. Dérivation
L’implantation
La structure de Prolexbase
Les interfaces Consultation avancée Simple recherche Bientôt disponible sur http://tln.li.univ-tours.fr/
Quelques chiffres… La base vient seulement d’être installée, mais des données sont prêtes à être rentrées. En anglais, hollandais, français, italien, allemand, grec, portugais espagnol et russe : ● 838 noms géographique ● 766 entreprises ● 2635 prénoms ● 520 humains collectifs ● 7306 villes ● 502 pays ● 818 habitants En français : ● Plus de 323 000 entrées ● et 55 000 liens relationnels
Des projets d’applications… Recherche d'information Indexation Aide à la traduction Traduction automatique Alignement de textes multilingues Correction d’orthographe… Pour ces applications, il sera possible d’interroger la base par un échange de fichiers XML
Merci !