1 Modélisation, reformulation et interrogation dexpressions temporelles extraites de textes en langage naturel Ce travail est financé par lAgence Nationale de la Recherche (ANR-Contint, projet RelaxMultiMedias 2) Cyril Faucher, Jean-Yves Lafaye, Frédéric Bertrand L3i, Université de La Rochelle, France Master 2, 16/09/2010
Le doctorat La thèse cest un sujet faire létat de lart du domaine (bibliographie) des contributions expérimenter des approches, développer des applications valoriser son travail par des articles : conférences nationales / internationales et des revues (journaux) rédiger un mémoire de thèse Mais aussi participer à des groupes de travail, séminaires, etc enseigner à lUniversité, à lIUT, etc Débouchés principaux : Maître de Conférence, ingénieur de recherche (public ou privé), startup, etc 2
3 2 Thèse dans un contexte de projet de recherche avec des partenaires industriels
Plan 1. Contexte et objectifs 2. Modéliser des propriétés temporelles dévénements 3. Acquisition et Modélisation de Connaissances Temporelles : chaîne TKAM 4
1. Contexte Notion dévénements Nature des événements: culturels, touristiques Propriétés spatiales et temporelles Récurrence et périodicité Interopérabilité avec les standards du domaine (presse) IPTC (NewsML, EventsML) iCalendar 5 2
1. Objectifs Représenter de manière intégrée des événements et leurs données associées (métadonnées) Assurer la persistance dans une base de données / connaissances Aligner un modèle métier sur des ontologies existantes (donne accès à des raisonneurs, définit une sémantique de manière formelle et structurée) Formuler des requêtes avec des expressions contrôlées proche du langage naturel 6
1. Contexte et objectifs Chaîne dacquisition de connaissances temporelles A partir de textes (dépêches), extraire des événements Produire une reformulation du texte des dépêches, dans un langage formel non ambigu, proche du langage naturel initial => validation sémantique par lutilisateur => interrogation 7 Texte libre Evénements + propriétés temporelles Texte contrôlé
1. Contexte : utilisation de lIDM Utilisation des techniques de lIngénierie Dirigée par les Modèles pour assurer linteropérabilité dapplications métier (passerelles entre les applicatifs) lintégration de données hétérogènes la vérification de lintégrité dinstances / dinformation Exemple : transformation / reformulation / intégration 8 Texte Libre SGBDR Texte contrôlé Ontologie
2. Modéliser des propriétés temporelles dévénements : Comment ? Deux types de représentations des occurrences dévénements Concrète : un ensemble (en extension) contenant des dates identifiables dans un calendrier (une granularité est fixée, le calendrier est défini sur une base annuelle) Extension : { …, « de T14:00:00 à T16:00:00 », « de T14:00:00 à T16:00:00 », … } Abstraite : une formule décrit en intension lensemble précédent Particulièrement adapté aux événements périodiques ou pseudo périodiques (exceptions), et aussi aux événements définis relativement les uns par rapport aux autres Intension [Carnap] : « tous les jeudis de mai de chaque année de 14h à 16h » « tous les jours 3 heures avant la basse mer » 9
2. Modéliser des propriétés temporelles dévénements : avec quel modèle ? Modèle métier : Modèle daccessiblité [Battistelli, Teissèdre] Modèle dévénement : métadonnées sur les événements (IPTC) spatiales temporelles … Modèles temporels existants ISO standard : Time geometry: Instant, Period, Allens relations iCalendar format : Periodic interval, Exception (+ periodic exception) TimeML [Pustejovsky], OWL-Time [Pan] Modèle temporel proposé synthèse de lISO et diCalendar sous une forme objet position relative (3 heures avant la basse mer) une grammaire formelle 10
2. Modéliser des propriétés temporelles dévénements : extrait du Modèle Temporel Extension de lISO Fondé sur le concept de règle périodique (PeriodicRule) 11 Norme ISO 19108
Lutilisateur saisie des expressions temporelles avec un éditeur contextuel 2. Un langage textuel contrôlé pour exprimer des propriétés temporelles 12 Vue textuelle Peuplement
3. Workflow générique 13
6 ème semaine de chaque mois 6 ème semaine de chaque année Janvier 2010 suit décembre 2009 Décembre 2009 précède janvier Validation des expressions 14 Base de connaissance Modèle du calendrier Expressions temporelles vérification Définition de règles Espace technique : objet conception par contrats Espace technique : logique de description - un mois est composé de 4 à 5 semaines - une année est composée de 52 à 53 semaines - janvier suit décembre de lannée précédente - février suit janvier de la même lannée
3. Interrogation des expressions 15 Requêtes Est-ce quun musée est « ouvert le 20/05/2010 » ? Promotion : extension -> intension : « ouvert tous les jeudis » Recherche dans la base de connaissance des expressions du type « tous les jeudis » « tous les jours (changement de granularité) » Réponse du système : logique ternaire VRAI FAUX ? ( inconnu)
Export 3. Acquisition et de Modélisation de Connaissances Temporelles : chaîne TKAM 16 Instances du modèle temporel Instances du modèle linguistique iCalendar Texte contrôlé La chaîne de traitement a été expérimentée sur un corpus de 513 expressions fournies par RelaxNews Expression saisie : « Ouvert du lundi au vendredi, de 9h à 18h. Nocturne le jeudi jusqu'à 22h. Fermé le 18 mai. » - du texte en langage naturel au texte contrôlé -