La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Making sense of content Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation dune plateforme logicielle Soutenance.

Présentations similaires


Présentation au sujet: "Making sense of content Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation dune plateforme logicielle Soutenance."— Transcription de la présentation:

1 Making sense of content Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation dune plateforme logicielle Soutenance de Thèse – Florence Amardeilh 10 Mai 2007

2 Soutenance thèse – F. Amardeilh - OntoPop2 Plan de la soutenance Présentation de la problématique : Lannotation sémantique et le peuplement dontologies à partir de textes Contexte de la thèse Problèmes soulevés OntoPop, un médiateur Les Règles dAcquisition de Connaissance Le langage OPAL OntoPop, un cercle vertueux Extraction, Consolidation, Peuplement, Annotation & Maintenance des Lexiques Etude expérimentale Cas des applications évaluées Analyse des résultats obtenus Conclusion et Perspectives futures

3 Soutenance thèse – F. Amardeilh - OntoPop3 Annotation Sémantique et Peuplement dOntologie Annotation Sémantique Ajouter une représentation formelle dun contenu, exprimée à laide de concepts, relations et instances décrits dans une ontologie, à sa ressource documentaire source Peuplement dOntologie Enrichir une base de connaissance avec de nouvelles instances de concepts, dattributs et de relations tels que modélisés dans lontologie de référence Jonction entre les domaines du Web Sémantique et de lInformatique Linguistique - Exploitation des langages et des outils pour la représentation de la connaissance comme définis dans le contexte récent du Web Sémantique - Exploitation des méthodes et outils de Traitement du Langage Naturel pour repérer et extraire la connaissance à partir des ressources textuelles Objectif : Articuler ces deux activités dans un même processus afin de bénéficier de la synergie entre leurs résultats

4 Soutenance thèse – F. Amardeilh - OntoPop4 Exemple dacquisition de connaissance et dannotation sémantique Base de connaissance Mariage de JH & SV … Johnny Hallyday et Sylvie Vartan se sont mariés à Paris. … Paris JH SV Personnalité Association Mariage lieu du mariage Personnage date du mariage Personne alias époux épouse épouse:Personnalité époux:Personnalité Johnny Hallyday … Paris Annotations Ontologie Article de presse Europe Thésaurus Géographique France Paris Article indexation lieu indexation personnalité date de naissance Thesaurus

5 Soutenance thèse – F. Amardeilh - OntoPop5 Contexte de la thèse Aspect industriel important : thèse CIFRE Réfléchir aux phases et acteurs des activités dAnnotation et de Peuplement - 4 phases : lextraction dinformation, la consolidation, le peuplement et lannotation - 4 acteurs : lexpert du domaine, le linguiste, lontographe et lintégrateur Tenir compte des contraintes imposées par ces acteurs Mener un processus industriel avec une répartition des rôles cohérente Fournir un cadre de travail à Mondeca Nécessité dapporter une solution concrète aux entreprises Définir les étapes dune méthodologie de projet pour la réalisation de ces activités en tenant compte des rôles de chacun des acteurs présents Donner un ensemble de recommandations de composants logiciels permettant la mise en œuvre opérationnelle de chaque phase Réaliser une plateforme logicielle opérationnelle

6 Soutenance thèse – F. Amardeilh - OntoPop6 Etat de lart des outils existants Etat de lart des outils dannotation sémantique ou de peuplement existants Vingtaine doutils dont les plus aboutis : OntoAnnotate, KIM, SemTag, MnM, etc. Rarement intégrés dans une chaîne complète, industrialisée Peu darticulation entre Annotation Sémantique & Peuplement dOntologie Autres Constats : 1)Ils sont intrinsèquement liés au moteur dextraction utilisé Notre position: dissocier les outils dannotation du moteur dextraction utilisé 2)Les moteurs dextraction utilisés reposent, pour la plupart, sur des processus dapprentissage supervisé Notre position: donner la priorité aux moteurs dextraction reposant sur une création manuelle des patrons dextraction 3)Ils privilégient les approches basées sur des ontologies de domaine Notre position: continuer à privilégier cette approche car la plus adaptée au monde industriel 4)Ils fournissent des interfaces utilisateurs plus ou moins conviviales Notre position: pouvoir fournir une aide maximale à lutilisateur par la présentation des suggestions mais aussi la gestion des contraintes imposées par lontologie

7 Soutenance thèse – F. Amardeilh - OntoPop7 Problématique de lacquisition de connaissance et de lannotation sémantique Outil de Repr é sentation de la Connaissance Ressources Terminologiques et Ontologiques Outil de Gestion Documentaire Outil dExtraction dInformation ? ACQUISITION DE CONNAISSANC E ANNOTATION SEMANTIQUE Patrons dextraction, adaptés au domaine concerné Arbre conceptuel

8 Soutenance thèse – F. Amardeilh - OntoPop8 Larbre conceptuel: résultat de loutil dExtraction dInformation (ici IDE) /article (Famille Coppola, lesprit de clan) /REFERENCE- ACTEUR (Francis Ford Coppola) /REFERENCE- ACTEUR (Spike Jonze) /DATE-NAISSANCE (Coppola naît le 7 avril 1939 à Détroit) /ProperName (Jonze) /Personne (Coppola) /Naissance (naît) /Location (Detroit) /COUPLE (son cousin, Nicolas, sapprête à divorcer de Patricia) /NomDePerso nnePotentiel (Spike Jonze) /ActorNamed (son cousin,Nicolas) /Evenement Imminent (sapprête) /Prenom (Nicolas) / Prenom (Patricia) /DATE (le 7 avril 1939) /Prenom (Spike) /UnitedStates (Detroit) /ActorNamed (Francis Ford Coppola) /Personnalite (Francis Ford Coppola) /America (Detroit) /ProperName (Coppola) /Divorce (divorcer) /ActorNamed (Patricia) Le parrain, c'est moi ! Tel pourrait être le pitch de la vie de Francis Ford Coppola. […] Il y a la mère, Italia, […]. Sans oublier le gendre, le réalisateur Spike Jonze. Francis Coppola naît le 7 avril 1939 à Detroit, dans le Michigan. Il est le deuxième des trois enfants de Carmine et Italia Coppola. […] Tandis que son frère se fiance au top model Frankie Rizer, une grande brune aux yeux azur, et que son cousin, Nicolas, s'apprête à divorcer de Patricia, Sofia épouse Spike Jonze. […]

9 Soutenance thèse – F. Amardeilh - OntoPop9 Problèmes liés à la définition dun médiateur Besoin dune passerelle, dun médiateur pour : Gérer les distorsion entre les productions des différents acteurs et leurs terminologies différentes Articuler et désambiguïser linformation présente dans les résultats linguistiques avec la connaissance disponible dans les outils de représentation de la connaissance Problèmes soulevés: 1) Problème de format de représentation entre document et ontologie arbre conceptuel versus réseau sémantique de connaissance ? 2) Problème de la couverture du domaine lors du passage du langage naturel au modèle vocabulaire du domaine versus éléments de lontologie ? 3) Problème de la conceptualisation du domaine lors du passage du langage naturel au modèle sémantique des résultats linguistiques versus des concepts de lontologie ?

10 Soutenance thèse – F. Amardeilh - OntoPop10 Plan de la soutenance Présentation de la problématique : Lannotation sémantique et le peuplement dontologies à partir de textes Contexte de la thèse Problèmes soulevés OntoPop, un médiateur Les Règles dAcquisition de Connaissance Le langage OPAL OntoPop, un cercle vertueux Extraction, Consolidation, Peuplement, Annotation & Maintenance des Lexiques Etude expérimentale Cas des applications évaluées Analyse des résultats obtenus Conclusion et Perspectives futures

11 Soutenance thèse – F. Amardeilh - OntoPop11 Les Règles dAcquisition de Connaissance Besoin de désambiguïser et de formaliser linformation présente dans les arbres conceptuels à laide de règles Outil de Repr é sentation de la Connaissance Ressources Terminologiques et Ontologiques Outil de Gestion Documentaire Outil dExtraction dInformation OntoPop Patrons dextraction, adaptés au domaine concerné Règles dAcquisition de Connaissance Arbre conceptuel

12 Soutenance thèse – F. Amardeilh - OntoPop12 Comparaison ontologie / arbre conceptuel

13 Soutenance thèse – F. Amardeilh - OntoPop13 Proposition dun langage abstrait : OPAL Objectifs Spécifier et formaliser les connaissances Langage décriture et dinterprétation des Règles dAcquisition de Connaissance Prise en compte du contexte des nœuds dans larbre conceptuel Caractéristiques Inspiré du langage, nommé LangText [Crispino, 2003] Application non pas au document textuel, comme LangText, mais à larbre conceptuel où la notion de contexte est différente Identification des nœuds de larbre qui correspondent à une nouvelle instance ou à une nouvelle annotation + définition dindices contextuels complémentaires pour la réalisation ou non de la tâche concernée = création nouvelle instance dans base de connaissance et/ou nouvelle annotation sémantique associée à la ressource documentaire

14 Soutenance thèse – F. Amardeilh - OntoPop14 Règle dAcquisition de Connaissance en langage OPAL NomRègle: PersonnaliteR1 TypeConcept: Classe Entité ConceptURI: NoeudIndicateur: NomPropre IndicesContextuels: {Existe: [EspaceRechercheArbre: père] [NoeudIndice: Personne] } Valeur: texte du nœud indicateur Position: faux Confiance: élevé finRègle Partie Action Partie Conditions Partie Options Partie Déclenchement

15 Soutenance thèse – F. Amardeilh - OntoPop15 Règle dAcquisition de Connaissance - Exemple NomRègle: DateNaissanceR1 TypeConcept: Attribut ConceptURI: DomaineURI : NoeudIndicateur: DATE IndicesContextuels: {Existe: [EspaceRechercheArbre: père] [NoeudIndice: Naissance] } {Existe: [EspaceRechercheArbre: ancêtre] [NoeudIndice: DATE-NAISSANCE] {Existe: [EspaceRechercheArbre: enfant] [NoeudIndice: Personne] } Valeur: text() Position: faux Confiance: élevé finRègle /article (Famille Coppola, lesprit de clan) /DATE-NAISSANCE (Coppola naît le 7 avril 1939 à Détroit) /Personne (Coppola) /Naissance (naît) /Location (Detroit) /DATE (le 7 avril 1939) /UnitedStates (Detroit) /America (Detroit) /ProperName (Coppola)

16 Soutenance thèse – F. Amardeilh - OntoPop16 Application des Règles dAcquisition de Connaissance

17 Soutenance thèse – F. Amardeilh - OntoPop17 Plan de la soutenance Présentation de la problématique : Lannotation sémantique et le peuplement dontologies à partir de textes Contexte de la thèse Problèmes soulevés OntoPop, un médiateur Les Règles dAcquisition de Connaissance Le langage OPAL OntoPop, un cercle vertueux Extraction, Consolidation, Peuplement, Annotation & Maintenance des Lexiques Etude expérimentale Cas des applications évaluées Analyse des résultats obtenus Conclusion et Perspectives futures

18 Soutenance thèse – F. Amardeilh - OntoPop18 OntoPop – un cercle vertueux Outil de Gestion Documentaire Outil dExtraction dInformation OntoPop Patrons dextraction, adaptés au domaine concerné Règles dAcquisition de Connaissance Module dAnnotation et dAcquisition Composant de Peuplement dOntologie Editeur des règles dAcquisition Composant dAnnotation Sémantique Module de Mise à Jour des Lexiques Règles dAcquisition de Connaissance Ressources Terminologiques et Ontologiques Outil de Repr é sentation de la Connaissance Arbre conceptuel réseau

19 Soutenance thèse – F. Amardeilh - OntoPop19 Plan de la soutenance Présentation de la problématique : Lannotation sémantique et le peuplement dontologies à partir de textes Contexte de la thèse Problèmes soulevés OntoPop, un médiateur Les Règles dAcquisition de Connaissance Le langage OPAL OntoPop, un cercle vertueux Extraction, Consolidation, Peuplement, Annotation & Maintenance des Lexiques Etude expérimentale Cas des applications évaluées Analyse des résultats obtenus Conclusion et Perspectives futures

20 Soutenance thèse – F. Amardeilh - OntoPop20 Les projets évalués avec OntoPop Domaine Presse « People » versus Domaine de lEdition Juridique : Différences : de corpus documentaire de lontologie de domaine des autres RTO dobjectifs de lapplication cible

21 Soutenance thèse – F. Amardeilh - OntoPop21 Comparaison des résultats pour les deux domaines Résultats particulièrement bons, mais validité des mesures choisies ? Besoin dadapter les mesures de rappel et de précision en fonction des tâches dannotation sémantique et de peuplement dontologie Remplacement des résultats corrects/incorrects par exactes/contenus/imbriqués [Freitag, 1998] Affectation dune notion de « poids » ou de « distance » aux résultats [Maynard, 2005] Système de notation standard des outils dannotation ou de peuplement sur la base de différents critères comme les fonctionnalités, linteropérabilité, la convivialité ou la réutilisation [Maynard, 2005] [Sazedj, 2005] DomaineMesure de la complexitéMesure de la performance RappelPrécision Presse People 2,7 RAC par élément concerné de lontologie Pour le peuplement dontologie 0,94 Pour lannotation sémantique 0,97 Pour le peuplement dontologie 0,82 Pour lannotation sémantique 1 Edition Juridique 4 RAC par élément concerné de lontologie Pour le balisage des renvois juridiques 0,988 Pour lidentification des jurisprudences 0,996 Pour le balisage des renvois juridiques 0,988 Pour lidentification des jurisprudences 1

22 Soutenance thèse – F. Amardeilh - OntoPop22 Les limites dOntoPop Problèmes liés à la définition des RACs Format des données incompatibles Proximité de linformation dans larbre conceptuel Précision de linformation Problèmes liés au déclenchement des RACs Consistance de linformation Les conflits entre RACs La maintenance des RACs /QualificationPersonne (Anton Coppola, loncle de Francis, …) /ActorNamed (Anton Coppola) /Personality (Anton Coppola) /LienParente (oncle) /ActorNamed (Francis) /FirstName (Francis) /QualificationPersonne(Francis Coppola avec sa fille Sofia…) /ActorParent(Francis Coppola) /Parenthood(sa fille) /Child (sofia) /Prénom(Sofia) /COUPLE (Spike Jonze et Sofia Coppola ont rompu en 2001) /ActorNamed (Spike Jonze) /Personality (Spike Jonze) /ActorNamed (Sofia Coppola) /Personality (Sofia Coppola) /Break (ont rompu) /DATE (2001)

23 Soutenance thèse – F. Amardeilh - OntoPop23 Plan de la soutenance Présentation de la problématique : Lannotation sémantique et le peuplement dontologies à partir de textes Contexte de la thèse Problèmes soulevés OntoPop, un médiateur Les Règles dAcquisition de Connaissance Le langage OPAL OntoPop, un cercle vertueux Extraction, Consolidation, Peuplement, Annotation & Maintenance des Lexiques Etude expérimentale Cas des applications évaluées Analyse des résultats obtenus Conclusion et Perspectives futures

24 Soutenance thèse – F. Amardeilh - OntoPop24 Conclusion Mes réalisations & les apports de cette thèse Définition de la méthode OntoPop pour lannotation sémantique et le peuplement dontologie par lexploitation des résultats des outils dextraction dinformation Proposition dun formalisme, le « Ontology Population & Annotation Language » (OPAL), pour décrire les Règles dAcquisition de Connaissance, clef de voute de la méthode OntoPop Préconisation dune méthodologie de projet en cinq étapes pour la réalisation dapplications concrètes en entreprise Illustration de la mise en œuvre dOntoPop à travers le développement de composants logiciels modulaires et évolutifs intégrés à loutil ITM de Mondeca Validation de la méthode par son implémentation auprès dune dizaine dapplications issues de besoins réels en entreprise

25 Soutenance thèse – F. Amardeilh - OntoPop25 Perspectives futures Améliorer la méthode OntoPop actuelle Approfondir la mise en correspondance des résultats des outils dextraction dinformation avec les ontologies, notamment en intégrant de nouveaux outils dextraction dinformation (TAO, Eiffel) Développer lannotation sémantique de contenus multimédias (TAO) Etudier la consolidation des annotations et des réseaux sémantiques par lutilisation de raisonnements logiques et de mécanismes dinférence (Eiffel) Améliorer lergonomie des interfaces utilisateurs pour lannotation sémantique et le peuplement dontologie (TAO) Explorer la piste de lalignement dontologies Utiliser les méthodes et outils dalignement dontologies pour pallier aux limites vues précédemment, et notamment à celle de la maintenance des Règles dAcquisition de Connaissance Proposer une version adaptée des RACs pour standardiser le format de représentation des règles dalignement dontologies Réfléchir à de nouvelles méthodes dévaluation Proposer de nouvelles mesures adaptées à lannotation sémantique et au peuplement dontologies

26 Making sense of content Merci de votre attention Soutenance de Thèse – Florence Amardeilh 10 Mai 2007


Télécharger ppt "Making sense of content Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation dune plateforme logicielle Soutenance."

Présentations similaires


Annonces Google