La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation d’une plateforme logicielle Soutenance de Thèse – Florence Amardeilh.

Présentations similaires


Présentation au sujet: "Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation d’une plateforme logicielle Soutenance de Thèse – Florence Amardeilh."— Transcription de la présentation:

1 Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation d’une plateforme logicielle Soutenance de Thèse – Florence Amardeilh 10 Mai 2007

2 Soutenance thèse – F. Amardeilh - OntoPop
Plan de la soutenance Présentation de la problématique : L’annotation sémantique et le peuplement d’ontologies à partir de textes Contexte de la thèse Problèmes soulevés OntoPop, un médiateur Les Règles d’Acquisition de Connaissance Le langage OPAL OntoPop, un cercle vertueux Extraction, Consolidation, Peuplement, Annotation & Maintenance des Lexiques Etude expérimentale Cas des applications évaluées Analyse des résultats obtenus Conclusion et Perspectives futures Soutenance thèse – F. Amardeilh - OntoPop

3 Annotation Sémantique et Peuplement d’Ontologie
Ajouter une représentation formelle d’un contenu, exprimée à l’aide de concepts, relations et instances décrits dans une ontologie, à sa ressource documentaire source Peuplement d’Ontologie Enrichir une base de connaissance avec de nouvelles instances de concepts, d’attributs et de relations tels que modélisés dans l’ontologie de référence Jonction entre les domaines du Web Sémantique et de l’Informatique Linguistique - Exploitation des langages et des outils pour la représentation de la connaissance comme définis dans le contexte récent du Web Sémantique - Exploitation des méthodes et outils de Traitement du Langage Naturel pour repérer et extraire la connaissance à partir des ressources textuelles Objectif : Articuler ces deux activités dans un même processus afin de bénéficier de la synergie entre leurs résultats Soutenance thèse – F. Amardeilh - OntoPop

4 Exemple d’acquisition de connaissance et d’annotation sémantique
Thesaurus Thésaurus Géographique Article de presse Europe Base de connaissance Johnny Hallyday et Sylvie Vartan se sont mariés à Paris. France Paris JH Mariage de JH & SV époux Ontologie Article épouse indexation lieu Paris indexation personnalité SV Personne alias <rdf:RDF> < rdf:Description rdf:about="http://jh.fr"> <onto:indexation_personnalité> Johnny Hallyday </onto:indexation_personnalité> <onto:indexation_lieu> Paris </onto:indexation_lieu> </rdf:Description> </rdf:RDF> Annotations Personnage Personnalité date de naissance Association Mariage époux:Personnalité épouse:Personnalité lieu du mariage Soutenance thèse – F. Amardeilh - OntoPop date du mariage

5 Soutenance thèse – F. Amardeilh - OntoPop
Contexte de la thèse Aspect industriel important : thèse CIFRE Réfléchir aux phases et acteurs des activités d’Annotation et de Peuplement - 4 phases : l’extraction d’information, la consolidation, le peuplement et l’annotation - 4 acteurs : l’expert du domaine, le linguiste, l’ontographe et l’intégrateur Tenir compte des contraintes imposées par ces acteurs Mener un processus industriel avec une répartition des rôles cohérente Fournir un cadre de travail à Mondeca Nécessité d’apporter une solution concrète aux entreprises Définir les étapes d’une méthodologie de projet pour la réalisation de ces activités en tenant compte des rôles de chacun des acteurs présents Donner un ensemble de recommandations de composants logiciels permettant la mise en œuvre opérationnelle de chaque phase Réaliser une plateforme logicielle opérationnelle Soutenance thèse – F. Amardeilh - OntoPop

6 Etat de l’art des outils existants
Etat de l’art des outils d’annotation sémantique ou de peuplement existants Vingtaine d’outils dont les plus aboutis : OntoAnnotate, KIM, SemTag, MnM, etc. Rarement intégrés dans une chaîne complète, industrialisée Peu d’articulation entre Annotation Sémantique & Peuplement d’Ontologie Autres Constats : 1)Ils sont intrinsèquement liés au moteur d’extraction utilisé Notre position: dissocier les outils d’annotation du moteur d’extraction utilisé 2)Les moteurs d’extraction utilisés reposent, pour la plupart, sur des processus d’apprentissage supervisé Notre position: donner la priorité aux moteurs d’extraction reposant sur une création manuelle des patrons d’extraction 3)Ils privilégient les approches basées sur des ontologies de domaine Notre position: continuer à privilégier cette approche car la plus adaptée au monde industriel 4)Ils fournissent des interfaces utilisateurs plus ou moins conviviales Notre position: pouvoir fournir une aide maximale à l’utilisateur par la présentation des suggestions mais aussi la gestion des contraintes imposées par l’ontologie Soutenance thèse – F. Amardeilh - OntoPop

7 Problématique de l’acquisition de connaissance et de l’annotation sémantique
Outil d’Extraction d’Information ? Outil de Représentation de la Connaissance ACQUISITION DE CONNAISSANCE ANNOTATION SEMANTIQUE Patrons d’extraction, adaptés au domaine concerné Ressources Terminologiques et Ontologiques Outil de Gestion Documentaire Arbre conceptuel Soutenance thèse – F. Amardeilh - OntoPop

8 L’arbre conceptuel: résultat de l’outil d’Extraction d’Information (ici IDE)
Le parrain, c'est moi ! Tel pourrait être le pitch de la vie de Francis Ford Coppola. […] Il y a la mère, Italia, […]. Sans oublier le gendre, le réalisateur Spike Jonze. Francis Coppola naît le 7 avril 1939 à Detroit, dans le Michigan. Il est le deuxième des trois enfants de Carmine et Italia Coppola. […] Tandis que son frère se fiance au top model Frankie Rizer, une grande brune aux yeux azur, et que son cousin, Nicolas, s'apprête à divorcer de Patricia, Sofia épouse Spike Jonze. […] /article (Famille Coppola, l’esprit de clan) /REFERENCE-ACTEUR (Francis Ford Coppola) /REFERENCE-ACTEUR (Spike Jonze) /DATE-NAISSANCE (Coppola naît le 7 avril 1939 à Détroit) /ProperName (Jonze) /Personne (Coppola) /Naissance (naît) /Location (Detroit) /COUPLE (son cousin, Nicolas, s’apprête à divorcer de Patricia) /NomDePersonnePotentiel (Spike Jonze) /ActorNamed (son cousin,Nicolas) /EvenementImminent (s’apprête) /Prenom (Nicolas) / Prenom (Patricia) /DATE (le 7 avril 1939) /Prenom (Spike) /UnitedStates (Detroit) /ActorNamed (Francis Ford Coppola) /Personnalite (Francis Ford Coppola) /America (Detroit) /ProperName (Coppola) /Divorce (divorcer) /ActorNamed (Patricia) Soutenance thèse – F. Amardeilh - OntoPop

9 Problèmes liés à la définition d’un médiateur
Besoin d’une passerelle, d’un médiateur pour : Gérer les distorsion entre les productions des différents acteurs et leurs terminologies différentes Articuler et désambiguïser l’information présente dans les résultats linguistiques avec la connaissance disponible dans les outils de représentation de la connaissance Problèmes soulevés: 1) Problème de format de représentation entre document et ontologie  arbre conceptuel versus réseau sémantique de connaissance ? 2) Problème de la couverture du domaine lors du passage du langage naturel au modèle  vocabulaire du domaine versus éléments de l’ontologie ? 3) Problème de la conceptualisation du domaine lors du passage du langage naturel au modèle  sémantique des résultats linguistiques versus des concepts de l’ontologie ? Soutenance thèse – F. Amardeilh - OntoPop

10 Soutenance thèse – F. Amardeilh - OntoPop
Plan de la soutenance Présentation de la problématique : L’annotation sémantique et le peuplement d’ontologies à partir de textes Contexte de la thèse Problèmes soulevés OntoPop, un médiateur Les Règles d’Acquisition de Connaissance Le langage OPAL OntoPop, un cercle vertueux Extraction, Consolidation, Peuplement, Annotation & Maintenance des Lexiques Etude expérimentale Cas des applications évaluées Analyse des résultats obtenus Conclusion et Perspectives futures Soutenance thèse – F. Amardeilh - OntoPop

11 Les Règles d’Acquisition de Connaissance
Outil de Représentation de la Connaissance Ressources Terminologiques et Ontologiques Outil de Gestion Documentaire Outil d’Extraction d’Information OntoPop Patrons d’extraction, adaptés au domaine concerné Règles d’Acquisition de Connaissance Arbre conceptuel Besoin de désambiguïser et de formaliser l’information présente dans les arbres conceptuels à l’aide de règles Soutenance thèse – F. Amardeilh - OntoPop

12 Comparaison ontologie / arbre conceptuel
Soutenance thèse – F. Amardeilh - OntoPop

13 Proposition d’un langage abstrait : OPAL
Objectifs Spécifier et formaliser les connaissances Langage d’écriture et d’interprétation des Règles d’Acquisition de Connaissance Prise en compte du contexte des nœuds dans l’arbre conceptuel Caractéristiques Inspiré du langage, nommé LangText [Crispino, 2003] Application non pas au document textuel, comme LangText, mais à l’arbre conceptuel où la notion de contexte est différente Identification des nœuds de l’arbre qui correspondent à une nouvelle instance ou à une nouvelle annotation + définition d’indices contextuels complémentaires pour la réalisation ou non de la tâche concernée = création nouvelle instance dans base de connaissance et/ou nouvelle annotation sémantique associée à la ressource documentaire Soutenance thèse – F. Amardeilh - OntoPop

14 Règle d’Acquisition de Connaissance en langage OPAL
NomRègle: PersonnaliteR1 TypeConcept: Classe Entité ConceptURI: NoeudIndicateur: NomPropre IndicesContextuels: {Existe: [EspaceRechercheArbre: père] [NoeudIndice: Personne] } Valeur: texte du nœud indicateur Position: faux Confiance: élevé finRègle Partie Action Partie Déclenchement Partie Conditions Partie Options Soutenance thèse – F. Amardeilh - OntoPop

15 Règle d’Acquisition de Connaissance - Exemple
NomRègle: DateNaissanceR1 TypeConcept: Attribut ConceptURI: DomaineURI : NoeudIndicateur: DATE IndicesContextuels: {Existe: [EspaceRechercheArbre: père] [NoeudIndice: Naissance] } {Existe: [EspaceRechercheArbre: ancêtre] [NoeudIndice: DATE-NAISSANCE] {Existe: [EspaceRechercheArbre: enfant] [NoeudIndice: Personne] Valeur: text() Position: faux Confiance: élevé finRègle /article (Famille Coppola, l’esprit de clan) /DATE-NAISSANCE (Coppola naît le 7 avril 1939 à Détroit) /Personne (Coppola) /Naissance (naît) /Location (Detroit) /DATE (le 7 avril 1939) /UnitedStates (Detroit) /America (Detroit) /ProperName (Coppola) Soutenance thèse – F. Amardeilh - OntoPop

16 Application des Règles d’Acquisition de Connaissance
Soutenance thèse – F. Amardeilh - OntoPop

17 Soutenance thèse – F. Amardeilh - OntoPop
Plan de la soutenance Présentation de la problématique : L’annotation sémantique et le peuplement d’ontologies à partir de textes Contexte de la thèse Problèmes soulevés OntoPop, un médiateur Les Règles d’Acquisition de Connaissance Le langage OPAL OntoPop, un cercle vertueux Extraction, Consolidation, Peuplement, Annotation & Maintenance des Lexiques Etude expérimentale Cas des applications évaluées Analyse des résultats obtenus Conclusion et Perspectives futures Soutenance thèse – F. Amardeilh - OntoPop

18 OntoPop – un cercle vertueux
Outil d’Extraction d’Information Outil de Représentation de la Connaissance Module de Mise à Jour des Lexiques Patrons d’extraction, adaptés au domaine concerné Ressources Terminologiques et Ontologiques Règles d’Acquisition de Connaissance Règles d’Acquisition de Connaissance Règles d’Acquisition de Connaissance Editeur des règles d’Acquisition Outil de Gestion Documentaire Module d’Annotation et d’Acquisition réseau Composant de Peuplement d’Ontologie Arbre conceptuel Composant d’Annotation Sémantique Soutenance thèse – F. Amardeilh - OntoPop

19 Soutenance thèse – F. Amardeilh - OntoPop
Plan de la soutenance Présentation de la problématique : L’annotation sémantique et le peuplement d’ontologies à partir de textes Contexte de la thèse Problèmes soulevés OntoPop, un médiateur Les Règles d’Acquisition de Connaissance Le langage OPAL OntoPop, un cercle vertueux Extraction, Consolidation, Peuplement, Annotation & Maintenance des Lexiques Etude expérimentale Cas des applications évaluées Analyse des résultats obtenus Conclusion et Perspectives futures Soutenance thèse – F. Amardeilh - OntoPop

20 Les projets évalués avec OntoPop
Domaine Presse « People » versus Domaine de l’Edition Juridique : Différences :  de corpus documentaire  de l’ontologie de domaine  des autres RTO  d’objectifs de l’application cible Soutenance thèse – F. Amardeilh - OntoPop

21 Comparaison des résultats pour les deux domaines
Mesure de la complexité Mesure de la performance Rappel Précision Presse People 2,7 RAC par élément concerné de l’ontologie Pour le peuplement d’ontologie  0,94 Pour l’annotation sémantique  0,97 Pour le peuplement d’ontologie  0,82 Pour l’annotation sémantique  1 Edition Juridique 4 RAC par élément concerné de l’ontologie Pour le balisage des renvois juridiques  0,988 Pour l’identification des jurisprudences  0,996 Pour l’identification des jurisprudences  1 Résultats particulièrement bons, mais validité des mesures choisies ? Besoin d’adapter les mesures de rappel et de précision en fonction des tâches d’annotation sémantique et de peuplement d’ontologie Remplacement des résultats corrects/incorrects par exactes/contenus/imbriqués [Freitag, 1998] Affectation d’une notion de « poids » ou de « distance » aux résultats [Maynard, 2005] Système de notation standard des outils d’annotation ou de peuplement sur la base de différents critères comme les fonctionnalités, l’interopérabilité, la convivialité ou la réutilisation [Maynard, 2005] [Sazedj, 2005] Soutenance thèse – F. Amardeilh - OntoPop

22 Soutenance thèse – F. Amardeilh - OntoPop
Les limites d’OntoPop Problèmes liés à la définition des RACs Format des données incompatibles Proximité de l’information dans l’arbre conceptuel Précision de l’information Problèmes liés au déclenchement des RACs Consistance de l’information Les conflits entre RACs La maintenance des RACs /QualificationPersonne (Anton Coppola, l’oncle de Francis, …) /ActorNamed (Anton Coppola) /Personality (Anton Coppola) /LienParente (oncle) /ActorNamed (Francis) /FirstName (Francis) /QualificationPersonne(Francis Coppola avec sa fille Sofia…) /ActorParent(Francis Coppola) /Parenthood(sa fille) /Child (sofia) /Prénom(Sofia) /COUPLE (Spike Jonze et Sofia Coppola ont rompu en 2001) /ActorNamed (Spike Jonze) /Personality (Spike Jonze) /ActorNamed (Sofia Coppola) /Personality (Sofia Coppola) /Break (ont rompu) /DATE (2001) Soutenance thèse – F. Amardeilh - OntoPop

23 Soutenance thèse – F. Amardeilh - OntoPop
Plan de la soutenance Présentation de la problématique : L’annotation sémantique et le peuplement d’ontologies à partir de textes Contexte de la thèse Problèmes soulevés OntoPop, un médiateur Les Règles d’Acquisition de Connaissance Le langage OPAL OntoPop, un cercle vertueux Extraction, Consolidation, Peuplement, Annotation & Maintenance des Lexiques Etude expérimentale Cas des applications évaluées Analyse des résultats obtenus Conclusion et Perspectives futures Soutenance thèse – F. Amardeilh - OntoPop

24 Soutenance thèse – F. Amardeilh - OntoPop
Conclusion Mes réalisations & les apports de cette thèse Définition de la méthode OntoPop pour l’annotation sémantique et le peuplement d’ontologie par l’exploitation des résultats des outils d’extraction d’information Proposition d’un formalisme, le « Ontology Population & Annotation Language » (OPAL), pour décrire les Règles d’Acquisition de Connaissance, clef de voute de la méthode OntoPop Préconisation d’une méthodologie de projet en cinq étapes pour la réalisation d’applications concrètes en entreprise Illustration de la mise en œuvre d’OntoPop à travers le développement de composants logiciels modulaires et évolutifs intégrés à l’outil ITM de Mondeca Validation de la méthode par son implémentation auprès d’une dizaine d’applications issues de besoins réels en entreprise Soutenance thèse – F. Amardeilh - OntoPop

25 Soutenance thèse – F. Amardeilh - OntoPop
Perspectives futures Améliorer la méthode OntoPop actuelle Approfondir la mise en correspondance des résultats des outils d’extraction d’information avec les ontologies, notamment en intégrant de nouveaux outils d’extraction d’information (TAO, Eiffel) Développer l’annotation sémantique de contenus multimédias (TAO) Etudier la consolidation des annotations et des réseaux sémantiques par l’utilisation de raisonnements logiques et de mécanismes d’inférence (Eiffel) Améliorer l’ergonomie des interfaces utilisateurs pour l’annotation sémantique et le peuplement d’ontologie (TAO) Explorer la piste de l’alignement d’ontologies Utiliser les méthodes et outils d’alignement d’ontologies pour pallier aux limites vues précédemment, et notamment à celle de la maintenance des Règles d’Acquisition de Connaissance Proposer une version adaptée des RACs pour standardiser le format de représentation des règles d’alignement d’ontologies Réfléchir à de nouvelles méthodes d’évaluation Proposer de nouvelles mesures adaptées à l’annotation sémantique et au peuplement d’ontologies Soutenance thèse – F. Amardeilh - OntoPop

26 Merci de votre attention
Soutenance de Thèse – Florence Amardeilh 10 Mai 2007


Télécharger ppt "Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation d’une plateforme logicielle Soutenance de Thèse – Florence Amardeilh."

Présentations similaires


Annonces Google