La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure.

Présentations similaires


Présentation au sujet: "Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure."— Transcription de la présentation:

1 Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure des Mines de Saint-Etienne 27 septembre 2006

2 27/09/20061/42 –Analyse syntaxique –Règles sémantiques –Construction de la requête Interface de requêtes en langage naturel Plan Les documents XML et la recherche d'information Recherche contextuelle Expérimentations –Méthodologie –Résultats avec NEXI et XOR –Conclusion –Problématique –Recherche contextuelle avec XOR –Les documents semi-structurés (XML) –Les spécificités de la RI semi-structurée –Les interfaces de requêtes en langage naturel

3 27/09/20062/42 Le travail d'Untel Untel03, illustré par la figure fig1, ainsi que mes propres expérimentations conduites en 2002, semblent montrer… … balise d'emphase XML orienté document Les documents XML et la recherche d'information Interface de requêtes en langage naturel Recherche contextuelle Expérimentations Les documents semi-structurés (XML) Les spécificités de la RI structurée Les interfaces de requêtes

4 27/09/20063/42 XML orienté document article titreauteursectionbibliographie Un exemple d'article Dupont et Dupond par … … bib … … Les documents XML et la recherche d'information Interface de requêtes en langage naturel Recherche contextuelle Expérimentations Les documents semi-structurés (XML) Les spécificités de la RI structurée Les interfaces de requêtes

5 27/09/20064/ quai Saint-Pierre Toulouse … (par opposition aux documents orientés documents) XML orienté données Les documents XML et la recherche d'information Interface de requêtes en langage naturel Recherche contextuelle Expérimentations Les documents semi-structurés (XML) Les spécificités de la RI structurée Les interfaces de requêtes

6 27/09/20065/42 Recherche d'information Analyse des documents (1.) Analyse du besoin (2.) fonction de similarité résultats Le travail d'Untel Untel03, illustré par la figure fig1, ainsi que mes expérimentations conduites en 2002, semble montrer… … Les documents XML et la recherche d'information Interface de requêtes en langage naturel Recherche contextuelle Expérimentations Les documents semi-structurés (XML) Les spécificités de la RI structurée Les interfaces de requêtes

7 27/09/20066/42 Les spécificités de la RI semi-structurée L'unité d'information pertinente –document entier vs. élément XML (doxel) –exhaustivité et spécificité Recherche sur contenu et structure d46. d25. d94. d53. d32. d61. d4 d2 d9 d3 d6 /sec[3] /sec[5]/table[2] /resume[1] /bib/item[4] /sec[2]/p[4]/fig[1] /sec[3]/p[2] RI "plate"RI semi-structurée 1.d6 2.d3 3.d5 4.d9 1.d6/sec[3]/p[2] 2.d3/sec[2]/p[4]/fig[1] 3.d3/bib/item[4] 4.d9/resume[1] RI "plate"RI semi-structurée Les documents XML et la recherche d'information Interface de requêtes en langage naturel Recherche contextuelle Expérimentations Les documents semi-structurés (XML) Les spécificités de la RI structurée Les interfaces de requêtes

8 27/09/20067/42 Une figure montrant un sondage dans un article sur l'élection de En 2007, les Français éliront un nouveau président … … … Sarkozy : 30 % Royal : 30 % de Villepin : 0.2 % Hollande : 0.12 % … Sarkozy : 30 % Royal : 30 % de Villepin : 0.2 % Hollande : 0.12 % Structure et Contenu Les documents XML et la recherche d'information Interface de requêtes en langage naturel Recherche contextuelle Expérimentations Les documents semi-structurés (XML) Les spécificités de la RI structurée Les interfaces de requêtes

9 27/09/20068/42 … musée d'Art Moderne … … biennale du Design … … Que faire à Saint-Etienne ? … … Saint-Etienne … mines … histoire … culture … … … Balades Musées Cinéma C'est tout Structure et Contenu Les documents XML et la recherche d'information Interface de requêtes en langage naturel Recherche contextuelle Expérimentations Les documents semi-structurés (XML) Les spécificités de la RI structurée Les interfaces de requêtes

10 27/09/20069/42 Les spécificités de la RI semi-structurée L'unité d'information pertinente –document entier vs. élément XML (doxel) –exhaustivité et spécificité Recherche sur contenu et structure –besoin de langages de requêtes structurés –NEXI Interprétation de la requête –stricte pour les bases de données (documents orientés données) –vague pour la recherche d'information //article[about(.//res, "sp é cialit é s Sud-Ouest")]//par[about(., magret)] SupportCible 1.d6 2.d3 3.d5 4.d9 1.d6/sec[3]/p[2] 2.d3/sec[2]/p[4]/fig[1] 3.d3/bib/item[4] 4.d9/resume[1] RI "plate"RI semi-structurée //article[about(.//abs, "sp é cialit é s Sud-Ouest")]//par[about(., magret)] Les documents XML et la recherche d'information Interface de requêtes en langage naturel Recherche contextuelle Expérimentations Les documents semi-structurés (XML) Les spécificités de la RI structurée Les interfaces de requêtes

11 27/09/200610/42 Documents platsXMLBases de données contenu :texte seulementbalises + textestructure + donnée unité de RI :document entierélément- besoin :texte seulementtexte et structure requête :mots-clés langage de requête structuré interprétation : vague stricte trop compliqué pour les utilisateurs occasionnels besoin de connaître la structure (DTD) du document pas de réponse "idéale" interpréter la requête fait partie intégrante du processus on peut espérer construire des requêtes meilleures Motivation pour les interfaces en LN Les documents XML et la recherche d'information Interface de requêtes en langage naturel Recherche contextuelle Expérimentations Les documents semi-structurés (XML) Les spécificités de la RI structurée Les interfaces de requêtes confort performances

12 27/09/200611/42 Les enjeux Les besoins –Structure et contenu –Robustesse (toujours retourner un résultat) –Généricité (dépendance vis-à-vis de la collection) –Simplicité Les libertés –Compréhension la requête ( bases de données) –Indépendance des requêtes –Courtoisie de l'utilisateur pas de calculs (fréquences, maximum, moyennes), de jointure, de restructuration des résultats Les documents XML et la recherche d'information Interface de requêtes en langage naturel Recherche contextuelle Expérimentations Les documents semi-structurés (XML) Les spécificités de la RI structurée Les interfaces de requêtes Les buts –Confort –Performance comparable

13 27/09/200612/42 L'approche de Woodley et Geva [2004] Patrons sémantiques (template matching) Find figures …//fig + + "// [about(., )]" sections containing something //sec[about(., something)] + "// " Avantages : –Efficacité (en temps de calcul) –Pas d'ambiguïté Limites : –Seulement les constructions prévues à l'avance –Peu robuste –Difficile à adapter –Pas de constructions "implicites" Les documents XML et la recherche d'information Interface de requêtes en langage naturel Recherche contextuelle Expérimentations Les documents semi-structurés (XML) Les spécificités de la RI structurée Les interfaces de requêtes un article qui cite un autre article bibliographie

14 27/09/200613/42 Plan (rappel) –Analyse syntaxique –Règles sémantiques –Construction de la requête Interface de requêtes en langage naturel Les documents XML et la recherche d'information Recherche contextuelle Expérimentations

15 27/09/200614/42 Architecture générale analyse syntaxique règles sémantiques construction de la requête requête en langage naturel requête en NEXI première représentation (syntaxique) deuxième représentation (sémantique) Indépendante de la collection Dépendantes de la collection

16 27/09/200615/42 Analyse syntaxique Règles sémantiques Construction de la requête We are searching paragraphs dealingwithmanagement NN INV(ger)NN V PP NP VP NP VP NP S NP DET? NN NP PP NP NP VP(ger) VP V IN? NP S NP VP … We are searching paragraphs dealing with version management in articles about object databases. Les documents XML et la recherche d'information Interface de requêtes en langage naturel Recherche contextuelle Expérimentations

17 27/09/200616/42 We are searching paragraphs dealing with version management in articles about object databases. a b c d e 1 e 2 a : (paragraph, sym:paragraphs, cat:nn, tag:p) b : (version management, cat:np) c : (article, sym:articles, cat:nn, tag:article) d : (object databases, cat:np) e 1 : (search, sym:are searching, cat:v) e 2 : (deal, sym:dealing, cat:v) objet(e 1, a) sujet(e 2, a) with(e 2, b) in(a, c) about(c, d) elements valeurs relations cibles Analyse syntaxique : représentation Valeurs : lemme termes initiaux catégorie balise cat:np NP (JJ | NN)+ NN NP PN (IN? PN)+ Relations : sujet, objet… in, with, of, on, … Les documents XML et la recherche d'information Interface de requêtes en langage naturel Recherche contextuelle Expérimentations Analyse syntaxique Règles sémantiques Construction de la requête

18 27/09/200617/42 We are searching paragraphs dealing with version management in articles about object databases. a b c d e 1 e 2 a : (paragraph, tag:p) b : (version management) c : (article, tag:article) d : (object databases) e 1 : (search) e 2 : (deal) objet(e 1, a) sujet(e 2, a) with(e 2, b) in(a, c) about(c, d) elements valeurs relations cibles VP NP a, b, e 2 a : (paragraph, cat:nn, tag:p) b : (management, cat:nn) e 2 : (deal, cat:v) with(e 2, b) sujet(e 2, a) Analyse syntaxique dealingwithmanagement NNINV(ger) b b : (management, cat:nn) with(?, ?) e2e2 e 2 : (deal, cat:v) b, e 2 b : (management, cat:nn) e 2 : (deal, cat:v) with(e 2, b) a a : (paragraph, cat:nn, tag:p) dealing with managementparagraphs NN Les documents XML et la recherche d'information Interface de requêtes en langage naturel Recherche contextuelle Expérimentations Analyse syntaxique Règles sémantiques Construction de la requête

19 27/09/200618/42 We are searching paragraphs dealing with version management in articles about object databases. to search + to deal + valeurs relations cibles a e 1 : (search) objet(e 1, a) a a a : (tag:_) b e 2 : (deal) sujet(e 2, a) with(e 2, b) abab about(a, b) valeurs relations cibles a b c d a : (paragraph, tag:p) b : (version management) c : (article, tag:article) d : (object databases) about(a, b) in(a, c) about(c, d) a Règles sémantiques a b c d e 1 e 2 a : (paragraph, tag:p) b : (version management) c : (article, tag:article) d : (object databases) e 1 : (search) e 2 : (deal) objet(e 1, a) sujet(e 2, a) with(e 2, b) in(a, c) about(c, d) Les documents XML et la recherche d'information Interface de requêtes en langage naturel Recherche contextuelle Expérimentations Analyse syntaxique Règles sémantiques Construction de la requête

20 27/09/200619/42 - Détection de la cible : find, look, … - Relations verbales : speak, concern, precede, … - Relations prépositionnelles :,, a : (tag:_) b e : (cite) sujet(e, a) objet(e, b) a b c (tag:bib) about(c, b) valeurs relations cibles an article that cite … an article citing - cite Règles dépendant de la structure - introduction Règles "fixes" - a : (tag:_) b by(a, b) a b c (tag:au) about(c, b) valeurs relations cibles an article by … Règles sémantiques a:(introduction)a b (tag:sec) c (tag:st) includes(b, c) about(c, a) Les documents XML et la recherche d'information Interface de requêtes en langage naturel Recherche contextuelle Expérimentations Analyse syntaxique Règles sémantiques Construction de la requête

21 27/09/200620/42 Désambiguïsation syntaxique par le nombre de règles Les règles permettent la désambiguïsation syntaxique par leurs modalités d'application Trouvez un article sur Napol é on qui cite Max Gallo citer Je cherche des sections sur les impressionnistes dans des articles sur la peinture Les documents XML et la recherche d'information Interface de requêtes en langage naturel Recherche contextuelle Expérimentations Analyse syntaxique Règles sémantiques Construction de la requête

22 27/09/200621/42 (sujet) citer (objet) (dans) citer (objet) Modèle de la collection articlebib un élément bibliographique un article un élément bibliographique un article est cité par est cité dans cite auarticle (par) (de) écrire publier un auteur un article un auteur un article publie écrit de par Les documents XML et la recherche d'information Interface de requêtes en langage naturel Recherche contextuelle Expérimentations Analyse syntaxique Règles sémantiques Construction de la requête

23 27/09/200622/42 vita être yr (objet) publier (dans) ti (dans) publier (objet) publier. ( de ) Modèle de la collection bib (sujet) citer (objet) (dans) citer (objet) écrire publier auarticle (par) (de) abs résumer atl intituler (de) (objet) publier (dans) ack remercier st sec intituler Les documents XML et la recherche d'information Interface de requêtes en langage naturel Recherche contextuelle Expérimentations Analyse syntaxique Règles sémantiques Construction de la requête

24 27/09/200623/42 We are searching paragraphs dealing with version management in articles about object databases. //article[about(., "object databases")] //p[about(., "version management")] //article[about(., "object databases")]//p[about(., "version management")] Obtention de la requête finale (NEXI) a b c d e 1 e 2 a : (paragraph, tag:p) b : (version management) c : (article, tag:article) d : (object databases) e 1 : (search) e 2 : (deal) objet(e 1, a) sujet(e 2, a) with(e 2, b) in(a, c) about(c, d) a b c d a : (paragraph, tag:p) b : (version management) c : (article, tag:article) d : (object databases) about(a, b) in(a, c) about(c, d) a Les documents XML et la recherche d'information Interface de requêtes en langage naturel Recherche contextuelle Expérimentations Analyse syntaxique Règles sémantiques Construction de la requête

25 27/09/200624/42 Plan (rappel) Interface de requêtes en langage naturel Les documents XML et la recherche d'information Recherche contextuelle Expérimentations –Problématique –Recherche contextuelle avec XOR

26 27/09/200625/42 Source majeure d'erreurs pour les moteurs de recherche : ex. : Navigation systems for automobiles (Top. 128, INEX 2004) Beaucoup d'éléments bien classés concernaient navigation systems for planes or ships… Pourquoi ? NP NP (PREP NP)+ automobile est le contexte, et le terme n'apparaît pas dans les éléments les plus profonds. article absintrosec p ss1 automobiles planes ships navigation systems Problématique Recherche contextuelle avec XOR Les documents XML et la recherche d'information Interface de requêtes en langage naturel Recherche contextuelle Expérimentations

27 27/09/200626/42 … … … … … navigation systems … … a paragraph about navigation systems for automobiles //p[about(., navigation systems for automobiles)] … navigation systems … … automobiles … … … … … … navigation systems … … automobiles … … … Problématique Les documents XML et la recherche d'information Interface de requêtes en langage naturel Recherche contextuelle Expérimentations Problématique Recherche contextuelle avec XOR

28 27/09/200627/42 Pondération d'un élément avec le score du document La rétro-propagation [Sigurbjörnsson et al] … navigation systems … … automobiles … … sese SdSd S e = f (S d, s e ) Les documents XML et la recherche d'information Interface de requêtes en langage naturel Recherche contextuelle Expérimentations Problématique Recherche contextuelle avec XOR //p[about(., navigation systems for automobiles)]

29 27/09/200628/42 a paragraph about navigation systems for automobiles GN1 PREP GN2 //article[about(., automobile)]//p[about(.,navigation systems) OR //article[about(., navigation systems)]//p[about(., automobile) OR //article//p[about(., automobile) AND about(.,navigation systems)] Recherche contextuelle avec XOR hypothèse : gain de rappel et pas de perte de précision Les documents XML et la recherche d'information Interface de requêtes en langage naturel Recherche contextuelle Expérimentations impossible avec NEXI XOR (XML Oriented Language), proposé avec Shlomo Geva et Marcus Hassler Problématique Recherche contextuelle avec XOR

30 27/09/200629/42 … PAS d'article sur le football à Saint-Etienne GN1 PREP GN2 //article[… AND NOT about(., football Saint-Etienne)] Recherche contextuelle et négation Exception pour la négation Les documents XML et la recherche d'information Interface de requêtes en langage naturel Recherche contextuelle Expérimentations Problématique Recherche contextuelle avec XOR

31 27/09/200630/42 Plan (rappel) Interface de requêtes en langage naturel Les documents XML et la recherche d'information Recherche contextuelle Expérimentations –Méthodologie –Résultats avec NEXI et XOR –Conclusion

32 27/09/200631/42 INEX (depuis 2002) : ensemble de requêtes avec une description en Anglais et une expression NEXI manuelle, avec des jugements de pertinence Les requêtes automatiques et manuelles sont exécutées avec le même moteur de recherche E (GPX). Comparaison entre l'interface et les requêtes manuelles. E NEXI / XOR NEXI (manuel) Description (langage naturel) "baseline" "run" Méthodologie Résultats Conclusion Les documents XML et la recherche d'information Interface de requêtes en langage naturel Recherche contextuelle Expérimentations

33 27/09/200632/42 Métriques d'INEX [Kazai et Lalmas 04] –mesures spécifiques à la recherche XML –gain cumulé normalisé étendu (nxCG[n]) rappel –effort-précision / gain-rappel précision Jugements de pertinence des éléments fournis par INEX Méthodologie : métriques E NEXI / XOR NEXI (manuel) Description (langage naturel) "baseline" "run" Méthodologie Résultats Conclusion Les documents XML et la recherche d'information Interface de requêtes en langage naturel Recherche contextuelle Expérimentations

34 27/09/200633/42 Content and Structure : requêtes avec des indications de structure –VVCAS –VSCAS –SVCAS –SSCAS Content Only : requêtes sans indications de structure –Focussed : chevauchement interdit –Thorough : chevauchement autorisé –Fetch and Browse : article puis liste d'éléments dans cet article Différentes tâches (2005) Différence de traitement (vague ou strict) des contraintes structurelles du support ou de la cible //article[about(.//abs, "sp é cialit é s Sud-Ouest")]//par[about(., magret)] Méthodologie Résultats Conclusion Les documents XML et la recherche d'information Interface de requêtes en langage naturel Recherche contextuelle Expérimentations

35 27/09/200634/42 Résultats (VVCAS) "Baseline" NEXI simple XOR avec recherche contextuelle Méthodologie Résultats Conclusion Les documents XML et la recherche d'information Interface de requêtes en langage naturel Recherche contextuelle Expérimentations

36 27/09/200635/42 Résultats (autres CAS) "Baseline" NEXI simple XOR avec recherche contextuelle Méthodologie Résultats Conclusion Les documents XML et la recherche d'information Interface de requêtes en langage naturel Recherche contextuelle Expérimentations

37 27/09/200636/42 Résultats (CO.Thorough) "Baseline" NEXI simple XOR avec recherche contextuelle Méthodologie Résultats Conclusion Les documents XML et la recherche d'information Interface de requêtes en langage naturel Recherche contextuelle Expérimentations

38 27/09/200637/42 Résultats (autres CO) "Baseline" NEXI simple XOR avec recherche contextuelle Méthodologie Résultats Conclusion Les documents XML et la recherche d'information Interface de requêtes en langage naturel Recherche contextuelle Expérimentations

39 27/09/200638/42 Influence du regroupement en NP "Baseline" NEXI simple NEXI sans les NP Méthodologie Résultats Conclusion Les documents XML et la recherche d'information Interface de requêtes en langage naturel Recherche contextuelle Expérimentations

40 27/09/200639/42 Résultats : conclusion Méthodologie Résultats Conclusion Evaluation très positive : - le langage naturel est une alternative viable - la structure des requêtes est une aide à l'analyse Bons résultats pour les requêtes CAS, moins bons pour les CO. - traduction mentale des humains pas toujours appropriée - utilisation organisée des groupes nominaux plus efficace - trop de bruit pour les questions longues Recherche contextuelle - améliore les bons résultats - utile avec une analyse bien maîtrisée Les documents XML et la recherche d'information Interface de requêtes en langage naturel Recherche contextuelle Expérimentations

41 27/09/200640/42 Conclusion générale Confrontation des techniques de TAL et de la problématique des documents semi-structurés : –Analyse textuelle des contenus XML –Analyse de requêtes en langage naturel –Utilisation de la structure pour la recherche contextuelle Résultats expérimentaux à chaque étape Validité des approches confirmée

42 27/09/200641/42 Améliorations Intégration des techniques "classiques" de TAL Amélioration du comportement du système face aux questions "difficiles" Simplification de la gestion des règles sémantiques

43 27/09/200642/42 Perspectives Application d'autres techniques de traitement de la langue Collections hétérogènes Dialogue Question-réponse Synthèse automatique Gestion des connaissances (Semantic Web…)

44 27/09/2006 Merci !

45 27/09/200644/42 - "hard" tags : interrompent la linéarité du texte. ex: titres, chapitres, paragraphes - "soft" tags : identifient des parties significatives de texte, mais restent "transparents" à la lecture. ex: gras, italiques, souligné - "jump" tags : elements particuliers, comme les notes de marges, les citations, les définitions… texte A texte B texte A texte B texte C proximité physique proximité logique Classification des balises [Lizi et al., 2001] Balises dures, transparentes, de saut Contextes de lecture Classification automatique XGTagger Classification des balises et contextes de lecture Analyse des requêtes en langage naturel Recherche contextuelle Expérimentations

46 27/09/200645/42 Dernier sondage, à quatre jours des élections Aux Etats-Unis, une fausse alerte provoque la panique dans un avion Recherche du motif "Elections aux Etats-Unis" Balises dures Balises dures, transparentes, de saut Contextes de lecture Classification automatique XGTagger Classification des balises et contextes de lecture Analyse des requêtes en langage naturel Recherche contextuelle Expérimentations

47 27/09/200646/42 Les élections aux Etats-Unis sont prévues pour l'année Les commentaires de Noam Chomsky au sujet des élections aux Etats-Unis. Balises transparentes Balises dures, transparentes, de saut Contextes de lecture Classification automatique XGTagger Classification des balises et contextes de lecture Analyse des requêtes en langage naturel Recherche contextuelle Expérimentations

48 27/09/200647/42 Les nouvelles ne parlent plus que des élections aux Etats- une porte claque Unis. En 2004, les élections Voir p.163 un article général sur les modes électoraux dans le monde. aux Etats-Unis furent moins controversées qu'en Cet article traite du prochain voyage du président roumain Traian Basescu, qui a remporté de justesse les dernières élections aux Etats-Unis. Balises de saut Balises dures, transparentes, de saut Contextes de lecture Classification automatique XGTagger Classification des balises et contextes de lecture Analyse des requêtes en langage naturel Recherche contextuelle Expérimentations

49 27/09/200648/42 En 2004, les élections Voir p.163 un article général sur les modes électoraux dans le monde. aux Etats-Unis furent moins controversées Une portion de texte syntaxiquement et sémantiquement auto-suffisante dans le document XML. Connaître la nature des balises permet de retrouver les contextes de lecture. C'est la condition pour permettre l'utilisation des méthodes d'analyse textuelle sur le contenu XML (étiquetage POS, analyse syntaxique/sémantique, indexation, etc.) Le contexte de lecture Balises dures, transparentes, de saut Contextes de lecture Classification automatique XGTagger Classification des balises et contextes de lecture Analyse des requêtes en langage naturel Recherche contextuelle Expérimentations

50 27/09/200649/42 Détermination automatique des classes L'idée est de prendre le problème "à l'envers" : - Supposons qu'une balise donnée est transparente (resp. de saut ou dure) - Les contextes de lecture sont-ils préservés ? La balise est transparente (resp. de saut ou dure) La balise n'est pas transparente (resp. de saut ou dure) ouinon Le contexte de lecture Balises dures, transparentes, de saut Contextes de lecture Classification automatique XGTagger Classification des balises et contextes de lecture Analyse des requêtes en langage naturel Recherche contextuelle Expérimentations

51 27/09/200650/42 - Balise transparente : un élément est transparent s'il est possible de supprimer le balisage et d'obtenir un texte syntaxiquement correct. Les élections aux Etats-Unis sont prévues pour En 2004, les élections Voir p. 163 un article général sur les modes électoraux. aux Etats-Unis furent moins controversées Définitions "linguistiques" (1/3) Balises dures, transparentes, de saut Contextes de lecture Classification automatique XGTagger Les élections aux Etats-Unis sont prévues pour * En 2004, les élections Voir p. 163 un article général sur les modes électoraux. aux Etats-Unis furent moins controversées. Classification des balises et contextes de lecture Analyse des requêtes en langage naturel Recherche contextuelle Expérimentations

52 27/09/200651/42 - Balise de saut : un élément est "de saut" s'il est possible de de le supprimer en entier (balises + contenu) et d'obtenir autour un texte syntaxiquement correct. Définitions "linguistiques" (2/3) Balises dures, transparentes, de saut Contextes de lecture Classification automatique XGTagger Les élections aux Etats-Unis sont prévues pour En 2004, les élections Voir p. 163 un article général sur les modes électoraux. aux Etats-Unis furent moins controversées * Les élections aux sont prévues pour En 2004, les élections aux Etats-Unis furent moins controversées. Classification des balises et contextes de lecture Analyse des requêtes en langage naturel Recherche contextuelle Expérimentations

53 27/09/200652/42 - Balise dure : un élément "dur" n'est ni un élément transparent ni un élément "de saut". Dernier sondage, à quatre jours des élections Aux Etats-Unis, une fausse alerte provoque la panique dans un avion Définitions "linguistiques" (3/3) Balises dures, transparentes, de saut Contextes de lecture Classification automatique XGTagger Classification des balises et contextes de lecture Analyse des requêtes en langage naturel Recherche contextuelle Expérimentations

54 27/09/200653/42 une classe correspond à un nom de balise, et non à une balise isolée. traitement statistique nécessité d'un large corpus - Souvent les définitions s'appliquent au même élément. - Une analyse syntaxique n'est pas efficace à 100 % pour le langage "courant". - Dans certains cas, les définitions ne permettent pas de conclure. Introduction (need some text before OR after) Les problèmes Napoléon qui naquit en 1769 mourut à l'âge de 52 ans. Napoléon qui naquit en 1769 mourut à l'âge de 52 ans. Napoléon mourut à l'âge de 52 ans. Mais : For each v (t) such as v (t) = n + t Classification automatique Balises dures, transparentes, de saut Contextes de lecture Classification automatique XGTagger Classification des balises et contextes de lecture Analyse des requêtes en langage naturel Recherche contextuelle Expérimentations

55 27/09/200654/42 - Corpus d'INEX articles de l'IEEE Mo balises différentes. - Analyse syntaxique avec Cass (S. Abney) - Pour les balises transparentes - entre 50 et 70 % de validation pour les véritables balises transparentes. - entre 0 et 5 % de validation pour les autres balises. - Pour les balises de saut et transparentes - un seuil de 20 % conduit à une précision proche de 100 %. Expérimentations Balises dures, transparentes, de saut Contextes de lecture Classification automatique XGTagger Classification des balises et contextes de lecture Analyse des requêtes en langage naturel Recherche contextuelle Expérimentations

56 27/09/200655/42 - XGTagger est un logiciel libre et gratuit. - XGTagger utilise la classification et exécute sur des contenus XML tous types d'outils existant pour l'analyse textuelle. - Il conserve la structure initiale des documents et ajoute de l'information grâce aux attributs XML. XGTagger Balises dures, transparentes, de saut Contextes de lecture Classification automatique XGTagger Classification des balises et contextes de lecture Analyse des requêtes en langage naturel Recherche contextuelle Expérimentations

57 27/09/200656/42 Visitez I stanbul Cette ancienne ………… trois empires Istanbul ……… est ………….. Analyse textuelle (ex: étiquetage morphosyntaxique) Contextes de lecture Visitez Istanbul -- Cette ancienne capitale de trois empires V PN -- DT JJ NN IN CD NN Reconstitution XGTagger (example) Balises dures, transparentes, de saut Contextes de lecture Classification automatique XGTagger Visitez I stanbul Cette ancienne capitales de trois empires Istanbul a été successivement la capitale des empires romain, byzantin et ottoman est désormais la capitale économique de la Turquie. Visitez Istanbul -- Cette ancienne capitales de trois empires est désormais la capitale économique de la Turquie. -- Istanbul a été successivement la capitale des empires romain, byzantin et ottoman Classification des balises et contextes de lecture Analyse des requêtes en langage naturel Recherche contextuelle Expérimentations

58 27/09/200657/42

59 27/09/200658/42 La négation Pour les termes qui ne doivent PAS apparaître Report de la négation du verbe vers le complément We are not interested in filtration a e a:(lem:filtration…) e:(lem:interest…) in(e, a) neg(a) Les spécificités de la RI semi-structurée Analyse syntaxique Règles sémantiques Construction de la requête Introduction : les documents XML Analyse des requêtes en langage naturel Recherche contextuelle Expérimentations

60 27/09/200659/42

61 27/09/200660/42 Le langage XOR Problématique Le langage XOR Recherche contextuelle avec XOR (proposé avec Shlomo Geva et Marcus Hassler) Les limites de NEXI - prédicat 'about' seulement - requêtes simples seulement - aucune caractéristique supplémentaire //article[about(., automobile)] //p[about(.,navigation systems) Les réponses de XOR - prédicats génériques - requêtes multiples - extensions des chemins et mots-clés //article[about(., automobile)] //p[about(.,navigation systems) OR //article[about(., automobile)] //p[about(.,navigation systems) - problème de négation- opérateur NOT contains(), linkToAbout(), etc… pas d'article sur le football à Saint-Etienne -football -Saint-Etienne ? -"football Saint-Etienne" ? pas d'article sur le football à Saint-Etienne NOT about(., football Saint-Etienne) about(., été{cat:nn}) //*{taille_min:200}[about(., …)] NEXI est compatible avec XOR Les documents XML et la recherche d'information Interface de requêtes en langage naturel Recherche contextuelle Expérimentations

62 27/09/200661/42 a paragraph about navigation systems for automobiles //p[about(., navigation systems for automobiles)] Modification de la requête un paragraphe sur "navigation systems" dans un article sur "automobiles" //article[about(., automobile)]//p[about(.,navigation systems) perte de précision Les documents XML et la recherche d'information Interface de requêtes en langage naturel Recherche contextuelle Expérimentations Problématique Recherche contextuelle avec XOR

63 27/09/200662/42 a paragraph about navigation systems for automobiles GN1 PREP GN2 //article[about(., automobile)]//p[about(.,navigation systems) OR //article[about(., navigation systems)]//p[about(., automobile) OR //article//p[about(., automobile) AND about(.,navigation systems)] Recherche contextuelle avec XOR Problématique Le langage XOR Recherche contextuelle avec XOR … … … … … navigation systems … … … navigation systems … … automobiles … … … … … … navigation systems … … automobiles … … … hypothèse : gain de rappel et pas de perte de précision généralisé pour GN (PREP GN)+ (GN1 PREP GN2 PREP GN3, etc.) Les documents XML et la recherche d'information Interface de requêtes en langage naturel Recherche contextuelle Expérimentations

64 27/09/200663/42 Métriques d'INEX [Kazai et Lalmas 04] –gain cumulé normalisé étendu (nxCG[n]) : compare le gain du système avec le gain d'un système idéal au bout de n éléments consultés –effort-précision / gain-rappel : courbe évaluant l'effort que doit fournir l'utilisateur pour parvenir à un certain gain Jugements de pertinence des éléments fournis par INEX Méthodologie : métriques E NEXI / XOR NEXI (manuel) Description (langage naturel) "baseline" "run" Méthodologie Résultats Conclusion Les documents XML et la recherche d'information Interface de requêtes en langage naturel Recherche contextuelle Expérimentations


Télécharger ppt "Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure."

Présentations similaires


Annonces Google