XML comme format cumulatif : décrire la solidarité de différents niveaux d'annotation Journée Atala « Articuler les traitements sur corpus » 12/2/05 –

Slides:



Advertisements
Présentations similaires
YAMBO La Guerre Franco-Allemagne ( )
Advertisements

La Guerre Franco-Allemagne [ ]
Comment annoter un texte
Données structurées et XML
Analyse du poème Les Aveugles de Charles Baudelaire
1 3.Langage XSL = XSLT + XSL-FO transformationFormatage.
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
Transformation de documents XML
DTD Sylvain Salvati
CULTURES in BOXES n°1 France - Turkey An e-twinning project.
Séance 4 Poésie et description Un poème comme un tableau
Introduction Pour concrétiser l’enseignement assisté par ordinateur
Données structurées et XML
Les fonctions de XPath et XSLT
Reconstitution de texte…
Manipulation d’XML avec XSL
Principe de défilement du document dans un traitement de texte
CREATION DE FEUILLE DE STYLE pour structuré le document XML
Traitement Co-Séquentiel: Appariment et Fusion de Plusieurs Listes
La Guerre Franco-Allemagne
GED Masters: Gestion Électronique de Documents
Etude des Technologies du Web services
Un soldat jeune, bouche ouverte, tête nue, Et la nuque baignant dans le frais cresson bleu, Dort; il est étendu dans l’herbe, sous la nue, Pâle dans son.
La Guerre Franco Allemagne et Le Dormeur du Val - Arthur Rimbaud et La Dernière Classe - Alphonse Daudet Annick R.
Introduction à DOM Maroua Bouzid
17 octobre 2012 Grégory Petit
Xml/xslt : Extensible Stylesheet Language Transformation réalisé par: saÏd NAÏM.
Administration de bases de données spatiales avec SavGIS
Annotations sémantiques pour le domaine des biopuces
Le contrôle de la vision binoculaire pour un sujet ne présentant aucune gêne pouvant avoir une origine motrice. (cas n°1 à l ’examen) Paul JEAN.
Articuler les traitements sur corpus Projet ATO-MCD (Atala )
Bases de données lexicales
Introduction à la structuration des documents: les techniques M2: Gestion des connaissances.
Le dormeur du val (Rimbaud,in Poésies 1870)
Amélie Dubois La Guerre Franco-Allemagne
La Guerre Franco-Allemagne Le Dormer du Val par Arthur
Les fichiers indexés (Les B-arbres)
Xpath XML Path language par Yves Bekkers
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Gestion de Fichiers GF-10: Traitement Co-Sequentiel: Appariment et Fusion de Plusieures Listes (Base sur les sections de Folk, Zoellick & Riccardi,
Arthur Rimbaud Le dormeur du val Par Nanou et Stan.
Arthur Rimbaud Le Dormeur du Val.
XML-schema. Pourquoi XML-schema Les DTD : Pas de typage, peu de contraintes sur les contenus nombre d'apparitions d'un élément à choisir entre 0 et 1.
Séance d'exploration mosaïques
1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.
Fast and Furious Decision Tree Induction
STATISTIQUES DESCRIPTIVES
Un rapport de laboratoire
La Guerre Franco-Allemagne By: MaRiAmA.
Soutenance du mémoire de synthèse
Module : Langage XML (21h)
Activités langagières Les questions à se poser. ACTIVITÉS LANGAGIÈRES DE COMMUNICATION: PRODUCTION ORALE EN CONTINU 2 Dote-t-on l’élève de stratégies.
Les partages poétiques de Myrisimo
L T I Laboratoire de Téléinformatique 2 Projet de semestre Parseur XML basé sur la DTD : Buts –Utiliser la grammaire définissant un type de fichiers XML.
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Cette animation présente la méthode à utiliser en SVT
Mémoriser Plus facilement.
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
Multi-annotation : architecture Sylvain Loiseau 13 mars 2006 Limsi.
U TILISATION DE ELAN AVEC D ’ AUTRES LOGICIELS Christophe Parisse, Inserm, Modyco/CNRS Université Paris Ouest Nanterre.
Scénario Les scénarios permettent de modifier la position, taille … des calques au cours du temps. Son fonctionnement est très proche de celui de Macromedia.
d’études pédagogiques
L'annotation structurelle François Daoust Centre ATO,Université du Québec à Montréal Yves Marcoux EBSI, Université de Montréal Jean-Marie Viprey LASELDI,
MES STRATÉGIES DE LECTURE
Le Sonnet.
d’études pédagogiques
d’études pédagogiques
Le dormeur du val Le dormeur du val
Transcription de la présentation:

XML comme format cumulatif : décrire la solidarité de différents niveaux d'annotation Journée Atala « Articuler les traitements sur corpus » 12/2/05 – Sylvain Loiseau (UMR 7114 Modyco)

I. Deux avantages d’XML Cumuler des annotations hétérogènes Quantifier les informations annotées

Hétérogénéité sémiotique des annotations Un encodage TEI minimal… <teiHeader> <!-- [...] --> </teiHeader> <text> <body> <lg> <l>C'est un trou de verdure où chante une rivière</l> <l>Accrochant follement aux herbes des haillons</l> <l>D'argent ; où le soleil, de la montagne fière,</l> <l>Luit : c'est un petit val qui mousse de rayons.</l> </lg> <l>Un soldat jeune, bouche ouverte, tête nue,</l> <l>Et la nuque baignant dans le frais cresson bleu,</l> <l>Dort ; il est étendu dans l'herbe, sous la nue,</l> <l>Pâle dans son lit vert où la lumière pleut.</l> <l>Les pieds dans les glaïeuls, il dort. Souriant comme</l> <l>Sourirait un enfant malade, il fait un somme :</l> <l>Nature, berce-le chaudement : il a froid.</l> <l>Les parfums ne font pas frissonner sa narine ;</l> <l>Il dort dans le soleil, la main sur sa poitrine</l> <l>Tranquille. Il a deux trous rouges au côté droit.</l> </body> </text> </TEI.2> teiHeader text [...] [...] body lg [...] l [...] C’est un trou de verdure [...]

encodage « poétique » TEI.2 <lg type="quatrain" rhyme='ABAB' ana="riche"> <l ana="f"> <sy>C'est</sy> <sy>un</sy> <sy>trou</sy> <sy>de</sy> <sy>ver</sy><sy>dure</sy><caesura/> <caesura /> <sy>où</sy> <sy>chante</sy> <sy>u</sy><sy>ne</sy> <sy>ri</sy><sy ana="synérèse">vière</sy> </l> <l ana="m">Accrochant follement aux herbes des haillons</l> <l ana="f">D'argent ; où le soleil,<caesura/>de la montagne fière,</l> <l ana="m">Luit : c'est un petit val<caesura/>qui mousse de rayons.</l> </lg> teiHeader text [...] [...] body lg type = quatrain l [...] [...] Note : pour assurer l’évolutivité de l’encodage, ne jamais mettre de « signifiant » dans une valeur d’attribut : TEI P 4 : <sic corr="bon">bof</sic> (impossibilité de découper en phonèmes) TEI P 5 : <choice><corr>bon</corr><sic>bof</sic></choice> ana = f sy caesura [...] [...] ana = caesura C’est

encodage morphosyntaxique l <l ana="f"> <s t="start" n="1"/ ><cl t="start" n="-1" ana="Principale"/ > <w n="1" lm="ce" ana="pos.pro ty.dem ass.d cat.s" ln="2"></w><sy>C' <w n="2" lm="être" ana="pos.v ty.main m.ind t.p nbr.s p.3" ln="3"></w>est</sy> <w n="3" lm="un" ana="pos.d ty.art fin.i g.m nbr.s" ln="2"></w><sy>un</sy> <w n="4" lm="trou" ana="pos.n ty.c g.m nbr.s" ln="4"></w><sy>trou</sy> <w n="5" lm="de" ana="pos.pre" ln="2"></w><sy>de</sy> <w n="6" lm="verdure" ana="pos.n ty.c g.f nbr.s" ln="7"></w><sy>ver</sy><sy>dure</sy> <cl t="end" /> <caesura /> <cl t="start" ana="Relative" /> <w n="7" lm="où" ana="pos.pro ty.rel" ln="2"></w><sy>où</sy> <w n="8" lm="chanter" ana="pos.v ty.main m.ind t.p nbr.s p.3" ln="6"></w><sy>chante</sy> <w n="9" lm="un" ana="pos.d ty.art fin.i g.f nbr.s" ln="3"></w><sy>u<sy></sy>ne</sy> <w n="10" lm="rivière" ana="pos.n ty.c g.f nbr.s" ln="7"></w><sy>ri</sy> <sy ana="synérèse">vière</sy> </l> ana = f caesura [...] s cl w w sy t = start ana = caesura [...] [...] lm = ce ana lm = ce ana C’est pos.pro pos.pro pos.v ty.main

Arborescence du format ou des données ? On peut sans doute dessiner de nombreux arbres de ce type [graphique] pour décrire la structure de cette anthologie. Certains de ces arbres peuvent être représentés comme une division supplémentaire dans l'arbre : par exemple, on peut diviser une ligne en mots, puisque aucun mot ne franchi la frontière du vers. C'est peut être étonnant, mais cette vue grossière et simplifiée de ce qu'est un texte (auquel Renear et al. on donné le nom de "Hiérarchie ordonnée d’unités de contenu" [?] (OHCO) [ordered hierarchy of content objects]) se révèle être très adaptée à la majorité des situations. http://www.tei-c.org/P4X/SG.html

Cumuler des annotations : bilan Exploiter l’expressivité du format Evolutivité de la structure Dans le temps de l’interprétation d’un corpus ou dans le temps plus long de sa conservation Exprimer des structures concurrentes Ex. : cumuler plusieurs annotations morphosyntaxiques les comparer, utiliser le meilleur de chacune d’elles, etc. Diversité qualitative des annotations Systèmes sémiotiques différents Encodage phonétique, syntaxique, morphologique, sémantique, etc. Signifié ou signifiant Diversité du statut des annotations De la désambiguïsation à l’interprétation « méta-données » ou données Typage des données (XQuery) ?

Quantifier les annotations (1) L’infoset XML On peut définir XML de deux façons : Par son format textuel (tel caractère est interdit à tel endroit…) Par l’arborescence formelle que ce format textuel représente : les différents nœuds, leur caractéristiques, etc. ; c’est l’infoset. Info-set = définition du format de données, de l’information qu’il modélise XML est un format arborescent contenant sept types de noeuds Seuls les nœuds de type « éléments » sont non terminaux Deux nœuds textes ne peuvent pas être adjacents Un nœud attribut contient du PCDATA, des NMTOKENS, ou, etc. L’ordre des éléments est signifiant (= un parseur le restituera) L’ordre des attributs n’est pas signifiant Etc… XML Information Set (Second Edition) : http://www.w3.org/TR/2004/REC-xml-infoset-20040204/

Quantifier les annotations (2) Avantages du format Tout ce qui est un élément de l’arborescence (exprimé dans l’infoset) est « homologué » Peut être mélangé dans les critères de requêtes Facilités offertes par les standards connexes à XML pour les requêtes et les quantifications Appliquer de (mauvais ?) traitements quantitatifs à des documents « narratifs » …XML n’est qu’une conjoncture favorable

II. Outillage

Objectif de l’outillage Deux principales tâches : Fusionner les annotations d’outils tiers avec un corpus en XML Extraire des quantifications à partir du corpus S’insérer entre les outils linguistiques (d’enrichissement) et les outils statistiques (d’exploitation)

Fusionner des annotations (1) Extraction d’un fichier texte avec XSLT Annotation de ce fichier texte avec Cordial Alignement du corpus encodé original et de l’annotation de Cordial C' ce Pd-..n est être Vmip3s un un Da-ms-i trou trou Ncms de de Sp verdure verdure Ncfs où où Ptr-..- chante chanter Vmip3s une un Da-fs-i rivière rivière Ncfs <lg><l>C'est un trou de verdure <caesura/> où chante une<choice><corr>rivière</corr><sic> rivèire</sic></choice></l> Projection des informations de Cordial dans le corpus original Question de la conversion des informations de Cordial en XML

Fusionner des annotations (2) Implémentation Convertir l’annotation de Cordial en format XML Fusionner les deux flux XML > Peut être utilisé avec tout autre outil, il suffit d’écrire une classe convertissant le format en XML Utilisation de flux : pas de limite de taille <l><s t="start" n="1"/><cl t="start" n="-1" ana="Principale"/><w f="S" n="1" lm="ce" ana="pos.pro ty.dem ass.d cat.s" ln="2"/>C'<w f="V" n="2" lm="être" ana="pos.v ty.main m.ind t.p nbr.s p.3" ln="3"/>est <w f="B" n="3" lm="un" ana="pos.d ty.art fin.i g.m nbr.s" ln="2"/>un <w f="B" n="4" lm="trou" ana="pos.n ty.c g.m nbr.s" ln="4"/>trou <w f="B" n="5" lm="de" ana="pos.pre" ln="2"/>de <w f="B" n="6" lm="verdure" ana="pos.n ty.c g.f nbr.s" ln="7"/>verdure<caesura></caesura><w f="-" n="7" lm="où" ana="pos.pro ty.rel" ln="2"/>où <w f="V" n="8" lm="chanter" ana="pos.v ty.main m.ind t.p nbr.s p.3" ln="6"/>chante <w f="T" n="9" lm="un" ana="pos.d ty.art fin.i g.f nbr.s" ln="3"/>une<choice><corr><w f="T" n="10" lm="rivière" ana="pos.n ty.c g.f nbr.s" ln="7"/>rivière</corr><sic>rivèire</sic></choice></l>

Extraire des quantifications Avantage d’un cadre séquentiel Pas de limitation en taille des corpus Fonctions implémentées dans des filtres indépendants arrangés en « pipeline » (modularité et facile à étendre) Possibilité de « découper » ou faire « bifurquer » le flux Efficacité pour les décomptes <r> <div> <d/> </div> <d> <div> </div> <div> </div> </d> </r> Parseur 1 2 4 5 6 3

Exemple de filtre (1) : sélection de sous corpus Utiliser les standards comme XSLT ou XQuery pour l’extraction de sous corpus « découper » le flux en documents de petites tailles pour appliquer la transformation sur chacun d’eux successivement. <div> ... </div> <div> ... </div> <div> ... </div> Dans ce filtre, chaque élément <div> (et son contenu) apparaît comme un document unique, l’un après l’autre. Ils peuvent être stockés en mémoire pour leur appliquer une transformation XSLT / XQuery ; puis le résultat est à nouveau converti en flux.

Exemple de filtre (2) : listes de fréquences Obtenir, pour chaque quatrain, des propriétés stylistiques (rime, enjambement, lexique, etc…) <lg type="quatrain" rhyme='ABAB' ana="riche"> <l ana="fem">C'est un trou de verdure<caesura/>où chante une rivière</l> <l ana="masc">Accrochant follement aux herbes des haillons</l> <l ana="fem">D'argent ; où le soleil,<caesura/>de la montagne fière,</l> <l ana="masc">Luit : c'est un petit val<caesura/>qui mousse de rayons.</l> </lg> Etape 1 : Sélection des <lg> avec l’attribut type=quatrain Etape 2 : Pour chaque <lg> reçu, décompter les valeurs des attributs voulus Etape 3 : mémoriser les listes de fréquences produites <lg> ... </lg> <lg> ... </lg> <lg> ... </lg>

Exemple de filtre (3) : concordancier les tiges qui meuvent les marionnettes — appelons-les la trame. On pourrait connaîtras la direction de l'écoulement. Cherche alors la plante qui, dans c ie a dû transporter les graines au loin. Suis les rigoles que l'eau a creusé e en fait des calques, prenez la pose ou suivez l'axe, stade génétique ou de re des photos, elle en fait des calques, prenez la pose ou suivez l'axe, sta la rabattre sur une photo de famille. Et voyez ce que fait Mélanie Klein ave hé son sort à celui de la linguistique). Voyez ce qui se passait déjà pour l de pivot ou les points de structuration. Voyez la psychanalyse et la linguis e américain : ne cherchez pas de racine, suivez le canal... ante la bible du dentiste américain : ne cherchez pas de racine, suivez le c et de s'enfoncer, et du processus qui ne cesse pas de s'allonger, de se romp ns l'esprit. Il s'agit du modèle, qui ne cesse pas de s'ériger et de s'enfon eporter sur les cartes et non l'inverse. Contre les systèmes centrés (même p Résumons les caractères principaux ent, de gauche à droite ou inversement : essayez et vous verrez que tout cha eur milieu. Essayez donc de les retenir, essayez donc de retenir un brin d'h point quelconque situé vers leur milieu. Essayez donc de les retenir, essaye

III. Deux exemples d’utilisation (Tirés de G. Deleuze, l’Anti-Œdipe, 1972)

1. Mesure de corrélations Sous-corpus des phrases interrogatives num | lemme | rate | freq | subfreq 1 | {att}{lm}t | 1.00000000000000000 | 77 | 50 2 | {att}{lm}quel | 1.00000000000000000 | 132 | 60 3 | {att}{lm}pourquoi | 1.00000000000000000 | 127 | 55 4 | {att}{lm}est-ce que | 1.00000000000000000 | 45 | 44 5 | {att}{lm}comment | 1.00000000000000000 | 169 | 90 6 | {att}{lm}? | 1.00000000000000000 | 485 | 485 7 | {att}{ana}ue | 1.00000000000000000 | 164 | 52 8 | {att}{ana}Subordonnée| 1.00000000000000000 | 1078 | 147 9 | {att}{lm}vouloir | 0.99999999999995892 | 132 | 36 10 | {att}{ana}m.inf | 0.99999999999362155 | 3967 | 359 11 | {att}{lm}est-ce qu | 0.99999999998357814 | 9 | 9 12 | {att}{ana}p.2 | 0.99999999993766608 | 362 | 58 13 | {att}{ana}ty.sub | 0.99999999957343022 | 4362 | 377 14 | {att}{ana}ty.aut | 0.99999999861662336 | 5741 | 474 15 | {att}{lm}dire | 0.99999999765933478 | 460 | 64 16 | {tag}q | 0.99999999181213772 | 844 | 97 17 | {att}{lm}ça | 0.99999998904864595 | 116 | 26 18 | {att}{lm}que | 0.99999991520075171 | 3168 | 273 19 | {att}{lm}quoi | 0.99999986618948988 | 48 | 15 20 | {att}{ana}pos.c | 0.99999962481856841 | 12011 | 886

2. Positions d’un item dans un élément a. Le lemme Nietzsche dans les paragraphes

b. Corrélats de chacune des positions

Conclusion Enjeu scientifique de cette expressivité Croiser et comparer les interprétations Traiter les données comme un texte et le texte comme des données (compromis par le « binary XML ») Renouveler des méthodes éprouvées de lexicométrie Rechercher de nouveaux observables Des connaissances à exploiter pour le profilage Aider au passage du « sémasiologique » (au sens faible : l’accès au sens par le signifiant) à l’« onomasiologique » : du quantitatif au qualitatif