Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parAgathe Chartier Modifié depuis plus de 9 années
1
Multi-annotation : architecture Sylvain Loiseau 13 mars 2006 Limsi
2
2 Plan Cadre et objectifs Une multi-annotation avec XML Exemples de recherche de corrélations Format d’annotation Bilan : quel objet empirique ? Outils d’enrichissement et d’exploitation
3
3 Plan Cadre et objectifs –Constituer en observables des corrélations de traits dans un corpus multi-annoté Une multi-annotation avec XML Exemples de recherche de corrélations Format d’annotation Bilan : quel objet empirique ? Outils d’enrichissement et d’exploitation
4
4 Hypothèses Décrire les normes de genres et de discours à travers des corrélations de traits hétérogènes –Acquis du profilage : utiliser des descripteurs de bas niveaux pour objectiver des formes de haut niveau Texte comme résultant de plusieurs normes : –fonctionnelles (langue) –sociolectales (genres et discours) –idiolectales –etc.
5
5 Objectifs descriptifs Constituer en observable des corrélations de traits relevant de normes idiolectales et sociolectales Décrire un corpus de philosophie contemporaine –Centré sur Deleuze –Axes de variation en genre, auteur, et diachronie Utiliser des descripteurs hétérogènes pour décrire des formes sémantiques à différents paliers : caractériser la textualité philosophique
6
6 Contexte et enjeux Apparition des corpus multi-annotés –(Bird & Liberman, 2001) Enjeu de pouvoir distinguer, dans des corpus empiriquement complexes, l’empan des phénomènes : –diversité des normes –observables stabilisés –critères de corrélation des niveaux, etc. Corrélation comme méthode statistique et comme objet sémantique ?
7
7 Plan Cadre et objectifs Une multi-annotation avec XML –Comment représenter les données ? –Exemple sur une page de Wikipedia –Utilisation du vocabulaire de la TEI Exemples de recherche de corrélations Format d’annotation Bilan : quel objet empirique ? Outils d’enrichissement et d’exploitation
8
1. Structure du texte
9
9 Titre et divisions.../...
10
10 Baruch Spinoza (24 novembre 1632, Amsterdam - 21 février 1677, La Haye) est un philosophe né aux Pays-bas, de famille marrane (juifs portugais émigrés). De nationalité néerlandaise, ce fut un héritier critique du cartésianisme, qui eut une influence considérable sur ses contemporains et nombre de penseurs postérieurs. Biographie [...] body div head Biographie [...] p text p Baruch Spinoza (24 novembre 1632, [...] [….] Titre et divisions
11
11.../... Divisions de niveaux 1, 2, 3
12
12 Marquage des divisions correspondantes dans le wikitext
13
13 Biographie... Théorie de la connaissance... Les degrés dans la connaissance... Dans le Traité de la réforme de l'entendement... body div head Biographie p p [...] div head Théorie de la connaissance p [...] div head Les degrés de la connaissance p [...] div head Dans le traité de la réforme de l’entendement p [...] Divisions de niveaux 1, 2, 3
14
14 body div head Biographie p p [...] div head Théorie de la connaissance p [….] div head Les degrés de la connaissance p [….] div head Dans le traité de la réforme de l’entendement p [….] div n=1type=1 n=2type=1 n=2type=1 n=2type=1 Les attributs
15
15.../... Suite de la structuration
16
16 Biographie Théorie de la connaissance Les degrés dans la connaissance Dans le Traité de la réforme de l'entendement Dans le Court Traité Dans l'Éthique La vérité
17
2. Au niveau des paragraphes
18
18 Liste Citation et liste
19
19 Les degrés dans la connaissance À trois reprises dans son œuvre, Spinoza élabore une typologie des modes de connaissance : dans le Traité de la réforme de l'entendement, §10-16 ; dans le Court Traité, livre II, chapitre 1 ; dans l'Éthique, partie II, proposition 40, scolie 2. div head Les degrés de la connaissance p [….] list item dans le traité de la réforme de l’entendement item Dans le court Traité [...] item n=2type=1 [….] Liste
20
20 Dans le Traité de la réforme de l'entendement Dans le Traité de la réforme de l'entendement, Spinoza distingue plusieurs espèces de perception : À y regarder de près, tous nos modes de perception peuvent se ramener à quatre : I. Il y a une perception que nous acquérons par ouï-dire, ou au moyen de quelque signe que chacun appelle [...] II. Il y a une perception que nous acquérons à l'aide d'une certaine expérience vague, c'est-à-dire d'une expérience qui n'est point déterminée [...] III. Il y a une perception dans laquelle nous concluons une chose d'une autre chose, mais non d'une manière adéquate. [...] IV. Enfin il y a une perception qui nous fait saisir la chose par la seule vertu de son essence, [...] [...] Citation et liste
21
3 Dans le corps des paragraphes
22
22 Gras Liens Italiques Légende Italiques dans titre
23
23 Représenter le rendu ou le contenu Dans le Traité de la réforme de l'entendement Baruch Spinoza (<ref target="24 novembre 1632.html">24 novembre 1632 [...] [...] memento mori [...] Baruch Spinoza (<ref target="24 novembre 1632.html">24 novembre 1632 [...] [...] <foreign xml:lang="lat" rend="italics">memento mori [...] Dans le Traité de la réforme de l'entendement hi = highlighted @rend = rendition name = nom d’entité foreign = langue étrangère bibl = référence bibliographique
24
Les caractéristiques globales de la page 5 diapositives
25
25 Illustration
26
26 Liens Lien vers wikiquote Catégorisation
27
27 Forme du lien à wikiquote dans le wikitext
28
28 Baruch Spinoza Wikiquote Philosophe néerlandais Théologien juif...... Liens Lien vers wikiquote Catégorisation Illustration et légende
29
29 body div head Les degrés de la connaissance p [….] n=2type=1 text TEI header quote [….] hi [….] type=italics fileDescprofileDesc Des informations globales aux informations locales
30
C’est reparti… Analyse syntaxique et morphosyntaxique
31
31 Philosophe d'origine juive sépharade, néerlandais issu de l'émigration marrane du Portugal, Spinoza est formé à la pensée de René Descartes et il s'éloigne de toute pratique religieuse mais non de toute réflexion théologique grâce à ses nombreux contacts inter-religieux. Annotation du premier paragraphe Annotation avec l’analyseur Cordial Les annotations de Cordial sont projetées dans l’arbre déjà enrichi Le premier paragraphe de la page Spinoza :
32
32 …/… Début de phrase mot L’annotation existante est préservée
33
33 …/…
34
34 Philosophe d' origine [...] Arborescence autour du premier mot p ms u [...] w lm ana pos.adjnbr.s w lmana pos.pre Philos ophe ty.qual [...] 42 mots-Cordial, 53 éléments, 334 attributs, 164 NMTOKENS t ms u t [...] s de philosophe start s end
35
35 Hétérogénéité sémiotique des annotations (1/2) Des éléments de structure (elle contient n titre, de n profondeur, a un ratio x de subdivisions / nombre de caractères…) Des propriétés iconographiques (image légendée) Des éléments de mise en forme (liste, typographie, etc.) Des indexations dans des catégories Des propriétés de connexité (liens)
36
36 Hétérogénéité sémiotique des annotations (2/2) Lexique (segmentation en mots et lemmatisation) opéré par l'analyseur syntaxique) Morphosyntaxe. On a décomposé les étiquettes en traits minimaux pour tester des corrélations utilisant des traits grammaticaux : pos.v ty.main m.ind t.p nbr.s p.3. Syntaxe (Cordial) Distribution (rang ou position des unités les unes par rapport aux autres et par rapport à l'unité supérieure).
37
37 Plan Cadre et objectifs Une multi-annotation avec XML Exemples de recherche de corrélations –Corpus de 12 textes de Gilles Deleuze Format d’annotation Bilan : quel objet empirique ? Outils d’enrichissement et d’exploitation
38
38 Utiliser les éléments comme variables Matrice textes/éléments soumise à une ACP MP : Mille-Plateaux, DR : Différence et répétition, AO : Anti-Œdipe, NP : Nietsche et la philosophie, SE : Spinoza et le problème de l’expression, ES : Empirisme et subjectivité, CC : Critique et clinique, SM3 : séminaire, LP : Le Pli, QP : Qu’est ce que la philosophie, F : Foucault, Commentaire essai
39
39 Définition de traits et de sous-corpus Corrélats (lemme et éléments) des phrases interrogatives num | lemme | rate | freq | subfreq 1 | {att}{lm}t | 1.00000000000000000 | 77 | 50 2 | {att}{lm}quel | 1.00000000000000000 | 132 | 60 3 | {att}{lm}pourquoi | 1.00000000000000000 | 127 | 55 4 | {att}{lm}est-ce que | 1.00000000000000000 | 45 | 44 5 | {att}{lm}comment | 1.00000000000000000 | 169 | 90 6 | {att}{lm}? | 1.00000000000000000 | 485 | 485 7 | {att}{ana}ue | 1.00000000000000000 | 164 | 52 8 | {att}{ana}Subordonnée| 1.00000000000000000 | 1078 | 147 9 | {att}{lm}vouloir | 0.99999999999995892 | 132 | 36 10 | {att}{ana}m.inf | 0.99999999999362155 | 3967 | 359 11 | {att}{lm}est-ce qu | 0.99999999998357814 | 9 | 9 12 | {att}{ana}p.2 | 0.99999999993766608 | 362 | 58 13 | {att}{ana}ty.sub | 0.99999999957343022 | 4362 | 377 14 | {att}{ana}ty.aut | 0.99999999861662336 | 5741 | 474 15 | {att}{lm}dire | 0.99999999765933478 | 460 | 64 16 | {tag}q | 0.99999999181213772 | 844 | 97 17 | {att}{lm}ça | 0.99999998904864595 | 116 | 26 18 | {att}{lm}que | 0.99999991520075171 | 3168 | 273 19 | {att}{lm}quoi | 0.99999986618948988 | 48 | 15 20 | {att}{ana}pos.c | 0.99999962481856841 | 12011 | 886
40
40 Adaptation d’outils lexicométriques Un concordancier de l’impératif les tiges qui meuvent les marionnettes — appelons-les la trame. On pourrait connaîtras la direction de l'écoulement. Cherche alors la plante qui, dans c ie a dû transporter les graines au loin. Suis les rigoles que l'eau a creusé e en fait des calques, prenez la pose ou suivez l'axe, stade génétique ou de re des photos, elle en fait des calques, prenez la pose ou suivez l'axe, sta la rabattre sur une photo de famille. Et voyez ce que fait Mélanie Klein ave hé son sort à celui de la linguistique). Voyez ce qui se passait déjà pour l de pivot ou les points de structuration. Voyez la psychanalyse et la linguis e américain : ne cherchez pas de racine, suivez le canal... ante la bible du dentiste américain : ne cherchez pas de racine, suivez le c et de s'enfoncer, et du processus qui ne cesse pas de s'allonger, de se romp ns l'esprit. Il s'agit du modèle, qui ne cesse pas de s'ériger et de s'enfon eporter sur les cartes et non l'inverse. Contre les systèmes centrés (même p Résumons les caractères principaux ent, de gauche à droite ou inversement : essayez et vous verrez que tout cha eur milieu. Essayez donc de les retenir, essayez donc de retenir un brin d'h point quelconque situé vers leur milieu. Essayez donc de les retenir, essaye
41
41 La position d’une unité dans un rang Distribution des 2PP dans les paragraphes de l’Anti-Œdipe
42
42 Sélection de sous-corpus par position Cooccurrents d’organes dans les derniers cinquièmes de paragraphes de l’Anti-Œdipe num | lemme | rate | freq | subfreq 1 | organe | 1.00000000000000000 | 243 | 45 2 | corps | 1.00000000000000000 | 404 | 47 3 | sans | 0.99999999995613098 | 407 | 34 4 | voyage | 0.99999762643512280 | 29 | 7 5 | anus | 0.99998981568801526 | 24 | 6 6 | miraculant | 0.99997364168109371 | 9 | 4 7 | sur | 0.99992536097901430 | 707 | 32 8 | schizo | 0.99991374837029245 | 66 | 8 9 | latrine | 0.99951624454267018 | 2 | 2 10 | crotte | 0.99951624454267018 | 2 | 2
43
43 Plan Cadre et objectifs Une multi-annotation avec XML Exemples de recherche de corrélations Format d’annotation –Avantages d’XML –XML comme format ou comme modèle ? –Le problème des hiérarchies enchevêtrées –L’annotation en « nœud-bornes » – Choix d’annotation : bilan Bilan : quel objet empirique ? Outils d’enrichissement et d’exploitation
44
44 L’infoset XML On peut définir XML de deux façons : –Par son format textuel (tel caractère est autorisé à tel endroit…) –Par l’arborescence formelle que ce format textuel représente : les différents nœuds, leur caractéristiques, etc. ; c’est l’infoset. Info-set = définition du format de données, de l’information qu’il modélise –XML est un format arborescent contenant sept types de noeuds –Seuls les nœuds de type « élément » sont non terminaux –Deux nœuds textes ne peuvent pas être adjacents –Un nœud attribut contient du PCDATA, des NMTOKENS, etc. –L’ordre des éléments est signifiant (= un parseur le restituera) –L’ordre des attributs n’est pas signifiant –Etc… XML Information Set (Second Edition) : http://www.w3.org/TR/2004/REC-xml-infoset-20040204/
45
45 Avantages d’XML (1/4) XML est destiné aux données semi-structurées: –XML apporte de nombreux éléments de solution au problème des données semi-structurées [semi- structured data], le nom que les spécialistes des bases de données donnent aux données qui présentent l’une des caractéristiques suivantes : Fréquentes répétitions de champs et de structures dans une représentation hiérarchique naïve des données [...] Large variation de la structure Matrice creuse (Sperberg-Mcqueen, 2005)
46
46 Avantages d’XML (2/4) Pouvoir expressif –exprime la précédence et la dominance –Permet de multiplier les paliers de segmentation de façon non compositionnelle Evolutivité
47
47 Avantages d’XML (3/4) Pour l’objectif d’une annotation cumulative : –Permet de multiplier les niveaux Son expressivité autorise une information dense, propre à une annotation multi-niveaux (possibilité d’inclure des éléments sans limite en profondeur, jeu sur les attributs, etc.) –Permet de multiplier les paliers et les unités Une syntaxe uniforme pour toute l’information Tout élément de l’arborescence (exprimé dans l’infoset) peut être « homologué » –Peut être mélangé dans les critères de requêtes ou pour des quantifications
48
48 Avantages d’XML (4/4) Associer étroitement le corpus et son annotation –Unifier la dimension « document oriented » et la dimension « data oriented » (format de donnée et format de sérialisation) –Unifier les données et les métadonnées (les données sont représentées comme du texte et le texte comme des données)
49
49 XML comme format ou comme modèle ? (1/3) Une page XHTML est notée comme un arbre, mais l’arbre n’est pas un modèle nécessairement pertinent d’une page de texte
50
50 On peut sans doute dessiner de nombreux arbres de ce type [graphique] pour décrire la structure de cette anthologie. Certains de ces arbres peuvent être représentés comme une division supplémentaire dans l'arbre : par exemple, on peut diviser une ligne en mots, puisque aucun mot ne franchi la frontière du vers. C'est peut être étonnant, mais cette vue grossière et simplifiée de ce qu'est un texte (auquel Renear et al. on donné le nom de "Hiérarchie ordonnée d’unités de contenu" [?] (OHCO) [ordered hierarchy of content objects]) se révèle être très adaptée à la majorité des situations. http://www.tei-c.org/P4X/SG.html XML comme format ou comme modèle ? (2/3)
51
51 Pas d’hypothèses sur la nature hiérarchique des modèles linguistiques –On n’a pas utilisé l’arborescence comme moyen de modélisation linguistique mais comme moyen de représentation du corpus Ce n’est pas spécifiquement l’intersection de hiérarchies qui nous a intéressé –Contra : (Teich et al., 2001) XML comme format ou comme modèle ? (3/3)
52
52 Le problème de hiérarchies enchevêtrées (1/2) Dès que l’annotation atteint un seuil minimal de complexité, les enchevêtrements sont inévitables –{paragraphe[...]{page[...]paragraphe}{pa ragraphe[...]page}[...] Ne pas imposer aux données la contrainte du format Différentes stratégies existent pour annoter des hiérarchies enchevêtrées en XML, qui peuvent s’interpréter comme une plus ou moins grande conservation de l’expression de la dépendance
53
53 Trois stratégies principales : –Annotation débarquée Les hiérarchies incompatibles sont dans des documents différents –La dominance est intégralement conservée –Annotation par pointeurs Les hiérarchies secondaires sont divisées dans les frontières d’une hiérarchie primaires –La dominance peut être facilement reconstituée –Annotation en « nœuds-bornes » On note les frontières –La dominance n’est plus exprimée, mais le caractère unificateur d’XML est préservé Le problème de hiérarchies enchevêtrées (2/2)
54
54 L’annotation en « nœuds-bornes » (1/2) [...] [...] [...] [...] [...] Normal Nœuds-bornes
55
55 Dans le corpus, seule l’annotation macrostructurelle (jusqu’au paragraphe) est notée en hiérarchie [...] [...] L’annotation en « nœuds-bornes » (2/2)
56
56 Même les mots… Philosophe d' origine juive sépharade, issu de immigration [...] Chevauchement de hiérarchies au palier des mots :
57
57 [...] [...] [...] Cumuler plusieurs annotations d’un même niveau : redondance partielle Préfixé « tt: » : annotation de TreeTagger Préfixé « c: » : annotation de Cordial
58
58 Robustesse des nœuds-bornes [...] [...] [...]
59
59 Choix d’annotation : bilan (1/3) On privilégie dans XML la vertu « intégrative » du format sur l’expressivité du modèle On choisit une annotation en bornes pour privilégier l’expression de la précédence sur l’expression de la dominance Le modèle sous-jacent à l’annotation est davantage un graphe acyclique qu’un arbre
60
60 Nos besoins sont proches du cahier des charge pour une annotation multi-niveau établit par (Bird & Liberman, 2001), qui leur font proposer une modélisation par graphe acyclique Usage « tordu » d’XML : « document-oriented », mais pour modéliser un graphe et non un arbre Choix d’annotation : bilan (2/3)
61
61 Un certain désordre Accepter un grand nombre d’erreurs dans l’annotation et l’alignement Privilégier la richesse sur la propreté –Par exemple, les fins de phrase sont souvent reportées au début du paragraphe suivant Choix d’annotation : bilan (3/3)
62
62 Plan Cadre et objectifs Une multi-annotation avec XML Exemples de recherche de corrélations Format d’annotation Bilan : quel objet empirique ? Outils d’enrichissement et d’exploitation
63
63 L’hétérogénéité du corpus Hétérogénéité sémiotique de l’annotation –Encodage phonétique, syntaxique, morphologique, sémantique, etc. –Signifié ou signifiant Hétérogénéité diachronique –Dans le temps de l’interprétation d’un corpus ou dans le temps plus long de sa conservation Annotations concurrentes –Ex. : cumuler plusieurs annotations morphosyntaxiques les comparer, utiliser le meilleur de chacune d’elles, etc.
64
64 Le corpus est plus que la somme des annotations S’affranchir de l’évaluation des analyseurs –Statut d’instrument (Habert, 2006) –Cumuler des analyseurs plutôt que les corriger L’annotation disponible n’est plus produite par un formalisme mais résulte de la rencontre, dans un corpus, de plusieurs formalismes La frontière entre données et algorithmes s’amenuise –Le corpus n’est plus informé passivement par l’algorithme –Corpus évolutif : « dynamique »
65
65 Un « corpus-pivot » ? De même qu’une base documentaire est un répertoire à partir duquel on constitue un corpus, cette annotation est un répertoire d’informations empiriques à partir desquelles on peut chercher à constituer des observables –Un corpus « multi-niveau » ? « Multicouche » ? « Aligné » ? Une « base d’annotation » ? Opposer un état maximalement cumulatif, sans contrainte de manipulatibilité, à des états d’exploitation (matrice, liste de fréquences, sous corpus, etc.), sans contraintes d’expressivité = Enjeu des outils d’enrichissement et d’interrogation
66
66 Plan Cadre et objectifs Une multi-annotation avec XML Exemples de recherche de corrélations Format d’annotation Bilan : quel objet empirique ? Outils d’enrichissement et d’interrogation –Accès séquentiel à XML –Outil d’enrichissement –Outils d’interrogation
67
67 Nécessité de l’outillage Enrichissement : solution à trouver Interrogation : format très particulier, délicat à traiter entièrement avec les méthodologies classiques (XQuery, XSLT) Outil à développer pour s’insérer entre les outils linguistiques (d’annotation) et les outils statistiques (d’exploration)
68
68 Deux approches pour le traitement de XML : arborescent (1) ou séquentiel (2)
69
69 Rôle d’un parseur SAX Comme tout parseur, transforme le document en structure de données –Vérifie la bonne formation Pas de mémorisation de l’arbre entier (vs DOM, une API arborescente) Transforme… …une traversée d’un flux de caractères sérialisant l’arbre dans l’ordre profondeur-droite… …en une traversée de l’arbre profondeur-droite
70
70 Une API séquentielle (1/2) : SAX 1 2 3 4 5 Philosophe Document Parseur Elément ouvrant Philosophediv Elément fermant r Application (Filtre SAX) prdivpdd Légende Nœud texte 6
71
71 div Une API séquentielle (2/2) : pipeline de filtres SAX Philosoph e Document Parseur Philosophedivr Filtre 1 supprime les éléments d prdivpdd Philosophedivr Filtre 2 compte les éléments prdivp 1 2 3 4 5 6 1 2 3 4 5
72
72 Avantage d’un cadre séquentiel (1/2) Pas de limitation en taille des corpus Performance Permet de traiter un corpus où la précédence est importante –… de traiter facilement les nœuds-bornes API complète et bidirectionnelle (permet de lire et de sérialiser) –(librairie standard pour sérialiser le flux) –Adapté à une sérialisation cumulative
73
73 Avantage d’un cadre séquentiel (2/2) Fonctions implémentées dans des filtres indépendants arrangés en « pipeline » (modularité et facile à étendre) Possibilité de « découper » ou faire « bifurquer » le flux Mimer des événements SAX pour des formats différents : unifier une chaîne de traitement, faciliter le passage en XML –Driver SAX pour interroger une DB –Driver SAX pour convertir un format quelconque
74
Outil d’enrichissement
75
75 Intégrer une annotation à une annotation existante
76
76 Outil d’enrichissement (1/4) Philosophe d'origine juive sépharade, néerlandais issu de l'émigration marrane du Po rtugal, Spinoza est formé à la pensée de René Descartes et il s'éloigne de toute pratique religieuse mais non de toute réflexion théologique grâce à ses nombreux contacts inter- religieux. 1. Corpus annoté2. Extraction d’un texte 3. Annotation par Cordial 1 Philosophe philosophe Afp.s 2 d' de Sp 3 origine origine Ncfs 4 juive juif Afpfs 5 sépharade sépharade Afp.s 6,, Ypw 7 néerlandais néerlandais Ncm. 8 issu issu Afpms 9 de de Sp 10 l' le Da-ms-d 11 émigration émigration Ncfs 12 marrane marrane Ncms 13 du du Da-ms-d 14 Portugal Portugal Npms
77
77 Outil d’enrichissement (2/4) Philosophe d'origine juive sépharade, néerlandais issu de l'émigration marrane du Po rtugal, Spinoza est formé à la pensée de René Descartes et il s'éloigne de toute pratique religieuse mais non de toute réflexion théologique grâce à ses nombreux contacts inter- religieux. 1. Corpus annoté 3. Annotation par Cordial 1 Philosophe philosophe Afp.s 2 d' de Sp 3 origine origine Ncfs 4 juive juif Afpfs 5 sépharade sépharade Afp.s 6,, Ypw 7 néerlandais néerlandais Ncm. 8 issu issu Afpms 9 de de Sp 10 l' le Da-ms-d 11 émigration émigration Ncfs 12 marrane marrane Ncms 13 du du Da-ms-d 14 Portugal Portugal Npms
78
78 Outil d’enrichissement (3/4) Philosophe d'origine juive sépharade, néerlandais issu de l'émigration marrane du Portugal, Spinoza est formé à la pensée de René Descartes et il s'éloigne de toute pratique religieuse mais non de toute réflexion théologique grâce à ses nombreux contacts inter-religieux. 1 Philosophe philosophe Afp.s 2 d' de Sp 3 origine origine Ncfs 4 juive juif Afpfs 5 sépharade sépharade Afp.s 6,, Ypw 7 néerlandais néerlandais Ncm. 8 issu issu Afpms 9 de de Sp 10 l' le Da-ms-d 11 émigration émigration Ncfs 12 marrane marrane Ncms 13 du du Da-ms-d 14 Portugal Portugal Npms Parseur SAX Fusionneur Convertisseur 1. Corpus 3. Annotation par Cordial Writer
79
79 Outil d’enrichissement (4/4) Implémentation 1.Convertir l’annotation de Cordial en format XML 2.Fusionner les deux flux XML –Peut être utilisé avec tout autre outil, il suffit d’écrire une classe convertissant le format en XML –Utilisation de flux : pas de limite de taille
80
Outils d’interrogation
81
81 Diviser le document en sous-arbres Utiliser XSLT ou XQuery « découper » le flux en documents de petites tailles pour appliquer la transformation sur chacun d’eux successivement.......... Dans ce filtre, chaque élément (et son contenu) apparaît comme un document unique, l’un après l’autre. Ils sont stockés en mémoire et transformés avec XQuery avant d’être transmis au filtre suivant Filtre splitter Filtre merger Filtre XQuery
82
82 Filtre sachant… –Reconnaître n’importe quel élément de l’infoset XML dans le flux reçu –Compter les occurrences des éléments désignés Quantifier des traits : liste de fréquence......... Parseur SAX ExtractLexicon Writer Filtre Mémorise les événements voulus Etc.
83
83 Exemple : liste de fréquence des parties du discours pos.adj = 4 Pos.v = 5 Pos.n = 7 Etc.
84
84 Quantifier des traits : désigner individus et variables......... Obtenir –pour chaque div[@type='2'] (les individus) –une liste de fréquence de ses lemmes (les variables) Produire des matrices de cooccurrence et des matrices d’adjacence Etape 1 : Sélection des div[type='2'] Etape 2 : Pour chaque div reçus, décompter les valeurs des attributs voulus Etape 3 : mémoriser les listes de fréquences produites
85
85 Biographie Théorie de la connaissance Les degrés dans la connaissance Dans le Traité de la réforme de l'entendement Dans le Court Traité Dans l'Éthique La vérité
86
86 Bilan : outil Un outil de requête en flux Un outil de sélection non seulement de sous- corpus, mais aussi de « sous-annotation » Un outil de conversion de corpus pivot à des sous-corpus exploitables (listes de fréquence, matrices de cooccurrence, sous corpus allégés, etc.) en fonction de tous les éléments de l’infoset XML Entre l’outil et l’API
87
87 Conclusion Une empiricité riche implique : –D’un point de vue descriptif, de distinguer des niveaux de phénomènes (notamment des normes différentes) –D’un point de vue méthodologique, de distinguer des sous-ensembles observables, des métriques différentes, etc. –D’un point de vue pratique, de distinguer l’annotation complète et des sous-ensembles de l’annotation
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.