La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A rchitecture.

Présentations similaires


Présentation au sujet: "Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A rchitecture."— Transcription de la présentation:

1 Comment vous servir de la force de vos balisages XML-TEI http://xaira.sf.net X ML A ware I ndexing & R etrieval A rchitecture

2 Pourquoi num é riser un texte? Pour enrichir un texte ou pour le remplacer? Pour aider la recherche, la formation, ou l'enseignement? Pour quel public? Pour faire quelque chose de nouveau? des choses anciennes d'une manière plus efficace?

3 Du point de vue acad é mique, la num é risation offre… L'intégration des ressources diverses textes, commentaires, sources, variations… multimédia, manuscrits, transcriptions, metadata… La préservation des ressources les média s'envolent, les données restent "multiplication beyond the reach of accident" Un vaste élargissement d'accessibilité des ressources Quantitative et qualitatitive

4 Du point de vue informatique, la num é risation offre… toute une gamme de problèmes techniques une raison d être: la conservation du patrimoine et de la culture contemporaine des outils bien compris et pratiques la semiotique le linguistique l'encodage

5 Xaira: motivation recherches intelligentes dans les textes XML axées sur la linguistique fondées sur des technologies puissantes telles unicode web object oriented

6 intelligentes? appui sur l'encodage XML recherches delimitées création des sous-corpus présentation user-defined

7 et la linguistique? chaines de caractères signifiantes concordance KWIC classique collocations statistiques on s'interesse plus à l'exploration des patterns d'usage qu'aux sujets traités on s'interesse aux metadonnées associées

8 concordance classique Defamiliarizes and decontextualizes the components of a text Facilitates analysis of Lexis, syntax, and lexical patterns Co-occurrence, collocation, colligation Informed by metadata categorization and acculated interpretation A way of reading a text in its context as a means of discovering its primings

9 for example, getting over...

10 de SARA a XAIRA… SARA ( SGML-Aware Retrieval Application ) etait un outil specifique au British National Corpus XAIRA ( XML-Aware Indexing and Retrieval Architecture ) est une boite a outils Open Source server, indexer, protocol Logiciels clients Windows/PHP A telecharger http://www. xaira.org ou http://xaira.sf.net Tout corpus XML: n'importe la taille, n'importe la langue

11 D'abord, il faut un corpus… un ensemble de documents XML bien- formés schéma facultatif – mais si présent enforce TEI encodage facultatif – mais fortement conseillé! capabilites liés au balisage mais n'impose pas de système

12 Ensuite, on construit des indexes indexer: plateforme independent utilité rassemble et valide les fichiers du corpus construit les indexes informations stockées dans un corpus Header utilisation de balises où trouver les clés comment construire les références descriptions balises, polices, etc... xairatools: Windows utilité avec un wizard

13 comment baliser des propriétés linguistiques?... little fishes...... fishes NPL fish fishes..

14 What goes in the index? tokenization implicit, following Unicode rules (locale-sensitive) explicit, following mark up supports lexical features (eg collocation) lemmatization and POS tags special case of "additional key" mechanism generalized to provide fast context-specific searches tag indexes attribute values and codebooks

15 viva Unicode! tout est stocké en Unicode ce qui evite un tas d'ennuis (pe, la tokenization, case-folding, line-breaking, character normalization, glyph composition) restent quelques inconvénients pour visualiser, il faut une police Unicode pour saisir, il faut un clavier approprie (mais c'est pareil pour tous) pour les exigeants, on peut modifier les regles Unicode…

16

17 Target queries What is the most frequent noun in this corpus? Find a random sample of 100 instances of "fish" followed by "chips" within 4 words Find sentences beginning with a conjunction. Show all inflected forms of the name "Winston". Show sentences which begin with "well" and end with a question mark. How often and in what contexts is the word "nature" used in different kinds of writing? Which verbs collocate significantly with "bosom" at different periods of history? Do men use colour vocabulary differently from women?

18 Plusieurs interfaces Xairo est un Object Model accessible a plusieurs niveaux directement, d'un langue haut niveau, tel C#, java, php via SOAP en service web via XMLRPC Toute interrogation s'exprime dans un langue d'enquete XML (CQL2)

19

20 Corpus Query Language Simple XML vocabulary for searching word, punctuation mark, substring word + secondary keys (e.g. POS) XML start- or end-tag, plus attributes Unicode-compliant regular expressions Facilities include usual Boolean operations sequence, disjunction, join negation, gaps scoped searching Special lexical features

21 CQL2 more formally CQL is a pattern matching language Returns manipulable streams of matching locations in a corpus CQL query components simple:,,,, complex:,, matching may be literal or regexp

22 par exemple fish retourne les locations de ce forme fish retourne les locations des formes lemmatisés fish dans la schema X VB retourne les locations des formes ayant un clé POS de valeur VB

23 Element vs pattern queries -1 element query recherche occurrences d'un element independemment de sa location limitations exprimées par valeurs attributs pattern query recherche n'importe quoi dans un context spécifié avec Xpath

24 Element vs pattern queries -2 Paul acts acts

25 combinations -1 : sequence ordonnée (potentiellement avec s) fish chips

26 combinations -2 : operateur d'union : operateur de disjonction fish chips fish VERB

27 on cache tout cela derriere un logiciel client biensur... Word and lemma query User-configurable display plain, XML, user-defined stylesheets Texts, Results, Browse windows Results can be exported in XML visual interface for complex queries

28 example word query

29 Sample stylesheet display

30 Building complex queries visual interface scope node defines where to look an XML element by span query nodes define what to look for word, phrase, addkey, pattern, XML link types define sequence in which query node targets should occur next, one-way, two-way

31 Sentences beginning with conjunctions

32 What is XAIRA's niche? Web search engines patchy and unknowable coverage designed to recover content, not word forms hard to cite, harder to process XML display engines expensive, geared to reader not searcher focus on presentation rather than content As a back end for your next generation web application

33 Interfaces available now Full-featured Windows client can be run standalone or as interface to Windows, Unix, or Mac OSX server includes simple corpus building utility Cross-platform SOAP interface Simple PHP and Java clients Server and indexer Xpath engine

34 Using Xaira as a back end PHP interface supports all calls to the Xaira object model suitable for any web programmer platform independent For example...

35

36

37 Frequently Asked Questions est-ce que ça marche sur Mac? est-ce que ça marche avec toute sorte de balisage? ça coute combien? où est la doc?....?


Télécharger ppt "Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A rchitecture."

Présentations similaires


Annonces Google