La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Des flux XML pour articuler des traitements éclatés en réseau Serge Heiden ICAR ENS-LSH / CNRS

Présentations similaires


Présentation au sujet: "Des flux XML pour articuler des traitements éclatés en réseau Serge Heiden ICAR ENS-LSH / CNRS"— Transcription de la présentation:

1 Des flux XML pour articuler des traitements éclatés en réseau Serge Heiden ICAR ENS-LSH / CNRS slh[@]ens-lsh.fr

2 Articulation proche ou lointaine en local (sur la même machine)  par la mémoire  par les fichiers à distance : en réseau  local (LAN : Local Area Network )  Internet (WAN : Wide Area Network )

3 Architecture Web 3 tiers Interface utilisateurserveur d’applicationbase de données ODBC XML / HTML XML SOAP (WSDL) XML-RPC Navigateur Statique HTML Dynamique : - Javascript - Applet - ActiveX - XSLT Serveur Web CGI / API - Servlet - ActiveX - PHP/JSP/ASP (templates) - XSLT serveur d’application HTTP/ MIME S ystème de G estion de B ase de D onnées Relationnelles ou XML

4 Les échanges se font en XML XML = lingua franca pour :  représenter (syntaxe)  modéliser (informations et contrôle)  décrire  échanger

5 Un exemple d’architecture de serveur d’application : Cocoon Tomcat = serveur de servlets Contrôle de flot d’exécution en flux XML (XSP, XSLT)  générateurs  transformateurs  sérialiseurs Librairies : Lucene, eXist Applications : SDX

6 Entrepôts de données XML Stocker efficacement des documents XML  Importer, mettre à jour, effacer (WEBDAV, XUpdate)  Organiser en collections  Requêtes efficaces : XQUERY, XPATH  Indexation (optimiser)  Transaction (abandon et retour arrière)

7 Activités concernées par l’articulation en réseau Codage / annotation / enrichissement Exploitation : extraction, analyse… Développement des outils

8 Architecture LT XML Gérer efficacement en flux => SGML optimisé = XML Flux valide en permanence (Contrôle) Vue arborescente (avec Requêtes) ou événementielle SAX Applicatifs associés : LT TTT, LT CHUNK, etc. à emboîter en pipeline

9 plain2xml.perl | fsgmatch -q ".*/TEXT" char/paras.gr | openangle.perl | fsgmatch -q ".*/P|TITLE" char/words.gr | openangle.perl | ltstop -q ".*/P" -mark "W[C='.']" TOK-lttok_res.xml | fsgmatch -q ".*/P|TITLE" numbers.gr | fsgmatch -q ".*/P|TITLE" numex.gr | fsgmatch -q ".*/P|TITLE" timex.gr | sgmltrans -r generaltrans Exemple de Pipeline 1. Texte brut -> XML 2. Para. et titres 3. Mots 4. Phrases 5. Nombres 6. Monnaie 7. Dates 8. HTML

10 Texte source In July 1995 CEG Corp. posted net of $102 million, or 34 cents a share. Late last night the company announced a growth of 20%.

11 1. Convertir le texte brut vers XML In July 1995 CEG Corp. posted net of $102 million, or 34 cents a share. Late last night the company announced a growth of 20%.

12 2. (grammaire portant sur les caractères) char/paras.gr pour marquer paragraphes et titres In July 1995 CEG Corp. posted net of $102 million, or 34 cents a share. Late last night the company announced a growth of 20%.

13 3. (grammaire portant sur les caractères) char/words.gr pour segmenter paragraphes et titres en mots In July 1995 CEG Corp. posted net of $ 102 million, or 34 cents a share. Late last night the company announced a growth of 20 %.

14 4. Disambiguisateur de caractères séparateurs de phrase, ltstop In July 1995 CEG Corp. posted net of $ 102 million, or 34 cents a share>. Late last night the company announced a growth of 20 %.

15 5. (grammaire SGML) numbers.gr pour identifier les nombres multi-mots In July 1995 CEG Corp. posted net of $ 102 million, or 34 cents a share. Late last night the company announced a growth of 20 %.

16 6. (grammaire SGML) Marquage de la monnaie et pourcentage style MUC-7 In July 1995 CEG Corp. posted net of $ 102 million, or 34 cents a share. Late last night the company announced a growth of 20 %.

17 7. (grammaire SGML) Marquage des dates style MUC-7 In July 1995 CEG Corp. posted net of $ 102 million, or 34 cents a share. Late last night the company announced a growth of 20 %.

18 8. Conversion en HTML utilisant des règles spécifiées dans generaltrans TTT Output H2 {color:black} SPAN.PHR-CD {background:CCCCFF} SPAN.WRD-CD {background:CCCCFF} SPAN.PHR-ORD {background:CCCCFF} SPAN.WRD-ORD {background:CCCCFF} SPAN.PHR-FRAC {background:CCCCFF} SPAN.WRD-FRAC {background:CCCCFF} SPAN.PHR-FRACORD {background:CCCCFF} SPAN.WRD-FRACORD {background:CCCCFF} SPAN.PHR-RANGE {background:CCCCFF} SPAN.PHR-QUANT {background:CCCCFF} SPAN.DATE {background:CCFFCC} SPAN.TIME {background:CCFFFF} SPAN.MONEY {background:FFFFCC} SPAN.PERCENT {background:FFCCFF} In July 1995 CEG Corp. posted net of $102 million, or 34 cents a share. Late last night the company announced a growth of 20%.

19 Résultat final HTML


Télécharger ppt "Des flux XML pour articuler des traitements éclatés en réseau Serge Heiden ICAR ENS-LSH / CNRS"

Présentations similaires


Annonces Google