La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Amalia Todirascu 1.  Enseignants: Amalia Todirascu groupe  Contrôle de connaissances: examen.

Présentations similaires


Présentation au sujet: "Amalia Todirascu 1.  Enseignants: Amalia Todirascu groupe  Contrôle de connaissances: examen."— Transcription de la présentation:

1 Amalia Todirascu todiras@unistra.fr 1

2  Enseignants: Amalia Todirascu (todiras@unistra.fr), groupe 2todiras@unistra.fr  Contrôle de connaissances: examen sur machine (1h) 2

3  Langages à balises: HTML et XML ◦ motivation ◦ balises, attributs ◦ espace de noms  Validation à l'aide d'une DTD ◦ définition d'un élement ◦ définition d'un attribut  Validation à l'aide de schémas W3C  Standards: TEI, XCES  XPath, XQuery 3

4  Besoin ◦ Structurer l'information, pour faciliter l'accessibilité ◦ Présenter l'information, pour faciliter la navigation et la consultation ◦ Intégration des divers sources d'information ◦ Reutilisation des données 4

5  Un langage structuré pour annoter les documents ◦ SGML (Standard Generalized Markup Language) – pour annoter les corpus  IBM  norme ISO 8879:1986  ancêtre de  HTML : présentation structurée des documents  XML: annotation du contenu du document  HTML et XML – normes définies par le World Wide Web consortium (W3C) http://www.w3c.org ◦ XHTML le langage du Web 5

6  Langage interprété par les navigateurs Internet  Visualisation du contenu et la navigation ◦ Mise en forme: en gras, en couleurs etc. ◦ Structuration du texte: paragraphes, tableaux, liens vers d’autres pages… 6

7  Une balise permet de distinguer un document structuré d’un fichier texte  Les balises sont insérées dans le corps du document ◦ Elles permettent de contrôler le formatage et la présentation d’un document ◦ HTML: Mise en forme des paragraphes, insertion d’images, insertion de liens hypertexte, tableaux … ◦ XML: organiser les données en format structuré et leur donner une interprétation 7

8  Une balise est encadrée par et peut avoir aussi une balise de fin ◦ Dan Brown Da Vinci  Les balises peuvent être imbriquées mais elles doivent être fermées dans l’ordre inverse des balises d’ouverture ◦ Dan Brown Da Vinci 8

9  Une balise peut avoir trois formes ◦  passage à la ligne ◦ …  texte à mettre en gras ◦ texte   le fond de la page sera de couleur bleu clair 9

10  Où trouver la définition de chaque balise et de ses attributs? ◦ Pour HTML : http://www.w3.orghttp://www.w3.org ◦ Pour XML: définir ses propres balises  Validation du code html ◦ http://validator.w3.org/ 10

11  Mise en forme ◦ - gras ◦ - italique ◦ - police, taille  structuration ◦ - paragraphe ◦ - lien vers un autre document ◦, - listes ◦ - tableau 11

12  L’ensemble des balises est prédéfini, mais limité à celui défini par le World Wide Web consortium ◦ http://www.w3.org  Seulement la mise en forme ou la structure du texte ◦ Pas de possibilité de marquer le contenu 12

13  XML – Extended Markup Language  marquage de plusieurs zones de textes pour: ◦ faciliter la recherche d'information ◦ faciliter le partage des connaissances  Même principe que le langage HTML ◦ On peut définir les balises adaptées à notre propre application  Annotation morpho-syntaxique  Annotation sémantique (les noms de personnes, d’organisations, de métiers)  Bases de données  Services Web 13

14  Structurer l'information ◦ Identification du contenu des données  Accessibilité ◦ divers types de présentations de données (XSL)  interopérabilité des données ◦ re-utiliser les XML dans d'autres applications ◦ possibilité de vérifier si le document est valide: DTD, XML schémas ◦ définitions partagées 14

15  Outils pour l’annotation en format XML ◦ Annotea, Gate, Oxygène, XML Starlet, Notepad++  Outils pour executer des requêtes sur les balises XML ◦ Xaira, XQuery 15

16  La balise – un élément qui marque un segment de texte ◦ Transparent à l'utilisateur ◦ Traitement automatique du document (indexation, recherche optimisée d'information)  Les balises HTML – pour la présentation des documents  Les balises XML – pour l'identification des éléments pertinents pour le contenu du document 16

17 Lagarde, Christian Libération 1, rue des Oiseaux, 75000 Paris 2010 17

18  Goriot payait encore douze cents francs de pension.  Sur le tapis, sur les meubles de sa chambre d'hôtel, à Brighton, s'étalaient le Times, le Daily Telegraph, le Daily News. Dix heures sonnaient à peine, et le docteur avait eu le temps de faire le tour de la ville, de visiter un hôpital, de rentrer à son hôtel et de lire dans les principaux journaux de Londres le compte rendu in extenso d'un mémoire qu'il avait présenté l'avant- veille au grand Congrès international d'Hygiène, sur un « compte-globules du sang » dont il était l'inventeur. 18

19  Syntaxe: texte - la balise vide texte  Règles de syntaxe ◦ Plusieurs balises imbriquées possibles; ◦ Toujours une balise ouverte doit être fermée; ◦ Différences entre majuscules et minuscules; ◦ Valeurs d’attributs entre “”;  Les balises XML sont définies par l'utilisateur (en fonction de l'application) 19

20  Un élément XML = les balises + la séquence de texte qui a été balisée  Un élément XML peut contenir d'autres éléments XML ◦ Structure hiérarchique du XML  Une balise peut contenir des attributs avec leurs valeurs ◦ Un choix de l'utilisateur de définir des sous- éléments ou des attributs 20

21  vérification des règles de syntaxe ◦ pas de chevauchement ◦ les guillemets pour les valeurs des attributs ◦ une balise ouverte est toujours fermée  vérification de la cohérence des données ◦ même interprétation pour un seul élément ◦ nécessite la définition de chaque élément: DTD  validator ◦ en ligne : http://www.w3schools.com/xml/xml_validator.as p http://www.w3schools.com/xml/xml_validator.as p ◦ intégrés à l'outil: Oxygene 21

22 - - kayak kayak de mer - 22

23  Elements XML ◦,,,,  Attributs: ◦ quantite, reference pour l’élément 23

24  Interprétation ◦ Le document XML est constitué par un élément ◦ Un est composé par un ou plusieurs éléments ◦ Un est composé par plusieurs éléments,,, 24

25  Une première ligne sur la version du XML ◦  Une deuxième ligne avec le fichier de définitions ◦ Le fichier DTD (Document Type Definition) ou le lien vers le XML schéma (optionnel)  Un élément XML racine ◦ Un élement XML  texte 25

26  Définir l’encodage   Les plus utilisés : ISO-8859-1, UTF-8, UTF- 16  Plusieurs solutions: ◦ Les codes du clavier ◦ Copier-coller d’autres documents ◦ les codes des caractères (Unicode) ◦ Caractères spéciaux (entités sgml)  Concerne les autres alphabets et caractères spéciaux (, espace)

27  Caractères spéciaux ◦ & & ◦ < < ◦ >> ◦ "" ◦ &apos; ‘  Utilisation des codes Unicode

28 1 2 3 4 5 6 7 8 9 10 11 12 دايتَل 13 أند 14 15 16 &assoc; 17 18 19 20 21 22 أهلاً 23 بكم 24 فيِ 25 عالم 26 27 28 &text; 29 30

29  des règles qui decrivent la structure du document ◦  + ◦  29

30  Un fichier externe qui contient les définitions des utilisateurs (éléments et entités XML)  Référence à la DTD – dans le prolog du document XML (fichier extérieur ou inclus) ◦ 30

31 Document Type Definition (II)  Opérateurs ◦ Nomdebalise = un élément qui doit être utilisé une seule fois ◦ Nomdebalise* = on doit avoir une séquence de 0 ou plusieurs éléments Nomdebalise ◦ Nomdebalise+ = on doit avoir une séquence de 1 ou plusieurs éléments Nomdebalise ◦ #PCDATA = texte interprétable (avec les entités)

32  contenu ◦ mixte: mélange de #PCDATA et d'autres élements  (#PCDATA|el1|el2|...eln) ◦ #PCDATA : l'élément encadre seulement du texte (analysé) ◦ (el1, el2,... eln): l'élement doit contenir les éléments el1, el2,... dans cet ordre ◦ (el1|el2|...|eln): l'élement doit contenir soit l'élément el1,... eln 32

33 33 base article description nom couleurprixnomdescriptionprix

34  définir les élements:  ◦ le contenu = une séquence de noms d'élements, de mots réservés (EMPTY, #PCDATA) et d'opérateurs (*,?,+,,,|)  ◦ attri – le nom de l'attribut ◦ typei – CDATA ou une liste de valeurs ◦ etatn: #IMPLIED, #REQUIRED, #FIXED 34

35  dans la DTD ◦  dans le document ◦ Bienvenue &nom; ◦ bla bla &entity; bla blas 35

36 Jean a achété une Peugeot 206 bleue pour ses 32 ans DTD définie dans car.dtd: 36

37 <!DOCTYPE personne [ ]> Jean a achété une Peugeot 206 bleue pour ses 32 ans 37

38  Définir plutôt des éléments ◦ Quand les données sont structurées ◦ Quand le texte encadré par les balisés est long ◦ Quand les données changent souvent  Définir plutôt des attributs ◦ Texte de petite taille ◦ Liste de valeurs prédefines  Visibilité – plutôt des éléments  Container- Contenu – éléments  Définir des attributs ou des élements en fonction de l'application 38

39  MEXICO - Le Mexique s'est dit sur le point de maîtriser l'épidémie de grippe porcine, détectée dans vingt et un pays, mais l'Organisation mondiale de la Santé a averti lundi que le virus pourrait prendre sa revanche à l'automne. Aux Etats-Unis aussi, les autorités se sont montrées prudemment optimistes, tout en mettant en garde contre une seconde vague du virus à l'automne sous une forme plus virulente. Malgré ces nouvelles rassurantes, l'épidémie continue de se propager, avec un nouveau cas annoncé lundi au Portugal et certains pays ont renforcé les mesures de protection. L’Express, Date: lundi 4 mai 2009 39

40 MEXICO Le Mexique s'est dit sur le point de maîtriser l'épidémie de grippe porcine, détectée dans vingt et un pays, mais l'Organisation mondiale de la Santé a averti lundi que le virus pourrait prendre sa revanche à l'automne. Aux Etats-Unis aussi, les autorités se sont montrées prudemment optimistes, tout en mettant en garde contre une seconde vague du virus à l'automne sous une forme plus virulente. Malgré ces nouvelles rassurantes, l'épidémie continue de se propager, avec un nouveau cas annoncé lundi au Portugal et certains pays ont renforcé les mesures de protection. L’Express lundi le 4 mai 2009 40


Télécharger ppt "Amalia Todirascu 1.  Enseignants: Amalia Todirascu groupe  Contrôle de connaissances: examen."

Présentations similaires


Annonces Google