Amalia Todirascu 1
Enseignants: Amalia Todirascu groupe Contrôle de connaissances: examen sur machine (1h) 2
Langages à balises: HTML et XML ◦ motivation ◦ balises, attributs ◦ espace de noms Validation à l'aide d'une DTD ◦ définition d'un élement ◦ définition d'un attribut Validation à l'aide de schémas W3C Standards: TEI, XCES XPath, XQuery 3
Besoin ◦ Structurer l'information, pour faciliter l'accessibilité ◦ Présenter l'information, pour faciliter la navigation et la consultation ◦ Intégration des divers sources d'information ◦ Reutilisation des données 4
Un langage structuré pour annoter les documents ◦ SGML (Standard Generalized Markup Language) – pour annoter les corpus IBM norme ISO 8879:1986 ancêtre de HTML : présentation structurée des documents XML: annotation du contenu du document HTML et XML – normes définies par le World Wide Web consortium (W3C) ◦ XHTML le langage du Web 5
Langage interprété par les navigateurs Internet Visualisation du contenu et la navigation ◦ Mise en forme: en gras, en couleurs etc. ◦ Structuration du texte: paragraphes, tableaux, liens vers d’autres pages… 6
Une balise permet de distinguer un document structuré d’un fichier texte Les balises sont insérées dans le corps du document ◦ Elles permettent de contrôler le formatage et la présentation d’un document ◦ HTML: Mise en forme des paragraphes, insertion d’images, insertion de liens hypertexte, tableaux … ◦ XML: organiser les données en format structuré et leur donner une interprétation 7
Une balise est encadrée par et peut avoir aussi une balise de fin ◦ Dan Brown Da Vinci Les balises peuvent être imbriquées mais elles doivent être fermées dans l’ordre inverse des balises d’ouverture ◦ Dan Brown Da Vinci 8
Une balise peut avoir trois formes ◦ passage à la ligne ◦ … texte à mettre en gras ◦ texte le fond de la page sera de couleur bleu clair 9
Où trouver la définition de chaque balise et de ses attributs? ◦ Pour HTML : ◦ Pour XML: définir ses propres balises Validation du code html ◦ 10
Mise en forme ◦ - gras ◦ - italique ◦ - police, taille structuration ◦ - paragraphe ◦ - lien vers un autre document ◦, - listes ◦ - tableau 11
L’ensemble des balises est prédéfini, mais limité à celui défini par le World Wide Web consortium ◦ Seulement la mise en forme ou la structure du texte ◦ Pas de possibilité de marquer le contenu 12
XML – Extended Markup Language marquage de plusieurs zones de textes pour: ◦ faciliter la recherche d'information ◦ faciliter le partage des connaissances Même principe que le langage HTML ◦ On peut définir les balises adaptées à notre propre application Annotation morpho-syntaxique Annotation sémantique (les noms de personnes, d’organisations, de métiers) Bases de données Services Web 13
Structurer l'information ◦ Identification du contenu des données Accessibilité ◦ divers types de présentations de données (XSL) interopérabilité des données ◦ re-utiliser les XML dans d'autres applications ◦ possibilité de vérifier si le document est valide: DTD, XML schémas ◦ définitions partagées 14
Outils pour l’annotation en format XML ◦ Annotea, Gate, Oxygène, XML Starlet, Notepad++ Outils pour executer des requêtes sur les balises XML ◦ Xaira, XQuery 15
La balise – un élément qui marque un segment de texte ◦ Transparent à l'utilisateur ◦ Traitement automatique du document (indexation, recherche optimisée d'information) Les balises HTML – pour la présentation des documents Les balises XML – pour l'identification des éléments pertinents pour le contenu du document 16
Lagarde, Christian Libération 1, rue des Oiseaux, Paris
Goriot payait encore douze cents francs de pension. Sur le tapis, sur les meubles de sa chambre d'hôtel, à Brighton, s'étalaient le Times, le Daily Telegraph, le Daily News. Dix heures sonnaient à peine, et le docteur avait eu le temps de faire le tour de la ville, de visiter un hôpital, de rentrer à son hôtel et de lire dans les principaux journaux de Londres le compte rendu in extenso d'un mémoire qu'il avait présenté l'avant- veille au grand Congrès international d'Hygiène, sur un « compte-globules du sang » dont il était l'inventeur. 18
Syntaxe: texte - la balise vide texte Règles de syntaxe ◦ Plusieurs balises imbriquées possibles; ◦ Toujours une balise ouverte doit être fermée; ◦ Différences entre majuscules et minuscules; ◦ Valeurs d’attributs entre “”; Les balises XML sont définies par l'utilisateur (en fonction de l'application) 19
Un élément XML = les balises + la séquence de texte qui a été balisée Un élément XML peut contenir d'autres éléments XML ◦ Structure hiérarchique du XML Une balise peut contenir des attributs avec leurs valeurs ◦ Un choix de l'utilisateur de définir des sous- éléments ou des attributs 20
vérification des règles de syntaxe ◦ pas de chevauchement ◦ les guillemets pour les valeurs des attributs ◦ une balise ouverte est toujours fermée vérification de la cohérence des données ◦ même interprétation pour un seul élément ◦ nécessite la définition de chaque élément: DTD validator ◦ en ligne : p p ◦ intégrés à l'outil: Oxygene 21
- - kayak kayak de mer - 22
Elements XML ◦,,,, Attributs: ◦ quantite, reference pour l’élément 23
Interprétation ◦ Le document XML est constitué par un élément ◦ Un est composé par un ou plusieurs éléments ◦ Un est composé par plusieurs éléments,,, 24
Une première ligne sur la version du XML ◦ Une deuxième ligne avec le fichier de définitions ◦ Le fichier DTD (Document Type Definition) ou le lien vers le XML schéma (optionnel) Un élément XML racine ◦ Un élement XML texte 25
Définir l’encodage Les plus utilisés : ISO , UTF-8, UTF- 16 Plusieurs solutions: ◦ Les codes du clavier ◦ Copier-coller d’autres documents ◦ les codes des caractères (Unicode) ◦ Caractères spéciaux (entités sgml) Concerne les autres alphabets et caractères spéciaux (, espace)
Caractères spéciaux ◦ & & ◦ < < ◦ >> ◦ "" ◦ ' ‘ Utilisation des codes Unicode
دايتَل 13 أند &assoc; أهلاً 23 بكم 24 فيِ 25 عالم &text; 29 30
des règles qui decrivent la structure du document ◦ + ◦ 29
Un fichier externe qui contient les définitions des utilisateurs (éléments et entités XML) Référence à la DTD – dans le prolog du document XML (fichier extérieur ou inclus) ◦ 30
Document Type Definition (II) Opérateurs ◦ Nomdebalise = un élément qui doit être utilisé une seule fois ◦ Nomdebalise* = on doit avoir une séquence de 0 ou plusieurs éléments Nomdebalise ◦ Nomdebalise+ = on doit avoir une séquence de 1 ou plusieurs éléments Nomdebalise ◦ #PCDATA = texte interprétable (avec les entités)
contenu ◦ mixte: mélange de #PCDATA et d'autres élements (#PCDATA|el1|el2|...eln) ◦ #PCDATA : l'élément encadre seulement du texte (analysé) ◦ (el1, el2,... eln): l'élement doit contenir les éléments el1, el2,... dans cet ordre ◦ (el1|el2|...|eln): l'élement doit contenir soit l'élément el1,... eln 32
33 base article description nom couleurprixnomdescriptionprix
définir les élements: ◦ le contenu = une séquence de noms d'élements, de mots réservés (EMPTY, #PCDATA) et d'opérateurs (*,?,+,,,|) ◦ attri – le nom de l'attribut ◦ typei – CDATA ou une liste de valeurs ◦ etatn: #IMPLIED, #REQUIRED, #FIXED 34
dans la DTD ◦ dans le document ◦ Bienvenue &nom; ◦ bla bla &entity; bla blas 35
Jean a achété une Peugeot 206 bleue pour ses 32 ans DTD définie dans car.dtd: 36
<!DOCTYPE personne [ ]> Jean a achété une Peugeot 206 bleue pour ses 32 ans 37
Définir plutôt des éléments ◦ Quand les données sont structurées ◦ Quand le texte encadré par les balisés est long ◦ Quand les données changent souvent Définir plutôt des attributs ◦ Texte de petite taille ◦ Liste de valeurs prédefines Visibilité – plutôt des éléments Container- Contenu – éléments Définir des attributs ou des élements en fonction de l'application 38
MEXICO - Le Mexique s'est dit sur le point de maîtriser l'épidémie de grippe porcine, détectée dans vingt et un pays, mais l'Organisation mondiale de la Santé a averti lundi que le virus pourrait prendre sa revanche à l'automne. Aux Etats-Unis aussi, les autorités se sont montrées prudemment optimistes, tout en mettant en garde contre une seconde vague du virus à l'automne sous une forme plus virulente. Malgré ces nouvelles rassurantes, l'épidémie continue de se propager, avec un nouveau cas annoncé lundi au Portugal et certains pays ont renforcé les mesures de protection. L’Express, Date: lundi 4 mai
MEXICO Le Mexique s'est dit sur le point de maîtriser l'épidémie de grippe porcine, détectée dans vingt et un pays, mais l'Organisation mondiale de la Santé a averti lundi que le virus pourrait prendre sa revanche à l'automne. Aux Etats-Unis aussi, les autorités se sont montrées prudemment optimistes, tout en mettant en garde contre une seconde vague du virus à l'automne sous une forme plus virulente. Malgré ces nouvelles rassurantes, l'épidémie continue de se propager, avec un nouveau cas annoncé lundi au Portugal et certains pays ont renforcé les mesures de protection. L’Express lundi le 4 mai
Espaces de noms Pour éviter les conflits de définitions => utiliser les espaces de noms Espace de noms = vocabulaire contrôlé Définition unique d’une balise disponible dans plusieurs fichiers de données XML Pour éviter les conflits on précise dans quel espace de noms on se situe (et le fichier de définition qui nous intéresse) Espace de nom = définie par une URI (Uniform Ressource Identifier)
Espace de noms (II) - c’est l’URI qui définit le nom unique de la ressource - éviter les conflits de définitions (une balise définie dans plusieurs DTDs) <exemple xmlns:H=" xmlns:M=" 2
Espace de noms (III) XML XLink MathML XHTML SVGhttp:// Schémas Instances de schémas instance
Espace de noms (IV) Dans le fichier xml Item 1 Item 2
Espace de noms (V) Dans le fichier DTD