Yves Marcoux GRDS - EBSI Université de Montréal Formats de documents numériques, normalisation et documents structurés XML et quelques normes afférentes Yves Marcoux GRDS - EBSI Université de Montréal Copyright © 2007 Yves Marcoux - Reproduction interdite
Copyright © 2007 Yves Marcoux - Reproduction interdite Plan Documents numériques, formats, normalisation XML: C’est quoi? À quoi ça sert? Comment ça marche? Avantages et désavantages Normes afférentes Enjeux pour les milieux documentaires Conclusions Copyright © 2007 Yves Marcoux - Reproduction interdite
Copyright © 2007 Yves Marcoux - Reproduction interdite Fichiers vs documents Fichier: unité gérable par machine Document: unité naturelle de communication entre humains Un document peut comporter plusieurs fichiers (pages Web avec images, etc.) Un fichier peut inclure plusieurs documents Peu recommandé, sauf pour raisons techniques (fichiers compressés, etc.) Copyright © 2007 Yves Marcoux - Reproduction interdite
Format de documents numériques (1/3) Ensemble de conventions et règles pour: déterminer si le contenu d'un fichier est « conforme » ou non (niveau syntaxique ou lexical) interpréter correctement les fichiers qui sont effectivement conformes (niveau sémantique) Copyright © 2007 Yves Marcoux - Reproduction interdite
Format de documents numériques (2/3) Exemples: Formats texte selon un jeu de caractères donné ASCII pur sur 8 bits Unicode-UTF-16-BE Word, PowerPoint PDF, SMIL, Jpeg, Mpeg, MP3, etc. Copyright © 2007 Yves Marcoux - Reproduction interdite
Format de documents numériques (3/3) Exemple: texte ASCII pur sur 8 bits Niveau lexical: Est-ce que tous les codes (de 8 bits) contenus dans le fichier sont des codes admissibles dans un fichier texte ASCII pur sur 8 bits? Niveau sémantique: Quelle suite de caractères correspond aux codes contenus dans le fichier? Copyright © 2007 Yves Marcoux - Reproduction interdite
Copyright © 2007 Yves Marcoux - Reproduction interdite Traitements spéciaux Compression sans perte (zip, etc.) Encryption (ou chiffrement) Applicables à tout fichier, peu importe son format Parfaitement réversibles (sans perte) Modifient de fait le format doivent être considérés pour l’échange de fichiers / documents Copyright © 2007 Yves Marcoux - Reproduction interdite
Préoccupations liées au format accessibilité le document est dans un format qui est compris par une communauté de lecteurs la plus grande possible pérennité le document demeurera accessible dans le futur réutilisabilité on peut récupérer un document archivé et continuer à travailler dessus pour créer un nouveau document … des documents Copyright © 2007 Yves Marcoux - Reproduction interdite
Copyright © 2007 Yves Marcoux - Reproduction interdite Normalisation Une « spécification » est la description d'un ensemble de règles et/ou façons de faire conventionnelles Trois types de spécifications sont pertinentes en gestion de l'information Format (statique) Protocole (dynamique) Procédures pour les humains (ex.: ISO-15489 Records management) Copyright © 2007 Yves Marcoux - Reproduction interdite
Copyright © 2007 Yves Marcoux - Reproduction interdite suite En gestion d'information numérique, les deux premiers types (formats et protocoles) sont les plus déterminants sur l'efficacité et l'efficience des systèmes automatisés Si on vise la réutilisation de l'information et l'interopérabilité, il importe que les systèmes mis en place respectent des normes pour les formats et les protocoles Copyright © 2007 Yves Marcoux - Reproduction interdite
Copyright © 2007 Yves Marcoux - Reproduction interdite suite HTML est un ex. de format normalisé HTTP est un ex. de protocole normalisé Les documents normatifs (les « spécifications » elles-mêmes) qui décrivent un format ou un protocole normalisé sont destinés aux humains: ils indiquent comment développer des produits ou systèmes qui respectent la norme, et sont donc « interopérables » Copyright © 2007 Yves Marcoux - Reproduction interdite
Copyright © 2007 Yves Marcoux - Reproduction interdite suite Texte de Michel Dumais: « L'impact social, à mon avis, est l'impact le plus important des normes libres. Ne pas être prisonnier d'une entité commerciale décidant de l'avenir de votre information, de vos données. Avoir le choix en toutes circonstances, la possibilité de changer, de faire autrement, voilà l'enjeu des normes libres. » Karl Dubost (cité dans l'article de Michel Dumais) Copyright © 2007 Yves Marcoux - Reproduction interdite
Degrés de normalisation d'un format de documents numériques (1/2) Formats « secrets » Format interne DB/TextWorks Interopérabilité possible via exportation / importation Formats propriétaires Word, WordPerfect, PDF Normes de facto Word, PDF, LaTeX Copyright © 2007 Yves Marcoux - Reproduction interdite
Degrés de normalisation d'un format de documents numériques (2/2) Norme internationale officielle (ou de jure) Définies et sanctionnées par une instance officielle internationale de normalisation Ex.: SGML, HTML, XML Norme nationale Organismes nationaux comme ANSI, CSA Alignement sur les normes internationales Copyright © 2007 Yves Marcoux - Reproduction interdite
Instances internationales de normalisation (1/2) ISO (International Organisation for Standardization) IEC (International Electrotechnical Comission) W3C (World Wide Web Consortium) ECMA International (European Computer Manufacturers Association avant 1994) Copyright © 2007 Yves Marcoux - Reproduction interdite
Instances internationales de normalisation (2/2) Consortium Unicode ITU ou UIT (Union internationale des télécommunications) ISO, ITU et ECMA basés en Suisse Copyright © 2007 Yves Marcoux - Reproduction interdite
Importance de la normalisation Être une norme de jure n'est pas tout, la reconnaissance et l'adoption dans la société sont encore plus importantes Les spécifications normalisées sont plus stables (changent moins vite) que les spécifications guidées par des intérêts commerciaux: intéressant pour le long terme Copyright © 2007 Yves Marcoux - Reproduction interdite
Copyright © 2007 Yves Marcoux - Reproduction interdite XML, c’est quoi? eXtensible Markup Language = Langage de balisage généralisable Définie par le W3C en février 1998 (v1.0) W3C = World Wide Web Consortium Format de documents numériques Format de documents structurés Format normalisé Copyright © 2007 Yves Marcoux - Reproduction interdite
Format de documents numériques Tout comme Word, HTML, PDF, ... Documents = fichiers (.xml) Documents peuvent être: imprimés, échangés, diffusés sur le Web convertis vers autres formats (ex. PDF, HTML) liés à d’autres documents par des liens hypertextuels Copyright © 2007 Yves Marcoux - Reproduction interdite
Format de documents structurés Un format utilisant le balisage par dessus un format texte (Unicode-UTF-8) Les documents XML sont aussi des fichiers texte Unicode-UTF-8 Balises (à la <HTML>) identifient début et fin des éléments constitutifs du document Un exemple: un mémo ASCII = American Standard Code for Information Interchange, un code de caractères dépourvu des lettres avec signes diacritiques Unicode est à peu de choses près identique à la norme ISO 10646-2; c’est un code de caractères sur deux octets (16 bits) permettant de représenter jusqu’à 65536 caractères. Unicode permet l’encodage de textes dans plusieurs dizaines de langues, dont le chinois (simplifié), le japonais, l’hébreux et l’arabe. Copyright © 2007 Yves Marcoux - Reproduction interdite
Copyright © 2007 Yves Marcoux - Reproduction interdite Un mémo en XML <mémo> <auteur> Julia Royer </auteur> <destinataires> <nom> Jean Picard </nom> <nom> Émilie Dugré </nom> </destinataires> <sujet> Invitation </sujet> <corps> <para> Veuillez noter que la prochaine réunion du conseil d’administration se tiendra le 27 septembre 2012. </para> <para> SVP, avisez-moi dans les plus brefs délais si vous ne pouvez pas y assister. </para> </corps> </mémo> Balise = courte chaîne de caractères délimitée par < et > Une balise de la forme <nom> est une balise de début Une balise de la forme </nom> est une balise de fin Le nom contenu dans une balise s’appelle un identificateur générique Un passage délimité par une balise de début et la balise de fin correspondante s’appelle un élément Notez que les éléments peuvent être imbriqués les uns dans les autres Comme nous verrons plus tard, les identificateurs génériques ne sont pas fixes; on peut définir ceux qui conviennent à notre type de documents Copyright © 2007 Yves Marcoux - Reproduction interdite
Copyright © 2007 Yves Marcoux - Reproduction interdite mémo corps sujet destinataires auteur para nom "Émilie Dugré" "Jean Picard" "Invitation" "Julia Royer" "Veuillez noter que ... le 27 septembre 2012." "SVP, avisez-moi ... pouvez pas y assister." Copyright © 2007 Yves Marcoux - Reproduction interdite
Copyright © 2007 Yves Marcoux - Reproduction interdite Format normalisé Recommandations du W3C de 1998 XML 1.0 (1e éd.) février 1998 XML 1.0 (3e éd.) février 2004 XML 1.1 (février 2004): encore peu utilisée Spécifications et évolution non contrôlées par un seul producteur ou un petit groupe HTML = normalisé (W3C et ISO/IEC) Word, WordPerfect, PDF ¹ normalisés… ISO n’est pas un acronyme; c’est le préfixe grec « iso », qui signifie « égal » ISO est une des plus hautes instances de normalisation au monde W3C = World Wide Web Consortium, formé de plusieurs dizaines d’acteurs du monde de l’informatique, dont Microsoft, Netscape, Oracle et IBM Les lettres « REC » signifient « Recommendation » et indiquent le statut de recommandation du W3C, le plus haut statut possible d’endossement d’une spécification au sein du W3C HTML = HyperText Markup Language; c’est le principal format des documents qu’on trouve sur le Web HTML est en fait un cas particulier de SGML: tous les documents HTML (valides) sont donc aussi des documents SGML! Copyright © 2007 Yves Marcoux - Reproduction interdite
Copyright © 2007 Yves Marcoux - Reproduction interdite (Appartée PDF) Communiqué d’ISO, 7 octobre 2005: ISO 19005-1:2005 […] Electronic document file format for long-term preservation – Part 1, Use of PDF 1.4 (PDF/A-1) Future parts of ISO 19005 […] will provide compatibility with future versions of the underlying PDF specification, while maintaining the current standard and applications based on PDF Version 1.4. « Full marketing! » Copyright © 2007 Yves Marcoux - Reproduction interdite
Copyright © 2007 Yves Marcoux - Reproduction interdite XML: à quoi ça sert? Documents textuels (rapports, mémoires) Fiches, dossiers (médical, d’employé) Métadonnées (MARC, RDDA, GILS) Formulaires, documents administratifs (PV) Communication savante (revues) Référence (dictionnaires, encyclopédies) Multimédia, hypermédia (présentations) Etc. Copyright © 2007 Yves Marcoux - Reproduction interdite
Copyright © 2007 Yves Marcoux - Reproduction interdite Comment ça marche? Balisage logique… Balisage généralisable (métalangage)… Séparation contenu-traitement Pour la restitution: feuilles de styles Autres applications de traitement RTF (Rich Text Format) désigne un format, se superposant au format texte ASCII, défini et mis à jour par Microsoft. RTF évolue avec chaque nouvelle version de Word de façon à coller à toutes les nouvelles fonctionnalités de ce traitement de texte. Copyright © 2007 Yves Marcoux - Reproduction interdite
Copyright © 2007 Yves Marcoux - Reproduction interdite Balisage logique Philosophie: les balises traduisent la structure logique du contenu, et non sa mise en page ou un autre traitement Les documents ne contiennent aucune information de mise en page Amène une séparation contenu-traitement bénéfique Exemple: XML versus Word (RTF) RTF (Rich Text Format) désigne un format, se superposant au format texte ASCII, défini et mis à jour par Microsoft. RTF évolue avec chaque nouvelle version de Word de façon à coller à toutes les nouvelles fonctionnalités de ce traitement de texte. Copyright © 2007 Yves Marcoux - Reproduction interdite
Sur papier MÉMORANDUM De: Julia Royer À: Jean Picard Émilie Dugré Sujet: Invitation ____________________________________________ Veuillez noter que la prochaine réunion du conseil d’administration se tiendra le 27 septembre 2012. SVP, avisez-moi dans les plus brefs délais si vous ne pouvez pas y assister. Copyright © 2007 Yves Marcoux - Reproduction interdite
Copyright © 2007 Yves Marcoux - Reproduction interdite RTF (Word)* (...) \adjustright \fs20\lang3084\cgrid \b\f2\fs38\cf1\cgrid0 MÉMORANDUM}{\f2\fs38\cf1\cgrid0 \par }\pard \nowidctlpar\widctlpar\adjustright {\f2\fs38\cf1\cgrid0 \par }{\b\f2\fs38\cf1\cgrid0 De:}{\f2\fs38\cf1\cgrid0 Julia Royer \par }{\b\f2\fs38\cf1\cgrid0 À: }{\f2\fs38\cf1\cgrid0 Jean Picard \par Émilie Dugré \par \par }{\b\f2\fs38\cf1\cgrid0 Sujet: } {\f2\fs38\cf1\cgrid0 Invitation \par \par }\pard nowidctlpar\widctlpar\brdrt\brdrs\brdrw10\brsp20 Veuillez noter que la prochaine réunion du conseil d'administration se tiendra le 27 septembre 2012. \par \par SVP, avisez-moi dans les plus brefs délais si vous ne pouvez pas y assister.}{ \par }} Cet extrait de document RTF a été simplifié et certaines parties ont été mises en gras pour les faire ressortir. L’orientation présentation est malgré tout très évidente. L’utilisation d’une feuille de styles peut rapprocher un document de traitement de texte d’une description logique de son contenu, mais avec certaines limites, comparé à XML et SGML; c’est toutefois un bon point de départ pour pouvoir convertir automatiquement ou semi-automatiquement les documents d’un format de traitement de texte vers XML ou SGML. *Sans feuille de styles Copyright © 2007 Yves Marcoux - Reproduction interdite
Copyright © 2007 Yves Marcoux - Reproduction interdite XML (rappel) <mémo> <auteur> Julia Royer </auteur> <destinataires> <nom> Jean Picard </nom> <nom> Émilie Dugré </nom> </destinataires> <sujet> Invitation </sujet> <corps> <para> Veuillez noter que la prochaine réunion du conseil d’administration se tiendra le 27 septembre 2012. </para> <para> SVP, avisez-moi dans les plus brefs délais si vous ne pouvez pas y assister. </para> </corps> </mémo> Copyright © 2007 Yves Marcoux - Reproduction interdite
Balisage généralisable XML est en fait un métalangage On définit les balises utilisables pour une classe de documents (ex.: les mémos dans une compagnie) Via une Document Type Definition (DTD) et/ou un « schéma XML » Un exemple: une DTD pour des mémos Copyright © 2007 Yves Marcoux - Reproduction interdite
Une DTD XML pour les mémos <!ELEMENT mémo (auteur, date?, destinataires, sujet, cc?, corps)> <!ELEMENT auteur (#PCDATA)> <!ELEMENT date (#PCDATA)> <!ELEMENT destinataires (nom+)> <!ELEMENT sujet (#PCDATA)> <!ELEMENT cc (nom+)> <!ELEMENT corps (par*)> <!ELEMENT nom (#PCDATA)> <!ELEMENT par (#PCDATA)> On remarque les éléments date et cc (copie conforme) qui sont facultatifs et qui ne figuraient pas dans l’exemple de mémo donné précédemment. Copyright © 2007 Yves Marcoux - Reproduction interdite
Copyright © 2007 Yves Marcoux - Reproduction interdite
Copyright © 2007 Yves Marcoux - Reproduction interdite Feuilles de styles Spécifie comment restituer (ex.: mettre en page) tout document conforme à une DTD (Feuilles de styles ´ documents) = réutilisation de l’information Exemple (en classe): mémos Copyright © 2007 Yves Marcoux - Reproduction interdite
Avantages et désavantages de XML Avantages du balisage logique Avantages de la normalisation Internationalité et internationalisation (i18n): Unicode Désavantages: coûts Mentionner programmes en localisation Copyright © 2007 Yves Marcoux - Reproduction interdite
Avantages du balisage logique Réutilisation de l’information, versatilité d’accès Spécification des applications indépendante des contenus (temps et « espace ») Factorisation du travail entre auteurs, typographes, informaticiens, etc. Indexation automatique, recherche d'information améliorées Copyright © 2007 Yves Marcoux - Reproduction interdite
Avantages de la normalisation Diffusion « universelle » Échange, interopérabilité (important pour le commerce électronique) Logique + normalisé: indépendance par rapport aux logiciels et au matériel de restitution Potentiel de pérennité Convient à l’archivage à long terme Copyright © 2007 Yves Marcoux - Reproduction interdite
Copyright © 2007 Yves Marcoux - Reproduction interdite Normes afférentes SGML (Standard Generalized Markup Language: ISO/IEC 8879:1986) HTML, XHTML RDF et Topic Maps Copyright © 2007 Yves Marcoux - Reproduction interdite
Copyright © 2007 Yves Marcoux - Reproduction interdite SGML = ISO/IEC 8879:1986 Standard Generalized Markup Language Plus complexe que XML; légèrement plus puissant Développé à partir de GML (1969), un produit d’IBM GML = auteurs Goldfarb, Mosher, Lorie! HyTime = Hypermedia/Time-based Document Structuring Language. DSSSL = Document Style Semantics and Specification Language Copyright © 2007 Yves Marcoux - Reproduction interdite
Copyright © 2007 Yves Marcoux - Reproduction interdite HTML (1/2) HTML = HyperText Markup Language Pouquoi « hypertexte »? Permet de créer des liens hypertextuels entre les documents Ce n’est pas un seul format Il existe plusieurs versions de HTML Toutes les versions (sauf XHTML) sont des applications (i.e. des DTD) SGML Copyright © 2007 Yves Marcoux - Reproduction interdite
Copyright © 2007 Yves Marcoux - Reproduction interdite HTML (2/2) Une des versions les plus utilisées est le « HTML 4.01 » C’est une recommandation du W3C du 24 décembre 1999 Il existe aussi (depuis 2000) une version du HTML normalisée par ISO/IEC C’est la norme internationale ISO/IEC 15445:2000 Copyright © 2007 Yves Marcoux - Reproduction interdite
Copyright © 2007 Yves Marcoux - Reproduction interdite Historique du HTML HTML 1 : 1989 (texte, hyperliens) Inventé par Tim Berners-Lee, reconnu comme le créateur du Web HTML 2 : 1994 (images, formulaires) HTML 3 : 1996 (son, applets) HTML 4 : 1998 (vidéo, CSS) XHTML : 2000 Copyright © 2007 Yves Marcoux - Reproduction interdite
Copyright © 2007 Yves Marcoux - Reproduction interdite XHTML (1/2) Extensible Hypertext Markup Language Version qui a succédé à HTML 4.01 au sein du W3C HTML comme telle n’est plus développée Essentiellement, c’est une réécriture de HTML 4.01 comme application (i.e. DTD) XML, plutôt que SGML Copyright © 2007 Yves Marcoux - Reproduction interdite
Copyright © 2007 Yves Marcoux - Reproduction interdite XHTML (2/2) XHTML 1.0 (2e édition): Extensible HyperText Markup Language Recommandation W3C janvier 2000 (révisée en août 2002) "A Reformulation of HTML 4 in XML 1.0" XHTML 1.1: Module-based XHTML Recommandation W3C mai 2001 Introduit la possibilité d’extensions modulaires (par exemple, XForms pour les formulaires) Encore peu répandue 2e édition en préparation février 2007 Copyright © 2007 Yves Marcoux - Reproduction interdite
Langages de balisage normalisés SGML application (DTD) simplification HTML XML ajustements mineurs application (DTD) XHTML Copyright © 2007 Yves Marcoux - Reproduction interdite
Copyright © 2007 Yves Marcoux - Reproduction interdite (X)HTML – Points forts Simplicité, portabilité Basés sur des formats texte normalisés Outils gratuits et faciles à utiliser Navigateurs nombreux et omniprésents sur toutes les plateformes courantes Parfait pour des documents simples à diffuser sur le Web Copyright © 2007 Yves Marcoux - Reproduction interdite
(X)HTML – Points faibles Inapproprié pour contrôler parfaitement le rendu visuel des documents (PDF est plus approprié dans ce cas) Difficile de produire des documents imprimés sur papier de qualité professionnelle Ex.: pas de notion de référence à un numéro de page Copyright © 2007 Yves Marcoux - Reproduction interdite
Importance de la validité syntaxique des fichiers (X)HTML Problèmes causés par les navigateurs trop laxistes (article de Nelson Dumais) Exemples d'erreurs souvent ignorées: Mauvaise imbrication des balises Absence d'éléments obligatoires (head, body, etc.) Présence de balises « propriétaires » (i.e. non normalisées) reconnues seulement par certains navigateurs spécifiques Copyright © 2007 Yves Marcoux - Reproduction interdite
(X)HTML strict vs non strict (On parle du format, et non du navigateur) Non strict: Balisage orienté tantôt sur la structure logique de l’information, tantôt sur son formatage Exemple: balises pour l’italique <i>...</i> Strict: Séparation claire entre contenu / présentation Plus grande réutilisabilité de l’information Moins de contrôle sur la présentation Copyright © 2007 Yves Marcoux - Reproduction interdite
Métadonnées: initiatives de fond RDF Resource Description Framework Recommandations W3C du 10 fév. 2004 Topic Maps ISO/IEC 13250 Topic Maps Les deux: Orientés « ontologies », « taxonomies », … Utilisent une syntaxe XML Compatibles avec Dublin Core Copyright © 2007 Yves Marcoux - Reproduction interdite
Copyright © 2007 Yves Marcoux - Reproduction interdite XML vs (X)HTML Propriété XML (X)HTML Balises définies dans une DTD par une conceptrice selon les besoins prédéfinies dans la DTD (X)HTML Sens des balises variable, fixé par la conceptrice de la DTD défini dans la spécification (X)HTML Séparation contenu / traitement oui partielle Diffusable sur le Web? navigateurs récents, via stylage XSLT ou CSS Copyright © 2007 Yves Marcoux - Reproduction interdite
Enjeux pour les milieux documentaires L’information numérique est de plus en plus produite sous forme structurée (XML) Pour la gérer de manière « intelligente », il faut la traiter dans son format natif (et non en format de présentation) XML est aussi utile pour la production d’information numérique (catalogage, thésaurus, ontologies, etc.) Copyright © 2007 Yves Marcoux - Reproduction interdite
Copyright © 2007 Yves Marcoux - Reproduction interdite Archivistique Documentarisation des transactions électroniques Au Québec, depuis 2001: Loi concernant le cadre juridique des technologies de l’information (L.R.Q. c. C-1.1) XML redonne une existence documentaire aux formulaires électroniques Signature numérique (XML Signature) Archivistique intégrée Copyright © 2007 Yves Marcoux - Reproduction interdite
Conséquences pour le professionnel Modélisation de l’information Maîtrise des outils de base de traitement Compréhension des possibilités de traitement automatique (réutilisation) Compréhension des chaînes de traitement Signature numérique Registres de schémas Copyright © 2007 Yves Marcoux - Reproduction interdite
Copyright © 2007 Yves Marcoux - Reproduction interdite Conclusions XML est déjà là, et pour rester Pour l’information primaire, les métadonnées et les transactions en ligne (commerce électronique, gouvernement en ligne, etc.) Choix stratégique: XML agit comme unificateur de forme et d’outils Copyright © 2007 Yves Marcoux - Reproduction interdite