La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Yves Marcoux GRDS - EBSI Université de Montréal

Présentations similaires


Présentation au sujet: "Yves Marcoux GRDS - EBSI Université de Montréal"— Transcription de la présentation:

1 Yves Marcoux GRDS - EBSI Université de Montréal
Formats de documents numériques, normalisation et documents structurés XML et quelques normes afférentes Yves Marcoux GRDS - EBSI Université de Montréal Copyright © 2007 Yves Marcoux - Reproduction interdite

2 Copyright © 2007 Yves Marcoux - Reproduction interdite
Plan Documents numériques, formats, normalisation XML: C’est quoi? À quoi ça sert? Comment ça marche? Avantages et désavantages Normes afférentes Enjeux pour les milieux documentaires Conclusions Copyright © 2007 Yves Marcoux - Reproduction interdite

3 Copyright © 2007 Yves Marcoux - Reproduction interdite
Fichiers vs documents Fichier: unité gérable par machine Document: unité naturelle de communication entre humains Un document peut comporter plusieurs fichiers (pages Web avec images, etc.) Un fichier peut inclure plusieurs documents Peu recommandé, sauf pour raisons techniques (fichiers compressés, etc.) Copyright © 2007 Yves Marcoux - Reproduction interdite

4 Format de documents numériques (1/3)
Ensemble de conventions et règles pour: déterminer si le contenu d'un fichier est « conforme » ou non (niveau syntaxique ou lexical) interpréter correctement les fichiers qui sont effectivement conformes (niveau sémantique) Copyright © 2007 Yves Marcoux - Reproduction interdite

5 Format de documents numériques (2/3)
Exemples: Formats texte selon un jeu de caractères donné ASCII pur sur 8 bits Unicode-UTF-16-BE Word, PowerPoint PDF, SMIL, Jpeg, Mpeg, MP3, etc. Copyright © 2007 Yves Marcoux - Reproduction interdite

6 Format de documents numériques (3/3)
Exemple: texte ASCII pur sur 8 bits Niveau lexical: Est-ce que tous les codes (de 8 bits) contenus dans le fichier sont des codes admissibles dans un fichier texte ASCII pur sur 8 bits? Niveau sémantique: Quelle suite de caractères correspond aux codes contenus dans le fichier? Copyright © 2007 Yves Marcoux - Reproduction interdite

7 Copyright © 2007 Yves Marcoux - Reproduction interdite
Traitements spéciaux Compression sans perte (zip, etc.) Encryption (ou chiffrement) Applicables à tout fichier, peu importe son format Parfaitement réversibles (sans perte) Modifient de fait le format doivent être considérés pour l’échange de fichiers / documents Copyright © 2007 Yves Marcoux - Reproduction interdite

8 Préoccupations liées au format
accessibilité le document est dans un format qui est compris par une communauté de lecteurs la plus grande possible pérennité le document demeurera accessible dans le futur réutilisabilité on peut récupérer un document archivé et continuer à travailler dessus pour créer un nouveau document … des documents Copyright © 2007 Yves Marcoux - Reproduction interdite

9 Copyright © 2007 Yves Marcoux - Reproduction interdite
Normalisation Une « spécification » est la description d'un ensemble de règles et/ou façons de faire conventionnelles Trois types de spécifications sont pertinentes en gestion de l'information Format (statique) Protocole (dynamique) Procédures pour les humains (ex.: ISO Records management) Copyright © 2007 Yves Marcoux - Reproduction interdite

10 Copyright © 2007 Yves Marcoux - Reproduction interdite
suite En gestion d'information numérique, les deux premiers types (formats et protocoles) sont les plus déterminants sur l'efficacité et l'efficience des systèmes automatisés Si on vise la réutilisation de l'information et l'interopérabilité, il importe que les systèmes mis en place respectent des normes pour les formats et les protocoles Copyright © 2007 Yves Marcoux - Reproduction interdite

11 Copyright © 2007 Yves Marcoux - Reproduction interdite
suite HTML est un ex. de format normalisé HTTP est un ex. de protocole normalisé Les documents normatifs (les « spécifications » elles-mêmes) qui décrivent un format ou un protocole normalisé sont destinés aux humains: ils indiquent comment développer des produits ou systèmes qui respectent la norme, et sont donc « interopérables » Copyright © 2007 Yves Marcoux - Reproduction interdite

12 Copyright © 2007 Yves Marcoux - Reproduction interdite
suite Texte de Michel Dumais: « L'impact social, à mon avis, est l'impact le plus important des normes libres. Ne pas être prisonnier d'une entité commerciale décidant de l'avenir de votre information, de vos données. Avoir le choix en toutes circonstances, la possibilité de changer, de faire autrement, voilà l'enjeu des normes libres. » Karl Dubost (cité dans l'article de Michel Dumais) Copyright © 2007 Yves Marcoux - Reproduction interdite

13 Degrés de normalisation d'un format de documents numériques (1/2)
Formats « secrets » Format interne DB/TextWorks Interopérabilité possible via exportation / importation Formats propriétaires Word, WordPerfect, PDF Normes de facto Word, PDF, LaTeX Copyright © 2007 Yves Marcoux - Reproduction interdite

14 Degrés de normalisation d'un format de documents numériques (2/2)
Norme internationale officielle (ou de jure) Définies et sanctionnées par une instance officielle internationale de normalisation Ex.: SGML, HTML, XML Norme nationale Organismes nationaux comme ANSI, CSA Alignement sur les normes internationales Copyright © 2007 Yves Marcoux - Reproduction interdite

15 Instances internationales de normalisation (1/2)
ISO (International Organisation for Standardization) IEC (International Electrotechnical Comission) W3C (World Wide Web Consortium) ECMA International (European Computer Manufacturers Association avant 1994) Copyright © 2007 Yves Marcoux - Reproduction interdite

16 Instances internationales de normalisation (2/2)
Consortium Unicode ITU ou UIT (Union internationale des télécommunications) ISO, ITU et ECMA basés en Suisse Copyright © 2007 Yves Marcoux - Reproduction interdite

17 Importance de la normalisation
Être une norme de jure n'est pas tout, la reconnaissance et l'adoption dans la société sont encore plus importantes Les spécifications normalisées sont plus stables (changent moins vite) que les spécifications guidées par des intérêts commerciaux: intéressant pour le long terme Copyright © 2007 Yves Marcoux - Reproduction interdite

18 Copyright © 2007 Yves Marcoux - Reproduction interdite
XML, c’est quoi? eXtensible Markup Language = Langage de balisage généralisable Définie par le W3C en février 1998 (v1.0) W3C = World Wide Web Consortium Format de documents numériques Format de documents structurés Format normalisé Copyright © 2007 Yves Marcoux - Reproduction interdite

19 Format de documents numériques
Tout comme Word, HTML, PDF, ... Documents = fichiers (.xml) Documents peuvent être: imprimés, échangés, diffusés sur le Web convertis vers autres formats (ex. PDF, HTML) liés à d’autres documents par des liens hypertextuels Copyright © 2007 Yves Marcoux - Reproduction interdite

20 Format de documents structurés
Un format utilisant le balisage par dessus un format texte (Unicode-UTF-8) Les documents XML sont aussi des fichiers texte Unicode-UTF-8 Balises (à la <HTML>) identifient début et fin des éléments constitutifs du document Un exemple: un mémo ASCII = American Standard Code for Information Interchange, un code de caractères dépourvu des lettres avec signes diacritiques Unicode est à peu de choses près identique à la norme ISO ; c’est un code de caractères sur deux octets (16 bits) permettant de représenter jusqu’à caractères. Unicode permet l’encodage de textes dans plusieurs dizaines de langues, dont le chinois (simplifié), le japonais, l’hébreux et l’arabe. Copyright © 2007 Yves Marcoux - Reproduction interdite

21 Copyright © 2007 Yves Marcoux - Reproduction interdite
Un mémo en XML <mémo> <auteur> Julia Royer </auteur> <destinataires> <nom> Jean Picard </nom> <nom> Émilie Dugré </nom> </destinataires> <sujet> Invitation </sujet> <corps> <para> Veuillez noter que la prochaine réunion du conseil d’administration se tiendra le septembre </para> <para> SVP, avisez-moi dans les plus brefs délais si vous ne pouvez pas y assister. </para> </corps> </mémo> Balise = courte chaîne de caractères délimitée par < et > Une balise de la forme <nom> est une balise de début Une balise de la forme </nom> est une balise de fin Le nom contenu dans une balise s’appelle un identificateur générique Un passage délimité par une balise de début et la balise de fin correspondante s’appelle un élément Notez que les éléments peuvent être imbriqués les uns dans les autres Comme nous verrons plus tard, les identificateurs génériques ne sont pas fixes; on peut définir ceux qui conviennent à notre type de documents Copyright © 2007 Yves Marcoux - Reproduction interdite

22 Copyright © 2007 Yves Marcoux - Reproduction interdite
mémo corps sujet destinataires auteur para nom "Émilie Dugré" "Jean Picard" "Invitation" "Julia Royer" "Veuillez noter que ... le 27 septembre 2012." "SVP, avisez-moi ... pouvez pas y assister." Copyright © 2007 Yves Marcoux - Reproduction interdite

23 Copyright © 2007 Yves Marcoux - Reproduction interdite
Format normalisé Recommandations du W3C de 1998 XML 1.0 (1e éd.) février 1998 XML 1.0 (3e éd.) février 2004 XML 1.1 (février 2004): encore peu utilisée Spécifications et évolution non contrôlées par un seul producteur ou un petit groupe HTML = normalisé (W3C et ISO/IEC) Word, WordPerfect, PDF ¹ normalisés… ISO n’est pas un acronyme; c’est le préfixe grec « iso », qui signifie « égal » ISO est une des plus hautes instances de normalisation au monde W3C = World Wide Web Consortium, formé de plusieurs dizaines d’acteurs du monde de l’informatique, dont Microsoft, Netscape, Oracle et IBM Les lettres « REC » signifient « Recommendation » et indiquent le statut de recommandation du W3C, le plus haut statut possible d’endossement d’une spécification au sein du W3C HTML = HyperText Markup Language; c’est le principal format des documents qu’on trouve sur le Web HTML est en fait un cas particulier de SGML: tous les documents HTML (valides) sont donc aussi des documents SGML! Copyright © 2007 Yves Marcoux - Reproduction interdite

24 Copyright © 2007 Yves Marcoux - Reproduction interdite
(Appartée PDF) Communiqué d’ISO, 7 octobre 2005: ISO :2005 […] Electronic document file format for long-term preservation – Part 1, Use of PDF 1.4 (PDF/A-1) Future parts of ISO […] will provide compatibility with future versions of the underlying PDF specification, while maintaining the current standard and applications based on PDF Version 1.4. « Full marketing! » Copyright © 2007 Yves Marcoux - Reproduction interdite

25 Copyright © 2007 Yves Marcoux - Reproduction interdite
XML: à quoi ça sert? Documents textuels (rapports, mémoires) Fiches, dossiers (médical, d’employé) Métadonnées (MARC, RDDA, GILS) Formulaires, documents administratifs (PV) Communication savante (revues) Référence (dictionnaires, encyclopédies) Multimédia, hypermédia (présentations) Etc. Copyright © 2007 Yves Marcoux - Reproduction interdite

26 Copyright © 2007 Yves Marcoux - Reproduction interdite
Comment ça marche? Balisage logique… Balisage généralisable (métalangage)… Séparation contenu-traitement Pour la restitution: feuilles de styles Autres applications de traitement RTF (Rich Text Format) désigne un format, se superposant au format texte ASCII, défini et mis à jour par Microsoft. RTF évolue avec chaque nouvelle version de Word de façon à coller à toutes les nouvelles fonctionnalités de ce traitement de texte. Copyright © 2007 Yves Marcoux - Reproduction interdite

27 Copyright © 2007 Yves Marcoux - Reproduction interdite
Balisage logique Philosophie: les balises traduisent la structure logique du contenu, et non sa mise en page ou un autre traitement Les documents ne contiennent aucune information de mise en page Amène une séparation contenu-traitement bénéfique Exemple: XML versus Word (RTF) RTF (Rich Text Format) désigne un format, se superposant au format texte ASCII, défini et mis à jour par Microsoft. RTF évolue avec chaque nouvelle version de Word de façon à coller à toutes les nouvelles fonctionnalités de ce traitement de texte. Copyright © 2007 Yves Marcoux - Reproduction interdite

28 Sur papier MÉMORANDUM De: Julia Royer À: Jean Picard Émilie Dugré
Sujet: Invitation ____________________________________________ Veuillez noter que la prochaine réunion du conseil d’administration se tiendra le 27 septembre 2012. SVP, avisez-moi dans les plus brefs délais si vous ne pouvez pas y assister. Copyright © 2007 Yves Marcoux - Reproduction interdite

29 Copyright © 2007 Yves Marcoux - Reproduction interdite
RTF (Word)* (...) \adjustright \fs20\lang3084\cgrid \b\f2\fs38\cf1\cgrid0 MÉMORANDUM}{\f2\fs38\cf1\cgrid0 \par }\pard \nowidctlpar\widctlpar\adjustright {\f2\fs38\cf1\cgrid0 \par }{\b\f2\fs38\cf1\cgrid0 De:}{\f2\fs38\cf1\cgrid0 Julia Royer \par }{\b\f2\fs38\cf1\cgrid0 À: }{\f2\fs38\cf1\cgrid0 Jean Picard \par Émilie Dugré \par \par }{\b\f2\fs38\cf1\cgrid0 Sujet: } {\f2\fs38\cf1\cgrid0 Invitation \par \par }\pard nowidctlpar\widctlpar\brdrt\brdrs\brdrw10\brsp20 Veuillez noter que la prochaine réunion du conseil d'administration se tiendra le 27 septembre 2012. \par \par SVP, avisez-moi dans les plus brefs délais si vous ne pouvez pas y assister.}{ \par }} Cet extrait de document RTF a été simplifié et certaines parties ont été mises en gras pour les faire ressortir. L’orientation présentation est malgré tout très évidente. L’utilisation d’une feuille de styles peut rapprocher un document de traitement de texte d’une description logique de son contenu, mais avec certaines limites, comparé à XML et SGML; c’est toutefois un bon point de départ pour pouvoir convertir automatiquement ou semi-automatiquement les documents d’un format de traitement de texte vers XML ou SGML. *Sans feuille de styles Copyright © 2007 Yves Marcoux - Reproduction interdite

30 Copyright © 2007 Yves Marcoux - Reproduction interdite
XML (rappel) <mémo> <auteur> Julia Royer </auteur> <destinataires> <nom> Jean Picard </nom> <nom> Émilie Dugré </nom> </destinataires> <sujet> Invitation </sujet> <corps> <para> Veuillez noter que la prochaine réunion du conseil d’administration se tiendra le septembre </para> <para> SVP, avisez-moi dans les plus brefs délais si vous ne pouvez pas y assister. </para> </corps> </mémo> Copyright © 2007 Yves Marcoux - Reproduction interdite

31 Balisage généralisable
XML est en fait un métalangage On définit les balises utilisables pour une classe de documents (ex.: les mémos dans une compagnie) Via une Document Type Definition (DTD) et/ou un « schéma XML » Un exemple: une DTD pour des mémos Copyright © 2007 Yves Marcoux - Reproduction interdite

32 Une DTD XML pour les mémos
<!ELEMENT mémo (auteur, date?, destinataires, sujet, cc?, corps)> <!ELEMENT auteur (#PCDATA)> <!ELEMENT date (#PCDATA)> <!ELEMENT destinataires (nom+)> <!ELEMENT sujet (#PCDATA)> <!ELEMENT cc (nom+)> <!ELEMENT corps (par*)> <!ELEMENT nom (#PCDATA)> <!ELEMENT par (#PCDATA)> On remarque les éléments date et cc (copie conforme) qui sont facultatifs et qui ne figuraient pas dans l’exemple de mémo donné précédemment. Copyright © 2007 Yves Marcoux - Reproduction interdite

33 Copyright © 2007 Yves Marcoux - Reproduction interdite

34 Copyright © 2007 Yves Marcoux - Reproduction interdite
Feuilles de styles Spécifie comment restituer (ex.: mettre en page) tout document conforme à une DTD (Feuilles de styles ´ documents) = réutilisation de l’information Exemple (en classe): mémos Copyright © 2007 Yves Marcoux - Reproduction interdite

35 Avantages et désavantages de XML
Avantages du balisage logique Avantages de la normalisation Internationalité et internationalisation (i18n): Unicode Désavantages: coûts Mentionner programmes en localisation Copyright © 2007 Yves Marcoux - Reproduction interdite

36 Avantages du balisage logique
Réutilisation de l’information, versatilité d’accès Spécification des applications indépendante des contenus (temps et « espace ») Factorisation du travail entre auteurs, typographes, informaticiens, etc. Indexation automatique, recherche d'information améliorées Copyright © 2007 Yves Marcoux - Reproduction interdite

37 Avantages de la normalisation
Diffusion « universelle » Échange, interopérabilité (important pour le commerce électronique) Logique + normalisé: indépendance par rapport aux logiciels et au matériel de restitution Potentiel de pérennité Convient à l’archivage à long terme Copyright © 2007 Yves Marcoux - Reproduction interdite

38 Copyright © 2007 Yves Marcoux - Reproduction interdite
Normes afférentes SGML (Standard Generalized Markup Language: ISO/IEC 8879:1986) HTML, XHTML RDF et Topic Maps Copyright © 2007 Yves Marcoux - Reproduction interdite

39 Copyright © 2007 Yves Marcoux - Reproduction interdite
SGML = ISO/IEC 8879:1986 Standard Generalized Markup Language Plus complexe que XML; légèrement plus puissant Développé à partir de GML (1969), un produit d’IBM GML = auteurs Goldfarb, Mosher, Lorie! HyTime = Hypermedia/Time-based Document Structuring Language. DSSSL = Document Style Semantics and Specification Language Copyright © 2007 Yves Marcoux - Reproduction interdite

40 Copyright © 2007 Yves Marcoux - Reproduction interdite
HTML (1/2) HTML = HyperText Markup Language Pouquoi « hypertexte »? Permet de créer des liens hypertextuels entre les documents Ce n’est pas un seul format Il existe plusieurs versions de HTML Toutes les versions (sauf XHTML) sont des applications (i.e. des DTD) SGML Copyright © 2007 Yves Marcoux - Reproduction interdite

41 Copyright © 2007 Yves Marcoux - Reproduction interdite
HTML (2/2) Une des versions les plus utilisées est le « HTML 4.01 » C’est une recommandation du W3C du 24 décembre 1999 Il existe aussi (depuis 2000) une version du HTML normalisée par ISO/IEC C’est la norme internationale ISO/IEC 15445:2000 Copyright © 2007 Yves Marcoux - Reproduction interdite

42 Copyright © 2007 Yves Marcoux - Reproduction interdite
Historique du HTML HTML 1 : 1989 (texte, hyperliens) Inventé par Tim Berners-Lee, reconnu comme le créateur du Web HTML 2 : 1994 (images, formulaires) HTML 3 : 1996 (son, applets) HTML 4 : 1998 (vidéo, CSS) XHTML : 2000 Copyright © 2007 Yves Marcoux - Reproduction interdite

43 Copyright © 2007 Yves Marcoux - Reproduction interdite
XHTML (1/2) Extensible Hypertext Markup Language Version qui a succédé à HTML 4.01 au sein du W3C HTML comme telle n’est plus développée Essentiellement, c’est une réécriture de HTML 4.01 comme application (i.e. DTD) XML, plutôt que SGML Copyright © 2007 Yves Marcoux - Reproduction interdite

44 Copyright © 2007 Yves Marcoux - Reproduction interdite
XHTML (2/2) XHTML 1.0 (2e édition): Extensible HyperText Markup Language Recommandation W3C janvier 2000 (révisée en août 2002) "A Reformulation of HTML 4 in XML 1.0" XHTML 1.1: Module-based XHTML Recommandation W3C mai 2001 Introduit la possibilité d’extensions modulaires (par exemple, XForms pour les formulaires) Encore peu répandue 2e édition en préparation février 2007 Copyright © 2007 Yves Marcoux - Reproduction interdite

45 Langages de balisage normalisés
SGML application (DTD) simplification HTML XML ajustements mineurs application (DTD) XHTML Copyright © 2007 Yves Marcoux - Reproduction interdite

46 Copyright © 2007 Yves Marcoux - Reproduction interdite
(X)HTML – Points forts Simplicité, portabilité Basés sur des formats texte normalisés Outils gratuits et faciles à utiliser Navigateurs nombreux et omniprésents sur toutes les plateformes courantes Parfait pour des documents simples à diffuser sur le Web Copyright © 2007 Yves Marcoux - Reproduction interdite

47 (X)HTML – Points faibles
Inapproprié pour contrôler parfaitement le rendu visuel des documents (PDF est plus approprié dans ce cas) Difficile de produire des documents imprimés sur papier de qualité professionnelle Ex.: pas de notion de référence à un numéro de page Copyright © 2007 Yves Marcoux - Reproduction interdite

48 Importance de la validité syntaxique des fichiers (X)HTML
Problèmes causés par les navigateurs trop laxistes (article de Nelson Dumais) Exemples d'erreurs souvent ignorées: Mauvaise imbrication des balises Absence d'éléments obligatoires (head, body, etc.) Présence de balises « propriétaires » (i.e. non normalisées) reconnues seulement par certains navigateurs spécifiques Copyright © 2007 Yves Marcoux - Reproduction interdite

49 (X)HTML strict vs non strict
(On parle du format, et non du navigateur) Non strict: Balisage orienté tantôt sur la structure logique de l’information, tantôt sur son formatage Exemple: balises pour l’italique <i>...</i> Strict: Séparation claire entre contenu / présentation Plus grande réutilisabilité de l’information Moins de contrôle sur la présentation Copyright © 2007 Yves Marcoux - Reproduction interdite

50 Métadonnées: initiatives de fond
RDF Resource Description Framework Recommandations W3C du 10 fév. 2004 Topic Maps ISO/IEC Topic Maps Les deux: Orientés « ontologies », « taxonomies », … Utilisent une syntaxe XML Compatibles avec Dublin Core Copyright © 2007 Yves Marcoux - Reproduction interdite

51 Copyright © 2007 Yves Marcoux - Reproduction interdite
XML vs (X)HTML Propriété XML (X)HTML Balises définies dans une DTD par une conceptrice selon les besoins prédéfinies dans la DTD (X)HTML Sens des balises variable, fixé par la conceptrice de la DTD défini dans la spécification (X)HTML Séparation contenu / traitement oui partielle Diffusable sur le Web? navigateurs récents, via stylage XSLT ou CSS Copyright © 2007 Yves Marcoux - Reproduction interdite

52 Enjeux pour les milieux documentaires
L’information numérique est de plus en plus produite sous forme structurée (XML) Pour la gérer de manière « intelligente », il faut la traiter dans son format natif (et non en format de présentation) XML est aussi utile pour la production d’information numérique (catalogage, thésaurus, ontologies, etc.) Copyright © 2007 Yves Marcoux - Reproduction interdite

53 Copyright © 2007 Yves Marcoux - Reproduction interdite
Archivistique Documentarisation des transactions électroniques Au Québec, depuis 2001: Loi concernant le cadre juridique des technologies de l’information (L.R.Q. c. C-1.1) XML redonne une existence documentaire aux formulaires électroniques Signature numérique (XML Signature) Archivistique intégrée Copyright © 2007 Yves Marcoux - Reproduction interdite

54 Conséquences pour le professionnel
Modélisation de l’information Maîtrise des outils de base de traitement Compréhension des possibilités de traitement automatique (réutilisation) Compréhension des chaînes de traitement Signature numérique Registres de schémas Copyright © 2007 Yves Marcoux - Reproduction interdite

55 Copyright © 2007 Yves Marcoux - Reproduction interdite
Conclusions XML est déjà là, et pour rester Pour l’information primaire, les métadonnées et les transactions en ligne (commerce électronique, gouvernement en ligne, etc.) Choix stratégique: XML agit comme unificateur de forme et d’outils Copyright © 2007 Yves Marcoux - Reproduction interdite


Télécharger ppt "Yves Marcoux GRDS - EBSI Université de Montréal"

Présentations similaires


Annonces Google