Copyright © Yves Marcoux - Reproduction interdite1 BLT6052 Informatique documentaire Formats de fichiers et recherche de fichiers avec Windows et Office
Copyright © Yves Marcoux - Reproduction interdite2 Un fichier dans un OS (OS = Operating System = système d’exploitation) Est constitué d’une entrée dans le répertoire du dossier qui le contient… et d’un contenu (suite de bits), stocké ailleurs sur le médium de stockage (disque, CD, etc.) La longueur peut être de zéro octets jusqu’à la capacité du totale du médium, soit plusieurs gigaoctets Même un fichier vide (de longueur 0) possède une entrée de répertoire dans le dossier où il est situé
Copyright © Yves Marcoux - Reproduction interdite3 Dans le répertoire du dossier contenant le fichier: … nom-fich.txt | | | … | 236 | | … … Nom du fichierExtensionDates (création, etc.) Longueur (octets) Contenu sur le disque (suite de bits): Emplacement du contenu du fichier sur le disque
Copyright © Yves Marcoux - Reproduction interdite4 Que se passe-t-il quand on double- clique sur un fichier? Au niveau du système d'exploitation, il y a des "associations" entre des extensions de nom de fichier et des programmes: quand on double-clique sur un fichier, c'est le programme associé à son extension qui démarre En principe, ce programme est capable d’interpréter correctement le contenu du fichier (i.e. d’en comprendre le format)
Copyright © Yves Marcoux - Reproduction interdite5 (suite) Pour bien marcher, cette mécanique suppose une correspondance systématique entre extensions et formats. Par exemple:.doc fichiers Word.xls fichiers Excel.ppt présentations PowerPoint.mp3 sons codés en MP3 etc.
Copyright © Yves Marcoux - Reproduction interdite6 Formats de fichiers Format = ensemble de conventions permettant d'interpréter correctement le contenu d'un fichier Souvent, on confond le format d'un fichier avec le logiciel utilisé pour le créer, mais cela est parfois trompeur Ex.: Word permet de créer des documents en format Word, mais aussi des fichiers texte, des fichiers HTML, etc.
Copyright © Yves Marcoux - Reproduction interdite7 (suite) Le format d'un fichier n'est pas déterminé par l'extension présente dans son nom de fichier (ex: ".doc" pour les documents en format Word) Ex.: Si on renomme un document Word de " test.doc " à " test.txt ", son format ne change pas
Copyright © Yves Marcoux - Reproduction interdite8 (suite) Les conventions qui associent certaines extensions à certains formats ne sont pas toujours respectées par les créateurs de fichiers (humains ou logiciels) Par exemple, on reçoit parfois (par courriel ou autrement) un fichier dont l’extension ne respecte pas les conventions habituelles
Copyright © Yves Marcoux - Reproduction interdite9 Comment déterminer le format d'un fichier? L'extension dans le nom de fichier est habituellement une bonne indication (mais, encore une fois, pas absolue) Si on soupçonne que l'extension ne correspond pas au format selon les conventions habituelles, on peut essayer d'ouvrir le fichier avec différents logiciels de lecture
Copyright © Yves Marcoux - Reproduction interdite10 (suite) On peut ouvrir le fichier avec un outil comme BlocNotes ou VMH, regarder son contenu en texte ou en hexadécimal et essayer de deviner son format Sous Unix: commande « file » fait de son mieux Seule façon infaillible: le créateur ou l'expéditeur du fichier en indique le format dans la documentation d’accompagnement (p.ex. dans le texte du courriel pour un fichier joint)
Copyright © Yves Marcoux - Reproduction interdite11 (suite) Parfois, l'extension correspond au format du fichier, mais le poste de travail utilisé ne dispose pas d'un logiciel capable de lire ce format Ex.: formats spécialisés de dessins CAO (conception assistée par ordinateur) Dans ce cas, le fichier est illisible (autrement « qu’en brut » avec BlocNotes ou VMH) tant qu'on n'a pas installé un tel logiciel
Copyright © Yves Marcoux - Reproduction interdite12 Exemple Dans Windows, par défaut, l'extension.txt est associée au logiciel Bloc-notes Cette association convient pour les fichiers texte selon le jeu de caractères Windows ou un des trois jeux Unicode standard (UTF-8, UTF-16-BE, UTF-16-LE) Mais l'extension.txt est souvent utilisée pour d'autres jeux (ex. DOS)
Copyright © Yves Marcoux - Reproduction interdite13 (suite) Alors, on peut essayer de trouver le jeu de caractères en ouvrant le fichier dans Bloc- notes (en jouant avec la police) ou Word (avec confirmation des conversions à l'ouverture) Exemple: chateau.dos.txt (utiliser police "Terminal" dans Bloc-notes pour le visualiser correctement)chateau.dos.txt
Copyright © Yves Marcoux - Reproduction interdite14 Recherche de fichiers avec Windows Recherche dans le contenu des fichiers Windows utilise un "filtre", déterminé par l'extension du nom de fichier, pour extraire un contenu textuel du fichier et recherche dans ce contenu Réussit à extraire un contenu textuel même à partir d'images, de sons, de documents Word, etc. (montrer exemples)
Copyright © Yves Marcoux - Reproduction interdite15 (suite) Recherche dans des fichiers portant l'extension.txt –OK si ce sont des fichiers texte selon le jeu de caractères Windows ou un des trois jeux Unicode standard –Autrement: n'importe quoi! –Exemple avec fichier texte DOS et fichier image renommé avec l'extension.txt
Copyright © Yves Marcoux - Reproduction interdite16 Malgré ces limites... La fonction recherche de Windows est intéressante et utile Peut être accélérée via indexation par le Service d'indexation de Windows Si indexée, permet des opérations de recherche sophistiquées: opérateurs booléens, caractères génériques, proximité, mots vides, etc. [Ces possibilités sont à peine effleurées dans le TP2.]
Copyright © Yves Marcoux - Reproduction interdite17 (suite) Les mots « vides » exclus de la fonction de recherche indexée de Windows XP sont donnés par un fichier texte dans le dossier c:\windows\system32\ (l’extension correspond à la langue): Exemples: noise.fra noise.fra (français) noise.chs noise.chs (chinois simplifié)
Copyright © Yves Marcoux - Reproduction interdite18 (suite) Permet de combiner des critères de contenu avec des critères sur les métadonnées « système » et « d’application » (p.ex. « bureautiques ») des fichiers …
Copyright © Yves Marcoux - Reproduction interdite19 Métadonnées système Pas stockées dans le fichier lui-même, mais dans le dossier qui le contient Incluent, pour tous les fichiers: –Nom du fichier –Dates de création, dernière modification –Nom d'usager du créateur –Taille (en octets) –Propriétés "caché", "lecture seulement", etc.
Copyright © Yves Marcoux - Reproduction interdite20 (suite) Pour certaines extensions, il peut y avoir d'autres métadonnées système Ex.: pour.txt : –Titre –Objet –Catégorie –Mots-clés –Commentaires –Source –Auteur –Numéro de révision
Copyright © Yves Marcoux - Reproduction interdite21 (suite) Certaines métadonnées système sont visibles directement dans l'explorateur Windows, d'autres ne sont accessibles que via la fenêtre "propriétés" du fichier Certaines sont en lecture seule; d'autres modifiables par l'utilisateur
Copyright © Yves Marcoux - Reproduction interdite22 (suite) Largeur des colonnes pour avoir l'affichage complet de la taille des fichiers dans l'explorateur Windows Fenêtre "propriétés" du fichier pour avoir la taille exacte, à l'octet près
Copyright © Yves Marcoux - Reproduction interdite23 Unités de mesure pour la taille des fichiers 1 octet = 8 bits 1 kilo-octet (ko) = 1000 octets 1 mégaoctet (Mo) = 1000 kilo-octets 1 gigaoctet (Go) = 1000 méga-octets 1 téraoctet (To) = 1000 giga-octets Préfixes du Système International (SI)
Copyright © Yves Marcoux - Reproduction interdite24 Métadonnées d’application (p.ex. bureautiques) Pour documents bureautiques, images, sons, … Incluent: titre, objet, auteur, mots-clés, commentaires, etc. Stockées dans les documents (fichiers) et gérées par l'application concernée, mais aussi accessibles aux onglets "résumé" et "personnaliser" de la fenêtre "propriétés" des fichiers Certaines sont en lecture seule; d'autres sont modifiables par l'utilisateur
Copyright © Yves Marcoux - Reproduction interdite25 Exemple de fenêtre de propriétés d'un document Word, montrant certaines des métadonnées Office:
Copyright © Yves Marcoux - Reproduction interdite26 Recherche avancée d'Office Accessible à partir de toutes les composantes d'Office (Fichier => Ouvrir => Outils => Rechercher) Opérations de recherche sophistiquées (opérateurs booléens, caractères génériques, mots vides, etc.) Liste de mots vides: Office-2003-mots- vides.txt (non modifiable)Office-2003-mots- vides.txt
Copyright © Yves Marcoux - Reproduction interdite27 (suite) Peut aussi être accélérée via indexation par le Service d'indexation de Windows Explorée dans le TP2 (en séquentiel seulement) Permet aussi de combiner des critères de contenu avec des critères sur les métadonnées système et des critères sur les métadonnées Office
Copyright © Yves Marcoux - Reproduction interdite28 Limites de la recherche avancée d'Office Malgré sa puissance, elle n'effectue que de la recherche de fichiers (et non de passages à l'intérieur de fichiers) Peu paramétrable (ex.: mots vides) Pour une recherche plus fine, on a besoin d'un outil spécialement conçu pour la recherche d'information textuelle: un logiciel de recherche en texte intégral (LRTI), tel NatQuest Pro
Copyright © Yves Marcoux - Reproduction interdite29 Fonction "Récupérer le texte" à l'ouverture d'un fichier dans Word Exemple de fichier joint sans extension