Internet : la mémoire courte ? Capture de sites Web en ligne Conférence B.N.F, Avril 2004 Xavier Roche(HTTrack)
Internet : la mémoire courte ? 2 Pourquoi copier des sites web? Archivage pour conservation et/ou historisation Archivage pour raisons légales Miroirs de sites pour des raisons de redondance Copies pour une mise à disposition non connectée Copies par des particuliers (copie privée) Agents intelligents, stress de réseaux, validation de liens cassés ou des liens externes, plan du site…
Internet : la mémoire courte ? 3 Le « Web », quest-ce que cest ? Internet WWW HTTP https: HTTPS news: FTP mailto : ftp: News Ressources locales (fichiers) http: file: Fichiers
Internet : la mémoire courte ? 4 Un « serveur Web », quest-ce que cest? Fichiers, archives Base de données Traitements Éléments extérieurs (capteurs, etc.) Serveur Web ContenusRequêtes et contenus Client
Internet : la mémoire courte ? 5 Le serveur web: un « livreur » de contenus Fichiers, archives Base de données Traitements Éléments extérieurs (capteurs, etc.) Serveur Web ContenusRequêtes et contenus Client « Page Web» table_001 template.php
Internet : la mémoire courte ? 6 Les documents hypertexte
Internet : la mémoire courte ? 7 Les liens hypertexte
Internet : la mémoire courte ? 8 Copie locale dun « site Web» ?
Internet : la mémoire courte ? 9 Ressources locales (fichiers) Copie locale dun « site Web» template.php template2.php … table_001 table_002 … Serveur Web disque local
Internet : la mémoire courte ? 10 Le « nommage » local des fichiers en ligne copiés
Internet : la mémoire courte ? 11 Nommage des fichiers copiés -Exemple: fichier html Windows Linux/Unix
Internet : la mémoire courte ? 12 Nommage : restrictions -Nommage des fichiers comportant des « caractères spéciaux »
Internet : la mémoire courte ? 13 Nommage : duplications -Duplication de noms +
Internet : la mémoire courte ? 14 Nommage : solutions -Résoudre les collisions + +
Internet : la mémoire courte ? 15 Modification des liens hypertexte
Internet : la mémoire courte ? 16 Les problèmes apparaissent!
Internet : la mémoire courte ? 17 Les problèmes apparaissent! -Les liens: <a href= "page 2.html"> >
Internet : la mémoire courte ? 18 Les problèmes apparaissent! -Les formulaires:
Internet : la mémoire courte ? 19 Les problèmes apparaissent! -Les formulaires (suite) :
Internet : la mémoire courte ? 20 Les problèmes apparaissent! -Javascript :
Internet : la mémoire courte ? 21 Les problèmes apparaissent! -Java :
Internet : la mémoire courte ? 22 Les problèmes apparaissent! -Flash :
Internet : la mémoire courte ? 23 Les problèmes apparaissent! -Fichiers hypertextes vs binaires (Java/Flash) : un fichier html un fichier « flash »
Internet : la mémoire courte ? 24 Les problèmes apparaissent! -« Horodatage » intégré aux liens hypertexte -Liens multiples vers un seul document Etc etc etc
Internet : la mémoire courte ? 25 Aperçu de quelques autres problèmes Taille limite des fichiers Gestion des erreurs, des liens cassés Sites protégés par mot de passe Sites utilisant des « cookies » / des sessions Fichiers locaux « Intranet » (file://) Sites sécurisés (HTTPS) Sites ftp Sites accessibles via Ipv6 uniquement (recherche, universités)
Internet : la mémoire courte ? 26 Mise à jour ?
Internet : la mémoire courte ? 27 Mise à jour ? Document capturé le 15/01/2004 à 17h32 Une version plus récente est-elle disponible aujourdhui ? Économie de bande passante Économie de temps Économie despace de stockage
Internet : la mémoire courte ? 28 Mise à jour « incrémentale » (1) document mis à jour depuis le 15/01/2004 à 17h32? interrogation du système de fichiers oui, nouveau document disponible
Internet : la mémoire courte ? 29 Mise à jour « incrémentale » (2) le document « 098f6bcd4621 d373cade4e b4f6 » est il périmé ? interrogation de la base de donnée oui, je vous transmet le document « ad b ba81 8f7a872b»
Internet : la mémoire courte ? 30 Les précautions à prendre lors de la capture dun site
Internet : la mémoire courte ? 31 Les précautions à prendre : surcharge du site Limiter la bande passante et le nombre de connexions simultanées!
Internet : la mémoire courte ? 32 Les précautions à prendre : aspects légaux ? Copie privée / publique ? Protection du site ? (loi n° du 1er juillet 1992, art l du CPI) Statut dun aspirateur de sites Web ? Navigateur?Robot?Proxy-cache?
Internet : la mémoire courte ? 33 Conclusion …