Internet : la mémoire courte ? Capture de sites Web en ligne Conférence B.N.F, Avril 2004 Xavier Roche(HTTrack)

Slides:



Advertisements
Présentations similaires
Bratec Martin ..
Advertisements

NOTIFICATION ÉLECTRONIQUE
Fragilité : une notion fragile ?
SEMINAIRE DU 10 AVRIL 2010 programmation du futur Hôtel de Ville
Phono-sémantique différentielle des monosyllabes italiens
MAGGIO 1967 BOLOGNA - CERVIA ANOMALIES DU SOMMEIL CHEZ L'HOMME
droit + pub = ? vincent gautrais professeur agrégé – avocat
Transcription de la présentation:

Internet : la mémoire courte ? Capture de sites Web en ligne Conférence B.N.F, Avril 2004 Xavier Roche(HTTrack)

Internet : la mémoire courte ? 2 Pourquoi copier des sites web? Archivage pour conservation et/ou historisation Archivage pour raisons légales Miroirs de sites pour des raisons de redondance Copies pour une mise à disposition non connectée Copies par des particuliers (copie privée) Agents intelligents, stress de réseaux, validation de liens cassés ou des liens externes, plan du site…

Internet : la mémoire courte ? 3 Le « Web », quest-ce que cest ? Internet WWW HTTP https: HTTPS news: FTP mailto : ftp: News Ressources locales (fichiers) http: file: Fichiers

Internet : la mémoire courte ? 4 Un « serveur Web », quest-ce que cest? Fichiers, archives Base de données Traitements Éléments extérieurs (capteurs, etc.) Serveur Web ContenusRequêtes et contenus Client

Internet : la mémoire courte ? 5 Le serveur web: un « livreur » de contenus Fichiers, archives Base de données Traitements Éléments extérieurs (capteurs, etc.) Serveur Web ContenusRequêtes et contenus Client « Page Web» table_001 template.php

Internet : la mémoire courte ? 6 Les documents hypertexte

Internet : la mémoire courte ? 7 Les liens hypertexte

Internet : la mémoire courte ? 8 Copie locale dun « site Web» ?

Internet : la mémoire courte ? 9 Ressources locales (fichiers) Copie locale dun « site Web» template.php template2.php … table_001 table_002 … Serveur Web disque local

Internet : la mémoire courte ? 10 Le « nommage » local des fichiers en ligne copiés

Internet : la mémoire courte ? 11 Nommage des fichiers copiés -Exemple: fichier html Windows Linux/Unix

Internet : la mémoire courte ? 12 Nommage : restrictions -Nommage des fichiers comportant des « caractères spéciaux »

Internet : la mémoire courte ? 13 Nommage : duplications -Duplication de noms +

Internet : la mémoire courte ? 14 Nommage : solutions -Résoudre les collisions + +

Internet : la mémoire courte ? 15 Modification des liens hypertexte

Internet : la mémoire courte ? 16 Les problèmes apparaissent!

Internet : la mémoire courte ? 17 Les problèmes apparaissent! -Les liens: <a href= "page 2.html"> >

Internet : la mémoire courte ? 18 Les problèmes apparaissent! -Les formulaires:

Internet : la mémoire courte ? 19 Les problèmes apparaissent! -Les formulaires (suite) :

Internet : la mémoire courte ? 20 Les problèmes apparaissent! -Javascript :

Internet : la mémoire courte ? 21 Les problèmes apparaissent! -Java :

Internet : la mémoire courte ? 22 Les problèmes apparaissent! -Flash :

Internet : la mémoire courte ? 23 Les problèmes apparaissent! -Fichiers hypertextes vs binaires (Java/Flash) : un fichier html un fichier « flash »

Internet : la mémoire courte ? 24 Les problèmes apparaissent! -« Horodatage » intégré aux liens hypertexte -Liens multiples vers un seul document Etc etc etc

Internet : la mémoire courte ? 25 Aperçu de quelques autres problèmes Taille limite des fichiers Gestion des erreurs, des liens cassés Sites protégés par mot de passe Sites utilisant des « cookies » / des sessions Fichiers locaux « Intranet » (file://) Sites sécurisés (HTTPS) Sites ftp Sites accessibles via Ipv6 uniquement (recherche, universités)

Internet : la mémoire courte ? 26 Mise à jour ?

Internet : la mémoire courte ? 27 Mise à jour ? Document capturé le 15/01/2004 à 17h32 Une version plus récente est-elle disponible aujourdhui ? Économie de bande passante Économie de temps Économie despace de stockage

Internet : la mémoire courte ? 28 Mise à jour « incrémentale » (1) document mis à jour depuis le 15/01/2004 à 17h32? interrogation du système de fichiers oui, nouveau document disponible

Internet : la mémoire courte ? 29 Mise à jour « incrémentale » (2) le document « 098f6bcd4621 d373cade4e b4f6 » est il périmé ? interrogation de la base de donnée oui, je vous transmet le document « ad b ba81 8f7a872b»

Internet : la mémoire courte ? 30 Les précautions à prendre lors de la capture dun site

Internet : la mémoire courte ? 31 Les précautions à prendre : surcharge du site Limiter la bande passante et le nombre de connexions simultanées!

Internet : la mémoire courte ? 32 Les précautions à prendre : aspects légaux ? Copie privée / publique ? Protection du site ? (loi n° du 1er juillet 1992, art l du CPI) Statut dun aspirateur de sites Web ? Navigateur?Robot?Proxy-cache?

Internet : la mémoire courte ? 33 Conclusion …