La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

StatutLogiciel gratuit, sous license GPL Communauté dutilisateursImportante (université de Laval, …) Quelques sites de référence utilisant le même moteur.

Présentations similaires


Présentation au sujet: "StatutLogiciel gratuit, sous license GPL Communauté dutilisateursImportante (université de Laval, …) Quelques sites de référence utilisant le même moteur."— Transcription de la présentation:

1 StatutLogiciel gratuit, sous license GPL Communauté dutilisateursImportante (université de Laval, …) Quelques sites de référence utilisant le même moteur avec robot d'indexation : - Université de Laval Canada - Conseil du Trésor du Canada - La bibliothèque de l'Université de Berkeley - Direction de la Documentation Française... NatureMoteur de recherche Caractéristiques fonctionnelles Le « Moteur Automatisé de Recherche et de Classement Électronique des Liens » permet dindexer, de référencer et de rechercher les ressources sur des sites internet présélectionnés. Il est totalement paramétrable car le code est Open Source. Caractéristiques techniques Basé sur Swish-e (Simple Web Indexing System for Humans – Enhanced) Système Windows ou Linux Travail en ligne de commande et par interface Perl. Url de téléchargementhttp://swish-e.org/ Url de documentationhttp://swish-e.org/ Url du moteur MARCELwww.moteurmarcel.fr Fiche Veille Moteur M.A.R.C.E.L.

2 Installation, paramétrage, tests Niveau installateurIngénieur expérimenté Temps dinstallation3 jours (serveur linux, logiciel, site web) Temps de paramétrage30 jours pour 57 sites de lUMVF Programmation externe20 jours de programmation pour les utilitaires complémentaires (mise en base de données, exploitation, mise en forme) Rédaction1 jour Installation Veille Moteur M.A.R.C.E.L.

3 CISMEF Canal U Médecine Campus Anatomie Pathologique Campus Biologie Cellulaire Campus Microbiologie Campus Cancérologie Campus de Chirurgie Maxillo-faciale et Stomatologie Campus Histologie Campus Gériatrie Campus Hepato-Gastro-Entérologie Campus Médecine et Chirurugie vasculaire Campus Dermatologie Campus Gynécologie Campus Hematologie Campus Médecine du Travail Campus Neurochirurgie Campus Neurologie Campus Nutrition Campus Ophtalmologie Campus ORL Collège Français des Enseignants ORL et CCF Campus Parasitologie-Mycologie Campus Pédiatrie et Chirurgie Pédiatrique Campus Réanimation Campus Rhumatologie Campus Urologie Campus Numérique Francophone de Tunis Urgences online Staticmed Université Claude Bernard - Lyon Université Virtuelle Paris 5 Université Virtuelle de Médecine du travail Université Paris VI Faculté de Médecine de Besançon Besancon-Cardio Université de Grenoble Université Rennes 1 Université de Angers Université de Brest Université de Limoges Faculté de Médecine Amiens Oncoranet Faculté de Médecine de Caen Faculté de Médecine de Clermont-Ferrand Faculté de Médecine de Dijon Faculté Libre de Médecine de Lille Faculté de Médecine de Lille2 Faculté de Médecine de Marseille Faculté de Médecine de Montpellier Faculté de Médecine de Nancy Faculté de Médecine Paris XI Kremlin Bicetre Faculté de Médecine Paris XIII Faculté de Médecine Paris Ouest Faculté de Médecine de Reims Faculté de Médecine de Rennes 1 Faculté de Médecine de Strasbourg Conférence Hippocrate Installation Veille Moteur M.A.R.C.E.L. Liste des sites paramétrés dans le moteur MARCEL

4 Mode opératoire Nous avons réalisé le moteur MARCEL sous système Linux Debian. 1. Installation de base Installation dune configuration Linux Debian Installation dApache 2 Installation php5 Installation swish-e : suivre la procédure fournie par « linstallateur de paquetage » de linux Installation kcron : suivre la procédure fournie par « linstallateur de paquetage » de linux Installation des modules de conversion qui permettent en théorie dindexer tout ce qui peut lêtre : htlm, php, asp, doc, txt, pdf, ppt… : suivre la procédure fournie (exemple : xpdf pour pdf) Cette installation ne se fait quune fois Installation Veille Moteur M.A.R.C.E.L.

5 Installation Veille Moteur M.A.R.C.E.L. 2. Paramétrage Pour chacun des sites à indexer, sont créés trois fichiers de configuration : - site.conf - site.config - Fichier autoexecutable à utiliser avec kcron pour automatiser le lancement de lindexation selon le rythme choisi pour chaque site. Ces fichiers sont regroupés dans des répertoires distincts. Exemple des répertoires contenants les fichiers site.conf et site.config

6 1. FICHIER SITE.CONF : pour chaque site à indexer IndexDir spider.pl IndexName Nom du site" IndexDescription Description du site" IndexFile /var/www/site/index/nomdelindex.idx FilterDir /usr/local/share/doc/swish-e/examples/prog-bin/ SwishProgParameters site.config Metanames swishtitle swishdocpath FileFilter.doc /usr/bin/catdoc FileFilterMatch.ppt "/usr/bin/ppthtml" "'%p'" IndexReport 4 StoreDescription TXT* 10000 StoreDescription HTML* 10000 Installation Veille Moteur M.A.R.C.E.L.

7 2. FICHIER SITE.CONFIG : pour chaque site à indexer my ($filter_sub, $response_sub) = swish_filter(); @servers = ( { base_url => 'http://www.adressedusite.com/', email => 'robot@marcel.com', use_default_config => 1, max_depth => 5, test_response => $response_sub, use_head_requests => 1, # Due to the response sub filter_content => $filter_sub, }); Installation Veille Moteur M.A.R.C.E.L.

8 Installation Veille Moteur M.A.R.C.E.L. 3. Création dun fichier AUTOEXECUTABLE pour lancer lindexation automatiquement avec kcron : Cet auto-executable permettra le lancement automatique de site.config, x fois par jour ou par mois, en fonction du taux de renouvellement des ressources et de contrôle des liens cassés.

9 4. Utilisation des données par lUMVF Plusieurs milliers de ressources ont été obtenues sur les sites facultaires de médecine par le technicien de lUMVF en se servant du moteur. Ces données ont été transférées à Rouen. Cela a supposé des programmes complémentaires concernant : - lextraction des données dune recherche avec le moteur - limportation de ces données dans une base de données MySQL - la réalisation dune console dadministration de la base de donnée A partir de cette console, il est possible de trier, rajouter des informations, supprimer des données, … Installation Veille Moteur M.A.R.C.E.L. Ce logiciel propriétaire Php a été développé pour lumvf (20 jours). Il est couplé à une banque de données MySql. Cet ensemble a été installé sur le serveur Marcel. Items de la base de données : Titre Url(s) Auteur(s) Site éditeur Contenu Langue(s) Pays/Ville Professionnnels Etudiants : - Cycle(s)2; 3; - Annee(s)Externat, Résidanat et Internat de Médecine; - Diplome(s); - Module(s)Toutes spécialités médicales; Discipline(s) Mot(s) clé(s) Type(s) de ressource Tarif Accès Format(s) Date de création (ou révision majeure) Date de mise à jour Logiciels complémentaires

10 On recueille donc autant de fichiers index - que de robots - que de sites explorés Ces fichiers index sont hébergés sur le serveur. Environ 150 Mo sont nécessaires pour une trentaine de sites. Veille Moteur M.A.R.C.E.L. Exploitation Le robot, après avoir indexé le serveur de documents de Rennes1, a référencé 394291 mots en 1mn31 !

11 Veille Moteur M.A.R.C.E.L. Exploitation www.moteurmarcel.fr

12 Veille Moteur M.A.R.C.E.L. Exploitation Page type de résultats

13 terme « médecine » : - 1887 réponses - 0.009 secondes de recherche sur le serveur - 0.635 secondes pour ramener le résultat au demandeur * test réalisé sur un ordinateur portable connecté par wifi à une connexion ADSL 10Mo Veille Moteur M.A.R.C.E.L. Exploitation Un résultat parmi dautres

14 Commentaires – intérêt pour lumvf Intérêt majeur : Maîtrise complète dune solution dindexation et de recherche, dont lUMVF est entièrement propriétaire. 1) Technologie de moteur de recherche maîtrisée de A à Z par lUMVF. 2) Possibilité de programmer les robots finement (on peut demander au robot de nindexer quune partie dun site, alors que nous ne maîtrisons pas les robots dindexation dans des solutions type Google Custom Search Engine. 3) Sensibilité et Spécificité très importante des réponses (réglable). 4) Moteur puissant, fiable, évolutif en fonction des besoins et de la programmation des robots. 5) Interface entièrement paramétrable. 6)Critères de classement des résultats paramétrable : création dun script qui recueille les requêtes les plus fréquentes sur les différents sites de lUMVF afin de lintégrer au script qui établie le « ranking ». 7) Indexation individualisée pour chaque site. Possibilité de créer des groupes de recherche (par faculté, par campus, par thème par exemple). Veille Moteur M.A.R.C.E.L.

15 Annexes techniques Veille Moteur M.A.R.C.E.L.

16 Fichier de configuration dun robot dindexation. A noter ici la possibilité de demander au robot dexplorer certaines adresses à des niveaux plus ou moins profonds. Veille Moteur M.A.R.C.E.L. Annexes

17 Fichier de configuration dun robot. A noter la possibilité dignorer ou de référencer certains types de documents. Veille Moteur M.A.R.C.E.L. Annexes

18 Un robot en train dindexer le campus de Rhumatologie à Lilles Veille Moteur M.A.R.C.E.L. Annexes

19 Le robot après avoir indexé le serveur de documents de Rennes1. A noter quil a référencé 394291 mots en 1mn31 ! Veille Moteur M.A.R.C.E.L. Annexes

20 Fréquence des mises à jour Une mise à jour complète prend moins de deux heures Possibilité délaborer un script - pour une mise à jour automatique - pour une mise à jour en fonction de larrivée de nouvelles informations Possibilité dindexer tout en permettant les recherches simultanément Le système « butine » lensemble de lUMVF, ce quaucun humain ne peut faire aussi rapidement et régulièrement. Veille Moteur M.A.R.C.E.L. Annexes

21 Veille Moteur M.A.R.C.E.L. Tri de linformation (1) Algorythme modifiable Actuellement : - fréquence dapparition du mot dans le texte - RANK_TITLE 7 - RANK_HEADER 5 - RANK_META 3 - RANK_COMMENTS 1 META : SCORM +++ UMVF : Université Médicale Virtuelle Francophone ……… Annexes

22 Possibilité simple de retrouver facilement linformation : RENSEIGNER LE TITRE +++ Faculté, Titre du document, Module… Possibilité plus complexe : Utiliser des metas Adhésion des webmestres +++ Veille Moteur M.A.R.C.E.L. Tri de linformation (2) Tri de linformation (3) Le must : créer un script qui recueille les requêtes les plus fréquentes sur les différents sites de lUMVF afin de lintégrer au script qui établie le « ranking ». Le moteur de recherche de lUMVF serait assez similaire à Google !!! Tri de linformation (4) Le must : créer un script qui recueille les requêtes les plus fréquentes sur les différents sites de lUMVF afin de lintégrer au script qui établie le « ranking ». Le moteur de recherche de lUMVF serait assez similaire à Google !!! On peut également créer un script qui classe les documents en fonction de lintérêt signalé par les utilisateurs de ladaptation dune ressource à leurs besoins (de 1 à 4 étoiles). Annexes


Télécharger ppt "StatutLogiciel gratuit, sous license GPL Communauté dutilisateursImportante (université de Laval, …) Quelques sites de référence utilisant le même moteur."

Présentations similaires


Annonces Google