SOUTENANCE D’HDR La recherche d’information sur Internet au prisme de la théorie des facettes Eric Boutin le 9 Octobre 2008
Plan de l’exposé I- La recherche d’information sur Internet au prisme de la théorie des facettes Contexte Théorie des facettes Méthode expérimentale Résultats II- Projet de recherche Ancrage en SIC & transversalité Étude et utilisation des réseaux Méthodologie
Une démarche intuitive à l’origine de mon objet d’étude Une même requête… …différentes attentes Handicap Dossier de veille Exposé pour la maîtresse … Attaques Informationnelles
Intégration d’indicateurs au prototype Lisibilité Accessibilité Polarité Subjectivité … Indicateurs Facetmap
Problématique : Proposer un indicateur de pertinence centré sur l’utilisateur WEB Web Google : Une vision unique & globale du monde Objectif : plusieurs vues du monde … selon le contexte
Classifications : hiérarchique / à facettes (DDC) Exemple : code désignant les maladies virales du riz 633 189 8 633 = céréales 633.18 = riz 633.189 = maladies du riz 633.189.8 = maladies du riz d’origine virale « Pigeon hole » Ranganathan - 1924
Classifications : hiérarchique / à facettes (Colon) Exemple : code désignant les maladies virales du riz EJ,381;421:5 Chaque objet est décrit par 5 facettes : P : personnalité M : matière E : énergie S : espace T : temps EJ = agriculture : facette principale 381 = riz : facette Personnalité 421 = maladie virale : facette Matière 5 = éradication : facette Énergie Démonstration de legos à l’origine de la théorie des facettes en 1924 D’après Garfield (1984)
Méthodologie PSYCHOLOGIE APPLIQUEE LINGUISTIQUE COMPUTATIONNELLE Marqueurs candidats Lisibilité Accessibilité Polarité Subjectivité Indicateurs outils dico Richesse lexicale Nombre de syllabes par mot Nombre de mots par phrase Université Descartes Dico occurrences Balise textuelle par image Contrastes entre couleurs Dico de valence Univ. Catho. de Louvain Dép. de psychologie Polarité des termes Rôle des pronoms personnels (je) Marques de ponctuation (!) Nombre d’adjectifs par phrase Verbe au conditionnel Adresse URL du site TextPipe Pro WebPipe Pro FOUILLE DE DONNEES TEXTUELLES
Méthode expérimentale : exemple polarité Aspiration de pages web WebPipe Pro Corpus de pages Dictionnaire De valence Dictionnaire langue Qualification automatique négative neutre positive négative Pages consensuelles Qualification humaine Test de Concordance De Kappa
Résultats par facette Lisibilité Accessibilité Polarité Subjectivité Pages consensuelles 80 % … 61 % Concordance Humain / Machine 66 % 65 % 85 %
Positionnement de ce travail Ancrage en SIC et transversalité S’adapter pour survivre Avoir des logiques transversales Étude et utilisation des réseaux Comprendre et traiter les réseaux Travailler en réseau Méthodologie Utiliser une méthodologie de constitution d’état de l’art Effectuer une veille scientifique efficace
La fragmentation des savoirs Quantité d’information disponible Temps D’après Swanson - 1986 Importance des logiques transversales
Logiques transversales de ce mémoire Application à la recherche d’information Documentation Théorie des facettes HDR Médecine psychologie Test de Kappa Usage des TIC Valence, subjectivité, lisibilité, accessibilité Science du web Linguistique computationnelle Psychologie
Logiques transversales de mon cursus Théorie de l’Engagement Information / Communication Théorie des organisations Sémiologie Culture COMMUNICATION 5 6 14 7 7 INFORMATION 7 5 9 cursus 1995-1997 1998-2000 2001-2003 2004-2006 2007-2008 PSYCHO ; SOCIO LINGUISTIQUE ; GESTION Linguistique Psychologie Sociologie Gestion
Logiques transversales des doctorants co-encadrés 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 Hajer, Maher, Dang Hanene Intelligence Economique et Territoriale Pedro Franck Philippe Roberto Pei C C C C Analyse réseau Jean Pierre Découverte de connaissances Jean Do Médiatisation Eve Guillaume Mohamed Sciences du web C Natacha Stéphane C Thèse en cotutelle
Réseau des collaborations depuis 1999 A : laboratoire Crrm ou doctorants de Luc Quoniam B laboratoire I3M site de Toulon + Gallezot C 2 chercheurs du Loria D Chercheurs de l’Université de Commerce du Vietnam E école normale de Shanghai Eric Boutin Légende Sociopro doctorant 45 collaborations MCF ou PR
Contrats de recherche Détermination automatique de la polarité de pages web sur le web chinois 2008 Découverte de connaissances dans le domaine médical 2005-2007 Prise en compte de facteurs colorimétriques dans l’indicateur de pertinence des moteurs de recherche 2006 2005 Étude du Web public en région PACA Élaboration d’un booster de pertinence de moteur de recherche 2000-2004
Construction de l’état de l’art : méthode Liste de réponses 1 2 3 4 5 6 7 8 9 10 … N disjoint Ma biblio 66 44 57 Interactions = collaboration, citation, concept commun
Vers une veille scientifique Front de recherche Base intellectuelle Analyse de citation Analyse réseau Indicateur de centralité
Limites, prolongements … perspectives Caractère réducteur des facettes Limite de l’interface Prolongements : Académiques : publications scientifiques Valorisation industrielle Perspectives de recherche : D’autres chantiers dans le domaine des sciences du web Collaborations internationales en Asie et au Maghreb