Classification automatique en Web Usage Mining

Slides:



Advertisements
Présentations similaires
Nouvelles Séries RS, R & RT
Advertisements

ISA–The Instrumentation, Systems, and Automation Society District 12 - Section France L'ISA en Bref …
Dépôt électronique de dessins/modèles: Niveau(x) de services offerts
Réalisé par Frédéric TRAN
Atlas cartographique du Sandre
Le sondage LibQUAL à HEC Montréal Une première expérience réussie qui sintègre au processus de planification stratégique de la bibliothèque Le sondage.
interaction in the .LRN platform
Internet.
Formation au portail SIMBAD
Enter Title of Presentation Here
09/03/2014 EF Installations de suivi environnemental Draft data specification Version 2.0 TWG EF Facilitators: Franz Daffner, Sylvain Grellet.
JOME, un Composant Logiciel pour le Télé-Enseignement des Mathématiques via le WEB, Compatible OpenMath et MathML Laurent DIRAT OVE / I3S-UNSA.
Isabelle Franchistéguy-Couloume CREG-UPPA IUT de Bayonne - Pays Basque
LA FORMATION DE LENSEIGNANT LENQUÊTE ECPALE MODULE PEDAGOGIQUE LA CONNAISSANCE ET LE RÔLE DE LENQUÊTE UN SUPPORT POUR COMPRENDRE LACCIDENT.
1 Projets Contexte - Motivations Nouveau site web Remise en forme de la plaquette pédagogique Support de cours informatique Support de cours électronique.
Analyse des proximités, des préférences et typologie Michel Tenenhaus.
1 La mesure MESURE & QUALITE De la mesure …. La mesure 2 Sommaire 1. Problématique 2. Démarche 3. Zéro défaut 4. Résolution des non-conformités.
La gestion des contenus d'apprentissage par les compétences
Impact économique des sports de nature CDESI Hautes-Pyrénées Tarbes, le 2 avril 2009.
Les créations pures et reprises dentreprises dans lAube : Situation en 2006 (1/2) Nombre total de créations pures : 349 Agglomération Troyenne
جامعــــــة محمد خيضــــــــــــر
Analyse de fichiers logs Web ~ Projet LP STID ~ Encadrants: Sergiu Chelcea, Brigitte Trousse Projet AxIS, INRIA Sophia Antipolis {Sergiu.Chelcea,
Intégration et visualisation de données liées sur un référentiel géographique IGN Encadré par: Nathalie Abadie & Fayçal Hamdi Abdelfettah Feliachi.
LOGO Profile Enterprise Java Beans Réaliser par: HAMROUNI Aymen HOUIJI Manel WESLATI Yassine.
Nom du module Date Lieu de la formation. 2 Genèse du projet Historique, partenaires, publics Pour qui ? Pourquoi ? Qui ? Comment ? Quand ?
ORGANISER des Journées Scientifiques A LA SFA Organisation via le secrétariat de la SFA : Evelyne Dewayse soccupe du site web la création du formulaire.
2iE contribution to development in Africa. A strong worldwide attractivity on-site learning: applications from 36 countries e-learning : applications.
User management pour les entreprises et les organisations Auteur / section: Gestion des accès.
Français I Leçon 2B Une semaine au lycée Au Debut #7 (for the dates of November 5 and 6) Please Translate the Following: 1. I love the math course. (Adorer.
Gestion de la communication par établissement sur le site ville
Monique THONNAT et Nathanaël ROTA Projet ORION
Control des objectifs des technologies de l’information COBIT
PBST*: une nouvelle variante des SDDS
Electronic Portfolio/ Portfolio électronique QPAT
1 Comment utiliser votre Extranet Se connecter 2.My Site 3.Documentation 3.1 Documents dintégration 3.2 Documents types 4.Vos informations privées.
– Search Marketing et Marketing Interactif 1 ère Position – David Degrelle Tel : ou
PRESENTATION POUR LES ELEVES ET PARENTS DE LA CLASSE DE SECONDE
1 of of 40 UPDATE UPDATE ON TV ANTENNAS SINCE LAST BOARD MEETING SINCE LAST BOARD MEETING HELD ON FEBRUARY 25, 2010, YOUR BOARD HAS MADE MORE PROGRESS.
Fire prevention in Luxembourg Performance based fire prevention (Project of Fire engineering Guidelines) Guy Weis Service dIncendie et dAmbulance de la.
OLAP : Un pas vers la navigation
Département fédéral de lintérieur DFI Office fédéral de la statistique OFS La qualité de lemploi en Suisse Silvia Perrenoud Journées suisses de la statistique.
ACDI IUT de Paris – 05 février CR-MD - v1.20 Enquête POST-DUT Informatique 03 1 Les diplômés de 2003 Claude Ratard - Vélizy.
Magnets fiche projet / project sheet IAFACTORY THE MAGNETIC FACTORY magnets. IAFACTORY | conseil en architecture de linformation | |
Vuibert Systèmes dinformation et management des organisations 6 e édition R. Reix – B. Fallery – M. Kalika – F. Rowe Chapitre 4 : Laide à la communication.
Pan-Commonwealth Forum on Open Learning Londres juillet 2008 Compte-rendu - Peter MORTIMER.
IAFACTORY | conseil en architecture de linformation | | |
Interprétation de séquences dimages pour des applications MédiaSpace Alberto AVANZI François BREMOND Monique THONNAT Projet ORION INRIA de Sophia Antipolis.
PLD GHome H4214 Piccolo Thomas Gu Lei Deville Romain Huang Yachen
ETL et Data Mining Présenté par : Marc Catudal-Gosselin Université de Sherbrooke automne 2004 automne 2004.
1. Les structures de documentation pour la division ST. 2. Les types de document dans la division ST. 3. Linterface informatique. Lundi 8 Mai 2000 ST Quality.
Graphe d ’interaction La réalisation du graphe d ’interaction permet d ’assurer l'uniformité des pages et de navigation qui rendent un projet plus fonctionnel.
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
Web sémantique : Web de demain
1 Ressources Bibliographiques Outils Internet pour la Bibliographie 3 Octobre 2008 Contact :
AFRICAN GROUP ON NATIONAL ACCOUNTS AGNA GROUPE AFRICAIN DE COMPTABILITÉ NATIONALE C RÉATION DU R ÉSEAU AFRICAIN DES COMPTABLES NATIONAUX.
Thematic Alignment of Static Documents with Meeting Dialogs Dalila Mekhaldi Diva Group Department of Computer Science University of Fribourg.
Initiation au web dynamique
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
* Source : Étude sur la consommation de la Commission européenne, indicateur de GfK Anticipations.
Groupe de discussion CETIC - 15/12/ De l'indexation plein texte à l'indexation sémantique Le projet RetroWeb Fabrice Estiévenart (CETIC)
10 paires -. 9 séries de 3 étuis ( n° 1 à 27 ) 9 positions à jouer 5 tables Réalisé par M..Chardon.
Modélisation des données Niveau conceptuel DON-2 V0-0.
CALENDRIER-PLAYBOY 2020.
USAM BRIDGE H O W E L L -CLASSIQUE
9 paires séries de 3 étuis ( n° 1 à 27 )
Les réseaux - Internet Historique Réseau local Internet Les protocoles
Département Informatique Les Réseaux Informatiques Plans d’adressage Laurent JEANPIERRE.
F. Pettigrew Télé-université 1 Comment réussir la médiatisation d'un cours à distance ? Audioconférence de la Table pédago-technologique du REFAD 20 novembre.
Transcription de la présentation:

Classification automatique en Web Usage Mining Alzennyr Da Silva CAPES Brésil Université Paris Dauphine Projet AxIS, INRIA Rocquencourt Alzennyr.Da_Silva@inria.fr

Plan Motivation Objectifs Description des données Classifications Résultats Conclusions RIA’s 2006

Motivation Dans de nombreuses situations, les utilisateurs d’un site Web doivent suivre des chemins tortueux pour atteindre les pages qu'ils recherchent, par exemple : les utilisateurs intéressés par des matières qui sont vues comme des matières indépendantes par le Webmaster. Elles sont donc éparpillées sur le site. La présence d’hyperliens peu employés car ils lient les documents qui ne sont jamais consultés ensembles. Ces hyperliens brouillent la piste de recherche d’utilisateurs indécis. RIA’s 2006

Objectifs Les parcours des utilisateurs seront modélisés par des navigations Rechercher et découvrir des groupes de navigations afin de définir des comportements d’utilisateurs sur ce site. Grouper les pages d’un site Web en appliquant la méthode de classification sur les données d’usage Etablir des liens ou des corrélations entre ces comportements d’utilisateurs et des groupes de pages du site Web en fonction de l’usage. RIA’s 2006

Description des données «clickstream» Le site du Centre d’Informatique (CIn) de Recife/Brésil: www.cin.ufpe.br nous servira d’exemple. Ce site est réalisé à partir d’un ensemble de servlets programmées en Java Le site est petit et bien organisé : 91 pages arbre de pages d’une hauteur maximale de 5 Nous avons récupéré les accès au site du 26 Juin 2002 au 26 Juin 2003: le fichier de « logs » contient environ 2 Gbytes de données brutes qui, après prétraitement et nettoyage, représente 1.2 Gbytes RIA’s 2006

Description des données (site Web) RIA’s 2006

Description des données (structure sémantique) Par la conception des pages nous avons une grande diversité de liens. RIA’s 2006

Exemple de fichier log Web Fragment d’un fichier log Web contenant 7 requêtes HTTP (unités élémentaires): Construction d’une navigation 194.78.232.8 - - [10/Sep/2001:15:33:43 +0200] "GET /orion/liens.htm HTTP/1.1" 200 1893 "http://www-sop.inria.fr/orion/index.html" "Mozilla/4.0 (compatible; MSIE 5.0b1; Mac_PowerPC)" lucy.ins.cwi.nl - - [10/Sep/2001:15:34:07 +0200] "GET /stacs2002/ HTTP/1.0" 200 1012 "[unknown origin]" "Mozilla/4.74 [en] (WinNT; U)" lucy.ins.cwi.nl - - [10/Sep/2001:15:34:07 +0200] "GET /stacs2002/home.html HTTP/1.0" 200 483 "[unknown origin]" "Mozilla/4.74 [en] (WinNT; U)" lucy.ins.cwi.nl - - [10/Sep/2001:15:34:09 +0200] "GET /stacs2002/Images/affiche_vierge.jpg HTTP/1.0" 200 281281 "http://www-sop.inria.fr/stacs2002/home.html" "Mozilla/4.74 [en] (WinNT; U)" 194.78.232.8 - - [10/Sep/2001:15:34:09 +0200] "GET /orion/Telescope/Telescope.html HTTP/1.1" 200 4433 "http://www-sop.inria.fr/orion/liens.htm" "Mozilla/4.0 (compatible; MSIE 5.0b1; Mac_PowerPC)" lucy.ins.cwi.nl - - [10/Sep/2001:15:34:10 +0200] "GET /stacs2002/cfp.html HTTP/1.0" 200 10334 "http://www-sop.inria.fr/stacs2002/home.html" "Mozilla/4.74 [en] (WinNT; U)" 194.78.232.8 - - [10/Sep/2001:15:34:23 +0200] "GET /orion/Telescope/Videosurveillance.html HTTP/1.1" 200 2979 "http://www-sop.inria.fr/orion/Telescope/Telescope.html" "Mozilla/4.0 (compatible; MSIE 5.0b1; Mac_PowerPC)" RIA’s 2006

Format standard d’un fichier log [ip] [name] [login] [date] [url] [status] [size] [referrer] [agent] ip adresse électronique de l’utilisateur; cette adresse correspondant souvent au nom de domaine d’un serveur si l’utilisateur est connecté à internet via un fournisseur d’accès ou une entreprise name/login supposent que l’utilisateur se soit lui-même identifié date  date et heure précises de réception de la requête. URL adresse de la page visitée sur le site (www.<…>) statut code retour qui indique si l’action s’est bien déroulée. size  indique la taille du fichier retourné. referrer  signale l’adresse de laquelle a effectué la requête, la page de provenance agent  le navigateur et le type de système d’exploitation de l’utilisateur RIA’s 2006

Schéma des méthodes dissimilarité entre pages classification croisée d3,1 d3,2 d4,1 d4,2 d4,3 classification croisée dissimilarité entre pages pages n1 n2 n3 . (p1 p2 p3…) . navigations typologie de navigations RIA’s 2006

Pages visitées (nombre de réquisitions) Le tableau de données 91 pages Navigation Pages visitées (nombre de réquisitions) Navigation 1 Home (1), The Informatics' center (3), PhD (2), ... Navigation 2 People (1), Professor (2), Post-graduation (3), ... Navigation 3 Post-graduation (2), Specialization (2), Research (3), ... Navigation 4 How to be a student (2), Registrations and Information (4), Coordination/Secretariat (1), ... … 1124 navigations ont été réalisées en Octobre 2002 RIA’s 2006

Trois approches classificatoires (1) Construction d’une typologie de comportements d’utilisateurs (2) Visualisation des interactions entre les pages via les données de l’usage (3) Analyse de l’interaction entre des groupes de pages et des comportements d’utilisateurs RIA’s 2006

(1) Résultats Publications [35%] Theses and dissertations Research Technician reports Groups of research Projects of research Tutorials, manuals and class notes Honors and prizes Events of interest Events related to the Informatics' cent (1) Résultats Graduation [9%] Professors People The Informatics' center Phones News Services Home Infrastructure Sectors Registrations and Information [54%] Subjects for Master 2003 Documents Post-graduation Masters Lines of research School registration and pre-registration Information [3%] Specialization Concentration areas Ainsi nous avons identifié quatre groupes dominants d’utilisateurs. La classe 1 (54%) contient les utilisateurs intéressés par le Post-graduation en ce qui concerne au Mastère (inscription, proposition de thèmes, etc), la classe 2 (3%) représente les utilisateurs intéressés par le cours de spécialisation car il attire un publique bien différencié des élèves du mastère, la classe 3 (9%) concentre les utilisateurs recherchant des informations sur les personnels enseignant et administratif du CIn et aussi des informations sur ses secteurs et services, et la classe 4 (35%) contient les navigations des internautes intéressés par les projets de recherche du CIn (c’est-à-dire, les thèses soutenues, les rapport d’activités, les publications, etc). RIA’s 2006

(1) Confirmation par l’analyse factorielle des correspondances RIA’s 2006

(2) Choix de la dissimilarité Jaccard binaire Cosinus comptage Tf x idf comptage RIA’s 2006

(2) Visualisation des distances entre pages RIA’s 2006

(3) Classification croisée Cette méthode a été proposée par Gérard Govaert (1995) Objectif: classer simultanément les lignes et les colonnes d’un tableau de comptages Modèle relationnel BD: facile d’extraire un tableau de comptage Ligne: une navigation représente l’ensemble des clics d’un utilisateur pendant un parcours sur le site (30mn) Colonne: une page représente le nombre de visites de cette page durant une navigation RIA’s 2006

(3) Table de confusion entre les thèmes et les comportements Partition Theme_1 Theme_2 Theme_3 Theme_4 Theme_5 total Navigation_ 1 328 1390 140 466 381 2705 Navigation_ 2 48 81 14 128 618 889 Navigation_ 3 133 86 63 1223 163 1668 Navigation_ 4 41 58 625 67 56 847 Navigation_ 5 31 3686 45 118 40 3920 Navigation_ 6 480 151 18 126 43 818 Total 1061 5452 905 2128 1301 10847 Theme _3 Groups of research Research Projects of research Tutorials, manuals and class notes Technician reports Theses and dissertations Publications RIA’s 2006

(3) Relations entre les thèmes et les comportements Navigation 4 RIA’s 2006

(3) Les pages dans les différents thèmes Classe : 3 Groups of research Research Projects of research Tutorials, manuals and class notes Technician reports Theses and dissertations Publications Classe : 1 Events Events of interest Phones Extension Sectors Honors and prizes Employees Specialization Course's Structure Information Events related to the Informatics' cen UFPE for all Concentration areas Computational Resources Classe : 2 Professors group Registrations and Information Post-graduation PhD Lines of research Subjects for Master 2005 Masters Documents Masters results Disciplines summaries Financial resources School registration and pre-registratio Address Description Orientation of School registration School registration 1/2001 APG PhD results Norms of qualification and theses propo School registration 2/2000 School registration 1/2000 New internal regiment Classe : 4 Graduation Home The Informatics' center News Releases Contacts Departments Localization Infrastructure Services Tunnel of the time Organization chart Resolutions Partners Clipping Courses Mission In the world In the university In the country Objectives In the region In the informatics' center Classe : 5 People Professors Administrative Coordinators Direction Support Management RIA’s 2006

Conclusions Nous avons présenté plusieurs approches classificatoires, chacune a été adaptée à l’ensemble à classer Nous avons identifié quatre groupes dominants d’utilisateurs Ce type de connaissance peut être utile pour le commerce électronique en ce qui concerne les définitions de nouvelles stratégies de marketing RIA’s 2006

Merci de votre attention. RIA’s 2006