1 Techniques de généralisation des URLs pour l'analyse des usages du Web Yves Lechevallier, Florent Masseglia, Doru Tanasa et Brigitte Trousse Projet AxIS,

Slides:



Advertisements
Présentations similaires
Page 1 Retour sur le e- tourisme. Page 2 Quelques chiffres…
Advertisements

Novembre 2005 – Michel Desconnets PHP : théorie Objectif : introduire les concepts globaux permettant d'aborder la programmation en PHP.
Soutenance du stage de DEA.
Atlas cartographique du Sandre
Fabrice Lauri, François Charpillet, Daniel Szer
Décembre 2004Philippe Beaudoin – A.P.R.A.1 Internet et la philatélie ou ce que loutil Internet peut apporter au philatéliste amateur.
W3Line | 10 Ter, Rue Pasteur – BOURG LES VALENCE | Tél. : – Fax : | – Web :
Proposition de recherches sur ABI (Pro Quest) Lise Herzhaft (Urfist de Lyon) et MH Prévoteau (Bibliothèque Université Paris 2) Mise en forme par Nolwenn.
Classe : …………… Nom : …………………………………… Date : ………………..
1/32 Forum des utilisateurs du SISMER – Novembre 2005 Le portail NAUTILUS accès en ligne aux données et nouveau site WEB du SISMER Michèle FICHAUT Mickael.
Story-board version 1.1 Statut : à valider Rédacteur : Nicole Djuissi
1 V-Ingénierie… La compétence au service de lexigence… vous présente.
CORRECTION DU DEVOIR DE SYNTHESE N° 2
Internet.
Extraction des connaissances dans les bases de données
Formation au portail SIMBAD
Le Modèle Logique de Données
Epidémiologie des cancers digestifs en France
HTML Les types de balises
EQUIPE TaToo Extraction de connaissances dans les bases de données : motifs séquentiels et ontologie LIRMM - CNRS - Université Montpellier II.
IronWEB : Une architecture distribuée
JOME, un Composant Logiciel pour le Télé-Enseignement des Mathématiques via le WEB, Compatible OpenMath et MathML Laurent DIRAT OVE / I3S-UNSA.
Conception d’une application de gestion de fiches études
Travaux pratiques sur Nooj
Sélection automatique d’index et de vues matérialisées
Gestion de la communication par établissement sur le site ville
1 5 octobre 2011 / paw Présentation du 7 octobre 2011.
Les requêtes La Requête est une méthode pour afficher les enregistrements qui répondent à des conditions spécifiques. La requête est donc un filtre.
Appel d’offres DAFPEN ac-montpellier
Le Téléphone Russe Le Téléphone Russe. Le Téléphone Russe Le Téléphone Russe.
Développement d’applications web
Formation Centra - GDE.
Monique THONNAT et Nathanaël ROTA Projet ORION
Contrôles d'accès aux données
Eléments d ’algèbre relationnelle
1 Comment utiliser votre Extranet Se connecter 2.My Site 3.Documentation 3.1 Documents dintégration 3.2 Documents types 4.Vos informations privées.
Collecte de données en ligne
Classification Multi Source En Intégrant La Texture
Classification Ascendante 2-3 Hiérarchique: Applications au Web Mining
Analyse des protocoles de la couche application
Lycée Louis Vincent Séance 1
Initiation aux bases de données et à la programmation événementielle
Médiathèque de Sélestat - 5 février 2005 Olivier Andrieu Comment ne pas être visible sur les moteurs de recherche.
1 Initiation aux bases de données et à la programmation événementielle Cours N°9 : Gestion de la cohérence avec des sous-formulaires. Support de cours.
Les relations clients - serveurs
Internet : la mémoire courte ? Capture de sites Web en ligne Conférence B.N.F, Avril 2004 Xavier Roche(HTTrack)
Interprétation de séquences dimages pour des applications MédiaSpace Alberto AVANZI François BREMOND Monique THONNAT Projet ORION INRIA de Sophia Antipolis.
Projet Génie Logiciel & UML, Bases de Données & Interfaces
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
SSO : Single Sign On.
Universté de la Manouba
An Introduction to distributed applications and ecommerce 1 1 Les services Web, XML et les places de marchés.
Campus Numérique « Économie Sociale et Solidaire » Un outil de découverte et de compréhension de léconomie sociale et solidaire.
Annexe 1 VISITE SUR
2 Développer, tester et déployer un site web avec WebMatrix (RIA101) Christine Dubois 9 février 2011.
Initiation au web dynamique
NORMALISATION DES LANGAGES DE PROGRAMMATION des Automates Programmables Industriels CEI
Bienvenue sur le Net Personnel 1/23. 2 Saisir votre mot de passe en minuscule.
JEE 5 F.Pfister 2 institut eerie JEE – Une plateforme serveur  Développement et exécution d'applications réparties.
Conférence du groupe X- Environnement, 24 avril 2013 L’impact écologique des infrastructures numériques Cédric Gossart Institut Mines-Télécom Télécom Ecole.
Serveur WEB TAGC SPIP 1.9.2d [11132] est un logiciel libre distribué sous licence GPL. Pour plus d'informations, voir le site
Ressources Internet liées à la CIB
Cours de programmation web
Présente Conception d’un petit site Web. 2 4-nov-03© Préambule Cette présentation fait suite à celle intitulée « Imaginer, concevoir, mettre.
Atelier technique SAS – 19 juin 2001
Tous droits réservés 04 octobre 2005© présente Les Moteurs de Recherche.
INTERNET Un réseau informatique mondial : ce sont des millions d'ordinateurs en permanence allumés (reliés entre-eux par des lignes téléphoniques, fibres.
AJAX.
1/17FDC janvier 2006 Alice MARASCU Florent MASSEGLIA Projet AxIS INRIA Sophia Antipolis Classification de flots de séquences basée sur une approche.
 Formulaires HTML : traiter les entrées utilisateur
Transcription de la présentation:

1 Techniques de généralisation des URLs pour l'analyse des usages du Web Yves Lechevallier, Florent Masseglia, Doru Tanasa et Brigitte Trousse Projet AxIS, INRIA Rocquencourt & Projet AxIS, INRIA Sophia Antipolis, URL : FDC, EGC 2006, Lille,

2 Plan Motifs séquentiels Exemple motivant État de lart Principe général Exemple dapplication Expérimentation Conclusions

3 Item : un « article » Transaction : un client + un itemset + une date Séquence : liste ordonnée ditemsets Séquence de données : représente les achats dun client. Soit T 1, T 2, … T n les transactions de C j, la séquence de données C j est : Support (S) : pourcentage de séquences de données contenant S s 1 = et s 2 = s 1 s 2 (incluse) si i 1 < i 2 < … i n | a 1 b i1, …, a n b in S – Motif fréquent ssi Supp(S) φ – support minimum GWUM Motifs séquentiels

4 Extraction de motifs séquentiels dans le cas classique (sur la base dURLs) : C1 : accueil_FM publications_FM accueil_Inria C2 : accueil_BT publications_BT Logiciels_AxIS C3 : publications_AxIS accueil_FM publications_FM C4 : accueil_AxIS accueil_BT publications_BT Avec un support de 50%, 2 comportements extraits : 1.accueil_FM publications_FM 2.accueil_BT publications_BT Avec un support de 100%, aucun comportement fréquent… GWUM Exemple motivant

5 Objectif de notre travail : extraire des motifs séquentiels basés non plus caractéristiques sur des URLs mais sur des caractéristiques de ces URLs. Caractéristiques possibles : - Mots clés spécifiés dans un moteur et qui ont permis daccéder à cette URL. - Mots clés extraits à partir du contenu : TF/IDF Pronoms TreeTagger Sémantique (« manuel utilisateur de cet appareil photo » ou alors « lappareil photo est vendu avec son manuel utilisateur ») … - Informations de surface (répartitions des informations, etc.) - Autres ? Quel intérêt pour les motifs séquentiels ? Reprenons lexemple précédent… GWUM

6 - Page Web de Brigitte Trousse - Bienvenue. Je suis chercheur(se?) à lInria Sophia Antipolis. Je suis responsable de léquipe AxIS. Mes thèmes de recherche sont : -ECD -Data Mining -I.A. Vous pouvez consulter tout plein de rubriques me concernant sur cette page. En particulier mes publications. Referer : ECD Data Mining I.A. Brigitte Trousse GWUM

7 - Page Web de Florent Masseglia - Bienvenue. Je suis chercheur(!) à lInria Sophia Antipolis dans léquipe AxIS. Mes thèmes de recherche sont : -ECD -Data Mining -Motifs Séquentiels Vous pouvez consulter tout plein de rubriques me concernant sur cette page. En particulier mes publications. Referer : ECD Data Mining Motifs Séquentiels Florent Masseglia GWUM

8 Referer : ECD Data Mining Motifs Séquentiels Florent Masseglia Referer : ECD Data Mining I.A. Brigitte Trousse Classe 1 : « ECD, Data Mining » Une première caractéristique : les mots clé du referer. Une seconde caractéristique : le contenu de la page. « Les pages publications_BT et publications_FM sont des pages de la classe PUBLICATIONS » GWUM

9 Avec un support de 100%, aucun comportement fréquent… Avec un support de 50%, 2 comportements extraits : 1.accueil_FM publications_FM 2.accueil_BT publications_BT AVANT APRES il existe Avec un support de 100%, il existe un comportement un comportement fréquent : « Classe 1 » PUBLICATIONS « 100% des utilisateurs consultent une page qui parle de data mining ou dECD puis une page de publications »

10 « 100% des utilisateurs consultent une page qui parle de data mining ou dECD puis une page de publications » C1 : accueil_FM publications_FM accueil_Inria C3 : accueil_BT publications_BT Logiciels_AxIS C2 : publications_AxIS accueil_FM publications_FM C4 : accueil_AxIS accueil_BT publications_BT GWUM

11 État de lart WUM (Spiliopoulou et al. 1999), WebTool (Masseglia et al. 2000), AxisLogMiner (Tanasa 2005) Dimensionnalité des données affecte les résultats 2 solutions : Grouper dans des sous-logs les utilisateurs ayant des objectifs de navigation communs (Masseglia et al. (2003), Tanasa (2005)) Généraliser les pages Web (syntaxique Fu et al. 1999) (sémantique Tanasa et al. 2005) Ex. Extraction des MS en tenant compte dune hiérarchie manuelle (Srikant et Agrawal 1996) Interêt de notre travail : construction automatique de la classification GWUM projets

12 Principe General GWUM

13 Exemple dapplication Informations du referer : Utilisation du champ referer du fichier log (requêtes provenant des moteurs de recherche – MR) Pour une page => plusieurs referers MR => plusieurs mots clés Normalisation des mots clés à laide de TreeTagger (transformation du mot dans sa racine syntaxique – lemmatisation) Classification croisée sur une table de contingence => 10 classes Informations sur le contenu : Prise en compte de la partie textuelle dune page Sélection des mots représentatifs de chacune des pages en appliquant un algorithme classique (ex. Korfhage (1997)) Une proposition inspirée de TF/IDF a été faite dans Sellah (2005) GWUM

14 Les données log du mois doctobre 2005 pour le site Web dINRIA Sophia Antipolis Données initiales (avant prétraitement) : MO lignes (requêtes) Données finales (après prétraitement) 183 MO requêtes sessions = couples (IP, User Agent) = utilisateur navigations (visites uniques avec des intervalles < 30 minutes entre 2 requêtes) URLs différents ~20% des URLs catégorisées (par les mots clés du referer) GWUM Experimentation

15 GWUM Experimentation

16 Conclusions Méthodologie WUM basé sur une catégorisation des pages Informations extraites soit de : la page elle-même lutilisation de la page (laccès à la page) Lexpérimentation montre lavantage dune telle approche (gain en terme de motifs séquentiels découverts) Travail en cours avec de nombreuses perspectives : Interprétation des résultats obtenus (motifs) Exploration dautres critères permettant de catégoriser les pages (contenu, langage, présentation de la page, images, profils des utilisateurs ayant accède aux pages, leur pays, etc.) Mixage des critères (motifs complexes présentant plusieurs catégories) GWUM

17 Techniques de généralisation des URLs pour l'analyse des usages du Web Yves Lechevallier, Florent Masseglia, Doru Tanasa et Brigitte Trousse Projet AxIS, INRIA Sophia Antipolis & Projet AxIS, INRIA Rocquencourt, URL : FDC, EGC 2006, Lille,

18 References Masseglia 1999 Masseglia 2003 Sellah 2005 Tanasa 2005

19 Les sites Web de lINRIA Un institut de recherche = 7 sites Web différentes : INRIA Siège INRIA Rocquencourthttp://www-rocq.inria.fr/ INRIA Sophia Antipolis INRIA Lorrainehttp:// INRIA Rhône-alpeshttp:// INRIA Renneshttp:// INRIA Futurshttp://www-futurs.inria.fr/

20 Les projets-equipes de lINRIA 168 projets INRIA en Nov projets INRIA sur Sophia ~50 anciens projets, mais présents sur le Web Organisés en 5 thèmes avec des sous-thèmes: Com : Systèmes communicants (4) Cog : Systèmes cognitifs (4) Sym : Systèmes symboliques (3) Num : Systèmes numériques (4) Bio : Systèmes biologiques (1) Sous-thème EquipesABCD COM COG SYM NUM BIO 4 4 Thème INRIA Sophia

21 Le site Web de Sophia Pages dun projets-equipe (e.g. AxIS) : Ex. de requête (ligne dans le fichier log du serveur www-sop.inria.fr) pour cette page : [01/Oct/2005:00:00: ] "GET /axis/Publications/ HTTP/1.1" "/axis/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0;.NET CLR )« Plus de URLs (demandés dans le log doctobre 2005)

22 Les données log du mois doctobre 2005 pour le site Web dINRIA Sophia Antipolis Données initiales (avant prétraitement) : MO lignes (requêtes) Données finales (après prétraitement) 183 MO requêtes sessions = couples (IP, User Agent) = utilisateur navigations (visites uniques avec des intervalles < 30 minutes entre 2 requêtes) URLs différents dont html externes