La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Matwin 1999 1 Extraction de linformation à partir de WWW Stan Matwin École dIngénierie et de technologie de linformation Université dOttawa

Présentations similaires


Présentation au sujet: "Matwin 1999 1 Extraction de linformation à partir de WWW Stan Matwin École dIngénierie et de technologie de linformation Université dOttawa"— Transcription de la présentation:

1 Matwin Extraction de linformation à partir de WWW Stan Matwin École dIngénierie et de technologie de linformation Université dOttawa

2 Matwin Plan Motivation Recherche Engins Filtres Extraction – texte mining Classification Étiquettage Futur: XML

3 Matwin Motivation 800M pages, ++100M/mois On peut trouver tout mais comment chercher Outils qui produisent et distribuent linformation sont là, mais outils qui lextraient… Ces outils doivent être personnalisés

4 Matwin Engins de recherche Tout le monde sen sert, mais… On sait peu sur leur mécanique À lexception de Google

5 Matwin Anatomie des engins de recherche On ne sait pas grand-chose sur AV, Lycos, Yahoo, etc. Certains détails sur Google et Clever ont été publiés Critères de conception Différences Architecture Structures de données

6 Matwin Objectifs Concepts de base de la RI : Rappel (recall): pourcentage des docs pertinents qui sont retournés Précision: pourcentage de docs pertinents dans les docs retournés Quantité: des centaines de milliers de requêtes par seconde Qualité: haute précision (pas avec les moteurs actuels)

7 Matwin Classement des pages L'idée: une page est importante quand elle est beaucoup "référée" (qu'il y a beaucoup de liens vers elle), ou "référée" par une page importante. Le classement des pages (PR) est utilisé pour gérer les priorités. Efficace, même pour une recherche sur les titres de pages.

8 Matwin Les pages T1,…,Tn pointent vers la page A, C(A) est le fan-out de A PR(A)=(1-d) + d(PR(T1)/C(T1)+…+PR(Tn)/C(Tn)) d=coeff. de dumping * =0,85 Modèle d'un parcours au hasard du Web PR(p) = prob. qu'un utilisateur allant au hasard visite p

9 Matwin Autres termes Le texte de l'ancre (anchor) est associé à la page-cible Certains aspects du balisage sont utilisés

10 Matwin Architecture de Google Le serveur d'URLs envoie une liste d'URLs à donner aux crawlers StoreServer compresse et stocke les pages Indexer extrait les mots avec position, taille, capitalisation. Les ancres contiennentles liens et leur texte Sorter génère des règles inversées Searcher utilise Lexicon et PR

11 Matwin Détails Les mots sont stockés dans des tonneaux (codes: wordIDs); si un doc contient un mot, le code du doc et le code du mot sont stockés avec la hitlist de ce mot dans le doc Le lexique pointe vers les tonneaux invertis; chaque mot pointe vers le code de mot et les hits

12 Matwin Fonctionnement Crawling Recherche Ranking

13 Matwin Crawling et indexation Analyse syntaxique pour obtenir des ancres et des mots. Robuste face aux erreurs (flex+pile) Indexation en parallèle: hashage en tonneaux (barrels) en utilisant le lexique. Le problème des nouveaux mots

14 Matwin Recherche 1 parser la requête 2 convertir les mots en codes (wordIDs). 3 Identifier un groupe pour chaque mot 4 parcourir les listes de docs jusqu'à ce qu'on trouve un doc qui corresponde à tous les mots-clés de la requête

15 Matwin Ranking S'il y a un seul mot: identifier la hit list et son type, compter le nombre de hits de chaque type, faire une multiplication vectorielle Combiner avec le PR S'il y a plusieurs mots, prendre en compte la proximité

16 Matwin Pour aller plus loin Google ne retourne aucune page d'IBM pour la requête 'mainframes' Beaucoup de pages qui pointent vers la page principale d'IBM utilisent le terme mainframe, donc cette page devraient être retournée.

17 Matwin Clever classe les pages de type "autorités" (authoritities) et les pages de type "moyeu" (hub). Les autorités sont les page qui ont un bon score PR. Les hubs sont les pages qui pointent vers plusieurs autorités. Par exemple: la page de mon ami contient des liens vers des catalogues de CDs. On ne peut pas déterminer les hubs avec seulement le PR. Clever/HITS (Hyperlink Induced Topic Search) commence avec un jeu initial de pages et de hubs.

18 Matwin Mathématiquement… Soit x p le poids de l'autorité, y q le poids du hub; q->p dénote: q a un lien vers p Soit A la matrice d'adjacence: A i,j = 1 s'il y a un lien entre i et j, sinon 0

19 Matwin x A T y et y Ax x A T Ax, et on peut faire des itérations sur les puissances de A T A Cette séquence de puissances converge vers le vecteur propre de A T A Donc le résultat ne dépend pas des poids de départ

20 Matwin Enlever les liens 'locaux' (Retour à la page principale) Dérive (drift): transfert à l'autorité principale, par exemple le sujet des loisirs Détournement (highjacking): si plusieurs pages d'un même site apparaissent dans l'ensemble de base, elles couvrent peut- être un sujet

21 Matwin Compensé par l'indexation partielle du contenu et des ancres et par la division des pages en "pagelettes" pour avoir une séquence continue de liens Les hubs marchent bien pour faire de l'apprentissage sur un sujet, mais sont moins bons pour chercher une information spécifique.

22 Matwin Autres engins Altavista et Lycos ont probablement des méthodes simples de sélection Excite semble utiliser beaucoup de propriétés des pages Voir « What is a tall poppy among Web pages? »7 th Intl WWW Conf.

23 Matwin Á quoi sert la classification de textes? Archivage automatique Filtrage de lInternet (négatif) Systèmes de recommandation (positives) Extraction dinformation …

24 Matwin Apprentissage supervisé (classification) Étant donné: un ensemble dexemples T={e t }, où chaque t est létiquette dune classe parmi les classes C 1,…C k du concept qui est à apprendre Trouver: une description de chaque classe permettant une bonne prédiction de la classe de nouveaux exemples

25 Matwin Classification Approche habituelle: les exemples sont représentés sous forme de vecteurs de valeurs dattributs La théorie est confirmée par lexpérience: plus il y a dexemples, plus précise est la prédiction

26 Matwin Bag of words Classification de textes: approche habituelle 1.enlever les mots-arrêt (stop words) et les marqueurs non-textuels 2.les mots restants sont tous pris comme des attributs 3.un document devient un vecteur 4.entraîner un classifieur booléen pour chaque classe 5.évaluer les résultats sur un nouvel échantillon

27 Matwin Outils de classification des textes RIPPER un système dapprentissage orienté règles Fonctionne bien sur de gros ensembles de traits binaires Réseaux bayesiens naïfs Efficaces (pas de recherche) Simples à programmer Indiquent un niveau de croyance

28 Matwin Autres ressources Stop list + stemmer: Aussi Brill tagger Analyseur syntaxique DIPETT Classifieur Bayesien RAINBOW (CMU) Un hub à consulter

29 Matwin Autres travaux Yang: les meilleurs résultats obtenus avec k-NN: 82,3% de précision en micro-moyenne Joachim: Support Vector Machine (SVM) + données non étiquetées SVM nest pas affectée par une forte dimensionnalité ni par la rareté des exemples.

30 Matwin SVM en classification de textes SVM SVM transductive Séparation maximale Marge pour le jeu de test Lentraînement sur 17 exemples dans les 10 catégories les plus fréquentes donne une performance de 60% sur cas de test disponibles pendant lentraînement.

31 Matwin Nouveautés Travail sur le texte marqué (Word, Web) XML avec des marqueurs sémantiques: avantages et inconvénients pour lAA/FD Co-apprentissage Fouille de textes

32 Matwin Extraction Web base de données Comment retrouver linfo dun type spécifique? Classification {pièces des pages} {catégories sémantiques} ou pages classes des pages P. ex. pages des équipes, labos, chercheurs, programmes denseignement, étudiants, etc.

33 Matwin Classification des pages [Mitchell] The Role of Unlabeled Data in Supervised Learning," T. Mitchell, Proceedings of the Sixth International Colloquium on Cognitive Science, San Sebastian, Spain, 1999 (invited paper) Les pages de cinq universités Classes: prof, ét, cours, … Classification, mais en partant de quels attributs?

34 Matwin Deux représenations redondantes et suffisantes

35 Matwin Co-apprentissage Comment utiliser les données non étiquetées? Ou comment limiter le nombre dexemples à étiqueter? Deux classifieurs et deux représentations redondantes et suffisantes (redundantly sufficient) entraîner les deux, appliquer les deux sur le jeu de test, ajouter les meilleures prédictions au jeu dapprentissage. Le taux derreur est diminué de moitié (il passe de 11% à 5%).

36 Matwin Sciences cognitives? Le co-apprentissage semble être justifié cognitivement Modèle: apprentissage détudiants par groupes de deux Quels autres mécanismes dapprentissage pourraient fournir des modèles de lapprentissage supervisé?

37 Matwin XML Idéal: conçu exprès pour faciliter recherche/extraction DTD définiront linformation de façon (balisage) symbolique Succès dépend dacceptation de lapproche DTD Conversion HTML XML

38 Matwin Conclusion Une tâche pratique pour laquelle il faut trouver une solution Aucune solution satisfaisante pour linstant Un domaine de recherche fertile


Télécharger ppt "Matwin 1999 1 Extraction de linformation à partir de WWW Stan Matwin École dIngénierie et de technologie de linformation Université dOttawa"

Présentations similaires


Annonces Google