Matwin 1999 1 Extraction de linformation à partir de WWW Stan Matwin École dIngénierie et de technologie de linformation Université dOttawa

Matwin 1999 1 Extraction de linformation à partir de WWW Stan Matwin École dIngénierie et de technologie de linformation Université dOttawa stan@site.uottawa.ca

Matwin 1999 2 Plan Motivation Recherche Engins Filtres Extraction – texte mining Classification Étiquettage Futur: XML

Matwin 1999 3 Motivation 800M pages, ++100M/mois On peut trouver tout mais comment chercher Outils qui produisent et distribuent linformation sont là, mais outils qui lextraient… Ces outils doivent être personnalisés

Matwin 1999 4 Engins de recherche Tout le monde sen sert, mais… On sait peu sur leur mécanique À lexception de Google

Matwin 1999 5 Anatomie des engins de recherche On ne sait pas grand-chose sur AV, Lycos, Yahoo, etc. Certains détails sur Google et Clever ont été publiés Critères de conception Différences Architecture Structures de données

Matwin 1999 6 Objectifs Concepts de base de la RI : Rappel (recall): pourcentage des docs pertinents qui sont retournés Précision: pourcentage de docs pertinents dans les docs retournés Quantité: des centaines de milliers de requêtes par seconde Qualité: haute précision (pas avec les moteurs actuels)

Matwin 1999 7 Classement des pages L'idée: une page est importante quand elle est beaucoup "référée" (qu'il y a beaucoup de liens vers elle), ou "référée" par une page importante. Le classement des pages (PR) est utilisé pour gérer les priorités. Efficace, même pour une recherche sur les titres de pages.

Matwin 1999 8 Les pages T1,…,Tn pointent vers la page A, C(A) est le fan-out de A PR(A)=(1-d) + d(PR(T1)/C(T1)+…+PR(Tn)/C(Tn)) d=coeff. de dumping * =0,85 Modèle d'un parcours au hasard du Web PR(p) = prob. qu'un utilisateur allant au hasard visite p

Matwin 1999 9 Autres termes Le texte de l'ancre (anchor) est associé à la page-cible Certains aspects du balisage sont utilisés

Matwin 1999 10 Architecture de Google Le serveur d'URLs envoie une liste d'URLs à donner aux crawlers StoreServer compresse et stocke les pages Indexer extrait les mots avec position, taille, capitalisation. Les ancres contiennentles liens et leur texte Sorter génère des règles inversées Searcher utilise Lexicon et PR

Matwin 1999 11 Détails Les mots sont stockés dans des tonneaux (codes: wordIDs); si un doc contient un mot, le code du doc et le code du mot sont stockés avec la hitlist de ce mot dans le doc Le lexique pointe vers les tonneaux invertis; chaque mot pointe vers le code de mot et les hits

Matwin 1999 12 Fonctionnement Crawling Recherche Ranking

Matwin 1999 13 Crawling et indexation Analyse syntaxique pour obtenir des ancres et des mots. Robuste face aux erreurs (flex+pile) Indexation en parallèle: hashage en tonneaux (barrels) en utilisant le lexique. Le problème des nouveaux mots

Matwin 1999 14 Recherche 1 parser la requête 2 convertir les mots en codes (wordIDs). 3 Identifier un groupe pour chaque mot 4 parcourir les listes de docs jusqu'à ce qu'on trouve un doc qui corresponde à tous les mots-clés de la requête

Matwin 1999 15 Ranking S'il y a un seul mot: identifier la hit list et son type, compter le nombre de hits de chaque type, faire une multiplication vectorielle Combiner avec le PR S'il y a plusieurs mots, prendre en compte la proximité

Matwin 1999 16 Pour aller plus loin Google ne retourne aucune page d'IBM pour la requête 'mainframes' Beaucoup de pages qui pointent vers la page principale d'IBM utilisent le terme mainframe, donc cette page devraient être retournée.

Matwin 1999 17 Clever classe les pages de type "autorités" (authoritities) et les pages de type "moyeu" (hub). Les autorités sont les page qui ont un bon score PR. Les hubs sont les pages qui pointent vers plusieurs autorités. Par exemple: la page de mon ami contient des liens vers des catalogues de CDs. On ne peut pas déterminer les hubs avec seulement le PR. Clever/HITS (Hyperlink Induced Topic Search) commence avec un jeu initial de pages et de hubs.

Matwin 1999 18 Mathématiquement… Soit x p le poids de l'autorité, y q le poids du hub; q->p dénote: q a un lien vers p Soit A la matrice d'adjacence: A i,j = 1 s'il y a un lien entre i et j, sinon 0

Matwin 1999 19 x A T y et y Ax x A T Ax, et on peut faire des itérations sur les puissances de A T A Cette séquence de puissances converge vers le vecteur propre de A T A Donc le résultat ne dépend pas des poids de départ

Matwin 1999 20 Enlever les liens 'locaux' (Retour à la page principale) Dérive (drift): transfert à l'autorité principale, par exemple le sujet des loisirs Détournement (highjacking): si plusieurs pages d'un même site apparaissent dans l'ensemble de base, elles couvrent peut- être un sujet

Matwin 1999 21 Compensé par l'indexation partielle du contenu et des ancres et par la division des pages en "pagelettes" pour avoir une séquence continue de liens Les hubs marchent bien pour faire de l'apprentissage sur un sujet, mais sont moins bons pour chercher une information spécifique.

Matwin 1999 22 Autres engins Altavista et Lycos ont probablement des méthodes simples de sélection Excite semble utiliser beaucoup de propriétés des pages Voir « What is a tall poppy among Web pages? »7 th Intl WWW Conf.

Matwin 1999 23 Á quoi sert la classification de textes? Archivage automatique Filtrage de lInternet (négatif) Systèmes de recommandation (positives) Extraction dinformation …

Matwin 1999 24 Apprentissage supervisé (classification) Étant donné: un ensemble dexemples T={e t }, où chaque t est létiquette dune classe parmi les classes C 1,…C k du concept qui est à apprendre Trouver: une description de chaque classe permettant une bonne prédiction de la classe de nouveaux exemples

Matwin 1999 25 Classification Approche habituelle: les exemples sont représentés sous forme de vecteurs de valeurs dattributs La théorie est confirmée par lexpérience: plus il y a dexemples, plus précise est la prédiction

Matwin 1999 26 Bag of words Classification de textes: approche habituelle 1.enlever les mots-arrêt (stop words) et les marqueurs non-textuels 2.les mots restants sont tous pris comme des attributs 3.un document devient un vecteur 4.entraîner un classifieur booléen pour chaque classe 5.évaluer les résultats sur un nouvel échantillon

Matwin 1999 27 Outils de classification des textes RIPPER un système dapprentissage orienté règles Fonctionne bien sur de gros ensembles de traits binaires Réseaux bayesiens naïfs Efficaces (pas de recherche) Simples à programmer Indiquent un niveau de croyance

Matwin 1999 28 Autres ressources Stop list + stemmer: http://www.dcs.gla.ac.uk/idiom/ir_resources/linguistic_utils/ Aussi Brill tagger Analyseur syntaxique DIPETT Classifieur Bayesien RAINBOW (CMU) Un hub à consulter http://n106.is.tokushima-u.ac.jp/member/kita/NLP/nlp_tools.html

Matwin 1999 29 Autres travaux Yang: les meilleurs résultats obtenus avec k-NN: 82,3% de précision en micro-moyenne Joachim: Support Vector Machine (SVM) + données non étiquetées SVM nest pas affectée par une forte dimensionnalité ni par la rareté des exemples.

Matwin 1999 30 SVM en classification de textes SVM SVM transductive Séparation maximale Marge pour le jeu de test Lentraînement sur 17 exemples dans les 10 catégories les plus fréquentes donne une performance de 60% sur 3000+ cas de test disponibles pendant lentraînement.

Matwin 1999 31 Nouveautés Travail sur le texte marqué (Word, Web) XML avec des marqueurs sémantiques: avantages et inconvénients pour lAA/FD Co-apprentissage Fouille de textes

Matwin 1999 32 Extraction Web base de données Comment retrouver linfo dun type spécifique? Classification {pièces des pages} {catégories sémantiques} ou pages classes des pages P. ex. pages des équipes, labos, chercheurs, programmes denseignement, étudiants, etc.

Matwin 1999 33 Classification des pages [Mitchell] The Role of Unlabeled Data in Supervised Learning," T. Mitchell, Proceedings of the Sixth International Colloquium on Cognitive Science, San Sebastian, Spain, 1999 (invited paper) Les pages de cinq universités Classes: prof, ét, cours, … Classification, mais en partant de quels attributs?

Matwin 1999 34 Deux représenations redondantes et suffisantes

Matwin 1999 35 Co-apprentissage Comment utiliser les données non étiquetées? Ou comment limiter le nombre dexemples à étiqueter? Deux classifieurs et deux représentations redondantes et suffisantes (redundantly sufficient) entraîner les deux, appliquer les deux sur le jeu de test, ajouter les meilleures prédictions au jeu dapprentissage. Le taux derreur est diminué de moitié (il passe de 11% à 5%).

Matwin 1999 36 Sciences cognitives? Le co-apprentissage semble être justifié cognitivement Modèle: apprentissage détudiants par groupes de deux Quels autres mécanismes dapprentissage pourraient fournir des modèles de lapprentissage supervisé?

Matwin 1999 37 XML Idéal: conçu exprès pour faciliter recherche/extraction DTD définiront linformation de façon (balisage) symbolique Succès dépend dacceptation de lapproche DTD Conversion HTML XML

Matwin 1999 38 Conclusion Une tâche pratique pour laquelle il faut trouver une solution Aucune solution satisfaisante pour linstant Un domaine de recherche fertile

Matwin 1999 1 Extraction de linformation à partir de WWW Stan Matwin École dIngénierie et de technologie de linformation Université dOttawa

Présentations similaires

Présentation au sujet: "Matwin 1999 1 Extraction de linformation à partir de WWW Stan Matwin École dIngénierie et de technologie de linformation Université dOttawa"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Matwin 1999 1 Extraction de linformation à partir de WWW Stan Matwin École dIngénierie et de technologie de linformation Université dOttawa

Présentations similaires

Présentation au sujet: "Matwin 1999 1 Extraction de linformation à partir de WWW Stan Matwin École dIngénierie et de technologie de linformation Université dOttawa"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back