Matwin 1999 1 Extraction de linformation à partir de WWW Stan Matwin École dIngénierie et de technologie de linformation Université dOttawa

Slides:

Advertisements

Présentations similaires

LES NOMBRES PREMIERS ET COMPOSÉS

Advertisements

[number 1-100].

1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.

Distance inter-locuteur

« Les Mercredis du développement » Introduction Office « 12 » Présenté par Bernard Fedotoff Microsoft Regional Director Agilcom.

A. Cornuéjols IAA (basé sur Rob Schapires IJCAI99 talk) Combiner des apprenants: le boosting.

Corese Moteur de recherche sémantique pour RDF

LIRMM 1 Journée Deuxièmes années Département Microélectronique LIRMM.

Classe : …………… Nom : …………………………………… Date : ………………..

Test statistique : principe

Reconnaissance de la parole

1 V-Ingénierie… La compétence au service de lexigence… vous présente.

Formation Technique 6èmepartie.

Architecture de réseaux

ESIEE Paris © Denis BUREAU I N Initiation à la programmation avec le langage Java.

Commission Règlement Arbitrage Organisation – Présidente : Framboise Leclerc 3, rue Jacques Cartier – Montigny le Bretonneux –

ORTH 1 CE2 Je sais écrire sans erreur les pluriels des noms se terminant par s, x, z.

Améliorer les performances du chiffrage à flot SYND

Les requêtes La Requête est une méthode pour afficher les enregistrements qui répondent à des conditions spécifiques. La requête est donc un filtre.

1 Bienvenue! Ministère de lEmploi et de la Solidarité sociale Direction des ressources humaines La conduite dun projet de refonte dun intranet Pascale.

Développement d’applications web

Interagir avec un objet mixte Propriétés physiques et numériques Céline Coutrix, Laurence Nigay Équipe Ingénierie de lInteraction Homme-Machine (IIHM)

1 Cours numéro 3 Graphes et informatique Définitions Exemple de modélisation Utilisation de ce document strictement réservée aux étudiants de l IFSIC.

1 Bienvenue au module 1 Principes denseignement des mathématiques.

Application des algorithmes génétiques

Vuibert Systèmes dinformation et management des organisations 6 e édition R. Reix – B. Fallery – M. Kalika – F. Rowe Chapitre 1 : La notion de système.

Classification Multi Source En Intégrant La Texture

Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff,

Cours de physique générale I Ph 11

1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.

18/05/ Utiliser le cahier de texte en ligne avec lapplication SPIP Adresse du site du lycée :

Traitements &Suppléments

Annuaires et moteurs de recherche d’information sur Internet

Détection de co-évolution de gènes Master 2 : Informatique à Finalité Professionnelle et Recherche Unifiée (IFPRU) Parcours Ingénierie de lIntelligence.

Méthode des k plus proches voisins

Centre d’Excellence en Technologies de l’Information et de la Communication Moteurs de recherche Aspects techniques et retours d’expérience Christophe.

1 Journée de regroupement des correspondants "Egalité et genre" - 21 novembre 2011 Rectorat de Rouen - SAIO - CD-HD Résultats scolaires, appréciations.

1 Conduite du changement LA CONDUITE DU CHANGEMENT.

Recherche Documentaire et traitement de l’information

Académie de Créteil - B.C Quest-ce quune Inscription 1)1 action + 1 stagiaire + 1 client 2)Parcours individuel (avec son Prix de Vente) 3)Un financement.

F Copyright © Oracle Corporation, Tous droits réservés. Créer des programmes avec Procedure Builder.

VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.

Développement d’application web

Projet Génie Logiciel & UML, Bases de Données & Interfaces

Orléans, CFA, 20 Mars M. Bétrancourt 1 Mireille Bétrancourt TECFA, Faculté de Psychologie et éducation Université de Genève Pour un usage des technologies.

1. 2 PLAN DE LA PRÉSENTATION - SECTION 1 : Code HTML - SECTION 2.1. : CSS (Méthode 1) - SECTION 2.2. : CSS (Méthode 2) - SECTION 3 : JavaScript - SECTION.

Des indicateurs de performance pertinents et adéquats

La Classification des textes: à la recherche d’une représentation

Les modèles linéaires (Generalized Linear Models, GLM)

Cours 2 Recherche d'informations Espace vectoriel des sacs de mots.

1.1 LES VECTEURS GÉOMÉTRIQUES

Universté de la Manouba

Web sémantique : Web de demain

Chapitre 3 Syntaxe et sémantique.

1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome.

La face cachée des systèmes de recherche Martin Bouchard, président Janvier 2003.

F L T R Université catholique de Louvain-la-Neuve Faculté de philosophie et lettres FLTR Faculté de Philosophie et Lettres Présentation décembre 2002 Réalisation:

LA GESTION COLLABORATIVE DE PROJETS Grâce aux outils du Web /03/2011 Académie de Créteil - Nadine DUDRAGNE 1.

La veille numérique : un outil pour s'informer intelligemment &

Elaboré par M. NUTH Sothan 1. 2 Soit x, y et z des coordonnées cartésiennes à 3 dimension. G un ensemble de points dans le plan (u, v). Déf. : On appelle.

CALENDRIER-PLAYBOY 2020.

Projet de stage d’année IIR4 sous le thème:

Les Chiffres Prêts?

Pr ZEGOUR DJAMEL EDDINE Ecole Supérieure d’Informatique (ESI)

Crawlers Parallèles Présentation faite par: Mélanie AMPRIMO

Recherche d’information

Combating Web Spam with TrustRank. OSINI Aurélien.

20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.

Apprentissage semi-supervisé avec des modèles discriminants : application au résumé automatique de texte Massih-Réza Amini LIP6, Université de Paris VI.

Transcription de la présentation:

Matwin Extraction de linformation à partir de WWW Stan Matwin École dIngénierie et de technologie de linformation Université dOttawa

Matwin Plan Motivation Recherche Engins Filtres Extraction – texte mining Classification Étiquettage Futur: XML

Matwin Motivation 800M pages, ++100M/mois On peut trouver tout mais comment chercher Outils qui produisent et distribuent linformation sont là, mais outils qui lextraient… Ces outils doivent être personnalisés

Matwin Engins de recherche Tout le monde sen sert, mais… On sait peu sur leur mécanique À lexception de Google

Matwin Anatomie des engins de recherche On ne sait pas grand-chose sur AV, Lycos, Yahoo, etc. Certains détails sur Google et Clever ont été publiés Critères de conception Différences Architecture Structures de données

Matwin Objectifs Concepts de base de la RI : Rappel (recall): pourcentage des docs pertinents qui sont retournés Précision: pourcentage de docs pertinents dans les docs retournés Quantité: des centaines de milliers de requêtes par seconde Qualité: haute précision (pas avec les moteurs actuels)

Matwin Classement des pages L'idée: une page est importante quand elle est beaucoup "référée" (qu'il y a beaucoup de liens vers elle), ou "référée" par une page importante. Le classement des pages (PR) est utilisé pour gérer les priorités. Efficace, même pour une recherche sur les titres de pages.

Matwin Les pages T1,…,Tn pointent vers la page A, C(A) est le fan-out de A PR(A)=(1-d) + d(PR(T1)/C(T1)+…+PR(Tn)/C(Tn)) d=coeff. de dumping * =0,85 Modèle d'un parcours au hasard du Web PR(p) = prob. qu'un utilisateur allant au hasard visite p

Matwin Autres termes Le texte de l'ancre (anchor) est associé à la page-cible Certains aspects du balisage sont utilisés

Matwin Architecture de Google Le serveur d'URLs envoie une liste d'URLs à donner aux crawlers StoreServer compresse et stocke les pages Indexer extrait les mots avec position, taille, capitalisation. Les ancres contiennentles liens et leur texte Sorter génère des règles inversées Searcher utilise Lexicon et PR

Matwin Détails Les mots sont stockés dans des tonneaux (codes: wordIDs); si un doc contient un mot, le code du doc et le code du mot sont stockés avec la hitlist de ce mot dans le doc Le lexique pointe vers les tonneaux invertis; chaque mot pointe vers le code de mot et les hits

Matwin Fonctionnement Crawling Recherche Ranking

Matwin Crawling et indexation Analyse syntaxique pour obtenir des ancres et des mots. Robuste face aux erreurs (flex+pile) Indexation en parallèle: hashage en tonneaux (barrels) en utilisant le lexique. Le problème des nouveaux mots

Matwin Recherche 1 parser la requête 2 convertir les mots en codes (wordIDs). 3 Identifier un groupe pour chaque mot 4 parcourir les listes de docs jusqu'à ce qu'on trouve un doc qui corresponde à tous les mots-clés de la requête

Matwin Ranking S'il y a un seul mot: identifier la hit list et son type, compter le nombre de hits de chaque type, faire une multiplication vectorielle Combiner avec le PR S'il y a plusieurs mots, prendre en compte la proximité

Matwin Pour aller plus loin Google ne retourne aucune page d'IBM pour la requête 'mainframes' Beaucoup de pages qui pointent vers la page principale d'IBM utilisent le terme mainframe, donc cette page devraient être retournée.

Matwin Clever classe les pages de type "autorités" (authoritities) et les pages de type "moyeu" (hub). Les autorités sont les page qui ont un bon score PR. Les hubs sont les pages qui pointent vers plusieurs autorités. Par exemple: la page de mon ami contient des liens vers des catalogues de CDs. On ne peut pas déterminer les hubs avec seulement le PR. Clever/HITS (Hyperlink Induced Topic Search) commence avec un jeu initial de pages et de hubs.

Matwin Mathématiquement… Soit x p le poids de l'autorité, y q le poids du hub; q->p dénote: q a un lien vers p Soit A la matrice d'adjacence: A i,j = 1 s'il y a un lien entre i et j, sinon 0

Matwin x A T y et y Ax x A T Ax, et on peut faire des itérations sur les puissances de A T A Cette séquence de puissances converge vers le vecteur propre de A T A Donc le résultat ne dépend pas des poids de départ

Matwin Enlever les liens 'locaux' (Retour à la page principale) Dérive (drift): transfert à l'autorité principale, par exemple le sujet des loisirs Détournement (highjacking): si plusieurs pages d'un même site apparaissent dans l'ensemble de base, elles couvrent peut- être un sujet

Matwin Compensé par l'indexation partielle du contenu et des ancres et par la division des pages en "pagelettes" pour avoir une séquence continue de liens Les hubs marchent bien pour faire de l'apprentissage sur un sujet, mais sont moins bons pour chercher une information spécifique.

Matwin Autres engins Altavista et Lycos ont probablement des méthodes simples de sélection Excite semble utiliser beaucoup de propriétés des pages Voir « What is a tall poppy among Web pages? »7 th Intl WWW Conf.

Matwin Á quoi sert la classification de textes? Archivage automatique Filtrage de lInternet (négatif) Systèmes de recommandation (positives) Extraction dinformation …

Matwin Apprentissage supervisé (classification) Étant donné: un ensemble dexemples T={e t }, où chaque t est létiquette dune classe parmi les classes C 1,…C k du concept qui est à apprendre Trouver: une description de chaque classe permettant une bonne prédiction de la classe de nouveaux exemples

Matwin Classification Approche habituelle: les exemples sont représentés sous forme de vecteurs de valeurs dattributs La théorie est confirmée par lexpérience: plus il y a dexemples, plus précise est la prédiction

Matwin Bag of words Classification de textes: approche habituelle 1.enlever les mots-arrêt (stop words) et les marqueurs non-textuels 2.les mots restants sont tous pris comme des attributs 3.un document devient un vecteur 4.entraîner un classifieur booléen pour chaque classe 5.évaluer les résultats sur un nouvel échantillon

Matwin Outils de classification des textes RIPPER un système dapprentissage orienté règles Fonctionne bien sur de gros ensembles de traits binaires Réseaux bayesiens naïfs Efficaces (pas de recherche) Simples à programmer Indiquent un niveau de croyance

Matwin Autres ressources Stop list + stemmer: Aussi Brill tagger Analyseur syntaxique DIPETT Classifieur Bayesien RAINBOW (CMU) Un hub à consulter

Matwin Autres travaux Yang: les meilleurs résultats obtenus avec k-NN: 82,3% de précision en micro-moyenne Joachim: Support Vector Machine (SVM) + données non étiquetées SVM nest pas affectée par une forte dimensionnalité ni par la rareté des exemples.

Matwin SVM en classification de textes SVM SVM transductive Séparation maximale Marge pour le jeu de test Lentraînement sur 17 exemples dans les 10 catégories les plus fréquentes donne une performance de 60% sur cas de test disponibles pendant lentraînement.

Matwin Nouveautés Travail sur le texte marqué (Word, Web) XML avec des marqueurs sémantiques: avantages et inconvénients pour lAA/FD Co-apprentissage Fouille de textes

Matwin Extraction Web base de données Comment retrouver linfo dun type spécifique? Classification {pièces des pages} {catégories sémantiques} ou pages classes des pages P. ex. pages des équipes, labos, chercheurs, programmes denseignement, étudiants, etc.

Matwin Classification des pages [Mitchell] The Role of Unlabeled Data in Supervised Learning," T. Mitchell, Proceedings of the Sixth International Colloquium on Cognitive Science, San Sebastian, Spain, 1999 (invited paper) Les pages de cinq universités Classes: prof, ét, cours, … Classification, mais en partant de quels attributs?

Matwin Deux représenations redondantes et suffisantes

Matwin Co-apprentissage Comment utiliser les données non étiquetées? Ou comment limiter le nombre dexemples à étiqueter? Deux classifieurs et deux représentations redondantes et suffisantes (redundantly sufficient) entraîner les deux, appliquer les deux sur le jeu de test, ajouter les meilleures prédictions au jeu dapprentissage. Le taux derreur est diminué de moitié (il passe de 11% à 5%).

Matwin Sciences cognitives? Le co-apprentissage semble être justifié cognitivement Modèle: apprentissage détudiants par groupes de deux Quels autres mécanismes dapprentissage pourraient fournir des modèles de lapprentissage supervisé?

Matwin XML Idéal: conçu exprès pour faciliter recherche/extraction DTD définiront linformation de façon (balisage) symbolique Succès dépend dacceptation de lapproche DTD Conversion HTML XML

Matwin Conclusion Une tâche pratique pour laquelle il faut trouver une solution Aucune solution satisfaisante pour linstant Un domaine de recherche fertile