Cours 3 Classification Résumé de textes. Classification et regroupement Objectif : classer des documents - en fonction de classes prédéfinies (classification.

Slides:



Advertisements
Présentations similaires
Structures de données avancées : MLH (Multidimensional linear hashing)
Advertisements

IL ETAIT UNE FOIS ….. UN POLE D’EXCELLENCE DENOMME :
L’ATTAQUE D’HOMME A HOMME.
Journée SLR-Europe 10 décembre 2005 La charte européenne …vers une reconnaissance des acteurs de la recherche en tant que professionnels Chercheurs doctorants.
Organiser la montée offensive à partir d’un dispositif défensif 1-5
Quinze propositions pour le collège Philippe Meirieu.
Module 4- Caractéristiques générales de l'évaluation
1 PROGRAMME DEVALUATION DIMPACT DE LEDUCATION EN AFRIQUE ATELIER INTERNATIONAL DEXECUTION Dakar, Sénégal du 15 au 19 décembre 2008 EVALUATION DE LIMPACT.
A. Cornuéjols IAA (basé sur Rob Schapires IJCAI99 talk) Combiner des apprenants: le boosting.
Regroupement (clustering)
Fonctions & procédures
Regroupement (clustering)
LES DIFFERENTS TYPES DE DEFENSE DE ZONE.
Problème de 8 dames: Sachant que dans un jeu des échecs, une dame peut pendre toute pièce se trouvant sur la colonne ou sur la ligne ou sur les diagonales.
Construire une organisation collective dans un sport nouveau
Cliquez pour modifier le style du titre Cliquez pour modifier les styles du texte du masque Deuxième niveau Troisième niveau Quatrième niveau Cinquième.
Résultats de l'enquête "Evaluation avril 2008" Objectif de l'enquête Evaluer la pertinence du site académique "Biotechnologies" : au niveau de la présentation.
Problématiques de genre en orientation Quelques indicateurs (J1)
Les Objectifs Informer les cadres des équipes sur les règles fondamentales du jeu Entrer dans le cursus arbitral Etre capables de transmettre aux coéquipiers.
L'épreuve - preuve Ou l'indicateur d'acquisition de la compétence
Réunion Equipe Technique Départementale (ETD) Le Mans 29/11/2013
Description du jeu : Smak-money est un jeu d'entreprise qui permet d'exercer ses talents de gestionnaire. 1 à 4 joueurs peuvent prendre part à ce jeu.
L’égalité entre filles et garçons au collège Jeu de Mail
Cette présentation se passera en trois parties. Première partie : -Avantages et objectifs dexpédiweb*. Deuxième partie : -Utilisation du logiciel de prise.
Au cours d’un dîner d’une œuvre de charité,
SECURITE DU SYSTEME D’INFORMATION (SSI)
Créer une animation simple Gif avec ImageReady.
Association des professionnels de l’information du secteur public
Chapitre 4 Symétrie centrale.
1 Sécurité Informatique : Proxy Présenter par : Mounir GRARI.
Journées Bruxelles & 23 Janvier - Sylvie Bonichon 1 Pour un partenariat européen de lEnseignement Catholique Hautes Ecoles de la Belgique Francophone.
CDAMC 68 Règles applicables à partir du 20/09/2010.
Stage LSQM 2008 Il fut un temps, pas si éloigné, où le rôle du gardien de but était considéré comme moins important que celui des autres joueurs de.
Méthode des k plus proches voisins
La compréhension en lecture
Université Mouloud Mammeri de Tizi-Ouzou
Le Travail Collaboratif ...
Organiser la montée offensive
Sections sélectionnées du Chapitre 11
Examen blanc Samedi 2 décembre. SUJET Dans chaque discipline sportive, il apparaît d’évidents contrastes entre un pratiquant débutant et un pratiquant.
Modélisation géométrique à l’aide d’un maillage
Séance 13.1 Agent de changement (modèle de Dave Ulrich, 1997)
Gestion de Fichiers Tri Interne Efficace et Tri Externe.
1 CSI 4506: Introduction à lintelligence artificielle La recherche adversairiale.
SAFER INTERNET WEEKS Du 10 au 21 février
Cours 2 Recherche d'informations Espace vectoriel des sacs de mots.
Collège La Vallée du Lys - Vihiers
RAPPORT SUR LA REALISATION DES CARTES CONCEPTUELLES Objectifs Les principaux objectifs de cet exercice étaient les suivants: -Comprendre mieux la formation.
1. Étude des caractéristiques du mouvement de Vénus
BACCALAUREAT PROFESSIONNEL
2.2 PRODUIT SCALAIRE ET CALCUL D’ANGLES
TD: Les inégalités face au chômage
Eléments de correction du galop
Real-Mad-rassat Salamandre
Le Badminton.
Commission des arbitres vaudois Vevey, septembre 2007
Vitres : un institut Carnot Accueil des directeurs d’unités Composantes de VITRES Le 26 juin 2007.
Un match RENVERSANT !!! L’HOMME CLEF : COACH D’UN SOIR DOUDOU Difficile de résumer un tel match mais essayons quand même tant que c’est frais dans la tête….
LES DEMARCHES PEDAGOGIQUES
Sciences de l ’Ingénieur
cycle 2 Les élèves créent des ressources en sciences
Mouvement d'un point A à un point B
Pour marquer en contre attaque Moins de 16 Comment améliorer le changement de statut des défenseurs pour anticiper le départ en contre attaque ? Etre un.
BADMINTON.
Thème 4 : Les éléments naturels. Cours 2 : L’eau dans la nature et chez les êtres vivants. Mathématiques Guide du Maître Thème : Numération. Cours 17 :
Rugby Flag. Le flag rugby est né en Australie. C’est en entraînant au rugby les St George Dragons, une équipe australienne de moins de 20 ans, que Perry.
FOOTBALL CLUB SAULON/CORCELLES
1 CSI 4506: Introduction à l’Intelligence Artificielle La Recherche Adversariale.
Résultats Epreuve n° 3 RALLYE MATH 92 2ème Édition
Transcription de la présentation:

Cours 3 Classification Résumé de textes

Classification et regroupement Objectif : classer des documents - en fonction de classes prédéfinies (classification supervisée), exemples : routage vers des destinataires, ou filtrage (2 classes : retenus ou rejetés) - ou par ressemblance entre eux, sans classes prédéfinies (regroupement non supervisé) Principe Dans le modèle vectoriel, une classe est représentée par le barycentre des k éléments d j de la classe Pour 1 i N, B i = 1 j k m i,j /k

Classification et regroupement Le barycentre est un vecteur dont la norme (longueur) dépend de celle des vecteurs On normalise les vecteurs avant de calculer le barycentre : Pour 1 i N, B i = 1 j k m i,j /k Le barycentre d'un ensemble de vecteurs normalisés n'est pas nécessairement normalisé Exemple : deux vecteurs orthogonaux Ensuite, on normalise le barycentre

Exemple Barycentre de d1 et d2 : b1 d1d2d3b1 cinéma0500,60 football4400,80 rugby b1 est normalisé : 0, ,80 2 = 1 En considérant que chaque vecteur donne une direction dans l'espace, celle de b1 est "entre" celles de d1 et d2

Classification Algorithme des k plus proches voisins Entrée : des documents déjà distribués en classes disjointes ; un nouveau document d à classer ; un entier k Sortie : la classe du nouveau document j := k tant que j>0 parmi les documents déjà classés trouver les j plus proches voisins de d trouver la ou les classes les plus représentées parmi ces voisins si on trouve une seule classe, renvoyer cette classe sinon j := j - 1

Exemple Classe football : d1 et d2, barycentre : b1 Classe rugby : d3, barycentre : b2 d1d2d3b1b2d4d5 cinéma0500,60024 football4400,80011 rugby On veut classer d4 et d5 similarités de d4 :0,310,95classe r. similarités de d5 :0,840,45classe f.

Classification Terminaison de l'algorithme L'algorithme se termine au plus tard quand j = 1 et dans ce cas on renvoie la classe du plus proche voisin

Regroupement Algorithme de regroupement des k moyennes Entrée : un ensemble de documents représentés par des vecteurs ; un entier k Sortie : une partition des documents en k groupes choisir aléatoirement k vecteurs m 1, m 2,..., m k faire classer les vecteurs en k groupes en associant chaque vecteur au m i le plus similaire pour tout i de 1 à k m i := le barycentre des vecteurs du groupe i tant que il y a eu au moins un m i modifié Ne donne pas toujours la meilleure solution Faire tourner plusieurs fois et prendre la meilleure solution

Regroupement Évaluation Pour chaque partition de l'ensemble de documents, on peut calculer à l'aide du modèle vectoriel : - la similarité moyenne de deux documents de la même classe (similarité intra-classe) - la similarité moyenne de deux documents de classes différentes (similarité inter-classe) Un regroupement est bon s'il a une similarité intra-classe élevée et une similarité inter-classe basse

Regroupement Nombre de groupes La qualité du regroupement a tendance à augmenter avec le nombre de groupes Avec un document par groupe, le regroupement est parfait... mais pas utile Choisir le nombre de groupes Exécuter l'algorithme avec différentes valeurs de k Comparer la qualité des regroupements obtenus Choisir k tel que l'amélioration en passant de k-1 à k soit particulièrement importante, et l'amélioration en passant de k à k+1 peu importante

Résumé Objectif Produire un résumé d'un document On utilise un ensemble de documents, comme dans la recherche d'informations, pour définir la pondération par pertinence des tokens-mots Principe On veut par exemple que le résumé fasse environ 20 % du document en nombre de phrases, soit k phrases On considère le document comme une séquence de phrases Chaque phrase est représentée par un vecteur On calcule la pertinence de chaque phrase (voir plus loin) On sélectionne les k phrases les plus pertinentes On les présente dans l'ordre du texte

Résumé Définition de la pertinence d'une phrase On calcule les coordonnées du vecteur avec et sans la formule TFIDF - avec TFIDF : m i log D/d(i) - avec seulement le nombre d'occurrences de chaque token-mot : m i Pertinence d'une phrase : ( 1 i N m i log D/d(i)) / 1 i N m i C'est la moyenne des log D/d(i), pondérée par les m i

Exemples

Texte original (1/3) L'Egypte encore couronnée 11/02/2008 | Mise à jour : 13:26 |.A l'issue d'un match dominé de bout en bout, l'Egypte a logiquement pris le meilleur sur le Cameroun en finale de la Coupe d'Afrique des Nations (1-0) et remporte son 6e titre dans cette compétition. Compte rendu du match La 26e finale de la Coupe d'Afrique des Nations opposait les deux formations les plus titrées du continent, l'Egypte et le Cameroun. Deux équipes qui s'étaient déjà rencontrées au premier tour, avec un succès des Pharaons à la clé (4-2). Tenants du titre et vainqueurs de la Côte d'Ivoire en demi-finale, les Egyptiens partaient donc logiquement favoris. Kameni sauve le Cameroun Les hommes de Hassan Chehata ne tardaient pas à confirmer leur statut sur le terrain. Abd Rabo menaçait une première fois Kameni sur coup-franc (7e), rapidement suivi par Moawad (9e). Le portier de l'Espanyol Barcelone devait encore s'employer sur une frappe d'Abu Treka de loin (12e), puis à bout portant (19e). Les vagues rouges revenaient inlassablement sur les buts camerounais, et après une nouvelle offensive, Fathi tirait dans un angle fermé et ne trouvait pas le cadre (22e). Les Lions Indomptables, bien timides dans le jeu, ne parvenaient pas à

Texte original (2/3) inquiéter El Hadary, hormis sur une accélération d'Eto'o, dont le tir était trop croisé (35e). C'était en fait encore Kameni qui s'illustrait sur un face-à-face avec Moawad (36e). Alors que le rythme baissait de plus en plus, on atteignait la pause sur un score logique (0-0). Song, héros malheureux On retrouvait la même physionomie en deuxième période, avec une Egypte largement dominatrice, mais impuissante face à Kameni. Le gardien des Lions était encore à la parade sur une frappe puissante d'Hosny Abd Rabo (54e), et lorsqu'il était battu, le poteau venait le suppléer, sur une tête de l'ancien Strasbourgeois (61e). Mais au moment où le Cameroun refaisait surface, la contre-attaque de Zidan faisait mouche. Le joueur d'Hambourg réussissait à résister au retour de Song pour servir Abou Treka complètement seul. Le meneur de jeu des Pharaons ne manquait pas son duel (1-0, 77e). Malgré une fin de match à l'avantage des Camerounais, les coéquipiers de Samuel Eto'o ne parvenaient pas à revenir. El Hadary signait même une parade décisive sur un tir de M'Bia (87e). L'Egypte tenait bon pour s'offrir un deuxième sacre consécutif, le sixième en tout. Pour le Cameroun, il s'agit en revanche d'une deuxième défaite en finale, après 1986, où les Pharaons avaient déjà pris le meilleur sur les Lions.

Texte original (3/3) Le jeu et les joueurs Dans son habituel, Hassan Chehata ne changeait pas une équipe qui gagne et alignait ainsi le 11 titulaire face à la Côte d'Ivoire. Solide défensivement, à l'image d'un El Hadary encore impérial, et un très bon Gomaa, qui a effacé Eto'o. Au milieu, Abd Rabo a beaucoup travaillé et a notamment beaucoup tenté sa chance. En attaque, Zaki a lui aussi joué pour le collectif. Pour le Cameroun, Otto Pfister alignait une équipe assez défensive, avec le seul Eto'o en pointe. Dans un dispositif proche du 4-3-3, les Lions Indomptables n'ont jamais réussi à entrer dans le match, en étant dominés dans tous les secteurs du jeu. Emana, par exemple, s'est complètement effondré après un bon début de match, alors que pour M'Bia, c'est l'inverse, avec une fin de partie plutôt à l'avantage du Rennais. Pour leur part, Nkong, héros de la demie, et Epallé, n'ont jamais été au niveau. En défense, hormis lors de l'énorme erreur de Song, Kameni a longtemps tenu son équipe à bout de bras.

Résumé obtenu L'Egypte encore couronnée Tenants du titre et vainqueurs de la Côte d'Ivoire en demi-finale, les Egyptiens partaient donc logiquement favoris. Kameni sauve le Cameroun Alors que le rythme baissait de plus en plus, on atteignait la pause sur un score logique (0-0). Song, héros malheureux Pour le Cameroun, il s'agit en revanche d'une deuxième défaite en finale, après 1986, où les Pharaons avaient déjà pris le meilleur sur les Lions. Le jeu et les joueurs Solide défensivement, à l'image d'un El Hadary encore impérial, et un très bon Gomaa, qui a effacé Eto'o. Au milieu, Abd Rabo a beaucoup travaillé et a notamment beaucoup tenté sa chance. En attaque, Zaki a lui aussi joué pour le collectif. Emana, par exemple, s'est complètement effondré après un bon début de match, alors que pour M'Bia, c'est l'inverse, avec une fin de partie plutôt à l'avantage du Rennais. Pour leur part, Nkong, héros de la demie, et Epallé, n'ont jamais été au niveau. En défense, hormis lors de l'énorme erreur de Song, Kameni a longtemps tenu son équipe à bout de bras.

Texte original La création de létablissement public Université Paris-Est sinscrit dans la dynamique engagée par le Groupement dintérêt public du Polytechnicum de Marne la Vallée, en réponse aux démarches menées par les ministères chargés de lEquipement et de lEnseignement supérieur pour constituer un pôle scientifique et technique. Son développement s'appuie également sur une association privilégiée avec l'établissement public de coopération scientifique ParisTech dont il constituera le pôle Est francilien. Luniversité Paris-Est, structurée en grands départements, intègre dans un même ensemble interdisciplinaire recherche et enseignement généraux, technologiques et professionnels. Ce continuum enseignement supérieur / recherche / ingénierie, articulé avec les entreprises du Pôle de compétitivité Ville et Mobilité Durables, permettra datteindre un rayonnement international, grâce à une signature commune de la production scientifique et à la capacité à attirer étudiants, enseignants et chercheurs à fort potentiel. Létablissement comprend actuellement cinq membres fondateurs : LEcole des ponts, luniversité de Marne la Vallée, L'Université Paris 12 Val- de-Marne, l'Ecole supérieure d'ingénieurs en électronique et électrotechnique (ESIEE) et le Laboratoire central des ponts et chaussées.Ecole des pontsuniversité de Marne la ValléeUniversité Paris 12 Val- de-MarneEcole supérieure d'ingénieurs en électronique et électrotechniqueLaboratoire central des ponts et chaussées

Résumé obtenu Son développement s'appuie également sur une association privilégiée avec l'établissement public de coopération scientifique ParisTech dont il constituera le pôle Est francilien. Ce continuum enseignement supérieur / recherche / ingénierie, articulé avec les entreprises du Pôle de compétitivité Ville et Mobilité Durables, permettra datteindre un rayonnement international, grâce à une signature commune de la production scientifique et à la capacité à attirer étudiants, enseignants et chercheurs à fort potentiel. LEcole des ponts, luniversité de Marne la Vallée, L'Université Paris 12 Val-de-Marne, l'Ecole supérieure d'ingénieurs en électronique et électrotechnique (ESIEE) et le Laboratoire central des ponts et chaussées.Ecole des pontsuniversité de Marne la ValléeUniversité Paris 12 Val-de-MarneEcole supérieure d'ingénieurs en électronique et électrotechniqueLaboratoire central des ponts et chaussées