La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Cours 3 Classification Résumé de textes. Classification et regroupement Objectif : classer des documents - en fonction de classes prédéfinies (classification.

Présentations similaires


Présentation au sujet: "Cours 3 Classification Résumé de textes. Classification et regroupement Objectif : classer des documents - en fonction de classes prédéfinies (classification."— Transcription de la présentation:

1 Cours 3 Classification Résumé de textes

2 Classification et regroupement Objectif : classer des documents - en fonction de classes prédéfinies (classification supervisée), exemples : routage vers des destinataires, ou filtrage (2 classes : retenus ou rejetés) - ou par ressemblance entre eux, sans classes prédéfinies (regroupement non supervisé) Principe Dans le modèle vectoriel, une classe est représentée par le barycentre des k éléments d j de la classe Pour 1 i N, B i = 1 j k m i,j /k

3 Classification et regroupement Le barycentre est un vecteur dont la norme (longueur) dépend de celle des vecteurs On normalise les vecteurs avant de calculer le barycentre : Pour 1 i N, B i = 1 j k m i,j /k Le barycentre d'un ensemble de vecteurs normalisés n'est pas nécessairement normalisé Exemple : deux vecteurs orthogonaux Ensuite, on normalise le barycentre

4 Exemple Barycentre de d1 et d2 : b1 d1d2d3b1 cinéma0500,60 football4400,80 rugby b1 est normalisé : 0, ,80 2 = 1 En considérant que chaque vecteur donne une direction dans l'espace, celle de b1 est "entre" celles de d1 et d2

5 Classification Algorithme des k plus proches voisins Entrée : des documents déjà distribués en classes disjointes ; un nouveau document d à classer ; un entier k Sortie : la classe du nouveau document j := k tant que j>0 parmi les documents déjà classés trouver les j plus proches voisins de d trouver la ou les classes les plus représentées parmi ces voisins si on trouve une seule classe, renvoyer cette classe sinon j := j - 1

6 Exemple Classe football : d1 et d2, barycentre : b1 Classe rugby : d3, barycentre : b2 d1d2d3b1b2d4d5 cinéma0500,60024 football4400,80011 rugby On veut classer d4 et d5 similarités de d4 :0,310,95classe r. similarités de d5 :0,840,45classe f.

7 Classification Terminaison de l'algorithme L'algorithme se termine au plus tard quand j = 1 et dans ce cas on renvoie la classe du plus proche voisin

8 Regroupement Algorithme de regroupement des k moyennes Entrée : un ensemble de documents représentés par des vecteurs ; un entier k Sortie : une partition des documents en k groupes choisir aléatoirement k vecteurs m 1, m 2,..., m k faire classer les vecteurs en k groupes en associant chaque vecteur au m i le plus similaire pour tout i de 1 à k m i := le barycentre des vecteurs du groupe i tant que il y a eu au moins un m i modifié Ne donne pas toujours la meilleure solution Faire tourner plusieurs fois et prendre la meilleure solution

9 Regroupement Évaluation Pour chaque partition de l'ensemble de documents, on peut calculer à l'aide du modèle vectoriel : - la similarité moyenne de deux documents de la même classe (similarité intra-classe) - la similarité moyenne de deux documents de classes différentes (similarité inter-classe) Un regroupement est bon s'il a une similarité intra-classe élevée et une similarité inter-classe basse

10 Regroupement Nombre de groupes La qualité du regroupement a tendance à augmenter avec le nombre de groupes Avec un document par groupe, le regroupement est parfait... mais pas utile Choisir le nombre de groupes Exécuter l'algorithme avec différentes valeurs de k Comparer la qualité des regroupements obtenus Choisir k tel que l'amélioration en passant de k-1 à k soit particulièrement importante, et l'amélioration en passant de k à k+1 peu importante

11 Résumé Objectif Produire un résumé d'un document On utilise un ensemble de documents, comme dans la recherche d'informations, pour définir la pondération par pertinence des tokens-mots Principe On veut par exemple que le résumé fasse environ 20 % du document en nombre de phrases, soit k phrases On considère le document comme une séquence de phrases Chaque phrase est représentée par un vecteur On calcule la pertinence de chaque phrase (voir plus loin) On sélectionne les k phrases les plus pertinentes On les présente dans l'ordre du texte

12 Résumé Définition de la pertinence d'une phrase On calcule les coordonnées du vecteur avec et sans la formule TFIDF - avec TFIDF : m i log D/d(i) - avec seulement le nombre d'occurrences de chaque token-mot : m i Pertinence d'une phrase : ( 1 i N m i log D/d(i)) / 1 i N m i C'est la moyenne des log D/d(i), pondérée par les m i

13 Exemples

14 Texte original (1/3) L'Egypte encore couronnée 11/02/2008 | Mise à jour : 13:26 |.A l'issue d'un match dominé de bout en bout, l'Egypte a logiquement pris le meilleur sur le Cameroun en finale de la Coupe d'Afrique des Nations (1-0) et remporte son 6e titre dans cette compétition. Compte rendu du match La 26e finale de la Coupe d'Afrique des Nations opposait les deux formations les plus titrées du continent, l'Egypte et le Cameroun. Deux équipes qui s'étaient déjà rencontrées au premier tour, avec un succès des Pharaons à la clé (4-2). Tenants du titre et vainqueurs de la Côte d'Ivoire en demi-finale, les Egyptiens partaient donc logiquement favoris. Kameni sauve le Cameroun Les hommes de Hassan Chehata ne tardaient pas à confirmer leur statut sur le terrain. Abd Rabo menaçait une première fois Kameni sur coup-franc (7e), rapidement suivi par Moawad (9e). Le portier de l'Espanyol Barcelone devait encore s'employer sur une frappe d'Abu Treka de loin (12e), puis à bout portant (19e). Les vagues rouges revenaient inlassablement sur les buts camerounais, et après une nouvelle offensive, Fathi tirait dans un angle fermé et ne trouvait pas le cadre (22e). Les Lions Indomptables, bien timides dans le jeu, ne parvenaient pas à

15 Texte original (2/3) inquiéter El Hadary, hormis sur une accélération d'Eto'o, dont le tir était trop croisé (35e). C'était en fait encore Kameni qui s'illustrait sur un face-à-face avec Moawad (36e). Alors que le rythme baissait de plus en plus, on atteignait la pause sur un score logique (0-0). Song, héros malheureux On retrouvait la même physionomie en deuxième période, avec une Egypte largement dominatrice, mais impuissante face à Kameni. Le gardien des Lions était encore à la parade sur une frappe puissante d'Hosny Abd Rabo (54e), et lorsqu'il était battu, le poteau venait le suppléer, sur une tête de l'ancien Strasbourgeois (61e). Mais au moment où le Cameroun refaisait surface, la contre-attaque de Zidan faisait mouche. Le joueur d'Hambourg réussissait à résister au retour de Song pour servir Abou Treka complètement seul. Le meneur de jeu des Pharaons ne manquait pas son duel (1-0, 77e). Malgré une fin de match à l'avantage des Camerounais, les coéquipiers de Samuel Eto'o ne parvenaient pas à revenir. El Hadary signait même une parade décisive sur un tir de M'Bia (87e). L'Egypte tenait bon pour s'offrir un deuxième sacre consécutif, le sixième en tout. Pour le Cameroun, il s'agit en revanche d'une deuxième défaite en finale, après 1986, où les Pharaons avaient déjà pris le meilleur sur les Lions.

16 Texte original (3/3) Le jeu et les joueurs Dans son habituel, Hassan Chehata ne changeait pas une équipe qui gagne et alignait ainsi le 11 titulaire face à la Côte d'Ivoire. Solide défensivement, à l'image d'un El Hadary encore impérial, et un très bon Gomaa, qui a effacé Eto'o. Au milieu, Abd Rabo a beaucoup travaillé et a notamment beaucoup tenté sa chance. En attaque, Zaki a lui aussi joué pour le collectif. Pour le Cameroun, Otto Pfister alignait une équipe assez défensive, avec le seul Eto'o en pointe. Dans un dispositif proche du 4-3-3, les Lions Indomptables n'ont jamais réussi à entrer dans le match, en étant dominés dans tous les secteurs du jeu. Emana, par exemple, s'est complètement effondré après un bon début de match, alors que pour M'Bia, c'est l'inverse, avec une fin de partie plutôt à l'avantage du Rennais. Pour leur part, Nkong, héros de la demie, et Epallé, n'ont jamais été au niveau. En défense, hormis lors de l'énorme erreur de Song, Kameni a longtemps tenu son équipe à bout de bras.

17 Résumé obtenu L'Egypte encore couronnée Tenants du titre et vainqueurs de la Côte d'Ivoire en demi-finale, les Egyptiens partaient donc logiquement favoris. Kameni sauve le Cameroun Alors que le rythme baissait de plus en plus, on atteignait la pause sur un score logique (0-0). Song, héros malheureux Pour le Cameroun, il s'agit en revanche d'une deuxième défaite en finale, après 1986, où les Pharaons avaient déjà pris le meilleur sur les Lions. Le jeu et les joueurs Solide défensivement, à l'image d'un El Hadary encore impérial, et un très bon Gomaa, qui a effacé Eto'o. Au milieu, Abd Rabo a beaucoup travaillé et a notamment beaucoup tenté sa chance. En attaque, Zaki a lui aussi joué pour le collectif. Emana, par exemple, s'est complètement effondré après un bon début de match, alors que pour M'Bia, c'est l'inverse, avec une fin de partie plutôt à l'avantage du Rennais. Pour leur part, Nkong, héros de la demie, et Epallé, n'ont jamais été au niveau. En défense, hormis lors de l'énorme erreur de Song, Kameni a longtemps tenu son équipe à bout de bras.

18 Texte original La création de létablissement public Université Paris-Est sinscrit dans la dynamique engagée par le Groupement dintérêt public du Polytechnicum de Marne la Vallée, en réponse aux démarches menées par les ministères chargés de lEquipement et de lEnseignement supérieur pour constituer un pôle scientifique et technique. Son développement s'appuie également sur une association privilégiée avec l'établissement public de coopération scientifique ParisTech dont il constituera le pôle Est francilien. Luniversité Paris-Est, structurée en grands départements, intègre dans un même ensemble interdisciplinaire recherche et enseignement généraux, technologiques et professionnels. Ce continuum enseignement supérieur / recherche / ingénierie, articulé avec les entreprises du Pôle de compétitivité Ville et Mobilité Durables, permettra datteindre un rayonnement international, grâce à une signature commune de la production scientifique et à la capacité à attirer étudiants, enseignants et chercheurs à fort potentiel. Létablissement comprend actuellement cinq membres fondateurs : LEcole des ponts, luniversité de Marne la Vallée, L'Université Paris 12 Val- de-Marne, l'Ecole supérieure d'ingénieurs en électronique et électrotechnique (ESIEE) et le Laboratoire central des ponts et chaussées.Ecole des pontsuniversité de Marne la ValléeUniversité Paris 12 Val- de-MarneEcole supérieure d'ingénieurs en électronique et électrotechniqueLaboratoire central des ponts et chaussées

19 Résumé obtenu Son développement s'appuie également sur une association privilégiée avec l'établissement public de coopération scientifique ParisTech dont il constituera le pôle Est francilien. Ce continuum enseignement supérieur / recherche / ingénierie, articulé avec les entreprises du Pôle de compétitivité Ville et Mobilité Durables, permettra datteindre un rayonnement international, grâce à une signature commune de la production scientifique et à la capacité à attirer étudiants, enseignants et chercheurs à fort potentiel. LEcole des ponts, luniversité de Marne la Vallée, L'Université Paris 12 Val-de-Marne, l'Ecole supérieure d'ingénieurs en électronique et électrotechnique (ESIEE) et le Laboratoire central des ponts et chaussées.Ecole des pontsuniversité de Marne la ValléeUniversité Paris 12 Val-de-MarneEcole supérieure d'ingénieurs en électronique et électrotechniqueLaboratoire central des ponts et chaussées


Télécharger ppt "Cours 3 Classification Résumé de textes. Classification et regroupement Objectif : classer des documents - en fonction de classes prédéfinies (classification."

Présentations similaires


Annonces Google