La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

09/12/03séminaire LIR1 Recherche de structures latentes dans des partitions de " textes " de 2 à k classes Michèle Jardino.

Présentations similaires


Présentation au sujet: "09/12/03séminaire LIR1 Recherche de structures latentes dans des partitions de " textes " de 2 à k classes Michèle Jardino."— Transcription de la présentation:

1 09/12/03séminaire LIR1 Recherche de structures latentes dans des partitions de " textes " de 2 à k classes Michèle Jardino

2 09/12/03séminaire LIR2 Page de présentation rapport dactivité BQR 2002 LREC 2004 JADT 2004 PASCAL workshop

3 09/12/03séminaire LIR3 Problème Réaliser partition thématique non supervisée cohérente de « textes » –sans connaître a priori le nombre de classes –en faisant émerger une structure hiérarchique si elle existe méthode générique pour tout type de données représentables par des vecteurs

4 09/12/03séminaire LIR4 Etat de lart (1) Méthodes de classification non supervisées –la classification hiérarchique (ascendante ou descendante) –partitionnement direct en un nombre de classes spécifié à lavance Logiciel libre, R (The R Project for Statistical Computing, Livres : –Duda R.O. and Hart P.E. (1973). Pattern classification and Scene Analysis. Wiley & sons. –Kaufman L., Rousseeuw P.J.(1990). Finding groups in data.Wiley & sons. –Lebart L., Morineau A., Piron M. (1995). Statistique exploratoire multidimensionnelle. Dunod.

5 09/12/03séminaire LIR5 Etat de lart (2) Choix du nombre de classes Quand? –coupure de larbre généré par la classification hiérarchique –pour le partitionnement direct. Comment? –généralement résolu soit par des connaissances a priori sur les données soit par une combinaison de méthodes de classification et danalyse factorielle (Lebart et al. 1995). Inconvénients –pas prise en compte la structuration réelle des données qui peuvent être éventuellement représentées par un arbre déséquilibré, avec des degrés de ramifications différents, comme par exemple pour les ontologies. Alors?

6 09/12/03séminaire LIR6 Classification hiérarchique ascendante Démographie états USA

7 09/12/03séminaire LIR7 Proposition : partitions successives de 2 à k classes (dessin) recherche classes stables dune partition à une autre = classes qui conservent les mêmes « textes » comment? –dabord - visuellement treillis des relations observées entre classes de textes analyse visuelle du treillis permet dextraire, quand elle existe, une structure particulière sous forme darbre, sans connaissance a priori de cette structure, par fusion et élagage. –Ensuite - automatiquement, le critère de partitionnement lui-même (Duda and Hart 1973), le nombre de chemins observés entre les différentes partitions.

8 09/12/03séminaire LIR8 Méthode Partitions successives des textes, de 2 à K classes Observation des textes dans ces partitions –Création du treillis des chemins des textes –Recherche de classes stables dans ce treillis

9 09/12/03séminaire LIR9 Corpus d étude fiches de descriptions de sites, de circuits ou de séjours touristiques

10 09/12/03séminaire LIR10 Exemple de fiche (début) LYS CIRCUIT 8 JOURS / 7 NUITS [[nil]] N EUROPE-RUSSIE 0 19/06/2000 Done PRAGUE ET LA BOHEME DU SUD EN PENSION COMPLETE

11 09/12/03séminaire LIR11 Exemple de fiche (milieu) Lundi : : Prague/Vysherad et Stare : : Prague/Mala : Prague/Konopiste/Ceske : Ceske Budejovice/Trebon/Jindrichuv Hradec/Ceske : Ceske Budejovice/Monastère de Vyssi Brod/Cesky Krumlov/Ceske : Ceske prix transport aérien France/Prague/France sur vol transferts logement en hôtel 3*** normes locales avec petit déjeuner sous forme de pension complète du dîner du jour 1 au petit déjeuner du jour 8 avec repas composé de 3 transport terrestre est assuré en autocar Karosa, Daf, assurances assistance, prix ne comprennent bagages-annulation : 2,5 % du montant taxes d'aéroport obligatoires à rajouter au forfait (200 F à ce frais à caractère pourboires au guide local et au single:800 F

12 09/12/03séminaire LIR12 Exemple de fiche (fin) 8 19/06/2000 TCHEACI01808LYS Supplément single … [[nil]] 0 Circuit 8 jours / 7 nuits Prague et la Bohème du sud 4 bin/cvacances.storefront/FR/product/V1008_1 V 19/06/2000 0

13 09/12/03séminaire LIR13 Phrasettes Phrasette = = « chunks » Pourquoi des phrasettes? –faciliter la recherche dinformation dans ces fiches, par exemple pour répondre à la question « je cherche un séjour avec vue sur lagon » Réalisation des phrasettes –découpage descriptions longues en phrasettes –phrasette = segment de texte compris entre deux points ou entre un début de description et un point Corpus obtenu –4 700 phrasettes différentes, longueur moyenne = 8 mots –nombre total de mots = , –vocabulaire V = mots

14 09/12/03séminaire LIR14 Partitions successives Partitionnement par classification non supervisée Enchaînement des partitions

15 09/12/03séminaire LIR15 Classification non supervisée autour des centres mobiles (Lebart et al. 1995) originalité –critère de distance entropique –une recherche aléatoire de la meilleure classification (Jardino 2000)

16 09/12/03séminaire LIR16 Représentation vectorielle des textes dans lespace des mots Sac de mots –T textes, V mots de vocabulaire – les textes sont indexés par i (i variant de 1 à T) et notés t i, –les mots par j (j variant de 1 à V) et notés m j. Le texte t i est représenté par le vecteur { f ij } –les éléments f ij sont les fréquences relatives des mots dans le texte : f ij = n ij /l j –On obtient ainsi une matrice de T lignes et V colonnes, chaque ligne correspond au profil d'un texte.

17 09/12/03séminaire LIR17 Représentation des classes Centres mobiles Centre mobile dune classe = barycentre des textes de la classe. Profil de la classe de textes f kj. –tient compte ainsi à la fois de la distribution des mots dans les textes (du profil du texte) et de la longueur de ces textes. expression du barycentre : l k *f kj = i inclus dans k l i *f ij l k est la somme des longueurs des textes de la classe k et f kj la proportion du mot m j dans la classe de textes k.

18 09/12/03séminaire LIR18 Entropie, critère de classification Entropie = Quantité dinformation contenue dans les textes ~ nombre moyen de mots qui permettent de prédire un texte ( « sac de mots ») Entropie des textes non classés : H(T) = -(1/f ) n ij *log(f ij ) f = nombre total de mots du corpus 0 (déterminisme) <= H(T) <= - log(V) (uniformité). Entropie des textes regroupés en k classes et représentés par leurs centres de gravité : H(K) = -(1/f ) n kj *log(f kj ) On montre que lentropie des textes regroupés H(K) >= H(T) Intérêt : –Temps de calcul : ce critère ne nécessite que de connaître les positions des centres de gravité et non pas leurs positions relatives –Pas dhypothèse sur la forme des classes

19 09/12/03séminaire LIR19 Algorithme de classification k donné, la classification automatique cherche parmi les environ T k configurations possibles, celle qui minimise H(K) Algorithme itératif qui, à chaque étape, choisit une classification simplement meilleure que la précédente en cherchant aléatoirement les nouvelles configurations. –Initialisation : à chaque texte est attribuée une classe, de 1 à k, les centres de gravité des classes sont calculées ainsi que lentropie H(K) correspondante. –Itérations : un texte est choisi au hasard une nouvelle classe lui est attribuée également au hasard. Les centres de gravité de la classe initiale et de la nouvelle classe sont recalculés la variation dentropie associée sen déduit Si lentropie décroît, le texte est affecté à la nouvelle classe, si elle croît, le texte reste dans la classe initiale. –Fin : quand il ny a plus de variation dentropie.

20 09/12/03séminaire LIR20 Création de partitions de 2 à k classes Partitions successives de 2 à k classes La première partition est initialisée avec tous les textes regroupés dans une seule classe, Les suivantes avec les résultats de classification obtenus dans la partition précédente : –la partition 3, P3, est initialisée avec le classement obtenu lors de la partition P2. Les dénominations P2, P3, …, Pk sont réservées aux partitions optimales en 2, 3,…, k classes. Léger biais du fait que les partitions ne sont pas complètement optimales mais elle permet de mettre en évidence facilement les classes stables, car celles-ci conservent leur indice dune partition à lautre.

21 09/12/03séminaire LIR21 Partitions de 2 à 10 classes Nombre de textes, T phrasettes Taille du vocabulaire, V mots Nombre total de mots, f mots Entropie maximale 377 mots Entropie minimale 25 mots Entropie H(2)295 mots Temps de calcul2 s Entropie H(10)162 mots Temps de calcul28 s

22 09/12/03séminaire LIR22 Récapitulatif Partitions successives des phrasettes, de 2 à K classes Observation des phrasettes dans ces partitions –Création du treillis des chemins des phrasettes –Recherche de classes stables dans ce treillis

23 09/12/03séminaire LIR23 Chemins les plus fréquentés par les phrasettes dans les partitions de 2 à 10 classes. La suite de 9 chiffres dans la première colonne est la suite des numéros des classes des partitions de 2 à 10 classes, le premier chiffre de la suite varie entre 1 et 2, le deuxième entre 2 et 3 … cheminsnombre de chemins

24 09/12/03séminaire LIR24 Analyse des chemins Classes reliées par 295 chemins différents alors quil y a 10 ! possibilités (soit plus de 3 millions de chemins), chemins privilégiés Certaines classes napparaissent pas dans les 10 chemins les plus fréquentés : ce sont les classes 8 et 10. Aux dix premiers chemins sont associés phrasettes, soit 75% du corpus.

25 09/12/03séminaire LIR25

26 09/12/03séminaire LIR26 Arbre extrait

27 09/12/03séminaire LIR27 Critère 1 de stabilité des classes = nombre de chemins observés entre 2 partitions successives

28 09/12/03séminaire LIR28 Critère 1 de stabilité des classes = entropie des classes

29 09/12/03séminaire LIR29 Evaluation classification –102 phrasettes classées manuellement dans 4 classes de référence R1,R2,R3,R4 –Comparaison avec les 4 classes trouvées automatiquement A1,A2,A3 et A4

30 09/12/03séminaire LIR30 A1A2A3A4Fréquences marginale Erreurs R R R R Fréquences marginale Erreurs313111

31 09/12/03séminaire LIR31 Evaluation structure Recherche dinformation: Question : « séjour avec vue sur lagon » –19 fiches trouvées, fiches structurées –48 fiches trouvées pour les fiches non structurées Piscines à lagon

32 09/12/03séminaire LIR32 Conclusion Méthode générale de recherche de structures latentes dans les données, permet de répondre aux problèmes de –La détermination du nombre optimal de classes, pour une classification à plat –Le choix de la coupure dans une classification hiérarchique Reste à automatiser complètement la procédure, 2 choix: –Isoler les classes dès quelles paraissent stables, et continuer les partitionnements en parallèle –Sarrêter à un niveau de partitionnement où toutes les classes paraissent stables et reconstituer larbre jusquà la racine

33 09/12/03séminaire LIR33 Questions ouvertes Quel genre de structure obtient-on? –En thèmes –En style –… Dépend de lespace de projection –Mots, étiquettes syntaxiques, sémantiques … Comment représenter les classes? –Textes proches du centre de gravité –Mots discriminants

34 09/12/03séminaire LIR34 En marge Utiliser cette méthode –Pour trouver les mots discriminants des classes –Ou de manière complémentaire, faire une stop-liste

35 09/12/03séminaire LIR35 Quelques applications Reuters (criminologie) Dialogues (transcriptions de mots, sémantique,dialogique) Pages Web (SensNet)


Télécharger ppt "09/12/03séminaire LIR1 Recherche de structures latentes dans des partitions de " textes " de 2 à k classes Michèle Jardino."

Présentations similaires


Annonces Google