2
République Algérienne Démocratique et Populaire Ministère de l'Enseignement Supérieur et de la Recherche Scientifique Université Saad Dahleb Blida Faculté des sciences Département d’informatique Mémoire de fin d’étude Promotrice : Mme Farah Mémoire réalisée par le trinôme : Meftahi Oualid Benzineb Asmaa Meridji Rania 2016/
La classification non supervisée hiérarchique 4
Le plan de travail : Le plan de travail : Introduction La classification et les types de classification des documents Classification non supervisée hiérarchique ascendante Les étapes de classification Le prétraitement de document L’algorithme de CHA et les méthodes d’ agrégations Mesures de similarités 8 Application
Introduction: Introduction: Avec le développement des plateformes de télédétection les jeux de donnes spatiales deviennent de plus en plus grands, avec de grands nombres de variables. Il devient alors nécessaire de séparer le domaine d’étude en différents partie homogènes ceci peut se voir comme un problème de classification non supervisée. 6
La classification des documents : La classification des documents : Définition: il s’agit d’assigner un document a une ou plusieurs catégories ou classes, de sorte que : Deux objets d’une même classe se ressemble le plus possible Deux objets de classe distincte défèrent le plus possible 7
Type de classification : Type de classification : Plusieurs types de classification existent: La classification non supervisée: La classification non supervisée consiste à apprendre à classer sans supervision. premier travail consiste donc à nous ne dispo ni de la définition des classes, ni de leurs nombres. 8
La classification supervisée: La classification supervisée: un document à classer à un échantillon de documents représentatifs d'une classe de documents. premier travail consiste donc à classer manuellement des documents d'un corpus. 9
La classification Non supervisé Non hiérarchique Centre mobiles K-means Nuées dynamique Hiérarchique Ascendante Algorithme CHA Descendante Supervisé (K-PPV) 10
Classification non supervisée hiérarchique ascendante : Classification non supervisée hiérarchique ascendante : Définition: Le concept de base du regroupement hiérarchique est de fusionner successivement les documents en clusters (groupes) puis les clusters entre eux selon leur degré de similarité. 11 Elle se décompose donc en deux étapes répétées en boucle (jusqu'à ce qu'il ne reste qu'un seul cluster unique) : calculer la similarité (distance) entre tous les cluster existant à l'étape en cours ; fusionner les deux clusters qui sont les plus similaires.
Classification non supervisée hiérarchique ascendante : 12
Structures de données 13 Matrice de données Matrice de similarité
14 Les étapes de classification: 01 Choix des données Prétraitement de document Calculer la table de distance Appliquer CHA Texte initial (corpus en langage naturel) Nettoyage de corpus Tokenisation (Chaque document est découpé en ensemble des « mots-clés » ) Tokenisation (Chaque document est découpé en ensemble des « mots-clés » ) Lexique des mots clés Suppressions des mots <4 lettre Suppressions des Stop- word Lemmatisation¹ /Stemming ² Suppressions des mots <4 lettre Suppressions des Stop- word Lemmatisation¹ /Stemming ² (1)Procédé de transformation d’un mot en racine, la racine d’un mot correspond à son radical (2) analyse du contenu d’un texte Regroupant les mots de même famille (1)Procédé de transformation d’un mot en racine, la racine d’un mot correspond à son radical (2) analyse du contenu d’un texte Regroupant les mots de même famille La distance euclidienne: d 2 (x1, x2) = ∑ i (x1i −x2i) 2 = (x1 −x2) (x1 −x2) La distance cosinus : Cos ( d1, d2 ) = ( d1 ⋅ d2 ) / || D1 || || D2 ||, Où ⋅ indique un produit à point vectoriel, || D |: la longueur du vecteur d Ex: trouver la similitude entre les documents 1 et 2. d1 = (5, 0, 3, 0, 2, 0) d2 = (3, 0, 2, 0, 1, 1) d1 ⋅ d2 = 5 * * * * * * 1 = 23 || D1 || = (5 * * * * * * 0) 0.5 = (38) 0.5 = 6,164 || D2 || = (3 * * * * * * 1) 0.5 = (15) 0.5 = 3,872 Cos ( d1, d2 ) = 0,96 Mot 1mot2mot3mot4mot Mot 1mot2mot3mot4mot
15 Etape N=01 Chaque individu est considéré comme un cluster Etape N=02 Recherche des deux clusters `à regrouper Etape N=03 fusion des deux clusters et mise à jour de la matrice de distance. Etape N=04 Répétition à partir de l’´étape 02 jusqu’à n’avoir qu’un cluster.
Les méthodes d’ agrégations: Les méthodes d’ agrégations: Complete-linkage: la distance entre de clusters est représentée par la distance maximum entre toutes les paires de données entre les deux clusters, nous parlons alors de saut maximum ou de critère du diamètre 16
Les méthodes d’’ agrégations: Single linkage: la distance entre deux clusters est représentée par la distance minimum entre toutes les paires de données entre les deux clusters (paire composé d’un élément de chaque cluster), nous parlons alors de saut minimum. 17
Dendrogramme : 18 Classe 1Classe 2Classe 4Classe 5Classe 6Classe 3
Application : 19
Conclusion : La classification des documents est un domaine très vaste. CHA est une méthode qui a connu un succès à usage important, car on part du principe qu’on ne connait ni la classe ni le thème des fichiers, qui en résultat regroupe tous les individus du même contenu en classe. 20
Merci pour votre aimable attention 21
22