République Algérienne Démocratique et Populaire Ministère de l'Enseignement Supérieur et de la Recherche Scientifique Université Saad.

Slides:



Advertisements
Présentations similaires
Classification-Segmentation
Advertisements

Visualisation dynamique d'arbres hiérarchiques de très grande taille Par Rémi Fusade TER encadré par Thomas Hurtut et Thierry Stein.
TP 1 Maths De la séquence à la séance… en passant par la classe.
Master ESEEC Rédaction de documents (longs) structurés Patrice Séébold Bureau 109, Bât B.
Cours Initiation aux Bases De Données
Suites ordonnées ou mettre de l’ordre
Prepare par : Karimi Khadija ELardi Soumia
EPREUVES HISTOIRE ET GEOGRAPHIE
Construire des requêtes
Bases de données multimédia
Algorithmiques Abdelbasset KABOU
Réalisé par : Ghilani Idriss Butadjine Oussama Rahmani Khaled
Techniques de décomposition
4°) Intervalle de fluctuation :
L’ organization comme fonction de gestion
7.1 Transformation linéaire
l’écriture d’invention
La Méthode TRIZ en Agroalimentaire?
Informatique et Sciences du Numérique
Routage S 3 - Questionnaire N°1
Algorithmique - L’affectation -
POL1803: Analyse des techniques quantitatives
Outils méthodologiques
Technologies de l’intelligence d’affaires Séance 9
Plans d’experiences : plans de melanges
Les plans d’expérience: plans factoriels
Routage S 3 - Questionnaire N°1
Technologies de l’intelligence d’affaires Séance 11
Technologies de l’intelligence d’affaires Séance 12
Évaluation de la fertilité et cartographie des sols Agricoles; Cas de la plaine de Sidi Bel Abbes. (Algérie occidentale) Présentée par; Mme FARAOUN Fatiha Sous la direction du professeur; BENABDELI Kheloufi
Réalisation d’une application web sous le thème: «Mon vétérinaire » par : Benzineb Asmaa et Meftahi Oualid Présentation à Université Saad Dahlab Blida.
Techniques du Data Mining
Protocole AODV pour Iot
L E C ORPS D ’ UN A LGORITHME / P ROGRAMME – L A PARTIE I NSTRUCTION Réalisé par : OUZEGGANE Redouane Département de Technologie Faculté de Technologie.
Cours N°9: Algorithmiques Les Tableaux 1
La méthode du simplexe. 1) Algorithme du simplexe  Cet algorithme permet de déterminer la solution optimale, si elle existe, d’un problème de programmation.
Structure D’une Base De Données Relationnelle
REVUE DE LITTERATURE. Introduction Première partie majeure dans la rédaction du mémoire, la réalisation d’une revue de littérature consiste à effectuer.
la structure de l’entreprise: Définition : La structure organisationnelle d’une entreprise définie le mode d’organisation entre les différentes unités.
Les applications de groupware
ACP Analyse en Composantes Principales
République Algérienne Démocratique et Populaire Ministère de l’Enseignement Supérieur et de la Recherche Scientifique Université d’Oran Faculté de Génie.
Royaume de Maroc Université Hassan Premier Settat Faculté des Sciences et Techniques de Settat LA CLASSIFICATION K-MEANS SOUS R /MATLAB Master :Automatique.
Présenté par : M. TEMZINE Omar M. Zellat Salah eddine. Promotion 2016/2017 République Algérienne Démocratique et Populaire Ministre de l’enseignement supérieur.
Statistiques.
Les méthodes non paramétriques
Thème Nouvelle Approche d’Alignement d’Ontologies à Base d’Instances
Présentation 8 : Redressement des estimateurs
Data Mining Fait par : Belhaj Nadia Derouich Maryem.
SUJET : E C L A T UNIVERSITE GASTON BERGER DE SAINT LOUIS UFR DES SCIENCES APPLIQUEES ET DE TECHNOLOGIE MASTER PROFESSIONNEL EN DÉVELOPPEMENT DE SYSTÈMES.
ENSEIGNER L’ALGORITHMIQUE ET LA PROGRAMMATION AU COLLÈGE
Contribution du LHyGeS
Moteurs de recherches Data mining Nizar Jegham.
PLATE FORME DE GESTION ÉLECTRONIQUE DE DOCUMENTS Présenté par: Amine LARIBI.
RABAH M ed Ali 2018/2019
Principes de programmation (suite)
Programme d’appui à la gestion publique et aux statistiques
Enseignement de spécialité Classe de première, voie générale
INTELLIGENCE ARTIFICIELLE
Tableau de bord d’un système de recommandation
Encadrée par: - Mr. Abdallah ALAOUI AMINI Réalisée par : -ERAOUI Oumaima -DEKKAR Amal - ES-SAHLY Samira -Houari Mohammed PROGRAMMATION MULTIOBJECTIFS.
INTELLIGENCE ARTIFICIELLE
République Algérienne Démocratique. Ministère de l’enseignement supérieur et de la recherche scientifique. Université Oran 1 ( Ahmed Ben bella) Faculté.
Création d une application pour la détection des personnage par les empreintes digitale 1.
Couche limite atmosphérique
La programmation dynamique
Transcription de la présentation:

2

République Algérienne Démocratique et Populaire Ministère de l'Enseignement Supérieur et de la Recherche Scientifique Université Saad Dahleb Blida Faculté des sciences Département d’informatique Mémoire de fin d’étude Promotrice : Mme Farah Mémoire réalisée par le trinôme : Meftahi Oualid Benzineb Asmaa Meridji Rania 2016/

La classification non supervisée hiérarchique 4

Le plan de travail : Le plan de travail : Introduction La classification et les types de classification des documents Classification non supervisée hiérarchique ascendante Les étapes de classification Le prétraitement de document L’algorithme de CHA et les méthodes d’ agrégations Mesures de similarités 8 Application

Introduction: Introduction: Avec le développement des plateformes de télédétection les jeux de donnes spatiales deviennent de plus en plus grands, avec de grands nombres de variables. Il devient alors nécessaire de séparer le domaine d’étude en différents partie homogènes ceci peut se voir comme un problème de classification non supervisée. 6

La classification des documents : La classification des documents : Définition: il s’agit d’assigner un document a une ou plusieurs catégories ou classes, de sorte que : Deux objets d’une même classe se ressemble le plus possible Deux objets de classe distincte défèrent le plus possible 7

Type de classification : Type de classification : Plusieurs types de classification existent: La classification non supervisée: La classification non supervisée consiste à apprendre à classer sans supervision. premier travail consiste donc à nous ne dispo ni de la définition des classes, ni de leurs nombres. 8

La classification supervisée: La classification supervisée: un document à classer à un échantillon de documents représentatifs d'une classe de documents. premier travail consiste donc à classer manuellement des documents d'un corpus. 9

La classification Non supervisé Non hiérarchique Centre mobiles K-means Nuées dynamique Hiérarchique Ascendante Algorithme CHA Descendante Supervisé (K-PPV) 10

Classification non supervisée hiérarchique ascendante : Classification non supervisée hiérarchique ascendante : Définition: Le concept de base du regroupement hiérarchique est de fusionner successivement les documents en clusters (groupes) puis les clusters entre eux selon leur degré de similarité. 11 Elle se décompose donc en deux étapes répétées en boucle (jusqu'à ce qu'il ne reste qu'un seul cluster unique) :  calculer la similarité (distance) entre tous les cluster existant à l'étape en cours ;  fusionner les deux clusters qui sont les plus similaires.

Classification non supervisée hiérarchique ascendante : 12

Structures de données 13 Matrice de données Matrice de similarité

14 Les étapes de classification: 01 Choix des données Prétraitement de document Calculer la table de distance Appliquer CHA Texte initial (corpus en langage naturel) Nettoyage de corpus Tokenisation (Chaque document est découpé en ensemble des « mots-clés » ) Tokenisation (Chaque document est découpé en ensemble des « mots-clés » ) Lexique des mots clés Suppressions des mots <4 lettre Suppressions des Stop- word Lemmatisation¹ /Stemming ² Suppressions des mots <4 lettre Suppressions des Stop- word Lemmatisation¹ /Stemming ² (1)Procédé de transformation d’un mot en racine, la racine d’un mot correspond à son radical (2) analyse du contenu d’un texte Regroupant les mots de même famille (1)Procédé de transformation d’un mot en racine, la racine d’un mot correspond à son radical (2) analyse du contenu d’un texte Regroupant les mots de même famille La distance euclidienne: d 2 (x1, x2) = ∑ i (x1i −x2i) 2 = (x1 −x2) (x1 −x2) La distance cosinus : Cos ( d1, d2 ) = ( d1 ⋅ d2 ) / || D1 || || D2 ||, Où ⋅ indique un produit à point vectoriel, || D |: la longueur du vecteur d Ex: trouver la similitude entre les documents 1 et 2. d1 = (5, 0, 3, 0, 2, 0) d2 = (3, 0, 2, 0, 1, 1) d1 ⋅ d2 = 5 * * * * * * 1 = 23 || D1 || = (5 * * * * * * 0) 0.5 = (38) 0.5 = 6,164 || D2 || = (3 * * * * * * 1) 0.5 = (15) 0.5 = 3,872 Cos ( d1, d2 ) = 0,96 Mot 1mot2mot3mot4mot Mot 1mot2mot3mot4mot

15 Etape N=01 Chaque individu est considéré comme un cluster Etape N=02 Recherche des deux clusters `à regrouper Etape N=03 fusion des deux clusters et mise à jour de la matrice de distance. Etape N=04 Répétition à partir de l’´étape 02 jusqu’à n’avoir qu’un cluster.

Les méthodes d’ agrégations: Les méthodes d’ agrégations: Complete-linkage: la distance entre de clusters est représentée par la distance maximum entre toutes les paires de données entre les deux clusters, nous parlons alors de saut maximum ou de critère du diamètre 16

Les méthodes d’’ agrégations: Single linkage: la distance entre deux clusters est représentée par la distance minimum entre toutes les paires de données entre les deux clusters (paire composé d’un élément de chaque cluster), nous parlons alors de saut minimum. 17

Dendrogramme : 18 Classe 1Classe 2Classe 4Classe 5Classe 6Classe 3

Application : 19

Conclusion : La classification des documents est un domaine très vaste. CHA est une méthode qui a connu un succès à usage important, car on part du principe qu’on ne connait ni la classe ni le thème des fichiers, qui en résultat regroupe tous les individus du même contenu en classe. 20

Merci pour votre aimable attention 21

22