Techniques du Data Mining

Slides:



Advertisements
Présentations similaires
Paramétrisation adaptative pour l’estimation des paramètres hydrodynamiques dans un milieu poreux non saturé MOMAS-Thème E: Problèmes inverses et analyse.
Advertisements

La station princesse Elisabeth Ancrage de la structure sur le massif rocheux.
Les emprunts  Principes Principes A amortissement constant A annuités constantes Suites de versements.
Intégration et usages innovants de la vidéo dans les pratiques pédagogiques en Economie et Gestion. Réunion du 11 mars 2016 – Usages numériques et TRAAM.
Nombres et calculs Attendus de fin de cycle: Attendus de fin de cycleÉclairages Cycle 3  Utiliser et représenter les grands nombres entiers, des fractions.
Inter académiques Orléans 2007 Analyse d'activités pouvant donner lieu à développement dans et hors la classe. Durée : 1h30 ● Problématique ● Présentation.
Utilisation du logiciel EduStat © Distribution de fréquences simples Les compilations.
Progression2 Organisation et gestion de données CM Séquences Socle commun Compétences du palier 2 ProgrammesObjectifs d’apprentissage OG1.
Slide player Présentation n°1. Système n°1 Avantages Inconvénients Système n°2 Avantages Inconvénients.
Slide player Présentation n°2. Système n°1 Avantages Inconvénients Système n°2 Avantages Inconvénients.
Dr. Tarek Barhoumi statistiques descriptives Statistiques descriptives Dr. Tarek Barhoumi.
Utiliser le calcul littéral pour résoudre ou démontrer
Planche de présentation du projet
CHAPITRE 2 : LES DISTANCES DANS L’UNIVERS
Entraînement et évaluation d’une méthode de régression
Algorithme et programmation
CCNP Routage Chapitre 4 - Questionnaire N°1
La structure du noyau de l’atome
La seconde POP L/T Seconde professionnelle à orientation progressive pour la filière transport et logistique.
Algorithmique demander jeu du pendu.
Reprise du cours ( ) Aujourd’hui :
Couche limite atmosphérique
Soutenance de Mémoire de Master En vue de l’obtention du diplôme de master En Physique des fluides et des transferts THEME Etude des champs dynamique.
Activités algorithmiques
Plans d’expériences: Plans factoriels.
Cyber-Sphinx Séance 2.
Processus de fabrication
Mesure de température par radiométrie photothermique
Implantation d’un îlot ou d’une Chaîne de Production
Techniques du Data Mining
Le logiciel HYPERBASE-LATIN :
Stabilité des porteurs horizontaux (Poutres)
4.8 Diviser des nombres décimaux
Exercice 3 : Statistiques et calculatrice.
Institut Universitaire Virtuel de Formation des Maîtres
Réseaux de neurones appliqués à la reconnaissance de caractères
LOG770 Annexe A Éléments de probabilité
Exercice : le jeu. Vous devez concevoir l’algorithme permettant de jouer avec votre calculatrice : elle détermine au hasard un nombre caché entier entre.
Chapitre 3 : Caractéristiques de tendance centrale
Langage d’interrogation des Données Les fonctions de groupes
COMMUNIQUER EN SITUATION DÉGRADÉE
Adaptive Neuro Fuzzy Inference System (ANFIS)
Programme financé par l’Union européenne
Modélisation objet avec UML
4°) Intervalle de fluctuation :
Information sur survies des patients en dialyse péritonéale, en France métropolitaine dans le RDPLF Année 2016.
Élections locales probabilistes
Programme d’appui à la gestion publique et aux statistiques
Difficultés d’apprentissage
Les indices simples Définition
Le code de Huffman: est une méthode de compression statistique de données qui permet de réduire la longueur du codage d'un alphabet. Le code de Huffman.
Présentation 4 : Sondage stratifié
Présentation 9 : Calcul de précision des estimateurs complexes
Fabienne BUSSAC EQUATIONS (1) 1. Définition
MATHÉMATIQUES FINANCIÈRES I
Reconnaissance de formes: lettres/chiffres
Résoudre des problèmes de proportionnalité
Numérique et Sciences Informatiques
Tris Simples/Rapides.
Analyse des données et complémentarité des sources
Calcul numérique sur Automates Programmables Industriels
Présentation des nouveaux programmes de mathématiques de première des séries technologiques Jessica Parsis.
Sonde de signal La sonde de signal de SICO 3017 ISKO, peut être utilisée avec le générateur livré ou avec un circuit de voie à audiofréquence existant.
INTELLIGENCE ARTIFICIELLE
Numérique et Sciences Informatiques
Elections locales probabilistes
Type Tableau Partie 1 : Vecteurs
spécialité mathématiques Première
Module 15 séance 1.
Transcription de la présentation:

Techniques du Data Mining Année universitaire 2017/2018 Techniques du Data Mining Ingénierie Economique et Financière Fahmi Ben Rejab

Exemple de technique du DM 2

Plan 3. Exemple 1. Du k-means au k-modes 2. Présentation de la méthode k-modes 3. Exemple

Du k-means au k-modes

K-means Faiblesse N’est pas applicable en présence d’attributs dont les valeurs ne sont pas numériques moyenne=?

Comment faire pour les données catégoriques? Question Comment faire pour les données catégoriques?

Utiliser la méthode k-modes! Réponse Utiliser la méthode k-modes!

Comparaison entre K-means & k-modes

Présentation de la méthode k-modes

Caractéristiques du K-modes Résoudre le problème des données catégoriques de la méthode k-means, Faire le clustering des bases de données catégoriques,

K-modes: algorithme L’algorithme k-modes est en 4 étapes : Choisir k modes parmi les objets formant ainsi k clusters (Ré)affecter chaque objet O au cluster Ci tel que d(O,Modei) est minimal Mettre à jour le mode de chaque cluster Aller à l’étape (2) jusqu’à stabilisation des objets

K-modes: distance L’algorithme k-modes utilise le matching simple comme mesure de dissimilarité. On a deux objets X1 et Y1 ayant des valeurs catégoriques: X1=(x11, x12,…,x1m) et Y1=(y11, y12,…,y1m)

K-modes: distance On a m attributs Le matching simple est défini:

K-modes: distance On a deux cas extrêmes: d=0 : si tous les attributs sont similaires d=m : si tous les attributs sont dissimilaires.

K-modes: la mise à jour des modes Méthode à base des fréquences: La valeur qui se répète le plus souvent est gardée En cas d’égalité de nombre d’occurrence: choix aléatoire.

Caractéristiques du K-modes Avantages: Traite les ensembles d'apprentissage catégoriques, Simple, rapide, Converge après quelques itérations. Inconvénients: Fait face au problème de la non-unicité du mode du cluster, Le choix des k modes initiaux est aléatoire.

Exemple

Exemple On va traiter le problème de la prédiction de la météo: Chaque objet est relatif au temps d’une journée. Les caractéristiques principales du temps sont: La température, le vent et la pluie. Les attributs: température, vent et pluie.

Exemple Objets Température Vent Pluie O1 Elevée Fort Non O2 Basse Faible O3 Oui O4 Etablir le clustering de ces objets sachant que k=2.

Exemple On va choisir 2 modes aléatoirement. Soient: Mode1 pour C1 = O1 et Mode2 pour C2 =O2. 2) On calcule les distances en utilisant le matching simple: d(O1, mode1)=0+0+0=0 d(O2, mode1)=1+1+0=2 d(O3, mode1)=1+0+1=2 d(O4, mode1)=0+1+0=1

Exemple d(O1, mode2)=1+1+0=2 d(O2, mode2)=0+0+0=0 d(O3, mode2)=0+1+1=2 On remarque que les distances entre mode1 et O3 et mode2 et O3 sont égaux. De même pour mode1 et O4 et mode2 et O4. Donc on affecte O3 et O4 aux clusters 1 et 2 au hasard.

Exemple Cluster1 O2 O3 O1 O4 Cluster2

Exemple 3) On met à jour les modes: Pour cluster1: {Elevée, Fort, Non} et {Elevée, Faible, Non} donc le nouveau mode1 ={Elevée, Fort, Non} Pour cluster2: {Basse, Faible, Non} et {Basse, Fort, Oui} donc le nouveau mode1 ={Basse, Faible, Oui}

Exemple Stabilité 4) On recalcule la distance entre modes et objets: d(O1, mode1)=0+0+0=0 d(O2, mode1)=1+1+0=2 d(O3, mode1)=1+0+1=2 d(O4, mode1)=0+1+0=1 d(O1, mode2)=1+1+1=3 d(O2, mode2)=0+0+1=1 d(O3, mode2)=0+1+0=1 d(O4, mode2)=1+0+1=2 Stabilité

Exemple Cluster1 O2 O3 O1 O4 Cluster2