Techniques du Data Mining

Slides:



Advertisements
Présentations similaires
Regroupement (clustering)
Advertisements

Regroupement (clustering)
Page de garde Validation d ’APEF.
Enseigner l’arithmétique en série L Réflexions sur les contenus et les exigences.
– Information comptable: États financiers et outils de gestion Séance 5 Les états financiers L’état de la situation financière (fin) L’état des.
De mécanique 111 Classes de terminales STI2D, STL.
Chapitre 1 : Cinématique Objectif cinématique : étudier le mouvement des solides sans s’occuper des causes du mouvement  parle de position, trajectoire,
Dr. Tarek Barhoumi statistiques descriptives Statistiques descriptives Dr. Tarek Barhoumi.
La spécialité math en TS
Aspects Juridiques et Economiques de Logiciel
La gestion des co-produits (niveau de version : C)
Ecriture collaborative d’une dissertation en classe
Entraînement et évaluation d’une méthode de régression
MOT Éditeur de modèles de connaissances par objets typés
Réussir l'épreuve composée
Javadoc et débogueur Semaine 03 Version A16.
Principes de programmation (suite)
Polymorphisme : règles
Activités algorithmiques
TECHNOLOGIE 6ème Equipe 6 Compte Rendu
Ressources capteurs 1/3 Définition :
République Algérienne Démocratique et Populaire Ministère de l'Enseignement Supérieur et de la Recherche Scientifique Université Saad.
1 Regroupement (clustering). C’est quoi ? Regroupement (Clustering): construire une collection d’objets Similaires au sein d’un même groupe Dissimilaires.
Démarche de conception. Démarche didactique.
Le logiciel HYPERBASE-LATIN :
Stabilité des porteurs horizontaux (Poutres)
Analyse technologique La dissection mécanique
Institut Universitaire Virtuel de Formation des Maîtres
1.2 dénombrement cours 2.
1 Regroupement (clustering). C’est quoi ? Regroupement (Clustering): construire une collection d’objets Similaires au sein d’un même groupe Dissimilaires.
DATA WEARHOUSE 1ère année LA: Technologies systèmes d’information
Programmation Orientée Objet
Réseaux de neurones appliqués à la reconnaissance de caractères
chapitre 11 Fonction inverse.
Deuxième partie LE DOSSIER TECHNIQUE DU MARINGOUIN.
Formation sur les bases de données relationnelles.
Techniques du Data Mining
Exercice : le jeu. Vous devez concevoir l’algorithme permettant de jouer avec votre calculatrice : elle détermine au hasard un nombre caché entier entre.
Royaume de Maroc Université Hassan Premier Settat Faculté des Sciences et Techniques de Settat LA CLASSIFICATION K-MEANS SOUS R /MATLAB Master :Automatique.
Diagrammes UML 420-KE2-LG.
La mise en activité des élèves
Atelier sous régional sur l'intégration des données administratives, des données de masse et des informations géospatiales pour la compilation des indicateurs.
L'amélioration des performances économiques des territoires : méthodologie des cartes de performance Application à la liaison Grenoble Sisteron ****
UE4.6 S4 : SOINS EDUCATIFS ET PREVENTIFS
L’évaluation des dépenses fiscales
Présentation des nouveaux programmes de Technologie Mai 2008
Élections locales probabilistes
Langages de programmation TP11
Le code de Huffman: est une méthode de compression statistique de données qui permet de réduire la longueur du codage d'un alphabet. Le code de Huffman.
Explorer le monde Se repérer dans le temps et dans l'espace
Présentation 4 : Sondage stratifié
Présentation 9 : Calcul de précision des estimateurs complexes
Reconnaissance de formes: lettres/chiffres
NUMÉRATION POSITIONNELLE / PRINCIPE DE GROUPEMENT
Numérique et Sciences Informatiques
Elles contiennent des informations autre que géométriques
Tris Simples/Rapides.
L’analyse de la valeur des projets informatiques
Package FlexClust : Flexible Cluster Algorithms
Présenter une méthode d’apprentissage - Aider à la mise en
INTELLIGENCE ARTIFICIELLE
Numérique et Sciences Informatiques
INTELLIGENCE ARTIFICIELLE
Présentation projet de fin d’études
L’accompagnement personnalisé
MOT Éditeur de modèles de connaissances par objets typés
Les données structurées et leur traitement
Dérivation – Fonctions cosinus et sinus
Séquence 1:Analyse du système d’information comptable
Transcription de la présentation:

Techniques du Data Mining Année universitaire 2017/2018 Techniques du Data Mining Ingénierie Economique et Financière Fahmi Ben Rejab

Exemple de technique de DM Clustering

Définition de l'apprentissage automatique L'apprentissage automatique (machine learning en anglais) est un champ d'étude de l’IA. Il est relatif au développement de méthodes permettant à une machine d'évoluer 

Types d’apprentissage Les algorithmes d’apprentissage peuvent se catégoriser selon le type d’apprentissage qu’ils emploient : L'apprentissage supervisé: classification, ensemble d’objets préalablement étiqueter. L'apprentissage non-supervisé: clustering

Clustering

Définition Regroupement (Clustering): construire une collection d’objets Similaires au sein d’un même groupe Dissimilaires quand ils appartiennent à des groupes différents Le Clustering est de la classification non supervisée: pas de classes prédéfinies

Définition On ne disposent que d'exemples (des objets), mais non d'étiquettes, et le nombre de clusters et leur nature n'ont pas été prédéterminés, Il permet d’avoir une structure des données par le regroupement des données qui se ressemblent.

Définition Une bonne méthode de regroupement permet de garantir Une grande similarité intra-groupe Une faible similarité inter-groupe La qualité d’un regroupement dépend donc de la mesure de similarité utilisée par la méthode et de son implémentation

Exemple Cluster= groupe d’objets Exemple de3 clusters: k=3

Méthodes du clustering K-means: données numériques K-modes: données catégoriques  k-prototypes: données mixtes (numériques et catégoriques) …. K-means: k-moyennes

K-means: Principe Proposée par MacQueen, 1967 Traite des données quantitatives Chaque cluster est représenté par son centre Possibilité d’utiliser plusieurs distance

K-means: algorithme L’algorithme k-means est en 4 étapes : Choisir k objets formant ainsi k clusters (Ré)affecter chaque objet O au cluster Ci de centre Mi tel que dist(O,Mi) est minimal Recalculer Mi de chaque cluster Aller à l’étape (2) si on vient de faire une affectation

Exemple de K-means A={1,2,3,6,7,8,13,15,17}. Créer 3 clusters à partir de A On prend 3 objets au hasard. Supposons que c’est 1, 2 et 3. Ca donne C1={1}, M1=1, C2={2}, M2=2, C3={3} et M3=3

Exemple de K-means Chaque objet O est affecté au cluster au milieu duquel, O est le plus proche. 6 est affecté à C3 car dist(M3,6)<dist(M2,6) et dist(M3,6)<dist(M1,6) On a C1={1}, M1=1, C2={2}, M2=2 C3={3, 6,7,8,13,15,17}, M3=69/7=9.86

Exemple de K-means dist(3,M2)<dist(3,M3)3 passe dans C2. Tous les autres objets ne bougent pas. C1={1}, M1=1, C2={2,3}, M2=2.5,C3={6,7,8,13,15,17} et M3= 66/6=11 dist(6,M2)<dist(6,M3)6 passe dans C2. Tous les autres objets ne bougent pas. C1={1}, M1=1, C2={2,3,6}, M2=11/3=3.67, C3={7,8,13,15,17}, M3= 12

Exemple de K-means dist(2,M1)<dist(2,M2)2 passe en C1. dist(7,M2)<dist(7,M3) 7 passe en C2. Les autres ne bougent pas. C1={1,2}, M1=1.5, C2={3,6,7}, M2=5.34, C3= {8,13,15,17}, M3=13.25 dist(3,M1)<dist(3,M2)3 passe en 1. dist(8,M2)<dist(8,M3)8 passe en 2 C1={1,2,3}, M1=2, C2={6,7,8}, M2=7, C3={13,15,17}, M3=15 Plus rien ne bouge

Exemple de K-means

K-means: paramètres La mesure de distance choisie pour calculer la similarité: la distance Euclidienne d(i,j): où i = (xi1, xi2, …, xip) et j = (xj1, xj2, …, xjp) sont deux objets

K-means: paramètres Propriétés d(i,j)  0 d(i,i) = 0 d(i,j) = d(j,i)

K-means: exercice Propriétaire Nbre anciens crédits O1 2 O2 O3 3 1 O4 Soient 4 clients {O1, O2, O3 et O4} demandant un crédit Le but est de faire des groupes de clients selon leurs natures: ceux qui se ressemblent sont groupés ensemble. on dispose de 2 clusters: k=2

K-means: Exercice On prend au hasard 2 objets comme centre initiaux. C1={O1}, C2={O2}, M1={2,2}; M2={0,0} d(O1, M1)=racine[|2-2|2 + [|2-2|2 ]=0 d(O2, M1)=racine[|0-2|2 + [|0-2|2 ]=racine(8)=2.82 d(O3, M1)=racine[|3-2|2 + [|1-2|2 ]=racine(2)=1.41 d(O4, M1)=racine[|1-2|2 + [|0-2|2 ]=racine(5)=2.23

K-means: Exercice d(O1, M2)=racine[|2-0|2 + [|2-0|2 ]= racine(8)=2.82 C1={O1,O3} , M1={2.5; 1.5} C2={O2,O4}, M2={0.5; 0}

K-means: Exercice d(O1, M1)=racine[|2-2.5|2 + [|2-1.5|2 ]=racine(0.25+0.25)=0.7 d(O2, M1)=racine[|0-2.5|2 + [|0-1.5|2 ]=racine(6.25+2.25)=2.91 d(O3, M1)=racine[|3-2.5|2 + [|1-1.5|2 ]=racine(0.25+0.25)=0.7 d(O4, M1)=racine[|1-2.5|2 + [|0-1.5|2 ]=racine(2.25+2.25)=2.12 d(O1, M2)=racine[|2-0.5|2 + [|2-0|2 ]= racine(2.25+4)=2.5 d(O2, M2)=racine[|0-0.5|2 + [|0-0|2 ]=racine(0.25)=0.5 d(O3, M2)=racine[|3-0.5|2 + [|1-0|2 ]=racine(6.25+1)=2.69 d(O4, M2)=racine[|1-0.5|2 + [|0-0|2 ]=racine(0.25)=0.5

K-means: Exercice C1={O1,O3} , C2={O2,O4} Condition d’arrêt= partition stable

K-means: Exercice Force Relativement efficace: O(tkn), où n est # objets, k est # clusters, et t est # itérations. Normalement, k, t << n. Rapide Faiblesses N’est pas applicable en présence d’attributs qui ne sont pas du type intervalle (moyenne=?) On doit spécifier k (nombre de clusters) Les clusters sont construits par rapports à des objets inexistants (les milieux)

Comment faire pour les données catégoriques? Question Comment faire pour les données catégoriques?