Fouille de données issues de capteurs : problématique et méthodes Journée “Les Capteurs en Agriculture” Paris 18 avril 2014 Pascal Poncelet

Fouille de données issues de capteurs : problématique et méthodes Journée “Les Capteurs en Agriculture” Paris 18 avril 2014 Pascal Poncelet Pascal.Poncelet@lirmm.fr

Le processus d’extraction de connaissances 2

3 Données, Informations, Connaissances Données Consommateurs Magasins Ventes Capteur Géographie Information (requêtes) X habite la région R Y a A ans Z dépense son argent dans la ville V de la région R Connaissance (data mining) Une quantité Q du produit P est vendue en région R Les familles de profil F utilisent M% de P durant la période N Décision Promouvoir le produit P dans la région R durant la période N Réaliser un mailing sur le produit P aux familles de profil F Contexte général

4 l OUI Les supporters achètent de la bière le samedi et de l’aspirine le dimanche Regrouper ensemble des données en fonction de la valeur de leurs attributs l NON Rechercher le salaire d’un employé Interroger un moteur de recherche Web pour avoir des informations sur le Data Mining Data Mining ou non ? Contexte général

Quelles données ? 5

Clustering  Objectifs : Apprentissage non supervisé Un ensemble de points décrits par attributs/dimensions Structurer les données en classes homogènes. Regrouper les points pour que les données d’un même cluster (ou classe) soient les plus similaires possibles 6

Clustering  Une bonne méthode de regroupement permet de garantir Une grande similarité intra-groupe Une faible similarité inter-groupe  Qualité = choix de la mesure de similarité !  Difficulté : choix de la mesure de similarité, trop d’attributs, classes déséquilibrées 7

Exemples 8

Classification  Objectifs : Prendre des données « étiquetées » Découper le jeu de données en deux parties :  jeu d’apprentissage et jeu de test Définir un modèle à partir du jeu d’apprentissage Vérifier la validité du modèle sur le jeu de test  Difficulté : Définition du modèle. Trop d’attributs. Classes très déséquilibrées. 9

10 Le mailing  Classification… un exemple d ’utilisation un cadeau est envoyé par mailing. Un envoi sans réponse coûte 50 € et une réponse assure 100 € Pas d ’envoi de mailing à un client qui aurait répondu : perte de 100 €

11 Le mailing Sélection des clients sur la base Envoi du mailing Quel client a répondu ? Déterminer les critères pour les clients : Bon client – mauvais clients Résultat : groupement avec une forte probabilité de réponse

12 Résultat du mailing

13 Quantification Mailing à l ’ensemble des cadres ou uniquement aux femmes cadres Hommes 200 € 18 * 100 - 32 * 50 Femmes 500 € 10 * 100 - 10 * 50 Cadres 700 € (70* 40%)*100 - (70*60%)*50 Ouvriers - 1050 € 3 * 100 - 27 * 50 Population de mailing - 350 € 31*100 - 69*50

14 Evaluation Validité du modèle : nombre de cas exacts (=somme de la diagonale) divisé par le nombre total : 120/150 = 0.8 Matrice de coûts

Extraction de motifs 15 Les clients qui achètent des couches ont tendance à acheter de la bière Les particules de monoxyde de carbone et la température sont fortement corrélés lors de l’hospitalisation des patients Règles d’association – relations entre les objets Les clients qui achètent du pain achètent souvent du chocolat

 Items : A, B, C, D, E, F Trans ID Items 1A, D 2A, C 3A, B, C 4A, B, E, F Recherche de règles d’association 16

 Items : A, B, C, D, E, F  4 transactions (sous ensemble d’ items) T1 : {A,D} Trans ID Items 1A, D 2A, C 3A, B, C 4A, B, E, F Recherche de règles d’association 17

 Items : A, B, C, D, E, F  4 transactions (sous ensemble d’ items) T1 : {A,D}  Support d’un itemset Supp ({A,D})=1/4 Trans ID Items 1A, D 2A, C 3A, B, C 4A, B, E, F Recherche de règles d’association 18

 Items : A, B, C, D, E, F  4 transactions (sous ensemble d’ items) T1 : {A,D}  Support d’un itemset Supp ({A,D})=1/4 Supp ({A,C})=2/4 Trans ID Items 1A, D 2A, C 3A, B, C 4A, B, E, F Recherche de règles d’association 19

 Items : A, B, C, D, E, F  4 transactions (sous ensemble d’ items) T1 : {A,D}  Support d’un itemset Supp ({A,D})=1/4 Supp ({A,C})=2/4  Fréquent Itemsets (minSupp=50%) {A,C} est un fréquent itemset Trans ID Items 1A, D 2A, C 3A, B, C 4A, B, E, F Recherche de règles d’association 20

 Items : A, B, C, D, E, F  4 transactions (sous ensemble d’ items) T1 : {A,D}  Support d’un itemset Supp ({A,D})=1/4 Supp ({A,C})=2/4  Fréquent Itemsets (minSupp=50%) {A,C} est un fréquent itemset  Règles : (minSupp et minConf = 50%) A  C [50%, 50%] Trans ID Items 1A, D 2A, C 3A, B, C 4A, B, E, F Recherche de règles d’association 21

 Items : A, B, C, D, E, F  4 transactions (sous ensemble d’ items) T1 : {A,D}  Support d’un itemset Supp ({A,D})=1/4 Supp ({A,C})=2/4  Fréquent Itemsets (minSupp=50%) {A,C} est un fréquent itemset  Règles : (minSupp et minConf = 50%) A  C [50%, 50%] C  A [50%, 100%] Trans ID Items 1A, D 2A, C 3A, B, C 4A, B, E, F Recherche de règles d’association 22

ABCD ABCABDACDBCD ABACBCADBDCD A BCD {} L’espace de recherche Level 1 Level 2 Level 3 Level 4 23

Extraction de motifs 24 Quelles sont les conséquences d’un ouragan ? Quel est le prochain achat d’un client après sa voiture ? Très est souvent suivi par un adjectif positif est un motif d’opinion positive dans une phrase Ni l’un …. Ni l’autre.. Est un motif d’une opinion négative Motifs séquentiels – comprendre le comportement des objets Les clients achètent du chocolat le lundi et du pain le mercredi

 Items : A, B, C, D, E, F  Séquence : (A) (D)  Séquence fréquente : (A) (C) TransI D Items 1(A) (D) 2(A) (C) 3(A, B) (C) 4(A) (B) (C, F) Motifs séquentiels 25

L’espace de recherche 26 A B C AA (AB)AB(AC)AC BB(BC)BC CC AAA A(AB)AABA(AC)AAC(AB)B(ABC)(AB)C ABB … {}

Données spatio-temporelles  Un ensemble de points localisés dans l’espace et dans le temps T=(x 1,y 1, t 1 ), …, (x n, y n, t n )  la position dans l’espace au temps t i était (x i, y i ) 27

Extraction de motifs  Les trajectoires Grouper ensemble les objets qui ont des trajectoires similaires Pour chaque groupe créer un résumé : Flock, convoy, moving cluster, swarm, closed swarm, Star, k- Star 28

Exemples 29 EssaimConvoi Groupe

Difficulté de la fouille pour les capteurs  Des variables continues Comment discrétiser ?  Equi-répartition ? Méthodes des quantiles ? Méthode des amplitudes ? Méthode des moyennes emboitées ? Nombre de classes ? Sur l’écart absolu moyen ?  Calcul de l’écart absolu moyen  Mesure standardisée (z-score) 30

Exemple 31

Exemple  Influence de la distance et de la représentation  Avec distance de Manhattan 32 d(p1,p2)=120 d(p1,p3)=132 d(p1,p2)=4,675 d(p1,p3)=2,324 p1 ressemble plus à p2 qu’à p3 p1 ressemble plus à p3 qu’à p2

Difficulté de la fouille pour les capteurs  Des séries temporelles Comment comparer et classer des séries temporelles ? Nécessité d’avoir d’autres types de distance 33 Distance Euclidienne Dynamic Time Warpping

Difficulté de la fouille pour les capteurs  Souvent des valeurs manquantes Comment gérer les valeurs manquantes ?  Prendre la moyenne des autres valeurs ?  Prendre la valeur précédente ?  Faire la moyenne entre la précédente et la suivante ?  Phénomène d’usure  Comment prendre en compte l’usure ou les pannes ?  Définir un comportement normal et comparer par rapport à une déviation 35

Difficulté de la fouille pour les capteurs 36

Difficulté de la fouille pour les capteurs  Des données avec des granularités temporelles différentes Comment fusionner/comparer des informations obtenues toutes les secondes et des informations obtenues toutes les heures ? Echantillonnage utile ?  Les informations toutes les secondes ne sont peut être pas utiles  Stocker uniquement les variations (=, ,  ) ? 37

Difficulté de la fouille pour les capteurs  Des flots de données Impossible de stocker toute l’information  Utilité de tout stocker : pouvoir interroger le passé ? Quelle était la valeur du capteur il y a une semaine, un mois, une année ? Nécessité d’avoir des mécanismes d’agrégation 38

Conclusions  La fouille de données de capteurs est difficile  Des techniques sont bien adaptées : Motifs et trajectoires : comprendre les évolutions et caractériser des comportements similaires Classification, clustering : regrouper des séries ensembles  Les prétraitement sont toujours difficiles  Fouille ou requêtes : DSMS (Data Stream Management System) 39

Fouille de données issues de capteurs : problématique et méthodes Journée “Les Capteurs en Agriculture” Paris 18 avril 2014 Pascal Poncelet

Présentations similaires

Présentation au sujet: "Fouille de données issues de capteurs : problématique et méthodes Journée “Les Capteurs en Agriculture” Paris 18 avril 2014 Pascal Poncelet"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Fouille de données issues de capteurs : problématique et méthodes Journée “Les Capteurs en Agriculture” Paris 18 avril 2014 Pascal Poncelet

Présentations similaires

Présentation au sujet: "Fouille de données issues de capteurs : problématique et méthodes Journée “Les Capteurs en Agriculture” Paris 18 avril 2014 Pascal Poncelet"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back