Fouille de données issues de capteurs : problématique et méthodes Journée “Les Capteurs en Agriculture” Paris 18 avril 2014 Pascal Poncelet
Le processus d’extraction de connaissances 2
3 Données, Informations, Connaissances Données Consommateurs Magasins Ventes Capteur Géographie Information (requêtes) X habite la région R Y a A ans Z dépense son argent dans la ville V de la région R Connaissance (data mining) Une quantité Q du produit P est vendue en région R Les familles de profil F utilisent M% de P durant la période N Décision Promouvoir le produit P dans la région R durant la période N Réaliser un mailing sur le produit P aux familles de profil F Contexte général
4 l OUI Les supporters achètent de la bière le samedi et de l’aspirine le dimanche Regrouper ensemble des données en fonction de la valeur de leurs attributs l NON Rechercher le salaire d’un employé Interroger un moteur de recherche Web pour avoir des informations sur le Data Mining Data Mining ou non ? Contexte général
Quelles données ? 5
Clustering Objectifs : Apprentissage non supervisé Un ensemble de points décrits par attributs/dimensions Structurer les données en classes homogènes. Regrouper les points pour que les données d’un même cluster (ou classe) soient les plus similaires possibles 6
Clustering Une bonne méthode de regroupement permet de garantir Une grande similarité intra-groupe Une faible similarité inter-groupe Qualité = choix de la mesure de similarité ! Difficulté : choix de la mesure de similarité, trop d’attributs, classes déséquilibrées 7
Exemples 8
Classification Objectifs : Prendre des données « étiquetées » Découper le jeu de données en deux parties : jeu d’apprentissage et jeu de test Définir un modèle à partir du jeu d’apprentissage Vérifier la validité du modèle sur le jeu de test Difficulté : Définition du modèle. Trop d’attributs. Classes très déséquilibrées. 9
10 Le mailing Classification… un exemple d ’utilisation un cadeau est envoyé par mailing. Un envoi sans réponse coûte 50 € et une réponse assure 100 € Pas d ’envoi de mailing à un client qui aurait répondu : perte de 100 €
11 Le mailing Sélection des clients sur la base Envoi du mailing Quel client a répondu ? Déterminer les critères pour les clients : Bon client – mauvais clients Résultat : groupement avec une forte probabilité de réponse
12 Résultat du mailing
13 Quantification Mailing à l ’ensemble des cadres ou uniquement aux femmes cadres Hommes 200 € 18 * * 50 Femmes 500 € 10 * * 50 Cadres 700 € (70* 40%)*100 - (70*60%)*50 Ouvriers € 3 * * 50 Population de mailing € 31* *50
14 Evaluation Validité du modèle : nombre de cas exacts (=somme de la diagonale) divisé par le nombre total : 120/150 = 0.8 Matrice de coûts
Extraction de motifs 15 Les clients qui achètent des couches ont tendance à acheter de la bière Les particules de monoxyde de carbone et la température sont fortement corrélés lors de l’hospitalisation des patients Règles d’association – relations entre les objets Les clients qui achètent du pain achètent souvent du chocolat
Items : A, B, C, D, E, F Trans ID Items 1A, D 2A, C 3A, B, C 4A, B, E, F Recherche de règles d’association 16
Items : A, B, C, D, E, F 4 transactions (sous ensemble d’ items) T1 : {A,D} Trans ID Items 1A, D 2A, C 3A, B, C 4A, B, E, F Recherche de règles d’association 17
Items : A, B, C, D, E, F 4 transactions (sous ensemble d’ items) T1 : {A,D} Support d’un itemset Supp ({A,D})=1/4 Trans ID Items 1A, D 2A, C 3A, B, C 4A, B, E, F Recherche de règles d’association 18
Items : A, B, C, D, E, F 4 transactions (sous ensemble d’ items) T1 : {A,D} Support d’un itemset Supp ({A,D})=1/4 Supp ({A,C})=2/4 Trans ID Items 1A, D 2A, C 3A, B, C 4A, B, E, F Recherche de règles d’association 19
Items : A, B, C, D, E, F 4 transactions (sous ensemble d’ items) T1 : {A,D} Support d’un itemset Supp ({A,D})=1/4 Supp ({A,C})=2/4 Fréquent Itemsets (minSupp=50%) {A,C} est un fréquent itemset Trans ID Items 1A, D 2A, C 3A, B, C 4A, B, E, F Recherche de règles d’association 20
Items : A, B, C, D, E, F 4 transactions (sous ensemble d’ items) T1 : {A,D} Support d’un itemset Supp ({A,D})=1/4 Supp ({A,C})=2/4 Fréquent Itemsets (minSupp=50%) {A,C} est un fréquent itemset Règles : (minSupp et minConf = 50%) A C [50%, 50%] Trans ID Items 1A, D 2A, C 3A, B, C 4A, B, E, F Recherche de règles d’association 21
Items : A, B, C, D, E, F 4 transactions (sous ensemble d’ items) T1 : {A,D} Support d’un itemset Supp ({A,D})=1/4 Supp ({A,C})=2/4 Fréquent Itemsets (minSupp=50%) {A,C} est un fréquent itemset Règles : (minSupp et minConf = 50%) A C [50%, 50%] C A [50%, 100%] Trans ID Items 1A, D 2A, C 3A, B, C 4A, B, E, F Recherche de règles d’association 22
ABCD ABCABDACDBCD ABACBCADBDCD A BCD {} L’espace de recherche Level 1 Level 2 Level 3 Level 4 23
Extraction de motifs 24 Quelles sont les conséquences d’un ouragan ? Quel est le prochain achat d’un client après sa voiture ? Très est souvent suivi par un adjectif positif est un motif d’opinion positive dans une phrase Ni l’un …. Ni l’autre.. Est un motif d’une opinion négative Motifs séquentiels – comprendre le comportement des objets Les clients achètent du chocolat le lundi et du pain le mercredi
Items : A, B, C, D, E, F Séquence : (A) (D) Séquence fréquente : (A) (C) TransI D Items 1(A) (D) 2(A) (C) 3(A, B) (C) 4(A) (B) (C, F) Motifs séquentiels 25
L’espace de recherche 26 A B C AA (AB)AB(AC)AC BB(BC)BC CC AAA A(AB)AABA(AC)AAC(AB)B(ABC)(AB)C ABB … {}
Données spatio-temporelles Un ensemble de points localisés dans l’espace et dans le temps T=(x 1,y 1, t 1 ), …, (x n, y n, t n ) la position dans l’espace au temps t i était (x i, y i ) 27
Extraction de motifs Les trajectoires Grouper ensemble les objets qui ont des trajectoires similaires Pour chaque groupe créer un résumé : Flock, convoy, moving cluster, swarm, closed swarm, Star, k- Star 28
Exemples 29 EssaimConvoi Groupe
Difficulté de la fouille pour les capteurs Des variables continues Comment discrétiser ? Equi-répartition ? Méthodes des quantiles ? Méthode des amplitudes ? Méthode des moyennes emboitées ? Nombre de classes ? Sur l’écart absolu moyen ? Calcul de l’écart absolu moyen Mesure standardisée (z-score) 30
Exemple 31
Exemple Influence de la distance et de la représentation Avec distance de Manhattan 32 d(p1,p2)=120 d(p1,p3)=132 d(p1,p2)=4,675 d(p1,p3)=2,324 p1 ressemble plus à p2 qu’à p3 p1 ressemble plus à p3 qu’à p2
Difficulté de la fouille pour les capteurs Des séries temporelles Comment comparer et classer des séries temporelles ? Nécessité d’avoir d’autres types de distance 33 Distance Euclidienne Dynamic Time Warpping
Difficulté de la fouille pour les capteurs ©Thomas Dévogèle
Difficulté de la fouille pour les capteurs Souvent des valeurs manquantes Comment gérer les valeurs manquantes ? Prendre la moyenne des autres valeurs ? Prendre la valeur précédente ? Faire la moyenne entre la précédente et la suivante ? Phénomène d’usure Comment prendre en compte l’usure ou les pannes ? Définir un comportement normal et comparer par rapport à une déviation 35
Difficulté de la fouille pour les capteurs 36
Difficulté de la fouille pour les capteurs Des données avec des granularités temporelles différentes Comment fusionner/comparer des informations obtenues toutes les secondes et des informations obtenues toutes les heures ? Echantillonnage utile ? Les informations toutes les secondes ne sont peut être pas utiles Stocker uniquement les variations (=, , ) ? 37
Difficulté de la fouille pour les capteurs Des flots de données Impossible de stocker toute l’information Utilité de tout stocker : pouvoir interroger le passé ? Quelle était la valeur du capteur il y a une semaine, un mois, une année ? Nécessité d’avoir des mécanismes d’agrégation 38
Conclusions La fouille de données de capteurs est difficile Des techniques sont bien adaptées : Motifs et trajectoires : comprendre les évolutions et caractériser des comportements similaires Classification, clustering : regrouper des séries ensembles Les prétraitement sont toujours difficiles Fouille ou requêtes : DSMS (Data Stream Management System) 39