Fouille de données issues de capteurs : problématique et méthodes Journée “Les Capteurs en Agriculture” Paris 18 avril 2014 Pascal Poncelet

Slides:



Advertisements
Présentations similaires
ETUDIER LE COMPORTEMENT DU CONSOMMATEUR ET DE L’USAGER
Advertisements

S. Jouteau, A. Cornuéjols, M. Sebag (LRI)
Using Semantic Caching to Manage Location Dependent Data in Mobile Computing (2000) Qun Ren, Margaret H. Dunham Southern Methodist University Dallas, Texas.
Data Mining.
Classification et prédiction
Regroupement (clustering)
Règles d’association.
Apprentissage supervisé à partir de séquences
Regroupement (clustering)
Sujet de Thèse "Gestion des méta données dans une architecture de médiation à large échelle" Federico DEL RAZO
Extraction des connaissances dans les bases de données
INTRODUCTION Grande quantité de données
L'écoute et la réfutation des objections
EQUIPE TaToo Extraction de connaissances dans les bases de données : motifs séquentiels et ontologie LIRMM - CNRS - Université Montpellier II.
CLUB DES UTILISATEURS FRANCOPHONES STAR- APIC Ville de Liège – Halle aux Viandes 24 et 25 novembre 2010 Bénéfices de la migration vers Elyx.
Time Series Séries Chronologiques Georges GARDARIN.
Estella Annoni, Franck Ravat, Olivier Teste, Gilles Zurfluh
Prévisions des ventes :
Pourquoi et comment développer la relation client ?
Le modèle de Bayes Christelle Scharff IFI La classification de Bayes Une méthode simple de classification supervisée Basée sur lutilisation du Théorème.
Traitement de données socio-économiques et techniques d’analyse :
COURS 5 Les tableaux croisés, le chi-carré et la corrélation
Administration de bases de données spatiales avec SavGIS
Méthode des k plus proches voisins
Groupe 1: Classes de même intervalle
3G / 4G L’attitude et la participation en classe L’étude à domicile La méthode de travail La tenue des notes de cours Le journal de classe L’évaluation.
Construction de modèles visuels
La segmentation
Initiation à La comptabilité de gestion
Tendance centrale Ex: Examen de philo. La moyenne était de 34%. Permet de caractériser une série statistique au moyen dune valeur ou modalité typique.
Howell, Chap. 1 Position générale
La Classification
La segmentation ° I – Définition ° II – Intérêts ° III – Les critères
Comprendre la variation dans les données: Notions de base
Mesures de répartition de la population Claude Marois 2012.
CSI 4506: Introduction à l’intelligence artificielle
Universté de la Manouba
Les concepts et les méthodes des bases de données
RECHERCHE COMMERCIALE
1 Séminaire LOVe du 29/03/07 Combinaison d'objets (fusion centralisée) T3.2 Combinaison de pistages (fusion décentralisée) T3.3.
CONSOMMATEURS ET SUBSTITUTION
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
Probabilités et cannabis
1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.
Christelle Scharff IFI 2004
Les Techniques d’enquête quantitative
Intégration de schémas
1 JEUX DE TESTS la méthode générale modèle de données critères fonctionnels d’extractions jeux de données jeux de données avant tests sélection exécution.
CSI 4506: Introduction à l’Intelligence Artificielle
1 Mini projet sur les entrepôts de données. 2 Un DW dans les télécoms Sujets – suivi du marché: lignes installées/ désinstallées, services et options.
TNS et Analyse Spectrale
1/17FDC janvier 2006 Alice MARASCU Florent MASSEGLIA Projet AxIS INRIA Sophia Antipolis Classification de flots de séquences basée sur une approche.
Soutenance de thèse de doctorat – vendredi 15 octobre 2004
Knowledge discovery in Databases (KDD)
1 Prédiction de mobilité basée sur la classification selon le profil DAOUI Mehammed Université Mouloud Mammeri Tizi-Ouzou Rencontres sur.
Le Marketing Prédictif
Etude de l’impact demi-horaire de la température sur la consommation d’énergie électrique HT et BT 16 Novembre 2005.
Construction et évaluation de règles de prédiction de diagnostics à partir des bases de données hospitalières : application au contrôle qualité des données.
D’autres critères que le support ? Exemple avec la recherche de périodes denses : 1.Les méthodes de fouille actuelles dépendent d’un découpage arbitraire.
Marketing Jacques Nantel Ph.D Titulaire de la chaire de commerce électronique RBC Groupe financier Cours 2 Les comportements des consommateurs.
Apprentissage semi-supervisé avec des modèles discriminants : application au résumé automatique de texte Massih-Réza Amini LIP6, Université de Paris VI.
Cours 11 Entrepôts de données
CH.5 - LES STOCKS - Rèf ouvrage : ch.4 page 197 à 208
Classification-Segmentation
Être en relation avec les clients
La mesure et l’évaluation des performances commerciales et financières
Coltier Yves Division des prix 14/05/2014 Les remplacements de type EC Les modèles hédoniques.
PROJET DE SESSION DANS LE CADRE DU COURS: SCG Réalisation d’applications en SIG PRÉSENTÉ PAR: Marie-Andrée Levesque 18 AVRIL 2006.
TP1: Statistique application chapitre 2. Le tableau suivant reprend le taux d'intérêt (en %) payé par 20 banques sur les dépôts d'épargne de leurs clients.
La Méthode UVA : Quelles réalités ? Valérie BUFFET, Jean FIEVEZ et Dimitar STAYKOV La méthode UVA est un outil d’aide à la décision basé sur l’analyse.
Transcription de la présentation:

Fouille de données issues de capteurs : problématique et méthodes Journée “Les Capteurs en Agriculture” Paris 18 avril 2014 Pascal Poncelet

Le processus d’extraction de connaissances 2

3 Données, Informations, Connaissances Données Consommateurs Magasins Ventes Capteur Géographie Information (requêtes) X habite la région R Y a A ans Z dépense son argent dans la ville V de la région R Connaissance (data mining) Une quantité Q du produit P est vendue en région R Les familles de profil F utilisent M% de P durant la période N Décision Promouvoir le produit P dans la région R durant la période N Réaliser un mailing sur le produit P aux familles de profil F Contexte général

4 l OUI Les supporters achètent de la bière le samedi et de l’aspirine le dimanche Regrouper ensemble des données en fonction de la valeur de leurs attributs l NON Rechercher le salaire d’un employé Interroger un moteur de recherche Web pour avoir des informations sur le Data Mining Data Mining ou non ? Contexte général

Quelles données ? 5

Clustering  Objectifs : Apprentissage non supervisé Un ensemble de points décrits par attributs/dimensions Structurer les données en classes homogènes. Regrouper les points pour que les données d’un même cluster (ou classe) soient les plus similaires possibles 6

Clustering  Une bonne méthode de regroupement permet de garantir Une grande similarité intra-groupe Une faible similarité inter-groupe  Qualité = choix de la mesure de similarité !  Difficulté : choix de la mesure de similarité, trop d’attributs, classes déséquilibrées 7

Exemples 8

Classification  Objectifs : Prendre des données « étiquetées » Découper le jeu de données en deux parties :  jeu d’apprentissage et jeu de test Définir un modèle à partir du jeu d’apprentissage Vérifier la validité du modèle sur le jeu de test  Difficulté : Définition du modèle. Trop d’attributs. Classes très déséquilibrées. 9

10 Le mailing  Classification… un exemple d ’utilisation un cadeau est envoyé par mailing. Un envoi sans réponse coûte 50 € et une réponse assure 100 € Pas d ’envoi de mailing à un client qui aurait répondu : perte de 100 €

11 Le mailing Sélection des clients sur la base Envoi du mailing Quel client a répondu ? Déterminer les critères pour les clients : Bon client – mauvais clients Résultat : groupement avec une forte probabilité de réponse

12 Résultat du mailing

13 Quantification Mailing à l ’ensemble des cadres ou uniquement aux femmes cadres Hommes 200 € 18 * * 50 Femmes 500 € 10 * * 50 Cadres 700 € (70* 40%)*100 - (70*60%)*50 Ouvriers € 3 * * 50 Population de mailing € 31* *50

14 Evaluation Validité du modèle : nombre de cas exacts (=somme de la diagonale) divisé par le nombre total : 120/150 = 0.8 Matrice de coûts

Extraction de motifs 15 Les clients qui achètent des couches ont tendance à acheter de la bière Les particules de monoxyde de carbone et la température sont fortement corrélés lors de l’hospitalisation des patients Règles d’association – relations entre les objets Les clients qui achètent du pain achètent souvent du chocolat

 Items : A, B, C, D, E, F Trans ID Items 1A, D 2A, C 3A, B, C 4A, B, E, F Recherche de règles d’association 16

 Items : A, B, C, D, E, F  4 transactions (sous ensemble d’ items) T1 : {A,D} Trans ID Items 1A, D 2A, C 3A, B, C 4A, B, E, F Recherche de règles d’association 17

 Items : A, B, C, D, E, F  4 transactions (sous ensemble d’ items) T1 : {A,D}  Support d’un itemset Supp ({A,D})=1/4 Trans ID Items 1A, D 2A, C 3A, B, C 4A, B, E, F Recherche de règles d’association 18

 Items : A, B, C, D, E, F  4 transactions (sous ensemble d’ items) T1 : {A,D}  Support d’un itemset Supp ({A,D})=1/4 Supp ({A,C})=2/4 Trans ID Items 1A, D 2A, C 3A, B, C 4A, B, E, F Recherche de règles d’association 19

 Items : A, B, C, D, E, F  4 transactions (sous ensemble d’ items) T1 : {A,D}  Support d’un itemset Supp ({A,D})=1/4 Supp ({A,C})=2/4  Fréquent Itemsets (minSupp=50%) {A,C} est un fréquent itemset Trans ID Items 1A, D 2A, C 3A, B, C 4A, B, E, F Recherche de règles d’association 20

 Items : A, B, C, D, E, F  4 transactions (sous ensemble d’ items) T1 : {A,D}  Support d’un itemset Supp ({A,D})=1/4 Supp ({A,C})=2/4  Fréquent Itemsets (minSupp=50%) {A,C} est un fréquent itemset  Règles : (minSupp et minConf = 50%) A  C [50%, 50%] Trans ID Items 1A, D 2A, C 3A, B, C 4A, B, E, F Recherche de règles d’association 21

 Items : A, B, C, D, E, F  4 transactions (sous ensemble d’ items) T1 : {A,D}  Support d’un itemset Supp ({A,D})=1/4 Supp ({A,C})=2/4  Fréquent Itemsets (minSupp=50%) {A,C} est un fréquent itemset  Règles : (minSupp et minConf = 50%) A  C [50%, 50%] C  A [50%, 100%] Trans ID Items 1A, D 2A, C 3A, B, C 4A, B, E, F Recherche de règles d’association 22

ABCD ABCABDACDBCD ABACBCADBDCD A BCD {} L’espace de recherche Level 1 Level 2 Level 3 Level 4 23

Extraction de motifs 24 Quelles sont les conséquences d’un ouragan ? Quel est le prochain achat d’un client après sa voiture ? Très est souvent suivi par un adjectif positif est un motif d’opinion positive dans une phrase Ni l’un …. Ni l’autre.. Est un motif d’une opinion négative Motifs séquentiels – comprendre le comportement des objets Les clients achètent du chocolat le lundi et du pain le mercredi

 Items : A, B, C, D, E, F  Séquence : (A) (D)  Séquence fréquente : (A) (C) TransI D Items 1(A) (D) 2(A) (C) 3(A, B) (C) 4(A) (B) (C, F) Motifs séquentiels 25

L’espace de recherche 26 A B C AA (AB)AB(AC)AC BB(BC)BC CC AAA A(AB)AABA(AC)AAC(AB)B(ABC)(AB)C ABB … {}

Données spatio-temporelles  Un ensemble de points localisés dans l’espace et dans le temps T=(x 1,y 1, t 1 ), …, (x n, y n, t n )  la position dans l’espace au temps t i était (x i, y i ) 27

Extraction de motifs  Les trajectoires Grouper ensemble les objets qui ont des trajectoires similaires Pour chaque groupe créer un résumé : Flock, convoy, moving cluster, swarm, closed swarm, Star, k- Star 28

Exemples 29 EssaimConvoi Groupe

Difficulté de la fouille pour les capteurs  Des variables continues Comment discrétiser ?  Equi-répartition ? Méthodes des quantiles ? Méthode des amplitudes ? Méthode des moyennes emboitées ? Nombre de classes ? Sur l’écart absolu moyen ?  Calcul de l’écart absolu moyen  Mesure standardisée (z-score) 30

Exemple 31

Exemple  Influence de la distance et de la représentation  Avec distance de Manhattan 32 d(p1,p2)=120 d(p1,p3)=132 d(p1,p2)=4,675 d(p1,p3)=2,324 p1 ressemble plus à p2 qu’à p3 p1 ressemble plus à p3 qu’à p2

Difficulté de la fouille pour les capteurs  Des séries temporelles Comment comparer et classer des séries temporelles ? Nécessité d’avoir d’autres types de distance 33 Distance Euclidienne Dynamic Time Warpping

Difficulté de la fouille pour les capteurs ©Thomas Dévogèle

Difficulté de la fouille pour les capteurs  Souvent des valeurs manquantes Comment gérer les valeurs manquantes ?  Prendre la moyenne des autres valeurs ?  Prendre la valeur précédente ?  Faire la moyenne entre la précédente et la suivante ?  Phénomène d’usure  Comment prendre en compte l’usure ou les pannes ?  Définir un comportement normal et comparer par rapport à une déviation 35

Difficulté de la fouille pour les capteurs 36

Difficulté de la fouille pour les capteurs  Des données avec des granularités temporelles différentes Comment fusionner/comparer des informations obtenues toutes les secondes et des informations obtenues toutes les heures ? Echantillonnage utile ?  Les informations toutes les secondes ne sont peut être pas utiles  Stocker uniquement les variations (=, ,  ) ? 37

Difficulté de la fouille pour les capteurs  Des flots de données Impossible de stocker toute l’information  Utilité de tout stocker : pouvoir interroger le passé ? Quelle était la valeur du capteur il y a une semaine, un mois, une année ? Nécessité d’avoir des mécanismes d’agrégation 38

Conclusions  La fouille de données de capteurs est difficile  Des techniques sont bien adaptées : Motifs et trajectoires : comprendre les évolutions et caractériser des comportements similaires Classification, clustering : regrouper des séries ensembles  Les prétraitement sont toujours difficiles  Fouille ou requêtes : DSMS (Data Stream Management System) 39