Ministère de l’Enseignement Supérieur et de la Recherche Scientifique

Slides:



Advertisements
Présentations similaires
Modèles de Markov Cachés (HidenMarkovModel)
Advertisements

MOT Éditeur de modèles de connaissances par objets typés
QUALIFICATION COMPORTEMENTALE DES BASES DE DONNEES CLIENTS
Soutenance du stage de DEA.
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Champs de Markov en Vision par Ordinateur
Évaluation de la qualité d'une clusterisation
Sciences et technologies de gestion
Les TESTS STATISTIQUES
4 février 2005DESS Economie et Gestion des Cliniques et Etablissements pour personnes âgées 1 La prise en compte des critères économiques dans lanalyse.
Application de réseaux bayésiens à la détection de fumées polluantes
Les TESTS STATISTIQUES
Yann Chevaleyre et Jean-Daniel Zucker
Les méthodes formelles en ingénierie des connaissances Damien Lhomme-Desages Jérémie Barlet.
Piecewise Affine Registration of Biological Images
Les démarches de développement
La démarche clinique infirmière
"Recherche de scénarios redoutés à partir d'un modèle réseau de Petri"
Bouyekhf Rachid-Lyuboumir Gruitch Laboratoire SeT UTBM
Modélisation des systèmes non linéaires par des SIFs
Application à la méthode des
                                        République Algérienne Démocratique et Populaire Ministère de l’Enseignement Supérieur et de la Recherche Scientifique.
Traitement de données socio-économiques et techniques d’analyse :
Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
UNIVERSITE DES SCIENCES ET DE LA TECHNOLOGIE D’ORAN
Marketing Engineering
Les Systèmes Multi-Agents pour la Gestion de Production
Simulation multi-agent de phénomènes collectifs : quelques questions d’ordre épistémologique Frédéric AMBLARD Institut de Recherche en Informatique de.
RÉSOLUTION DE PROBLÈMES
Décodage des informations
Séminaire de lobjectif « forage et production » Beaune, les 26,27 et 28 Avril 2000 Outils danalyse statistiques « programmation par lexemple » S. Canu,
La segmentation
Maîtrise des risques et sûreté de fonctionnement – Avignon – 6-10 Octobre 2008 Modélisation des dysfonctionnements dun système dans le cadre dactivités.
SCIENCES DE L ’INGENIEUR
Sciences de l’ingénieur
MOT Éditeur de modèles de connaissances par objets typés
IGL301 - Spécification et vérification des exgiences 1 Chapitre 2 Le processus dingénierie des exigences (ref : Bray chapitre 2)
Vincent Thomas Christine Bourjot Vincent Chevrier
Stéphanie Bernonville 1, 2 Christophe Kolski 2
RECHERCHE COMMERCIALE
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Sensibilisation a la modelisation
1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.
Vérification du locuteur avec des méthodes segmentales en collaboration avec : Jean HENNEBERT Jan CERNOCKY Gérard CHOLLET.
Initiation à la conception des systèmes d'informations
Présentation AICHA REVEL INGENIEUR D’ÉTUDE STERIA DEPARTEMENT TRD
 2007 École de Santé Publique John Hopkins Bloomberg Introduction à l’évaluation de programmes Frances Stillman, EdD Institute for Global Tobacco Control.
Olivier Leclair, Université Laval Un algorithme de fouille dans une représentation des données par objets: une application médicale SIMON, Arnaud.
Équilibre de satisfaction
Fusion de paramètres en classification Parole/Musique Julie Mauclair – Equipe Parole Julien Pinquier – Equipe SAMoVA.
Classification de données par l’algorithme FPSO-GA
TIPE Les dames chinoises
1 Vers la gestion de la cohérence dans les processus multi-modèles métier Wolfgang THEURER Ecole Nationale Supérieure d’Ingénieurs des Etudes et Techniques.
Thibault ROY & Olivier SAGIT Exposé du mercredi 17 décembre 2003 Apprentissage Interactif Apprentissage avec SpamAssassin UFR de Sciences Département d’Informatique.
Décision incertaine et logistique : Grille typologique
Knowledge discovery in Databases (KDD)
Méthode des moindres carrés (1)
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
1 Prédiction de mobilité basée sur la classification selon le profil DAOUI Mehammed Université Mouloud Mammeri Tizi-Ouzou Rencontres sur.
Le Marketing Prédictif
But : avoir un regard réflexif sur le métier d’enseignant
Copyright, 1996 © Dale Carnegie & Associates, Inc. Com7114 Technologies de la communication Objectifs de ce cours ? Sa place dans le programme ? La communication.
Le Jeu et l’intelligence artificielle
Vers l’exploitation de grandes masses de données Encadré par : Mme L.Lamarini Présenté par: Rhaz Yassine Smiri Safae Un article de: Raphaeil Féraud,Maroc.
Conférence 2TUP Stéphane Barthon 03/12/
Introduction à la recherche en science politique
PRESENTATION DU PROJET SHINE – OXFAM MALI AU CLUSTER SECURITE ALIMENTAIRE BAMAKO 25 JUIN, 2015 Présenté par: Ir. Cheikhou DIAGANA Emergency Food Security.
Prédiction du niveau de certification des établissements de santé Soutenance de stage 12 septembre 2012 Benjamin Robillard.
1 Théorie de la finance Gestion de portefeuille Moyenne-variance Master Sciences de Gestion – Semestre II - Université Mohammed V Faculté des Sciences.
Transcription de la présentation:

Ministère de l’Enseignement Supérieur et de la Recherche Scientifique Université Abderrahmane MIRA de Bejaïa Faculté de Sciences Exactes Département d’Informatique Ecole Doctorale Réseaux et Systèmes Distribués Étude et analyse des données temporelles par un processus à base des modèles de Markov cachés 1Kahina GHIDOUCHE, 2M-Tahar KECHADI, 1A-Kamel TARI 1Département Informatique, Université de Bejaia, Algérie 2School of Computer Science and Informatics, University College Dublin, Belfield, Dublin 4

Plan Problématique Etat de l’art sur l’analyse de données temporelles Motivations d’utiliser les modèles de Markov cachés Approche proposée Étude de cas : étude de la variabilité au cours du temps des résultats d’analyse du diabète Conclusion et perspective

Trop de données mais pas assez de connaissances Problématique (1/2) La plupart des systèmes du monde réel sont dynamiques Exemple: les systèmes d'ingénierie les systèmes médicaux Les systèmes économiques Les systèmes sont complexes : difficile à comprendre, à modéliser et à analyser capacité de collecter des données sur ces systèmes augmente considérablement Trop de données mais pas assez de connaissances

Problématique (2/2) Solution : Construction, vérification et validation automatique de modèles en utilisant les données historiques Pourquoi les modèles ? Formelle: Représentation abstraite de phénomènes ou processus Analyse systématique et prévision Objectif: Construire des modèles en utilisant des techniques d'exploration de données

Les caractéristiques d’une donnée temporelle Une donnée temporelle est une séquence de données indicée par le temps y1,y2… yi….,yt Où yi est la valeur observée au temps i et se produit avant y i+1 1,2…,t sont les indices temporels Une donnée temporelle peut être des lettres, des signaux, des états d’un système, des événements etc. Exemple : - Une Séquence d’ADN - Comportement des clients dans le temps

Description du problème 1 Cluster 1 Données 2 Cluster 2 O1 ,O2,…,ON Système de clustering Constitution de groupes d’objets homogènes Les objets soient les plus similaires possible au sein d’un groupe Les groupes soient aussi dissemblables que possible. K Cluster K

Etat de l’art sur l’analyse de données temporelles APPROCHE METHODE A base de proximité La distance euclidienne La distance temporel dynamique La plus longue sous séquence commune A base d’un modèle Les modèles probabilistes Les chains Markov Les modèles de Markov cachés

Exemple d’MMC pour l’étude du comportement des diabétiques Motivations Un MMC peut être définit par le:<S, A, , V, B> S: Les états du modèle A: La matrice des probabilités de transition. Π: Les probabilités de départ. V: L’alphabet des symboles émis par les états . B:Les probabilités d’émission Exemple d’MMC pour l’étude du comportement des diabétiques les états cachés d’un MMC les états potentiellement valides dans un processus dynamique. le comportement du systèmeles probabilités de transition entre les états L’un des outils puissants De modélisation. Intègre l’incertitude (la théorie de probabilité). Capture la variabilité temporelle des séquences S0: stable S1: variable S2: mauvais 1/3 1/3 1/3  0.2 0.2 0.1 0.1 S0 S1 S2 0.2 0.9 0.6 0.7 E= 0.7 R= 0.2 C=0.1 E= 0.1 R= 0.1 C=0.8 E= 0.2 R= 0.6 C=0.2

Modèles de Markov Cachés (MMC) Évaluation de la vraisemblance: P(O|) où =<,A,B> est un MMC et O est une séquence observée Apprentissage: Ajustement des paramètres du MMC  pour maximiser la P(O|) de l’ensemble d’observations O={O1,...,OT} Cluster  S1 S 0 a10 a01 S 2 a12

le principe du clustering HMM Maximiser la vraisemblance des n séquences M Le cluster 1 Le cluster 2 Les séquences de données Le cluster i Le cluster k

Limitations des travaux antérieurs sur le clustering MMC Le nombre de clusters est déterminé à priori. Dégrade la qualité des résultats Construction manuelle des structures des MMCs Ce n’est pas toujours évident, Nécessite beaucoup de temps Solution Conception d’un système de clustering qui permet: Extraction automatiquement du nombre optimal de clusters Cohérence de la structure des clusters

Principe de notre approche Recherche d’un modèle optimal par la méthode de vraisemblance. Le modèle M est optimal s’il maximise la vraisemblance de toutes les séquences. Cohérence des clusters Cluster C est cohérent si le MMC correspondant offre une meilleure représentation des séquences de C et maximise leur vraisemblance. Nous proposons la définition d’une fonction objectif qui maximise la vraisemblance des séquences

La fonction objectif pour déterminer le nombre optimal de clusters Le nombre de clusters L’ensemble de données de taille N P(O/M) converge ? non Initialiser la partition à 1 calculer P(O/M) Accepter la partition précédente oui Augmenter le modèle

La fonction objectif pour déterminer la structure des clusters L’ensemble de données sur le cluster K La taille de MMC Configurer les paramètres de MMC P(Ok/λk) augmente ? Non Initial 1 état MMC Accepte le MMC précédent Oui Augmenter la taille de MMC par 1

Le critère de distribution Ci= max1≤j≤k P(V=Oi, Si =Q* / j) 1 2 k C M: P 1 K c=1 c=K c=2 2

Ajuster les paramètres Notre approche Fonction objectif Étape 1 : recherche du nombre optimal de clusters dans une partition ; Étape 2 : la distribution optimale d'objets à des clusters ; Étape 3: la recherche de la structure optimale pour chaque cluster Étape 4 : recherche des paramètres de configuration du MMC. Le critère de distribution Ajuster les paramètres des clusters

M M M Sélectionner K séquences temporelles K=1 Sélectionner le format MMC optimal K=K+1 Distribuer les séquences sur les K clusters M M Ré-estimer les paramètres de chaque cluster Change d’adhésion Oui Non Retirez la séquence la moins représenté par ce modèle Oui P(O/M)cour>P(O/M)préc Non Accepter le modèle précédent comme modèle final

Étude de cas : Application au secteur médical Le diabète de type 2 Le besoin intense et évolutif Assurer les moyens et techniques d’aide à la décision Evaluer et améliorer la qualité des soins. Le diabète de type 2 Un des problèmes majeurs de la santé publique Touche essentiellement les personnes de plus de 40 ans. Cette maladie est grave par ses complications, notamment sur le cœur, les vaisseaux sanguins, les reins et les nerfs. Il est donc important de prévenir et de soigner le diabète et ses complications

Description de l’étude Étude de la variabilité au cours du temps des résultats d’analyse des diabétiques cholestérol, HBA1C, glycémie, etc. Le but: Construire des modèles de comportement des patients diabétique pour mieux comprendre les effets de diverses variables

Historique des données Les résultats d’analyse des patients diabétiques pendant 4 ans, Les séquences données représentent l’historique de chaque patient diabétique. CAMPAIGN SEX DM_TYPE NICOT_YN WEIGHT HEIGHT BP_SYS BP_DIA HBA1C 1994 2 55 147 150 80 7,1 CREA ALBUMINURI PROTEINURI CHOL AGE insrenal infarc avc cecite amput 64 18 5,7 84 1 48,125

Modélisation des séquences avec MMC Décomposition de la maladie en différents états de santé. Évolution de la maladie = processus stochastique, représenté par des probabilités de transitions entre ces états. Une séquence temporelle est une suite de symboles émis par différents états. Variable Stable 0.1 0.6 0.2 E= 0.7 R= 0.2 C=0.1 E= 0.2 R= 0.6 C=0.2 Mauvais 0.7 0.9 E= 0.1 R= 0.1 C=0.8 E : Équilibré R : Risque C : Complication

Clustering de données de patients diabétique Les diabétiques équilibrés Les diabétiques à multiple complications Les diabétiques à risque Les diabétiques avec complication

La structure d’un cluster la procédure de sélection, choisi un MMC de taille 2 comme un modèle optimal, permet de représenter les séquences à une vraisemblance de 0.87 S1 S2 MMC de taille 3 assure la modélisation des séquences avec une vraisemblance de 0.55 à la 3iém itération S1 MMC de taille 5 arrive à les générer avec une vraisemblance de 0.4 à la 2iém itération la variabilité de la vraisemblance globale en fonction de la taille MMC associe à un cluster

La structure d’un cluster Les séquences mal classées Le clustering avec MMC de taille fixe Clustering avec MMC de taille dynamique 3 8 15 26,14% 41,23% 60,16% 13,78%

Conclusion Un nouvel algorithme de clustering des données temporelles ; Basé sur les modèles de Markov Cachés Détermine le nombre optimal de clusters Interprète les classes construites. Facilite la prédiction ou la classification de nouvelles séquences. Application de notre approche aux données réelles.

Perspectives Améliorer la qualité des MMCs. Améliorer les techniques d’apprentissages des MMCs L’utilisation des méta heuristiques. Appliquer notre technique sur d’autres domaines d’application; finance.

Merci pour votre attention