Ministère de l’Enseignement Supérieur et de la Recherche Scientifique Université Abderrahmane MIRA de Bejaïa Faculté de Sciences Exactes Département d’Informatique Ecole Doctorale Réseaux et Systèmes Distribués Étude et analyse des données temporelles par un processus à base des modèles de Markov cachés 1Kahina GHIDOUCHE, 2M-Tahar KECHADI, 1A-Kamel TARI 1Département Informatique, Université de Bejaia, Algérie 2School of Computer Science and Informatics, University College Dublin, Belfield, Dublin 4
Plan Problématique Etat de l’art sur l’analyse de données temporelles Motivations d’utiliser les modèles de Markov cachés Approche proposée Étude de cas : étude de la variabilité au cours du temps des résultats d’analyse du diabète Conclusion et perspective
Trop de données mais pas assez de connaissances Problématique (1/2) La plupart des systèmes du monde réel sont dynamiques Exemple: les systèmes d'ingénierie les systèmes médicaux Les systèmes économiques Les systèmes sont complexes : difficile à comprendre, à modéliser et à analyser capacité de collecter des données sur ces systèmes augmente considérablement Trop de données mais pas assez de connaissances
Problématique (2/2) Solution : Construction, vérification et validation automatique de modèles en utilisant les données historiques Pourquoi les modèles ? Formelle: Représentation abstraite de phénomènes ou processus Analyse systématique et prévision Objectif: Construire des modèles en utilisant des techniques d'exploration de données
Les caractéristiques d’une donnée temporelle Une donnée temporelle est une séquence de données indicée par le temps y1,y2… yi….,yt Où yi est la valeur observée au temps i et se produit avant y i+1 1,2…,t sont les indices temporels Une donnée temporelle peut être des lettres, des signaux, des états d’un système, des événements etc. Exemple : - Une Séquence d’ADN - Comportement des clients dans le temps
Description du problème 1 Cluster 1 Données 2 Cluster 2 O1 ,O2,…,ON Système de clustering Constitution de groupes d’objets homogènes Les objets soient les plus similaires possible au sein d’un groupe Les groupes soient aussi dissemblables que possible. K Cluster K
Etat de l’art sur l’analyse de données temporelles APPROCHE METHODE A base de proximité La distance euclidienne La distance temporel dynamique La plus longue sous séquence commune A base d’un modèle Les modèles probabilistes Les chains Markov Les modèles de Markov cachés
Exemple d’MMC pour l’étude du comportement des diabétiques Motivations Un MMC peut être définit par le:<S, A, , V, B> S: Les états du modèle A: La matrice des probabilités de transition. Π: Les probabilités de départ. V: L’alphabet des symboles émis par les états . B:Les probabilités d’émission Exemple d’MMC pour l’étude du comportement des diabétiques les états cachés d’un MMC les états potentiellement valides dans un processus dynamique. le comportement du systèmeles probabilités de transition entre les états L’un des outils puissants De modélisation. Intègre l’incertitude (la théorie de probabilité). Capture la variabilité temporelle des séquences S0: stable S1: variable S2: mauvais 1/3 1/3 1/3 0.2 0.2 0.1 0.1 S0 S1 S2 0.2 0.9 0.6 0.7 E= 0.7 R= 0.2 C=0.1 E= 0.1 R= 0.1 C=0.8 E= 0.2 R= 0.6 C=0.2
Modèles de Markov Cachés (MMC) Évaluation de la vraisemblance: P(O|) où =<,A,B> est un MMC et O est une séquence observée Apprentissage: Ajustement des paramètres du MMC pour maximiser la P(O|) de l’ensemble d’observations O={O1,...,OT} Cluster S1 S 0 a10 a01 S 2 a12
le principe du clustering HMM Maximiser la vraisemblance des n séquences M Le cluster 1 Le cluster 2 Les séquences de données Le cluster i Le cluster k
Limitations des travaux antérieurs sur le clustering MMC Le nombre de clusters est déterminé à priori. Dégrade la qualité des résultats Construction manuelle des structures des MMCs Ce n’est pas toujours évident, Nécessite beaucoup de temps Solution Conception d’un système de clustering qui permet: Extraction automatiquement du nombre optimal de clusters Cohérence de la structure des clusters
Principe de notre approche Recherche d’un modèle optimal par la méthode de vraisemblance. Le modèle M est optimal s’il maximise la vraisemblance de toutes les séquences. Cohérence des clusters Cluster C est cohérent si le MMC correspondant offre une meilleure représentation des séquences de C et maximise leur vraisemblance. Nous proposons la définition d’une fonction objectif qui maximise la vraisemblance des séquences
La fonction objectif pour déterminer le nombre optimal de clusters Le nombre de clusters L’ensemble de données de taille N P(O/M) converge ? non Initialiser la partition à 1 calculer P(O/M) Accepter la partition précédente oui Augmenter le modèle
La fonction objectif pour déterminer la structure des clusters L’ensemble de données sur le cluster K La taille de MMC Configurer les paramètres de MMC P(Ok/λk) augmente ? Non Initial 1 état MMC Accepte le MMC précédent Oui Augmenter la taille de MMC par 1
Le critère de distribution Ci= max1≤j≤k P(V=Oi, Si =Q* / j) 1 2 k C M: P 1 K c=1 c=K c=2 2
Ajuster les paramètres Notre approche Fonction objectif Étape 1 : recherche du nombre optimal de clusters dans une partition ; Étape 2 : la distribution optimale d'objets à des clusters ; Étape 3: la recherche de la structure optimale pour chaque cluster Étape 4 : recherche des paramètres de configuration du MMC. Le critère de distribution Ajuster les paramètres des clusters
M M M Sélectionner K séquences temporelles K=1 Sélectionner le format MMC optimal K=K+1 Distribuer les séquences sur les K clusters M M Ré-estimer les paramètres de chaque cluster Change d’adhésion Oui Non Retirez la séquence la moins représenté par ce modèle Oui P(O/M)cour>P(O/M)préc Non Accepter le modèle précédent comme modèle final
Étude de cas : Application au secteur médical Le diabète de type 2 Le besoin intense et évolutif Assurer les moyens et techniques d’aide à la décision Evaluer et améliorer la qualité des soins. Le diabète de type 2 Un des problèmes majeurs de la santé publique Touche essentiellement les personnes de plus de 40 ans. Cette maladie est grave par ses complications, notamment sur le cœur, les vaisseaux sanguins, les reins et les nerfs. Il est donc important de prévenir et de soigner le diabète et ses complications
Description de l’étude Étude de la variabilité au cours du temps des résultats d’analyse des diabétiques cholestérol, HBA1C, glycémie, etc. Le but: Construire des modèles de comportement des patients diabétique pour mieux comprendre les effets de diverses variables
Historique des données Les résultats d’analyse des patients diabétiques pendant 4 ans, Les séquences données représentent l’historique de chaque patient diabétique. CAMPAIGN SEX DM_TYPE NICOT_YN WEIGHT HEIGHT BP_SYS BP_DIA HBA1C 1994 2 55 147 150 80 7,1 CREA ALBUMINURI PROTEINURI CHOL AGE insrenal infarc avc cecite amput 64 18 5,7 84 1 48,125
Modélisation des séquences avec MMC Décomposition de la maladie en différents états de santé. Évolution de la maladie = processus stochastique, représenté par des probabilités de transitions entre ces états. Une séquence temporelle est une suite de symboles émis par différents états. Variable Stable 0.1 0.6 0.2 E= 0.7 R= 0.2 C=0.1 E= 0.2 R= 0.6 C=0.2 Mauvais 0.7 0.9 E= 0.1 R= 0.1 C=0.8 E : Équilibré R : Risque C : Complication
Clustering de données de patients diabétique Les diabétiques équilibrés Les diabétiques à multiple complications Les diabétiques à risque Les diabétiques avec complication
La structure d’un cluster la procédure de sélection, choisi un MMC de taille 2 comme un modèle optimal, permet de représenter les séquences à une vraisemblance de 0.87 S1 S2 MMC de taille 3 assure la modélisation des séquences avec une vraisemblance de 0.55 à la 3iém itération S1 MMC de taille 5 arrive à les générer avec une vraisemblance de 0.4 à la 2iém itération la variabilité de la vraisemblance globale en fonction de la taille MMC associe à un cluster
La structure d’un cluster Les séquences mal classées Le clustering avec MMC de taille fixe Clustering avec MMC de taille dynamique 3 8 15 26,14% 41,23% 60,16% 13,78%
Conclusion Un nouvel algorithme de clustering des données temporelles ; Basé sur les modèles de Markov Cachés Détermine le nombre optimal de clusters Interprète les classes construites. Facilite la prédiction ou la classification de nouvelles séquences. Application de notre approche aux données réelles.
Perspectives Améliorer la qualité des MMCs. Améliorer les techniques d’apprentissages des MMCs L’utilisation des méta heuristiques. Appliquer notre technique sur d’autres domaines d’application; finance.
Merci pour votre attention