Soutenance de thèse de doctorat – vendredi 15 octobre 2004 Fusion de données multicapteurs pour un système de télésurveillance médicale de personnes à domicile Florence Duchêne Co-Directeurs de Thèse : Catherine Garbay et Vincent Rialle Laboratoire des Techniques de l’Imagerie, de la Modélisation et de la Cognition TIMC–IMAG, UMR CNRS 5525, Grenoble, France
Télésurveillance médicale à domicile Indépendance Pourquoi? Confort, Sécurité Aide à la décision pour le personnel médical Détection des situations critiques Personnes âgées Risques de dégradations motrices et cognitives Soins médicaux spécifiques Pour qui? Une approche intégrée autour d’un système médical de communication et d’information Comment? Capteurs Domotique (1) Habitat (2) Unité Locale de Traitement (3) Centre de Télévigilance Acteurs du système Interprétation Décision COMPLEXITE Nombre d’acteurs impliqués Diversité des techniques informatiques utilisées Quantité croissante de données collectées Nécessaire personnalisation de leur traitement dans le contexte de chaque patient Difficulté de modélisation de l’état de santé d’une personne Contrainte de traitement rapide de larges ensembles de données évoluant au cours du temps DIFFICULTE Hétérogénéité des données collectées Facteurs d’influence agissant parfois fortement sur les paramètres observés Dépendances mutuelles de ces paramètres
Détection des situations critiques Évaluation de l’état de santé et de la situation d’une personne à domicile Problème complexe Plusieurs niveaux de compréhension Situations critiques à ± long terme - D’une chute aux symptômes de démence… - À long terme : Difficile à détecter même par une visite quotidienne État de santé Activité Évaluation dans la pratique médicale Autonomie Activités de la Vie Quotidienne (AVQ): Sommeil, alimentation, toilette, etc. Troubles du comportement à domicile Dégradation de l’état de santé Évolution de la situation à long terme : Étude des habitudes de la vie quotidienne
Étude des habitudes de vie quotidienne Système d’apprentissage et de décision Apprentissage d’un profil comportemental Décision par comparaison au profil Capteurs Extraction d’informations sur les activités de la vie quotidienne : Régularités temporelles (motifs) Profil comportemental Système d’apprentissage Capteurs Reconnaissance des activités quotidiennes (motifs) Situation habituelle ou non Système de décision
Démarche de résolution du problème Apprentissage des habitudes de vie : Profil Comportemental I. Problème Décision Expérimentation II. Simulation Contexte et Objectifs Séquences de données générées par des capteurs à domicile III. Système de décision Collecte de données temporelles Régularités temporelles : Quelles sous-séquences représentatives des activités habituelles ?
Caractéristiques des données Espace multidimensionnel de données hétérogènes X2 X3 X1 t Composante temporelle Observation de séquences de données temporelles Quantitatives Capteurs Fusion de données hétérogènes Qualitatives Observation de données complexes Dépendances mutuelles des paramètres observés Importants facteurs d’influence
Contraintes du système de décision Contraintes pour l’acceptation du système Sensibilité Toutes les situations critiques Spécificité Faible taux de fausses alarmes Temps de détection « Acceptable » Contraintes spécifiques au contexte Manque de données expérimentales Manque de connaissances a priori Évolutions conjointes des paramètres Situations critiques possibles Nécessaire personnalisation de l’analyse dans le contexte de chaque personne Apprentissage non supervisé
Démarche de résolution du problème Apprentissage non supervisé des habitudes de vie : Profil Comportemental I. Problème Décision Expérimentation II. Simulation Contexte et Objectifs Séquences de données générées par des capteurs à domicile III. Système de décision Collecte de données temporelles Régularités temporelles : Quelles sous-séquences représentatives des activités habituelles ?
Contexte de Simulation Motivations Peu de données collectées en environnement réaliste Génération d’un grand nombre de données Contrôle des paramètres de la simulation Plusieurs profils de patients Plusieurs types de situations Test de l’efficacité des algorithmes de décision Simulation de séquences temporelles représentatives de conditions de vie habituelles Simulation d’incidents dans ces séquences Objectifs Démarche Cycle de développement du processus de simulation 1. Construction du modèle 2. Implémentation 3. Expérimentation Validation à chaque étape
Méthodologie – Approche incrémentale Dans le cycle de résolution d’un problème… Prise en compte du contexte et des objectifs de résolution Sélection des paramètres simulés Facilement observables, par des capteurs non invasifs Représentatifs de la situation de la personne Sensibles à une dégradation de l’état de santé ► Déplacements ►Postures ►Niveau d’activité ►Fréquence cardiaque Détermination du niveau de simulation : « Haut niveau » Préserver la complexité des données étudiées Respect des variations conjointes des paramètres Se limiter au niveau de détail strictement nécessaire à la résolution du problème posé Faible niveau de précision nécessaire dans les valeurs
Méthodologie – Approche hybride Hétérogénéité des sources d’information Intégration de différents types de connaissances à chaque étape de construction et de validation du processus de simulation Données expérimentales Données de modélisation Données de validation Connaissances Extraites Guide… Connaissances Académiques Connaissances de sens commun Vérification Quantification Validation Construction et validation du modèle Validation opérationnelle
Modélisation Structure du modèle Guidée par les connaissances a priori Dépendances entre les différents paramètres Structure « en cascade » pour préserver la complexité Respect des variations conjointes des paramètres Connaissances Académiques2 Connaissances de sens commun Données expérimentales 2 H. Monod et M. Pottier, « Adaptations respiratoires et circulatoires du travail musculaire », Précis de physiologie du travail, Notions d'Ergonomie, 2nd ed., J. Scherrer et al., Ed. Paris: Masson, pp. 159--204, 1981.
« continuité physique » Modélisation Sous-modèles de simulation ► Déplacements ►Postures ► Niveau d’activité ► Fréquence cardiaque Rationalisme Empirisme Modélisation Automates à états finis Distributions & Réorganisation temporelle Distributions ► Fcrepos(t) ► ∆Fc(t) Réseaux de Pétri 3 Principe de « continuité physique » Expertise Validation Analyse statistique 3 G. Virone, « Architecture et Simulation Locales du Système d’Information Domotique-Santé Intégré à Domicile (SID2) pour la Détection de Situations à Risque et l’Aide à la Décision », Thèse de doctorat, 26 Novembre 2003, Laboratoire TIMC – IMAG, Université Joseph Fourier – Grenoble 1.
Modélisation Sous-modèle de la fréquence cardiaque ►Posture ► Niveau d’activité pendant les 2 minutes précédentes ►Instant Entrées Modèle Empirisme Analyse statistique Analyse des variations de repos Fréquence cardiaque de repos Écart-type du coût cardiaque pour la posture Moyenne du coût cardiaque pour la posture Distribution normale des valeurs du coût cardiaque Analyse du Coût Cardiaque
Expérimentation et Validation
Expérimentation et Validation Validation de la préservation des variations conjointes Validation graphique Validation statistique Coefficient de corrélation linéaire Niveau d’activité, Fréquence cardiaque Expérimentations nos 1 2 3
Expérimentation et Validation Modifications « normales » de comportement (b) Interruption (c) Déformation temporelle (d) Variabilité dans les valeurs
Expérimentation et Validation Modifications « inquiétantes » (b) Modification inhérente à la réalisation d’une activité (c) Modification intrinsèque des variations d’un paramètre (d) Modification de la relation entre plusieurs paramètres
Discussion sur la Simulation Démarche de simulation Données expérimentales Peu de données, population ciblée, données bruitées Construction du modèle Nombreux facteurs d’influence sur les paramètres étudiés Plusieurs hypothèses simplificatrices Validation opérationnelle Validation incomplète par manque de données expérimentales Résultats appropriés au « haut niveau » d’analyse considéré Simulation dans le cycle de résolution d’un problème Larges ensembles de données pour l’expérimentation Plusieurs profils d’individus et types de situations Système de décision non basé sur le modèle de simulation Modèles simplifiés Validation incomplète Nécessité de faire évoluer l’ensemble des paramètres considérés Connaissances a posteriori utiles à la décision Complexité des relations entre les différents paramètres Spécificité du comportement individuel
Démarche de résolution du problème Apprentissage non supervisé des habitudes de vie : Profil Comportemental I. Problème Décision Contexte et Objectifs Collecte de données temporelles III. Système de décision Expérimentation II. Simulation Régularités temporelles : Quelles sous-séquences représentatives des activités habituelles ? Séquences de données générées par des capteurs à domicile
Contexte de l’apprentissage Quelles habitudes dans la vie quotidienne ? Capteurs Extraction d’informations sur les activités de la vie quotidienne : Régularités temporelles (motifs) Profil comportemental
Caractéristiques de l’apprentissage Capteurs Extraction d’informations sur les activités de la vie quotidienne : Régularités temporelles (motifs) Profil comportemental Caractéristiques des séquences Séquences de données temporelles multidimensionnelles Composantes hétérogènes (Quantitatives, Qualitatives) Séquences « mixtes » (Motifs et « Non-Motifs ») Caractéristiques des représentants d’un motifs Grande variabilité dans les valeurs : « Haut Niveau » « Outliers » (Interruptions) Translation dans le temps Déformation temporelle Apprentissage non supervisé Spécificité individuelle de comportement Manque de données expérimentales Manque de connaissances a priori
Méthodologie Système « classique » de reconnaissance Représentation Capteurs Prétraitements Extraction de caractères Classification Identification Capteurs « Haut Niveau » Identification Classification Prétraitements Extraction de caractères Abstraction Données brutes Données prétraitées Données abstraites Fouille de données temporelles Contexte non supervisé Larges ensembles de données temporelles Séquences « mixtes » Capteurs Identification Prétraitements Extraction de caractères Fouille de caractères Classification non supervisée Tentatives de motifs Motifs
Abstraction Notion d’interprétation de la représentation des données 3 Mise en évidence des situations « stationnaires » Données brutes Description d’un signal par une succession de vecteurs discrets : (symbole, durée) 3 1 2 ( , 1h45) Variations peu significatives pendant 1h45
Abstraction Étapes de l’abstraction (1) (2) (3) Prétraitement Discrétisation (2) (3) Agrégation
Extraction de caractères Classification non supervisée Mesures de Similarité Capteurs Identification Prétraitements Extraction de caractères Fouille de caractères Classification non supervisée Tentatives de motifs Motifs Abstraction Données brutes Données prétraitées Données abstraites Fouille de données Distance approchée Partitionner la séquence initiale en sous-séquences homogènes au regard de la décision Agrégation en un seul symbole décrivant la continuité d’une même situation Distance discrète minimum Distance réelle Comparaison de séquences hétérogènes Distance non métrique ?
Distance réelle Distance basée sur la plus longue sous-séquence commune – LCSS 4 Compter le nombres de « points » similaires : selon deux seuils de similarité pré-définis : , ► la proximité dans le temps ► contrôle la similarité sur les valeurs Distance dans [0,1]: Multidimensionnalité ►Similarité entre chaque composante Hétérogénéité ► Égalité des valeurs des paramètres qualitatifs Extension de la notion de similarité entre deux « points » 4 M. Vlachos, G. Kollios, ans G. Gunopulos, “Discovering Similar Multidimensional Trajectories,” in Proc. of the 18th ICDE, San Jose, CA, 2002, pp. 673–684.
Fouille de caractères Extraction de sous-séquences récurrentes Réduire l’espace de recherche des instances de motifs Données abstraites Critères de sélection 1. Fréquence 2. Signification 3. Non Redondance Méthode des projections aléatoires5 Forte présomption de récurrence Valeurs de collisions > seuil Extension aux séquences multidimensionnelles 5 Chiu, B. Keogh, E., & Lonardi, S. (2003), “Probabilistic Discovery of Time Series Motifs,” In the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, August 24 - 27, 2003. Washington, DC, USA.
Fouille de caractères 1. Fréquence 2. Signification 3. Non Redondance Vérification de la présomption de récurrence : Distance réelle < seuil Sous-séquences récurrentes « de base » nombre fixe de symbole Pas forcément significatives en terme de la réalisation d’une activité
Fouille de caractères 1. Fréquence 2. Signification 3. Non Redondance Extension des sous-séquences dites « de base » à partir de la matrice de collisions selon deux critères : ► Valeurs de collisions > seuil dans le voisinage des extensions ► Distance réelle < seuil entre les sous-séquences étendues Extrait d’une matrice de collisions 100 ? ? Sous-séquence de base : 3 symboles 58 3 2 18 22 1 73 1 5 2 10 4 100 2 1 100 37 10 1 100 4 36 4 2 100 1 10 12 8 77 2 2 34 3 5 13 2 1 7 11 5 100 185 100 100 Seuil minimum de durée
Fouille de caractères 1. Fréquence 2. Signification 3. Non Redondance Classification divisive des sous-séquences récurrentes Groupes de sous-séquences représentatives d’une même instance de motif : « même activité au même moment » Groupes représentés par des séquences toutes disjointes Tentatives de motifs
Classification Classification ascendante hiérarchique Tentatives de motifs Classification des tentatives de motifs en groupes de sous-séquences représentatives d’une même activité Seuil maximum Motifs Le représentant de chaque classe définit un motif
Expérimentation et Validation Processus expérimental 1. Contexte Télésurveillance Médicale à Domicile 2. Données expérimentales Processus de Simulation Classe de séquences proches Classe de séquences différentes 3. Méthodes d’évaluation Qualité de la méthode Paramètres méthodologiques Mesure de similarité Abstraction Fouille de caractères
Mesure de similarité – Validation Principe de Validation Faibles distances entre des séquences correspondant à la réalisation d’une même activité, dans de bonnes conditions Classe 0: Séquences similaires à la séquence de référence n°0
Mesure de similarité – Validation Principe de Validation Distances plus élevées sinon : réalisation d’activités différentes ou d’une même activité mais dans de mauvaises conditions Classe 1: Séquences différentes ou dégradées
Mesure de similarité – Validation Classification basée sur le mesure de distance réelle Distances LCSS bien réparties sur l’axe [0,1] Bon classement en particulier des séquences « dégradées » Bonne discrimination des classes
Expérimentation et Validation Processus expérimental 1. Contexte Télésurveillance Médicale à Domicile 2. Données expérimentales Processus de Simulation 3. Méthodes d’évaluation Qualité de la méthode Qualité des résultats Paramètres de réglage (seuils) Mesure de similarité Abstraction Fouille de caractères Paramètres méthodologiques
Paramètres de réglage Paramètres clés du système Mesure de similarité Identification des motifs Sélection des valeurs en fonction des objectifs de décision et des performances du système Nombreuses expérimentations dans différentes configurations Maximiser les performances de la classification
Expérimentation et Validation Processus expérimental 1. Contexte Télésurveillance Médicale à Domicile 2. Données expérimentales Séquences de “non-motifs” Sous-séquences représentatives de motifs Processus de Simulation 3. Méthodes d’évaluation Qualité de la méthode Qualité des résultats Paramètres de réglage (seuils) Mesure de similarité Abstraction Fouille de caractères Validation de l’extraction Paramètres méthodologiques 4. Mesures de performances Identification des tentatives de motifs Classification en motifs Sensibilité “Identifier comme tentative de motifs des sous-séquences qui correspondent effectivement à des sous-séquences récurrentes dans la séquence initiale.” “Toutes les instances d’un même motif doivent être regroupées dans une seule classe, sans fractionnement.” Spécificité “Ne pas identifier comme tentative de motifs des sous-séquences issues d’intervalles de non-motifs.” “Tous les éléments d’une classe doivent être représentatifs d’un seul motif, sans fractionnement.”
Validation de l’extraction de motifs Illustration
Validation de l’extraction de motifs Performances en contexte faiblement bruité Des résultats encourageants ► Identification et classification parfaite possible des motifs Grande variabilité des résultats ► Diversité des motifs sélectionnés aléatoirement ?
Expérimentation et Validation Processus expérimental 1. Contexte Télésurveillance Médicale à Domicile 2. Données expérimentales Séquences de “non-motifs” Sous-séquences représentatives de motifs Processus de Simulation Modifications “normales” — Test de sensibilité 3. Méthodes d’évaluation Qualité de la méthode Qualité des résultats Paramètres de réglage (seuils) Mesure de similarité Abstraction Fouille de caractères Validation de l’extraction Paramètres méthodologiques 4. Mesures de performances Identification des tentatives de motifs Classification en motifs Sensibilité “Identifier comme tentative de motifs des sous-séquences qui correspondent effectivement à des sous-séquences récurrentes dans la séquence initiale.” “Toutes les instances d’un même motif doivent être regroupées dans une seule classe, sans fractionnement.” Spécificité “Ne pas identifier comme tentative de motifs des sous-séquences issues d’intervalles de non-motifs.” “Tous les éléments d’une classe doivent être représentatifs d’un seul motif, sans fractionnement.”
Test de Sensibilité Courbes COR
Expérimentation et Validation Processus expérimental 1. Contexte Télésurveillance Médicale à Domicile 2. Données expérimentales Séquences de “non-motifs” Sous-séquences représentatives de motifs Processus de Simulation Modifications inquiétantes — Test de spécificité Modifications “normales” 3. Méthodes d’évaluation Qualité de la méthode Qualité des résultats Paramètres de réglage (seuils) Mesure de similarité Abstraction Fouille de caractères Validation de l’extraction — Test de sensibilité Paramètres méthodologiques 4. Mesures de performances Identification des tentatives de motifs Classification en motifs Sensibilité “Identifier comme tentative de motifs des sous-séquences qui correspondent effectivement à des sous-séquences récurrentes dans la séquence initiale.” “Toutes les instances d’un même motif doivent être regroupées dans une seule classe, sans fractionnement.” Spécificité “Ne pas identifier comme tentative de motifs des sous-séquences issues d’intervalles de non-motifs.” “Tous les éléments d’une classe doivent être représentatifs d’un seul motif, sans fractionnement.”
Test de Spécificité
Expérimentation et Validation Extraction de motifs de séquences simulées
Discussion sur l’Apprentissage Caractéristiques fondamentales de la méthode Analyse multidimensionnelle et hétérogène Mesure de similarité appropriée, non métrique dans un contexte particulièrement bruité Aspect complètement non supervisé Peu de données d’apprentissage nécessaires Grande variabilité possible entre les instances d’un motif Décision « haut niveau » à partir de données « bas niveau » Expérimentation et Validation Complexité de mise en pratique De nombreux paramètres, parfois interdépendants et impliqués à différents niveaux de l’analyse Spécificité individuelle des paramètres « de réglage » ? Potentialités de la méthode dans une configuration par défaut Identification et classification parfaite possible des motifs Comportements récurrents identifiés à partir des données de simulation Nécessité d’enregistrements réels pour la validation
Conclusion Cycle de résolution du Problème Apprentissage des habitudes de vie d’une personne à domicile Mise en place d’un processus de Simulation Démarche incrémentale et hybride proposée Limitation de la validation par le manque de données expérimentales Grande quantité de données correspondant à différents profils et situations, pour l’expérimentation d’un système de décision Apprentissage d’un profil comportemental Méthode générique pour l’extraction de motifs Données temporelles, multidimensionnelles et hétérogènes Apprentissage complètement non supervisé Instances de motifs : déformation temporelle, variabilité, interruptions Proposition d’une mesure de similarité appropriée Démarche d’apprentissage Extension d’une méthode d’identification de sous-séquences récurrentes au contexte multidimensionnel et hétérogène Proposition d’une méthode d’extension de ces sous-séquences pour l’identification de récurrences significatives au regard de la décision Proposition d’une méthode de synthèse d’un ensemble des sous-séquences récurrentes non redondantes Potentialités de la méthode montrées par l’expérimentation
Perspectives Validation de l’approche de résolution A plus long terme Expérimentation sur des enregistrements réels Données collectées à partir de capteurs du même type dans le cadre du projet AILISA-2 Nouveau cycle de résolution nécessaire ? A plus long terme Caractérisation du profil comportemental en terme d’une succession de « motifs » et de « non-motifs » Graphes temporels Détection des situations critiques Reconnaissance des motifs Comparaison de graphes temporels A très long terme… Application au niveau de la télésurveillance médicale À d’autres paramètres que ceux de la simulation À d’autres niveaux de détail Autres applications Les méthodes proposées s’inscrivent dans le cadre plus général des problématiques de surveillance d’une certaine « normalité »
Merci de votre attention.