Olivier Leclair, Université Laval Un algorithme de fouille dans une représentation des données par objets: une application médicale SIMON, Arnaud & NAPOLI, Amedeo, Ingénierie des connaissances : Évolutions récentes et nouveaux défis, p
Olivier Leclair, Université Laval Plan de présentation Introduction Description d’un système de fouille de données Système de fouille de données pour l’épidémiologie du cancer des enfants – Notions de la représentation par objet – Algorithme « ALFREDO » – Discussion sur le fonctionnement de l’algorithme – Résultats La cartographie médicale Conclusion
Olivier Leclair, Université Laval Introduction Enquête épidémiologique base de données & techniques d’analyse de données hypothèses Hypothèses doivent être statistiquement confirmées et vérifiées avec les données d’une autre base, avant d’être considérées comme de la connaissance.
Olivier Leclair, Université Laval Introduction (suite) Épidémiologie des cancers de l’enfant – 2 bases de données: 1. Registre Lorrain des cancers de l’enfant: circonstance de découverte, confirmations, diagnostiques et traitements entrepris 2. Enquête « cas témoin » sur les facteurs de risque des cancers de l’enfant: antécédents médicaux et expositions diagnostiques des enfants et leurs parents – Analyse avec méthodes statistiques
Olivier Leclair, Université Laval Système de fouille de données Fouille de données: extraction de connaissances potentiellement exploitables à partir de données brutes Système s’articule autour de 4 composantes: – Bases de données et leur système de gestion – Système à base de connaissances d’aide à la résolution de problème – Système d’étude et d’analyse de données symboliques – Interface pour l’interaction et visualisation des données et des résultats
Olivier Leclair, Université Laval Système de fouille de données (suite) L’analyste (médecin) joue un rôle important, car il sélectionne les données à analyser. Il est aidé par un outil de visualisation et d’organisation des données (cartographie). Ensuite, il choisit la méthode pour analyser les données (régression linéaire, arbres de décision, réseaux de neurones).
Olivier Leclair, Université Laval Épidémiologie du cancer des enfants Notions de représentation par objets – Système de représentation de connaissance par objets: Unité de connaissance = Classe Classes organisées en hiérarchies conceptuelles Processus de classification fait partie des opérations de raisonnement
Olivier Leclair, Université Laval Épidémiologie du cancer des enfants (suite) – Opérations de raisonnement: Subsomption: relation qui permet d’organiser les classes en hiérarchie. C subsume D = C est un fils de D Classification: établir la position d’un objet, classe ou instance dans une hiérarchie. APS = Ascendant plus spécifique Cohérence et instanciation: classe doit pouvoir avoir des instances et vice versa. Recherche d’information: trouver les propriétés détenues par une classe, les restrictions des propriétés et leurs valeurs.
Olivier Leclair, Université Laval Épidémiologie du cancer des enfants (suite) Algorithme ALFREDO: – Utilise les techniques de construction d’arbres de décision et les principes de l’apprentissage par généralisation. – But: Construire à partir d’un ensemble de n classes cibles, une procédure de classification représentée par un arbre de décision. – Feuilles de l’arbre de décision est le nom des classes cibles et à un nœud est associée une fonction test.
Olivier Leclair, Université Laval Épidémiologie du cancer des enfants (suite) Personne lieu-habitation âge Adulte HommeFemme Enfant diplômemaladie GarçonFille Maladie Virale Bactérienne B1 pB1 B2 pB2 France LorraineAlsace MeuseMoselle
Olivier Leclair, Université Laval Épidémiologie du cancer des enfants (suite) – Détermination des propriétés significatives: Déterminer APS de nos classes cibles (I) Determiner descendants de APS(I) Supprimer les classes cibles de Desc(APS(I)) Considérer les fonctions test portant sur les propriétés de APS(I)
Olivier Leclair, Université Laval Épidémiologie du cancer des enfants (suite) Discussion: – L’utilisation d’un système RCO peut se justifier par: Le mode de représentation des données est proche de celui utilisé par l’être humain. L’utilisateur est assité lors de la création et l’évolution de la hiérarchie de classes. – Les résultats validés par l’utilisateur sont utilisés pour créer de nouvelles classes.
Olivier Leclair, Université Laval Épidémiologie du cancer des enfants (suite) Résultats non retrouvés dans l’analyse statistique: – Le rôle chez les filles de la non-contraction d’infections durant la petite enfance – L’influence des maladies virales – Le faible poids à la naissance
Olivier Leclair, Université Laval La cartographie médicale La cartographie joue un rôle important pour l’analyse des données relatives à une répartition géographique ou démographique. La cartographie répond aux caractéristiques d’un système de fouille de données: – Adaptable à tous les types de données géographiques. – L’analyste joue un rôle important dans la sélection des données, méthodes et paramètres. – L’étude des cartes permet d’émettre des hypothèses à confirmer.
Olivier Leclair, Université Laval Conclusion Les méthodes proposées par le système de fouille de données permet d’exploiter les connaissances du domaine étudié, ce qui est un atout majeur pour la recherche d’hypothèses. La cartographie permet de mettre en évidence des risques environnementaux. Grâce à ce projet, diverses voies de recherche sont envisagées: l’adaptation de techniques de raisonnement temporel et la production d’explications à la fouille de données.
Olivier Leclair, Université Laval Merci!