Retour dexpérience Challenge PKDD 2001-2003. Plan Types de données fournies lors des challenges Démarche suivie lors des 3 challenges.

Slides:



Advertisements
Présentations similaires
Bratec Martin ..
Advertisements

NOTIFICATION ÉLECTRONIQUE
Fragilité : une notion fragile ?
SEMINAIRE DU 10 AVRIL 2010 programmation du futur Hôtel de Ville
Phono-sémantique différentielle des monosyllabes italiens
MAGGIO 1967 BOLOGNA - CERVIA ANOMALIES DU SOMMEIL CHEZ L'HOMME
droit + pub = ? vincent gautrais professeur agrégé – avocat
Transcription de la présentation:

Retour dexpérience Challenge PKDD

Plan Types de données fournies lors des challenges Démarche suivie lors des 3 challenges

Données fournies

2001 Données 2 bases issues dun hôpital, dun centre de consultation et 1 banque dexamens biologiques Objectifs Découvrir des facteurs favorisant les thromboses dans les collagénoses.

Données 2 bases issues dune étude de cohorte, lune mesurant divers paramètres à lentrée des patients dans létude, la deuxième indiquant le suivi des patients durant les 20 ans qua duré létude. Objectifs Découvrir les facteurs favorisants et protecteurs de lathérosclérose ainsi que leurs éventuelles interactions.

Types de données Pour les 3 années, il sagit de bases relationnelles entité-relation simples avec une clef primaire reliant les tables (numéro de patient). Selon toute vraisemblance, il ny a pas eu de coopération entre les concepteurs des bases et les informaticiens. « stockage Excel »

Démarche commune pour les 3 ans A Nettoyage et normalisation B Comprendre les données avec lexpert –Définir les objectifs –Reformulation des données en fonction des objectifs C Test et vérification du modèle choisi –Essai – erreur : modification du modèle D Validation classique

A Nettoyage et normalisation

2001 Exemples (individus) dans 1,2 ou les 3 tables + : Utiles pour corriger des erreurs de saisie car infos redondantes - : Pas de recette pour éliminer les doubles, corriger… –Expert ici peu ou pas utile (se renseigner sur Internet peut suffire !)

2002 / 2003 Aucun nettoyage nécessaire : tables fournies avec explications claires et précises.

Conclusion Quand cette phase est nécessaire : –Pas de recette miracle : long, fastidieux, peu automatisable. –Problèmes aisément prévisibles (et évitables) lors de la conception au départ de la base de données !

B Compréhension des données

B 1 Définir des objectifs

Comprendre les données 2001 Sujet de létude : collagénoses. Maladies compliquées, mal comprises y compris par les experts. Il en découle un manque de recul sur ce qui est découvert : Lexpert ne sait pas et na ni recul ni connaissances ni moyens pour vérifier la validité et la légitimité de la pépite …

Comprendre les données Sujet détude : lathérosclérose. Domaine connu et bien balisé par la science médicale. Facilité pour lexpert pour trancher entre des résultats sans intérêt ou très intéressants.

Comprendre les données Exemple –2002 : 160 attributs familiaux Peu de contenu mais très précieux, lexpert le sait –2003 : remplacé par un indicateur de risque Données plus facilement utilisables quen 2002 mais moins précises. Concrètement, plus facile pour linformaticien mais moins dintérêt pour le médecin.

Conclusion B1 Des objectifs doivent être donnés au projet, avant même denvisager de répondre à une question sur le domaine ciblé. Ces objectifs dépendent par exemple de la disponibilité ou non dun expert. Exemple : donner de nouvelles pistes révolutionnaires au domaine ? Préciser un point ? Prouver la validité de nouveaux outils ?

Conclusion B1 Problème posé : –Si le domaine fouillé est déjà bien connu, javance dans la lumière mais le risque est la ré-invention de la roue… La présence dun expert semble inévitable. –Si le domaine fouillé est largement incompris, je peux certes découvrir linespéré (et seul) mais ne pas le savoir ! ne pas être validé, les savoirs issus de linformatique nétant pas validés par lépidémiologie actuelle !

B 2 Reformulation des données en fonction des objectifs

Sélection des attributs Redescription des données En fonction des objectifs –Création dattributs par combinaison, etc. –Suppression dattributs inutiles ou peu informatifs. Reformulation des données Définition dun modèle par lexpert

C Test et vérification du modèle choisi

Test du modèle et modifications Confrontation du modèle avec lexpert –2001 : utilisation de C4.5 pour filtrer les attributs inutiles –2002 : a priori sur lactivité physique Mauvaise modélisation Reformulation : on ne conserve que le sport Modèle plus fiable et validé par lexpert

D Validation croisée classique 2001 : protocole 5 CV –Utilisation dune partie des données de Entry pour valider lestimateur de risque –Utilisation des données de Control pour confirmer lestimateur de risque et isoler des individus mal étiquetés dans Entry

Retour sur la démarche Originalité car présence permanente de lexpert Coopération efficace entre lexpert des données et le chercheur informatique : il faut rester dans les clous des deux domaines pour espérer des résultats reconnus ET intéressants.

Retour dexpérience Conception / manipulation des bases en commun indispensable. Le but du travail doit être connu : –Permettre une avancée dans le domaine de recherche (ici médecine) ou en informatique ? –Mettre en avant lefficacité de nouvelles méthodes ? Prouver leur validité et donner une légitimité ?