La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

L'apprentissage automatique : à quoi ça sert ? David MERCIER CEA LIST, Laboratoire Intelligence Multi-capteurs et Apprentissage 13.11.2008.

Présentations similaires


Présentation au sujet: "L'apprentissage automatique : à quoi ça sert ? David MERCIER CEA LIST, Laboratoire Intelligence Multi-capteurs et Apprentissage 13.11.2008."— Transcription de la présentation:

1 L'apprentissage automatique : à quoi ça sert ? David MERCIER CEA LIST, Laboratoire Intelligence Multi-capteurs et Apprentissage 13.11.2008

2 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 2 Attention : concepts contaminants Jean-Denis MULLER David MERCIER Stéphane GAZUT Anthony LARUE Laurence CORNEZ Frédéric SUARD Michaël AUPETIT Karine AURIBAULT Nicolas GILARDI Baptiste BLANPAIN Frédéric SUARD Jean-Philippe POLI Emmanuel RAMASSO Nicolas PAUL Laurence BOUDET Sylvain LESPINAT Lorène ALLANO 12/2005 (LETS) 09/2007 (LIMA) 01/2009

3 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 3 Attention : concepts contaminants CEA DAM

4 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 4 Mais concepts anciens et répandus PAN : Plan d'Action Neuronal existe depuis 20 ans CEA LIST, LIC2M sur données textuelles CEA DEN, LGLS sur algo génétiques et propagation d'incertitudes CEA DSV, plusieurs équipes en bioinformatique. CEA LIST, LSVE sur identification de piétons et vidéosurveillance.

5 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 5 Définition de l'apprentissage automatique ? 1. Synthétiser automatiquement des connaissances présentes dans des données (calcul des paramètres d'un modèle) –Les poids d'un réseau de neuronesok –Les coefficients d'un modèle polynomial????? –La pente d'un modèle linéaire?non? 2. S'assurer de la validité du modèle ainsi défini, estimer le risque associé –Validation croisée et Leave one out –Bootstrapping –Variabilité de modèles, propagation d'incertitudes –Priors

6 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 6 Plan Fouille de données Codage Discrimination Problématiques Information Quelles informations ? Représentation, identification Exploitation & fabrication Risques, parasites

7 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 7 Plan Fouille de données –Sélection de variables Prédispositions génétiques au cancer Paramètres explicatifs de maladies –Utilisation de la topologie : pour évaluer les projections en visualisation, pour déterminer automatiquement des classes. Codage Discrimination Problématiques

8 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 8 Fouille de données : sélection de variables HumanDiag : –Détermination de prédispositions génétiques au cancer de la prostate via l'analyse de 27000 SNP pour 1300 personnes (50% témoins, 50% malades) –Difficultés : Plus de variables que d'individus Un témoin peut être un futur malade / un malade qui s'ignore. Il n'y a pas un déterminisme de 100% –Objectifs : identifier des SNP significatifs pour limiter les examens, gérer au mieux le dépistage, trouver des processus biologiques. SNP : Single Nucleotide Polymorphisms : variation d'une seule paire de base du génome.

9 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 9 Fouille de données : sélection de variables Premier SNP trouvé était inconnu !! SNP : Single Nucleotide Polymorphisms : variation d'une seule paire de base du génome. AAAaaa T 186345 103 M189 278 180 Log ratio -0.020.22 -0.55 Aa T 531448 M467458 Log Ratio 0.12-0.02 Analyse classiqueNotre étude Pas de différence Les hétérozygotes sont protégés !?!?

10 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 10 Fouille de données : sélection de variables Données de l'institut de la vision sur le décollement de la rétine 38 échantillons humains analysés par puce Affymetrix U133plus2 (54675 variables) Objectifs : identifier quelques données liées à la maladie pour permettre aux médecins de construire un modèle du processus de la maladie (causes- effets).

11 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 11 Fouille de données : sélection de variables Réf Données informatives déjà trouvées par corrélation Données non informatives : corrélation fortuite Données indépendantes Données informatives mais non corrélées

12 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 12 Fouille de données : sélection de variables TémoinStade 1Stade 2Stade 3 outlier Relation non linéaire entre stade et grandeur

13 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 13 Fouille de données : utilisation de la topologie

14 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 14 Fouille de données : utilisation de la topologie Visualizing distortions and recovering topoàlogy in continuous projection techniques – M. Aupetit

15 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 15 Fouille de données : utilisation de la topologie Visualizing distortions and recovering topoàlogy in continuous projection techniques – M. Aupetit

16 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 16 Fouille de données : utilisation de la topologie Visualizing distortions and recovering topoàlogy in continuous projection techniques – M. Aupetit

17 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 17 Fouille de données : utilisation de la topologie Isolet database (base de données audio des lettres en anglais). Visualisation des voyelles Détection automatique des frontières Graphe de proximités : Visualizing distortions and recovering topoàlogy in continuous projection techniques – M. Aupetit

18 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 18 Plan Fouille de données Codage –Transformée en Noyaux Adaptés –Analyse en Composantes Adaptées Discrimination Problématiques

19 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 19 Codage : Transformée en Noyaux Adaptées 3 -22

20 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 20 Codage : Transformée en Noyaux Adaptés L'originalité est que les noyaux sont appris à partir d'une base de signaux d'intérêt, pas issus d'une expertise à priori. Noyaux à l'initialisationNoyaux après apprentissage

21 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 21 Codage : Transformée en Noyaux Adaptés Analyse de gestes par accéléromètres (données LETI)

22 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 22 Codage : Transformée en Noyaux Adaptés

23 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 23 Codage : Transformée en Noyaux Adaptés

24 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 24 Codage : Analyse en Composantes Adaptées Application à des images MALDI : (spectrométrie de masse, un pixel = un spectre). Plus de décalage temporel, un noyau est un spectre. Contraintes de positivité.

25 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 25 Codage : Analyse en Composantes Adaptées

26 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 26 Codage : Analyse en Composantes Adaptées Construction d'image pour chaque spectre à partir des coefficients de la décomposition :

27 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 27 Codage : Analyse en Composantes Adaptées

28 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 28 Codage : Analyse en Composantes Adaptées

29 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 29 Codage : Analyse en Composantes Adaptées On peut se poser la question : un spectre par type de groupe de protéines ou bien un spectre par type de dosage ? Toutefois résultats très prometteurs en une semaine. Montage de projets en cours avec DEN sur spectrométrie IR ou LIBS. LIBS : Laser Induced Breakdown Spectrometry

30 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 30 Plan Fouille de données Codage Discrimination –Aide à la révision des événements sismiques –Prédiction des pics de prix sur les marchés de l'énergie Problématiques

31 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 31 Discrimination automatique Discrimination : événements sismiques CEA DAM, Laboratoire DSO DSO : Detection and Operational Seismology Surveillance de l'activité sismique Prévenir les autorités de tout séisme potentiellement ressenti Bulletin sismique hebdomadaire Risque sismique Précision Révision

32 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 32 Discrimination : événements sismiques Première analyse Classement automatique Décision sûre Même décision L'événement est considéré bien classé L'événement doit être révisé oui non Pas de ratés Le moins possible Révision du bulletin pour earthquakes ("eq"), quarry blasts ("qb"), marine explosions ("me") rock bursts ("rb", "sr" if only suspected). Événement

33 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 33 Discrimination : événements sismiques

34 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 34 Discrimination : événements sismiques

35 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 35 Discrimination : événements sismiques Grâce à la reconnaissance automatique, seulement 7% des événements sont révisés pour trouver toutes les erreurs (15 sur 2967 événements en 2004). Le risque de laisser passer un événement faux est estimé à 1 tous les 9 ans.

36 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 36 Discrimination : pics de prix Objectifs final : aide à l'achat d'énergie sur les différents marchés : –Marché de l'énergie SPOT à 24h … pics de prix pouvant atteindre des x20, –Le but est de les anticiper pour acheter à terme (au moins 7 jours avant). Approches antérieures : prédiction du prix –Bon apprentissage du comportement normal, mais pas du comportement anormal car trop peu de données et pas vraiment modélisable. Nouvelle approche : prédire la situation anormale, pas le prix lui-même, par réseaux de neurones.

37 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 37 Discrimination : pics de prix Problème de la définition d'un pic !

38 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 38 Discrimination : pics de prix Définition de ce qu'est un pic Exploration des données –Identification de 2 situations différentes : été et hiver –Sélection des variables pertinentes Constitution des modèles Validité des modèles

39 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 39 Discrimination : pics de prix Pour l'été, le problème semble très abordable : Pour l'hiver, le problème semble plus complexe : ProtocoleHorizonDétectionFA P22 j84%18,2% P29 j82%25,3% P212 j74%25,6% ProtocoleHorizonDétectionFA P11 j63,5%35% P22 j63,5%24,9% P29 j64%30,9% P31 j51,8%26,8% P39 j41,2%29,6%

40 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 40 Plan Fouille de données Codage Discrimination Problématiques –Pertinence de la base de données : exhaustivité, parasitage et travail de l'expert. –Malédiction de la dimension.

41 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 41 Problématiques : Exhaustivité Il n’y a jamais création d’information non présente : il faut des données qui permettent vraiment d’apprendre ou injecter des connaissances a priori. Ainsi, à partir de la base d’apprentissage de droite, peut-on prédire correctement le pluriel de « caillou » ? Un fœtusDes fœtus Un cheveuDes cheveux Un pneuDes pneus Un animalDes animaux Un railDes rails Une mancheDes manches Une pelleDes pelles Un fenêtreDes fenêtres Une porteDes portes Un coucouDes coucous

42 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 42 Problématiques : Parasitage A partir de la base suivante Que va-t-il être annoncé pour ? 99% de chance que ce soit A … à cause du fond, information parasite exceptionnellement corrélée à notre problème et plus simple à analyser Trois types de signaux (exemple en reconnaissance vocale) –Information pertinente (le message) –Information parasite (le locuteur) –Bruit (Micro, chute d’objet, carillon, etc.). A A A A A A A A B B B B B B B B B

43 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 43 Problématiques : Travail de l’expert On attend d’un expert du problème : D’identifier les informations pertinentes des informations parasites Donner des idées (même non mathématiques) sur le moyens d’éliminer certaines informations parasites (exemple binarisation, normalisation en taille, etc.). Garantir que la base d’apprentissage est exhaustive. Garantir qu’elle est assez complète pour que les informations parasites non éliminées au prétraitement soient indépendantes du problème traité.

44 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 44 R. Belmann - 1961 Relations aux distances et volumes Pertinence de données synergiques Quantité de données pour décrire un phénomène Problématiques : Malédiction de la dimension

45 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 45 Problématiques : Malédiction de la dimension DistanceHyperplans

46 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 46 Problématiques : Malédiction de la dimension 1 dHyperbouleHypercube 122 23.144 34.198 44.9316 55.2632 65.1764 74.72128 84.06256 L'hypercube tend à devenir creux. Les données s'agglutinent dans les coins et donc globalement toutes à la même distance.

47 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 47 Problématiques : Malédiction de la dimension 1 d Ratio Ecorce / intérieur 11.00% 22.01% 33.03% 44.06% 55.10% 1010.46% 100270.48% 1000~ 21000 L'hyperboule tend à devenir creuse. Les données s'agglutinent sur l'écorce et donc globalement toutes à la même distance du centre. 1.01

48 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 48 Problématiques : Malédiction de la dimension Dans un espace de dimension N, il est toujours possible de discriminer N+1 points quelque soit la distribution des classes (si pas « alignés »). Un discriminateur linéaire « explose » N+1 points mais pas plus: son VC (dimension de Vapnik- Chervonenkis) est donc de N+1. Encore plus pour d’autres discriminateurs.

49 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 49 Problématiques : Malédiction de la dimension On discrimine selon des variables non pertinentes.

50 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 50 Problématiques : Malédiction de la dimension Croissance exponentielle du nombre de données nécessaires pour identifier ce qui se passe partout

51 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 51 L'apprentissage automatique Ce n'est pas magique ! Ce n'est pas plus facile que n'importe qu'elle autre méthodes. Il faut y réfléchir en terme d'information et de facteurs explicatifs. Dès qu'il y a des phénomènes avec un minimum de déterminisme et des données pour l'illustrer, c'est une approche qui peut être intéressante.

52 Merci de votre attention

53 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 53 Présentation du LIMA Aide à la décision / au diagnostic Santé Sécurité et défense Surveillance et industrie Génomique Radiothérapie Prédiction (maintenance, finance) Anomalie (erreurs, alarmes, home care) Capteurs intelligents Objets communiquant EEG-ECG Sécurisation de siteGestion de crise Alerte rapide

54 13.11.2008 Séminaire d'instrumentation IRFU - D. Mercier 54 Présentation du LIMA Aide à la décision / au diagnostic Fouille de données Prise de décisions Codage Sélection de variables Regroupement en sacs Significatif / informatif Compact Adapté / optimal Visualisation AutocritiqueExplicabilité Apprentissage / enseignement


Télécharger ppt "L'apprentissage automatique : à quoi ça sert ? David MERCIER CEA LIST, Laboratoire Intelligence Multi-capteurs et Apprentissage 13.11.2008."

Présentations similaires


Annonces Google