Résumé cours précédent

Slides:



Advertisements
Présentations similaires
Structures de données avancées : MLH (Multidimensional linear hashing)
Advertisements

Chapitre I : Rappels Chapitre II: Eléments d’échantillonnage (Tassi, Chap. 2, Kauffmann, Chap. 5 et 6) Chapitre III: L’information au sens de Fisher (Kauffmann,
Probabilités et statistiques au lycée
Identification du nombre de composants
AUTRES ASPECTS DU GPS Partie I : tolérance de Battement
Comparaison des méthodes déterministes et Monte Carlo
Gestion de portefeuille
Thomas G. Dietterich Approximate Statistical Tests for Comparing
Classification et prédiction
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Apprentissage supervisé à partir de séquences
Champs de Markov en Vision par Ordinateur
RECONNAISSANCE DE FORMES
Calculs de complexité d'algorithmes
Echantillonnage Introduction
C1 Bio-statistiques F. KOHLER
Inférence statistique
Comparaison d'une distribution observée à une distribution théorique
Les K plus proches voisins
1 10 Oct 2008 Garantie de production du terme source.
Application de réseaux bayésiens à la détection de fumées polluantes
3. Analyse et estimation du mouvement dans la vidéo
Colloque Traitement et Analyse de séquences : compte-rendu
Complexité et Classification
Les tests d’hypothèses
A.Faÿ 1 Recherche opérationnelle Résumé de cours.
Modélisation Bayésienne par chaines de Markov Monte Carlo
Probabilités et statistique en TS
DEA instrumentation et commande
Statistiques et Probabilités au lycée
Le filtrage au cours des âges Du filtre de Kalman au filtrage particulaire André Monin.
Vers un indicateur de la qualité des cours d’ eau…
Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
Application des algorithmes génétiques
ASI 3 Méthodes numériques pour l’ingénieur
Décodage des informations
Méthode des k plus proches voisins
Incertitude, risque et apprentissage
DEA Perception et Traitement de l’Information
1.Un rang de données multicolores 2. Deux permutations des n premiers entiers 3. b permutations des k premiers entiers 4. Choix de n points dans [0,1]
LES ARBRES IUP 2 Génie Informatique
II- L’algorithme du recuit simulé (pseudo-code)
Statistique et Causalité
1 Evaluer le risque en situation de changement climatique : mission impossible ? SAMA, 19 Janvier 2007 Eric Parent 1, Jacques Bernier 1 et Vincent Fortin.
Révisions - IA Généralité: problèmes de lIA Recherche Logique Traitement de lincertitude Apprentissage Langue naturelle.
Cours n° 5 : Grandeurs énergétiques
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome.
Approches non intrusives des éléments finis stochastiques
Filtrage de Kalman et aperçu probabiliste
Régression linéaire (STT-2400)
Réseaux bayésiens: Inférence
Probabilités et Statistiques
Gestion au point de commande – établir les paramètres
10 février 2006GDR ISIS Journée Localisation et Navigation Projet EGNOS-BUS (Eurêka) André Monin, Wael Suleiman LAAS-CNRS.
Amélioration de la simulation stochastique
Théorème de la limite centrale l’inférence statistique
Probabilités et Statistiques
Séance 8 30 novembre 2005 N. Yamaguchi
STATISTIQUES – PROBABILITÉS
Sureté de fonctionnement dans les WNCS
2008/ Plan du cours 1.Introduction –Contenu du cours 2.Logique mathématique –Calcul propositionnel –Calcul des prédicats –Logique floue et aide à.
PENETRANCE ET EXPRESSIVITE
W w w. u o t t a w a. c a Mathématiques et Statistique Faculté de Science Groupe de recherche en Probabilité et Statistique Dept: (613) Fax: (613)
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
Méthode des moindres carrés (1)
Graphisme par ordinateur
Concepts avancés en mathématiques et informatique appliquées
UED SIM – Département OLCI Année Arts & Métiers ParisTech CER ANGERS Probabilités et statistiques Cours n° 2.
Réseaux bayésiens pour la recommandation au sein d’un configurateur Anr BR4CP Mathieu Serrurier IRIT.
Transcription de la présentation:

Résumé cours précédent 1. Théorème de Bayes Probabilité a posteriori Probabilité a priori Vraisemblance Facteur de normalisation (performance globale du modèle) 2. Méthodes de Monte Carlo: échantillonner la distribution a posteriori ~ (K = 10 000) Probabilité a posteriori = fréquence d´apparition dans l ´échantillon

Modèles stochastiques Bayésiens Chick A C C G A G A T Man A G C G A G C T Cat A G G G A G A T Fish A G G G A C A T Snail A G G C A C A T Fly A C G C A C A T Hydra A C C A A C A T Polyp A C C A A C A T hypothèse : données : (D) (phylogénie) (alignement) modèle : (M) (processus d´évolution par accumulation de mutations)

Monte Carlo Markov chain (MCMC) E =-ln L For any topology T : burn in (discarded) sample 45 Chick 67 Man 78 Cat Fish ~ 90 Snail Fly 87 Hydra Polyp posterior consensus

Réseaux Bayésiens Example introductif Définition Méthodes de Monte Carlo Problème inverse : apprendre la structure du réseau, à partir de données observées problème n°1 : apprendre les lois locales problème n°2 : apprendre la structure globale Application : réseaux de régulation génétique

Représenter les dépendances statistiques entre plusieurs variables bougies propres essence niveau réservoir démarrage

bougies essence propres niveau réservoir démarrage oui 0.98 non 0.02 0.96 non 0.04 bougies propres essence niveau réservoir démarrage e = oui e = non plein 0.39 0.01 mi-plein 0.60 vide 0.98 e = oui e = non b = oui 0.99 / 0.01 0 / 1 b = non 0.01 / 0.99

Définition un ensemble de variables aléatoires Un réseau Bayésien est une représentation graphique de la distribution de probabilité conjointe Elle est caractérisée par deux éléments : 1. un graphe acyclique orienté (à n sommets) 2. n distributions conditionnelles où est l´ensemble des parents de

Calcul de la distribution conjointe à partir du graphe Indépendances conditionnelles: ...

Classe d´équivalence : indistinguabilité Deux graphes sont équivalents si ils impliquent les mêmes indépendances conditionnelles Théorème (Pearl et Verma, 1991): Deux Graphes acycliques orientés sont équivalents ssi : - ils sont sous-tendus par le même graphe non orienté - ils ont les mêmes v-structures

Classe d´équivalence : indistinguabilité Une classe d´équivalence peut être représentée de manière unique par un graphe acyclique partiellement orienté

Echantillonnage de Gibbs (Chaque admet pour valeurs possibles les entiers k=1..K) Essayer toutes les valeurs possibles pour et recalculer la probabilité conjointe à chaque fois : .... Tirer une nouvelle valeur pour en fonction de ces probabilités

Echantillonnage de Gibbs Appliquer la même procédure à , puis , ... jusqu´à ... Recommencer un très grand nombre de fois (K=10 000) échantillon : avec distribué suivant la probabilité conjointe Par exemple:

Echantillonnage de Gibbs simplification des calculs ...

Echantillonnage de Gibbs simplification des calculs ...

Echantillonnage de Gibbs

Calcul de probabilités conditionnelles On connait la valeur des variables 26, 22, 16. Calculer alors la probabilité des différentes valeurs possibles pour 8

Calcul de probabilités conditionnelles Faire un Gibbs en laissant fixes les variables 26, 22, 16. Mesurer alors la fréquence des différentes valeurs observées en 8 asymptotiquement égales aux probabilités recherchées

Problème inverse : Inférer les lois conditionnelles locales Données: structure du réseau (G) + table d´observations (D) (G) (D) Inconnues à estimer: lois de probabilités locales

Lois conditionnelles locales pour les réseaux binaires (Chaque admet pour valeurs possibles 0 ou 1) Nombres de paramètres à déterminer: 1 : ensemble des paramètres du réseau

Rappel : tirage à pile ou face : probabilité de tirer pile à un tirage donné : données observées (10 piles et 5 faces) Estimation rapide (efficace si beaucoup d´observations) : Inférence Bayésienne (incertitude mieux prise en compte) Métropolis sur 0.66

Estimation rapide des lois conditionnelles locales 5 12 1 7 2 4 24

Inférence Bayésienne des paramètres du réseau Structure du réseau Table d´observations Paramètres du réseau

Algorithme de Metropolis 1. proposer modif 2. calculer 3. accepter avec une proba p=Min(1,a) si accepté : si refusé : 4. recommencer à partir de 2.

Classificateur Bayésien « naïf » An ... Classe Attributs

Classificateur Bayésien « naïf » méthode d´apprentissage An ... Classe ? Attributs ? Jeu d´apprentissage: A1 A2 ... An C item1 item2 Application des méthodes mentionnées auparavant

Classificateur Bayésien avec corrélations entre attributs Classe C A1 A2 A3 ... An Attributs Cas particulier: le graphe restreint aux attributs est un arbre.

Problème inverse général : inférer la structure du réseau Table d´observations ? Structure du réseau

Inférence Bayésienne de la structure du réseau Table d´observations Paramètres du réseau (calculable analytiquement) Prior sur les réseaux possibles Uniforme : trop flexible Prior pénalisant les réseaux trop riches en liens

Inférence Bayésienne de la structure du réseau Table d´observations Paramètres du réseau (calculable analytiquement) Données suffisamment riches pour inférer le réseau avec certitude: rechercher graphe G qui maximise (NP difficile) Sinon : Monte Carlo à travers l´espace des graphes, pour échantillonner la distribution a posteriori

Classe d´équivalence : indistinguabilité Deux graphes sont équivalents si ils impliquent les mêmes indépendances conditionnelles Théorème (Pearl et Verma, 1991): Deux Graphes acycliques orientés sont équivalents ssi : - ils sont sous-tendus par le même graphe non orienté - ils ont les mêmes v-structures

Classe d´équivalence : indistinguabilité Une classe d´équivalence peut être représentée de manière unique par un graphe acyclique partiellement orienté

Validation de la méthode par simulations

Cas réel : projets d´études supérieures SEX : sexe SES : statut socio-économique PE : encouragement parental IQ : quotient intellectuel CP : projets d´études supérieures

Application : inférer les réseaux de régulation génétique à partir des puces à ADN

Cycle cellulaire division synthèse d´ADN (duplication du génome)

Application : inférer les réseaux de régulation génétique à partir des puces à ADN Mesure de l´expression de 6177 gènes de la levure de boulanger 76 mesures au total: 6 séries temporelles sur cellules synchronisées Discrétisation des niveaux d´expression de chaque gène -1 : sous-exprimé 0 : normal +1 : sur-exprimé Explorer les classes d´équivalence de réseaux de 6178 sommets - 6177 sommets correspondant aux gènes analysés - 1 sommet supplémentaire : phase du cycle cellulaire (contraint comme racine du graphe) Méthode Monte Carlo

Estimation rapide des lois conditionnelles locales 5 12 1 7 2 4 24

Relations de Markov

Gènes dominants (en amont des autres)

Relations de Markov