Réseaux bayésiens: Inférence Chap. 14 Sections 4 – 5
Plan Inférence exacte par énumération Inférence exacte par élimination de variable Inférence par simulation stochastique Inférence par Chaîne de Markov Monte-Carlo (MCMC)
Tâches d’inférences Requête simples: la probabilité a-posteriori E.g. Requêtes conjonctives: Décision optimale: le réseau de décision contient les informations d’utilité. L’inférence probabiliste requise pour Valeur d’information: Quelle évidence à chercher ensuite? Analyse de sensibilité: Quelle valeur de probabilité est la plus critique? Explication: Pourquoi ai-je besoin d’un nouveau démarreur?
Inférence par énumération Méthode naïve: énumérer tous les cas Requête simple sur le réseau du cambriolage Légèrement plus intelligent: sommer (sum out) sur les variables sur une distribution conjointe sans construire sa représentation explicite Réécrire la distribution conjointe en utilisant les CPT: Peut être implanté avec une recherche en profondeur d’abord récursive: Espace O(n) et Temps O(dn)
Algorithme par énumération
Arbre d’évaluation Calcul répété: inefficace
Inférence par élimination de variables Élimination de variables: Effectuer les sommations de droite à gauche, stocker des résultats intermédiaires (facteurs) pour éviter de recalculer
Élimination de variables: opérations de base Sommation (sum out) d’une variable à partir d’un produit de facteurs: E.g. Bouger tous les facteurs constant dehors Additionner les sous matrices en produit point-par-point (pointwise) pour les facteurs restant Supposons que ne dépendent pas de Produit point-par-point de facteurs f1 et f2
Algorithme
Variable non pertinente Soit la requête Sommation sur m donne toujours 1. Ainsi M est non pertinente à la requête Théorème 1: Y est non pertinente à moins que Ici, et Donc, est non pertinente
Variable non pertinente Définition: Graphe moral d’un réseau bayésien: marier les parents et enlever les flèches Définition: A est m-séparé de B par C ssi séparé par C dans le graphe moral Théorème 2: Y est non pertinent si m-séparé de X par E Pour Burglary et Earthequake sont non pertinentes Éliminer ces variables du calcul
Complexité de l’inférence exacte Polytree (réseau connecté par des liens simples): Chaque paires de nœuds connectés au max. par un lien Temps et espace sont O(dkn) Réseau de connexions multiples: Peut se réduire à 3SAT NP-difficile Équivalent à compter les modèles 3SAT #P-complet
Inférence par simulation stochastique Idée de base: Tirer N échantillons à partir d’une distribution d’échantillonnage S Calculer une probabilité a posteriori approximative Montrer que ceci converge vers la raie probabilité P Méthodes Échantillonnage à partir d’un réseau vide Échantillonnage avec rejet: rejeter les échantillons qui ne se conforme pas avec l’évidence Pondération de vraisemblance: utiliser l’évidence pour pondérer les échantillons Chaîne de Markov Monte-Carlo (MCMC): échantillonnage à partir d’un processus stochastique dont la distribution stationnaire est la vraie probabilité
Échantillonnage à partir d’un réseau vide
Exemple
Exemple
Exemple
Exemple
Exemple
Exemple
Échantillonnage à partir d’un réseau vide Probabilité que PriorSample génère un événement particulier: i.e. la vraie probabilité E.g. Soit le nombre d’échantillons générés pour l’événement Alors nous avons donc consistent Autrement dit:
Échantillonnage avec rejet est estimée selon les échantillons conformes à Rejeter les échantillons non conformes E.g. Pour utilisant 100 échantillons 27 avec Dont 8 et 19
Analyse: échantillonnage avec rejet Donc, l’échantillonnage avec rejet retourne des estimations a posteriori consistantes Problème: Très coûteux quand P(e) est petite P(e) descend exponentiellement avec le nombre de variables d’évidence !
Pondération de vraisemblance Idée: Fixer les variables évidences, échantillonner sur les variables non-évidences et pondérer selon la vraisemblance qu’elles sont conformes aux évidence
Exemple
Exemple
Exemple
Exemple
Exemple
Exemple
Exemple
Analyse de l’échantillonnage pondéré Échantillonner pour Note: Surveiller seulement les évidences des ancêtres Quelque part entre les distributions a priori et a posteriori Pondérer les échantillons z et e: Prob. d’échantillonnage pondéré est: Donc: la pondération d’espérance retourne des estimations consistantes, mais la performance dégrade avec beaucoup de variables d’évidence parce que seulement quelques échantillons ont tout le poids
Inférence approximative avec MCMC État du réseau = les assignations courantes des variables Générer l’état prochain en tirant sur une variable étant donné la couverture Markov Échantillonner sur chaque variable à tour de rôle, en gardant les évidences fixes Échantillonnage Gibbs: un cas spécial
Exemple Avec , il y a 4 états: Laisser airer un moment, et prendre la moyenne
Exemple Estimer Tirer sur et étant donné la couverture Markov, et répéter Compter le nombre de fois est vrai et faux E.g. 100 échantillons avec 31 et 69 Théorème: La chaîne Markov approche la distribution stationnaire: Le temps resté sur chaque état dans une longue expérience est exactement proportionnel à sa probabilité a posteriori
Échantillonnage couverture Markov La couverture de Cloudy est Sprinkler et Rain La couverture Markov de Rain est Cloudy, Sprinkler et WetGrass Probabilité étant donné la couverture Markov: Peut être implanté comme passage de message dans un système parallèle Problèmes: Difficile de déterminer si ça converge Peut gaspiller du temps si la couverture Markov est large ne change pas beaucoup
Sommaire Inférence exacte par élimination de variables Temps polynomial en polytree et NP-difficile en général Espace = temps, sensible à la topologie Inférence approximative Pondération d’espérance: fonctionne mal quand il y a beaucoup d’évidences Pondération d’espérance et MCMC généralement non sensible à la topologie Convergence peut être lente quand prob. proche de 0 ou 1 Peut traiter des combinaisons arbitraires des variables discrètes et continues