Réseaux bayésiens Chap. 14 Sections 1 – 3.

Slides:



Advertisements
Présentations similaires
SUITES ET TYPES DE CROISSANCE ASSOCIÉS
Advertisements

Introduction à la notion de fonction 1. Organisation et gestion de données, fonctions 1.1. Notion de fonction Déterminer l'image d'un nombre par une fonction.
Probabilités et statistiques au lycée
La Couche Réseau.
« Systèmes électroniques »
GESTION DE PORTEFEUILLE 3 Catherine Bruneau
GESTION DE PORTEFEUILLE 3bis Catherine Bruneau RISQUE & PROBABILITE.
Calcul géométrique avec des données incertaines
Champs de Markov en Vision par Ordinateur
Champs de Markov en Vision par Ordinateur
RECONNAISSANCE DE FORMES
4 Les Lois discrètes.
Les tests d’hypothèses
variable aléatoire Discrète
Exemple Champ électrique au-dessus d’un paratonnerre
Le filtrage au cours des âges Du filtre de Kalman au filtrage particulaire André Monin.
Les système linéaires Stéphane Paris.
Apprendre à partir des observations
Des RRA à la diagnosticabilité
Application des algorithmes génétiques
Décodage des informations
La Régression Multiple
Diagnostic des Systèmes à Evénements Discrets
II- L’algorithme du recuit simulé (pseudo-code)
IFT 615 Intelligence Artificielle
Les modèles linéaires (Generalized Linear Models, GLM)
Révisions - IA Généralité: problèmes de lIA Recherche Logique Traitement de lincertitude Apprentissage Langue naturelle.
Les Arbres de décision ou régression
Conception et analyse des algorithmes Les algorithmes probabilistes
Algorithmes probabilistes
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Partie II Sémantique.
IFT 615 Intelligence Artificielle
MASTER SIS, 1ere année Présentation de l'option 13 : Représentation des connaissances et raisonnement Odile PAPINI &Eric WÜRBEL
Filtrage de Kalman et aperçu probabiliste
CHAPITRE 2 LES SITUATIONS FONCTIONNELLES
Régression linéaire (STT-2400)
Modélisation géométrique de base
ASI 3 Méthodes numériques pour l’ingénieur
Réseaux bayésiens: Inférence
GOL503 Spécificités sectorielles
Seconde partie - cours n°3 Théorie des tests
DU TRAITEMENT DU SIGNAL
Calcul parallèle => partitionner les données en sous-groupes associés aux processeurs. P0 P2 P1.
IFT 615 – Intelligence artificielle Réseaux bayésiens
Froduald Kabanza Département d’informatique Université de Sherbrooke
Micro-intro aux stats.
TD4 : « Lois usuelles de statistiques »
Séance 8 30 novembre 2005 N. Yamaguchi
Le langage Racket (Lisp)
Initiation à la conception des systèmes d'informations
Chapitre 3: Variables aléatoires réelles continues
TNS et Analyse Spectrale
TIPE Les dames chinoises
Localisation et identification des interactions neutrinos dans le détecteur OPERA. Carole HERITIER Journées Jeunes Chercheurs 2003 Directeurs de thèse.
1/16 Chapitre 3: Représentation des systèmes par la notion de variables d’état Contenu du chapitre 3.1. Introduction 3.2. Les variables d’état d’un système.
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
Méthode des moindres carrés (1)
Séries chronologiques univariées (STT-6615)
Rappels sur les fonctions et les suites aléatoires
Chapitre 4 Variables aléatoires discrètes
Méthodes de prévision (STT-3220)
Philippe Gandy - 8 septembre 2015 Basé sur les notes de cours de Daniel Morin et Roch Leclerc.
Graphisme par ordinateur
Concepts avancés en mathématiques et informatique appliquées
Recuit simulé Une métaheuristique venue de la métallurgie.
CHAPITRE 2 LES SITUATIONS FONCTIONNELLES
ETUDES PRONOSTIQUES Pr Ganry.
Processus ponctuels Caractéristiques et Modèles de répartitions spatiales.
Concepts avancés en mathématiques et informatique appliquées
Transcription de la présentation:

Réseaux bayésiens Chap. 14 Sections 1 – 3

Plan Syntaxe Semantique Distribution paramétrisée

Réseaux bayésiens Une notation graphique simple pour des affirmations d’indépendance conditionnelle, et donc une spécification compacte de distributions conjointes complètes Syntaxe: Un ensemble de nœuds, un par variable Un graphe dirigé, non cyclique (lien ≈ "influences directes") Une distribution conditionnelle pour chaque nœud, sachant ses parents: P (Xi | Parents (Xi)) Dans le cas le plus simple, une distribution conditionnelle est représentée par une table de probabilité conditionnelle (CPT), qui donne la distribution sur Xi pour chaque combinaison des valeurs des parents.

Exemple La topologie du réseau représente les affirmations d’indépendance conditionnelle: Weather est indépendante des autres variables Toothache (mal aux dents) et Catch (accroché) sont indépendantes conditionnellement sachant Cavity (carie)

Exemple Je suis au travail. Le voisin John appelle pour me signaler que mon alarme à la maison sonne, mais ma voisine Mary ne m’appelle pas. Quelques fois, l’alarme est déclenchée par un petit tremblement de terre. Quelques fois, les voisins entendent mal. Et-ce qu’il y a un vol (burglar)? Variables: Burglary, Earthquake, Alarm, JohnCalls, MaryCalls La topologie du réseau reflète les connaissances « causales »: Un cambriolage peut déclencher l’alarme Un tremblement de terre peut déclencher l’alarme L’alarme peut causer l’appel de Mary L’alarme peut causer l’appel de John Comparaison: Si l’alarme, alors un cambriolage Si Mary appelle, alors l’alarme

Topologie du réseau

Compacticité Une CPT (table de prob. conditionnelle) pour une variable booléenne Xi avec k parents booléens a 2k lignes pour des combinaisons des valeurs des parents Chaque ligne requiert une valeur p pour Xi = true (la valeur pour Xi = false est juste 1-p) Si chaque variable n’a pas plus de k parents, the réseau requiert O(n · 2k) valeurs I.e., la taille augmente linéairement avec n, vs. O(2n) pour la distribution conjointe complète (cf. règle de chaîne) Pour l’exemple de vol, le nombre de valeurs = 1 + 1 + 4 + 2 + 2 = 10 (vs. 25-1 = 31 pour une distribution conjoint complète) P(B): 1 P(E): 1 P(A|B,E): 4, …

Semantique La distribution conjointe complète est définie par le produit des distributions conditionnelles locales: e.g., P(j  m  a  b  e) = P (j | a) P (m | a) P (a | b, e) P (b) P (e) = 0.9 * 0.7 * 0.001 * 0.999 * 0.998 ≈ 0.00063

Sémantique locale Sémantique locale: chaque nœud est conditionnellement indépendant de ses non-descendants sachant ses parents Théorème: Sémantique gobale = Sémantique locale

Couverture Markov Chaque nœud est conditionnellement indépendant de tous les autres nœuds sachant sa couverture Markov: parents + enfants + parents des enfants

Construire un réseau bayésien Choisir un ordre des variables X1, … ,Xn Pour i = 1 à n Ajouter Xi dans le réseau Sélectionner les parents parmi X1, … ,Xi-1 tels que P (Xi | Parents(Xi)) = P (Xi | X1, ... Xi-1) Ce choix de parents garantie: (règle de chaîne) (par construction)

Exemple Supposons que nous choisissons l’ordre M, J, A, B, E P(J | M) = P(J)?

Exemple Supposons que nous choisissons l’ordre M, J, A, B, E Non P(A | J, M) = P(A | J)? P(A | J, M) = P(A)?

Exemple Supposons que nous choisissons l’ordre M, J, A, B, E Non P(A | J, M) = P(A | J)? P(A | J, M) = P(A)? Non P(B | A, J, M) = P(B | A)? P(B | A, J, M) = P(B)?

Exemple Supposons que nous choisissons l’ordre M, J, A, B, E Non P(A | J, M) = P(A | J)? P(A | J, M) = P(A)? Non P(B | A, J, M) = P(B | A)? Oui P(B | A, J, M) = P(B)? Non P(E | B, A ,J, M) = P(E | A)? P(E | B, A, J, M) = P(E | A, B)?

Exemple Supposons que nous choisissons l’ordre M, J, A, B, E Non P(A | J, M) = P(A | J)? P(A | J, M) = P(A)? Non P(B | A, J, M) = P(B | A)? Oui P(B | A, J, M) = P(B)? Non P(E | B, A ,J, M) = P(E | A)? Non P(E | B, A, J, M) = P(E | A, B)? Oui

Exemple Décider des indépendnces conditionnelles est difficile dans une direction non-causale (Les modèles causaux et les indépendances conditionnelles causales semblent bien ancrés chez les humains!) Le réseau qui utilise des liens non-causaux est moins compact: 1 + 2 + 4 + 2 + 4 = 13 valeurs requises

Exemple L’ordre est important!

Exemple: diagnostic de voiture Évidence initiale: La voiture ne démarre pas Variables testables (vert), variables causes (pannes) (orange) Variables cachées (gris) assure une structure éparse (sparse) permettant de réduire les paramètres

Exemple: Assurance de voiture

Distributions conditionnelles compactes CPT augmente exponentiellement avec le nombre de parents CPT devient infinie avec des parents ou enfants de valeur continue Solution: distributions canoniques qui sont définies de façon compacte Nœuds déterministes sont des cas simples: Valeur de X déterminée par celles de ses parents X = f(Parents(X)) pour une certaine fonction f E.g. Fonctions booléennes E.g. Relations numériques entre les variables continues

Distributions conditionnelles compactes OU-bruité (Noisy-OR): modèle de distributions pour des causes multiples non-interactives Parents U1…Uk sont toutes les causes possibles (éventuellement ajouter un nœud de fuite – leak node – pour les causes restantes) Supposons la probabilité d’échec indépendante qi pour chaque cause seule Nombre de paramètres linéaire par rapport au nombre de parents

Réseaux hybrids (var. discrètes + continues) Discrètes (Subsidy? Et Buy?); continues (Harvest et Cost) Option 1: discrétisation – erreurs larges possibles, grande CPT Option 2: familles de modèles canoniques paramétrisés finis Variable continues, parents discrets + continus (e.g. Cost) Variable discrète, parents continus (e.g. Buys?)

Variables enfants continues Nécessite une fonction de densité conditionnelle pour la variable enfant, sachant les parents continus, pour chaque assignation de valeur possible pour des parents discrets Le plus souvent: modèle linéaire gaussien. E.g.: Une formulation similaire pour Subsidy? = false La moyenne de Cost varie linéairement avec Harvest, la variance est fixée. Variance linéaire est non-raisonnable sur toute la portée de valeur, mais OK si la portée espérée de Harvest est étroite

Variables enfants continues c) = moyenne de a) et b) (supposons que chacun a la prob. 0.5) Réseau composé de variables continues avec gaussiennes linéaires: Distribution conjointe complète est une gaussienne multivariée

Variable discrète avec parents continus Prob. de Buy? sachant Cost doit être un seuil « soft »: Distribution Probit utilise l’intégral de gaussienne:

Enfants discrets Distribution Sigmoïde (ou logit) est aussi utilisé dans les réseaux de neurones Une forme similaire à Probit, mais avec des queux plus longues

Sommaire Réseaux bayésiens = une représentation naturelle d’indépendance conditionnelle (déduit de causalité) Topologie + CPTs = une représentation compacte de distribution conjointe Sa construction est faite par des experts du domaine (selon la compréhension des liens de causalité) Couverture Markov Distribution canonique (e.g. Noisy-OR) Variables continues et discrètes: distribution paramétrisée (e.g. gaussienne linéaire)