La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Réseaux bayésiens Chap. 14 Sections 1 – 3. Plan Syntaxe Semantique Distribution paramétrisée.

Présentations similaires


Présentation au sujet: "Réseaux bayésiens Chap. 14 Sections 1 – 3. Plan Syntaxe Semantique Distribution paramétrisée."— Transcription de la présentation:

1 Réseaux bayésiens Chap. 14 Sections 1 – 3

2 Plan Syntaxe Semantique Distribution paramétrisée

3 Réseaux bayésiens Une notation graphique simple pour des affirmations dindépendance conditionnelle, et donc une spécification compacte de distributions conjointes complètes Syntaxe: –Un ensemble de nœuds, un par variable –Un graphe dirigé, non cyclique (lien "influences directes") –Une distribution conditionnelle pour chaque nœud, sachant ses parents: P (X i | Parents (X i )) Dans le cas le plus simple, une distribution conditionnelle est représentée par une table de probabilité conditionnelle (CPT), qui donne la distribution sur X i pour chaque combinaison des valeurs des parents.

4 Exemple La topologie du réseau représente les affirmations dindépendance conditionnelle: Weather est indépendante des autres variables Toothache (mal aux dents) et Catch (accroché) sont indépendantes conditionnellement sachant Cavity (carie)

5 Exemple Je suis au travail. Le voisin John appelle pour me signaler que mon alarme à la maison sonne, mais ma voisine Mary ne mappelle pas. Quelques fois, lalarme est déclenchée par un petit tremblement de terre. Quelques fois, les voisins entendent mal. Et-ce quil y a un vol (burglar)? Variables: Burglary, Earthquake, Alarm, JohnCalls, MaryCalls La topologie du réseau reflète les connaissances « causales »: –Un cambriolage peut déclencher lalarme –Un tremblement de terre peut déclencher lalarme –Lalarme peut causer lappel de Mary –Lalarme peut causer lappel de John Comparaison: –Si lalarme, alors un cambriolage –Si Mary appelle, alors lalarme

6 Topologie du réseau

7 Compacticité Une CPT (table de prob. conditionnelle) pour une variable booléenne X i avec k parents booléens a 2 k lignes pour des combinaisons des valeurs des parents Chaque ligne requiert une valeur p pour X i = true (la valeur pour X i = false est juste 1-p) Si chaque variable na pas plus de k parents, the réseau requiert O(n · 2 k ) valeurs I.e., la taille augmente linéairement avec n, vs. O(2 n ) pour la distribution conjointe complète (cf. règle de chaîne) Pour lexemple de vol, le nombre de valeurs = = 10 (vs = 31 pour une distribution conjoint complète) –P(B): 1 –P(E): 1 –P(A|B,E): 4, …

8 Semantique La distribution conjointe complète est définie par le produit des distributions conditionnelles locales: e.g., P(j m a b e) = P (j | a) P (m | a) P (a | b, e) P ( b) P ( e) = 0.9 * 0.7 * * *

9 Sémantique locale Sémantique locale: chaque nœud est conditionnellement indépendant de ses non-descendants sachant ses parents Théorème: Sémantique gobale = Sémantique locale

10 Couverture Markov Chaque nœud est conditionnellement indépendant de tous les autres nœuds sachant sa couverture Markov: parents + enfants + parents des enfants

11 Construire un réseau bayésien 1.Choisir un ordre des variables X 1, …,X n 2.Pour i = 1 à n –Ajouter X i dans le réseau –Sélectionner les parents parmi X 1, …,X i-1 tels que P (X i | Parents(X i )) = P (X i | X 1,... X i-1 ) Ce choix de parents garantie: (règle de chaîne) (par construction)

12 Supposons que nous choisissons lordre M, J, A, B, E P(J | M) = P(J)? Exemple

13 Supposons que nous choisissons lordre M, J, A, B, E P(J | M) = P(J)? Non P(A | J, M) = P(A | J)? P(A | J, M) = P(A)? Exemple

14 Supposons que nous choisissons lordre M, J, A, B, E P(J | M) = P(J)? Non P(A | J, M) = P(A | J)? P(A | J, M) = P(A)? Non P(B | A, J, M) = P(B | A)? P(B | A, J, M) = P(B)? Exemple

15 Supposons que nous choisissons lordre M, J, A, B, E P(J | M) = P(J)? Non P(A | J, M) = P(A | J)? P(A | J, M) = P(A)? Non P(B | A, J, M) = P(B | A)? Oui P(B | A, J, M) = P(B)? Non P(E | B, A,J, M) = P(E | A)? P(E | B, A, J, M) = P(E | A, B)? Exemple

16 Supposons que nous choisissons lordre M, J, A, B, E P(J | M) = P(J)? Non P(A | J, M) = P(A | J)? P(A | J, M) = P(A)? Non P(B | A, J, M) = P(B | A)? Oui P(B | A, J, M) = P(B)? Non P(E | B, A,J, M) = P(E | A)? Non P(E | B, A, J, M) = P(E | A, B)? Oui Exemple

17 Décider des indépendnces conditionnelles est difficile dans une direction non-causale (Les modèles causaux et les indépendances conditionnelles causales semblent bien ancrés chez les humains!) Le réseau qui utilise des liens non-causaux est moins compact: = 13 valeurs requises

18 Exemple Lordre est important!

19 Exemple: diagnostic de voiture Évidence initiale: La voiture ne démarre pas Variables testables (vert), variables causes (pannes) (orange) Variables cachées (gris) assure une structure éparse (sparse) permettant de réduire les paramètres

20 Exemple: Assurance de voiture

21 Distributions conditionnelles compactes CPT augmente exponentiellement avec le nombre de parents CPT devient infinie avec des parents ou enfants de valeur continue Solution: distributions canoniques qui sont définies de façon compacte Nœuds déterministes sont des cas simples: –Valeur de X déterminée par celles de ses parents X = f(Parents(X)) pour une certaine fonction f –E.g. Fonctions booléennes –E.g. Relations numériques entre les variables continues

22 Distributions conditionnelles compactes OU-bruité (Noisy-OR): modèle de distributions pour des causes multiples non-interactives –Parents U 1 …U k sont toutes les causes possibles (éventuellement ajouter un nœud de fuite – leak node – pour les causes restantes) –Supposons la probabilité déchec indépendante q i pour chaque cause seule –Nombre de paramètres linéaire par rapport au nombre de parents

23 Réseaux hybrids (var. discrètes + continues) Discrètes (Subsidy? Et Buy?); continues (Harvest et Cost) Option 1: discrétisation – erreurs larges possibles, grande CPT Option 2: familles de modèles canoniques paramétrisés finis –Variable continues, parents discrets + continus (e.g. Cost) –Variable discrète, parents continus (e.g. Buys?)

24 Variables enfants continues Nécessite une fonction de densité conditionnelle pour la variable enfant, sachant les parents continus, pour chaque assignation de valeur possible pour des parents discrets Le plus souvent: modèle linéaire gaussien. E.g.: Une formulation similaire pour Subsidy? = false La moyenne de Cost varie linéairement avec Harvest, la variance est fixée. Variance linéaire est non-raisonnable sur toute la portée de valeur, mais OK si la portée espérée de Harvest est étroite

25 Variables enfants continues c) = moyenne de a) et b) (supposons que chacun a la prob. 0.5) Réseau composé de variables continues avec gaussiennes linéaires: –Distribution conjointe complète est une gaussienne multivariée

26 Variable discrète avec parents continus Prob. de Buy? sachant Cost doit être un seuil « soft »: Distribution Probit utilise lintégral de gaussienne:

27 Enfants discrets Distribution Sigmoïde (ou logit) est aussi utilisé dans les réseaux de neurones Une forme similaire à Probit, mais avec des queux plus longues

28 Sommaire Réseaux bayésiens = une représentation naturelle dindépendance conditionnelle (déduit de causalité) Topologie + CPTs = une représentation compacte de distribution conjointe Sa construction est faite par des experts du domaine (selon la compréhension des liens de causalité) Couverture Markov Distribution canonique (e.g. Noisy-OR) Variables continues et discrètes: distribution paramétrisée (e.g. gaussienne linéaire)


Télécharger ppt "Réseaux bayésiens Chap. 14 Sections 1 – 3. Plan Syntaxe Semantique Distribution paramétrisée."

Présentations similaires


Annonces Google