LOG770 Systèmes Intelligents Chargé de cours : Yazid Attabi Local: CRIM Téléphone: (514) 840 1235 #2299 Courriel: yazid.attabi@crim.ca Responsable de cours : Pierre Dumouchel, ing., Ph.D., Local: A-3498 Téléphone: (514) 396 8996 Courriel: Pierre.Dumouchel@etsmtl.ca
CHÂPITRE 3: Théorie de la décision de Bayes
Tirage d’une pièce de monnaie Observable (x): pile ou face Non-observable (z): composition de la pièce, position initiale, force, direction, quand elle est attrapée, etc. Si nous connaissions z, alors x pourrait être connu: x = f(z) z est inconnu, donc nous avons affaire à un processus aléatoire. Nous devons modéliser la sortie x. X est la variable aléatoire et la sortie est modélisé par une distribution de probabilité: Pr(X=x) Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Probabilité et inférence Résultats d’un tirage d’une pièce Î {Pile,Face} Variable aléatoire : X Î{1,0} Bernoulli: P {X=1} = poX (1 ‒ po)(1 ‒ X) Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Probabilité et inférence Bernoulli: P {X=1} = poX (1 ‒ po)(1 ‒ X) Comment trouver po ? Échantillons: X = {xt }Nt =1 Estimation: po = # {Face}/#{Tirages} = ∑t xt / N Comment prédire si pile ou face? Prédiction du prochain tirage: Face si po > ½, sinon Pile Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Problème X = {face,face, face,pile,face, pile,pile,face,face} Que vaut po ? Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Classification Attribution d’un prêt monétaire: Entrées: revenus, épargne Sorties: bas risque, haut risque Entrées: x = [x1,x2]T , Sorties: C Î {0,1} Entrées non observables? Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Classification Entrées: x = [x1,x2]T , Sorties: C Î {0,1} Prédiction: Comment estimer ? Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Règle de Bayes apriori vraisemblance aposteriori évidence Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Règle de Bayes: K>2 Classes Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Règle de Bayes: K>2 Classes Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Pertes et risques Attribution d’un prêt Sortie: oui ou non donc une sortie binaire Mais, certains prêts sont plus profitables que d’autres. Comment tenir compte des contextes où la sortie n’est pas binaire? Les prêts accordés à des personnes à bas risque augmentent les profits tandis que les prêts refusés à des personnes à haut risque diminue les pertes. Les banques doivent tenir compte des profits et des gains. Par l’utilisation d’une fonction de perte Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Pertes et risques αi: action d’assigner l’entrée à la classe Ci ik: la perte de prise de l’action αi quand l’état est Ck Risque estimé (espérance du risque) Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Pertes et risques: perte avec 0/1 Quel est le coût de la prise d’une bonne décision? Quel est le coût de la prise d’une mauvaise décision? Quel est le risque de prendre des décisions? Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Pertes et risques: perte avec 0/1 Pour un risque minimum, choisir la classe la plus probable Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Pertes et risques: Rejet Pour quelques applications, la prise d’une décision automatique mauvaise peut s’avérer néfaste: Mauvaise reconnaissance de la personne dans une transaction bancaire. Mauvaise reconnaissance automatique du code postal pour une compagnie de poste. Mauvaise reconnaissance automatique de la parole dans un contexte de centre d’appel Solution: le rejet de certaines hypothèses Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Pertes et risques: Rejet Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Pertes et risques: Rejet Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Classification La classification peut aussi être implémentée par un ensemble de fonctions discriminantes, une fonction par classe. Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Fonctions discriminantes K régions de décision R1,...,RK Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Fonctions discriminantes Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Fonctions discriminantes K régions de décision R1,...,RK Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
K=2 Classes Dichotomizer (K=2) vs Polychotomizer (K>2) g(x) = g1(x) – g2(x) Exprimé en logarithmique: Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Théorie d’utilité Avec l’approche des pertes et risques, nous avons tenté de minimiser les risques d’une prise de décision. Généralisons l’approche avec le concept de la théorie d’utilité. P (Sk|x) : Pr d’un état k étant donné l’évidence x Uik : Utilité de l’action αi quand l’état est k Espérance de l’utilité: Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Valeur de l’information Par exemple, pour les diagnostics médicaux, ils existent plusieurs tests: Pulsation cardiaque; Température; Prise de sang; Radiographie; Normalement tout ce que l’on peut observer devrait être observé. Par contre, certains tests sont coûteux et intrusifs. Comment estimer la valeur de l’information d’un test? Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Valeur de l’information Espérance de l’utilité en fonction de x seulement Espérance de l’utilité en fonction de x et d’un nouveau paramètre z z est utile si EU (x,z) > EU (x) Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Réseaux bayesiens Aussi appelés: Réseaux de croyance, réseaux probabilistes sont des modèles graphiques représentant les interactions entre les hypothèses Noeuds sont des hypothèses (var. aléatoires) et les Pr correspondent à notre croyance que c’est la bonne hypothèse Arcs sont des influences dirigées (interactions) entre les hypothèses La structure est représentée comme un graphe acyclique dirigé (GAD) Les paramètres sont des Pr conditionnelles sur les arcs (Pearl, 1988, 2000; Jensen, 1996; Lauritzen, 1996) Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Causalité et règle de Bayes Pluie: 40% du temps Quand il pleut, il y a 90% de chance que le gazon soit mouillé (10% du temps, il ne pleut pas assez pour le considérer mouillé) 20% de chance d’avoir le gazon s’il ne pleut pas (système d’irrigation, etc) diagnostic causal Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Causalité et règle de Bayes Inférence du diagnostic : Sachant que le gazon est humide, quelle est la probabilité que la pluie en soit la cause? diagnostic causal Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Causalité et règle de Bayes Supposons que l’on veuille ajouter maintenant l’utilisation d’un système d’irrigation. On rajoute un nœud au graphe avec un arc dirigé pour signaler une autre cause au gazon mouillé. diagnostic causal Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Causalité vs Inférence du diagnostic Inférence causale: Si le système (S) d’irrigation est en marche, quelle est la Pr que le gazon soit humide? P(W|S) = P(W|R,S) P(R|S) + P(W|~R,S) P(~R|S) = P(W|R,S) P(R) + P(W|~R,S) P(~R) = 0.95* 0.4 + 0.9 *0.6 = 0.92 Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Causalité vs Inférence du diagnostic Inférence du diagnostic: Si le gazon est humide, quelle est la Pr que les gicleurs sont en marche? Réponse: P(S|W) = 0.35 Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Causalité vs Inférence du diagnostic Inférence du diagnostic: Si le gazon est humide et qu’il pleut, quelle est la Pr que les gicleurs sont en marche? Réponse: P(S|R,W) = 0,21 Explication: Sachant qu’il a plu diminue la Pr que les gicleurs sont en marche. Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Réseaux bayesiens: Causalité Normalement, on ne part pas le système d’irrigation s’il y a possibilité de pluie c.à.d. si le ciel est ennuagé. Ajoutons une autre variable aléatoire, l’ennuagement W indépendant de C Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Réseaux bayesiens: Causalité Inférence causale: P(W|C) = P(W|R,S) P(R,S|C) + P(W|~R,S) P(~R,S|C) + P(W|R,~S) P(R,~S|C) + P(W|~R,~S) P(~R,~S|C) et utilisons le fait que P(R,S|C) = P(R|C) P(S|C) et P(W|R,S)= P(W|R,S,C) Diagnostic: P(C|W ) = ? Note: P(W|C) = P(W|R,S,C) P(R,S|C) + P(W|~R,S,C) P(~R,S|C) + P(W|R,~S ,C) P(R,~S|C) + P(W|~R,~S ,C) P(~R,~S|C) = P(W|R,S) P(R,S|C) + P(W|~R,S) P(~R,S|C) + P(W|R,~S) P(R,~S|C) + P(W|~R,~S) P(~R,~S|C) Puisque W dépend de R et S et que W est indépendant de C Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Réseaux bayesiens: structure locale Supposons que nous avons un chat qui n’aime pas aller sur le toit de la maison quand il pleut. Ajoutons une variable aléatoire F pour dénoter cela P (F | C) = ? Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Réseaux bayesiens: structure locale Les réseaux bayesiens est une représentation graphique qui nous permet de réduire le problème en un plus petit problème. Par exemple, que vaut P(C,S,R,W,F) ? Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Réseaux bayesiens: Inférence P (C,S,R,W,F) = P (C) P (S|C) P (R|C) P (W|R,S) P (F|R) P (C,F) = ∑S ∑R ∑W P (C,S,R,W,F) P (F|C) = P (C,F) / P(C) Pas efficace car nécessite beaucoup de calculs! Méthodes plus efficaces: Propagation de la croyance (Pearl, 1988) Arbres de jonction (Lauritzen and Spiegelhalter, 1988) Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Réseaux bayesiens: Classification La règle de Bayes inverse les arcs: diagnostic P (C | x ) Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Classificateurs bayesiens naïfs Supposons xj sont indépendants et C: p(x|C) = p(x1|C) p(x2|C) ... p(xd|C) Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Règles d’association Règle d’association: X ® Y Par exemple, on veut trouver la dépendance entre deux items X et Y dans un panier d’épicerie. On parlera de deux mesures: Confiance de la règle d’association Support de la règle d’association Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Règles d’association Support (X ® Y): Confiance (X ® Y): Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Règles d’association Confiance (X ® Y): P(X |Y) la valeur de confiance, P(X |Y), doit être près de 1 sinon la règle d’association ne tient pas beaucoup Elle doit aussi être plus grande que P(Y) Support (X ® Y): P(X,Y) Il faut aussi que la valeur de support, P(X,Y) soit grande sinon la règle sera peu utilisée. Le support montre la validité statistique de la règle tandis que la confiance démontre la force de la règle, Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)