La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

IFT 615 Intelligence Artificielle Jean-François Landry Département dinformatique Université de Sherbrooke Révision – Examen final

Présentations similaires


Présentation au sujet: "IFT 615 Intelligence Artificielle Jean-François Landry Département dinformatique Université de Sherbrooke Révision – Examen final"— Transcription de la présentation:

1 IFT 615 Intelligence Artificielle Jean-François Landry Département dinformatique Université de Sherbrooke Révision – Examen final

2 Sujets principaux l Réseaux bayésiens l Réseaux de neurones l Réseaux bayésiens dynamiques l Logique du premier ordre l Systèmes experts à base de règles IFT6152

3 RB - Syntaxe l Un RB est un graphe u orienté, u acyclique, u dont les nœuds sont des variables (le plus souvent aléatoires) et u les arcs représentent »des dépendances (causalités) probabilistes entre les variables et »des distributions de probabilités conditionnelles (locales) pour chaque variable étant donné ses parents. IFT6153

4 Exemple l La topologie du RB modélise la connaissance causale. l Un arc dun nœud X vers un nœud Y signifie que la variable X influence la variable Y. u Un cambriolage peut déclencher lalarme. u Un séisme aussi. u Lalarme peut inciter Jean à appeler. u Idem pour Marie à appeler. l Pour chaque nœud, une table de probabilité conditionnelle (TPC) donne la probabilité pour chaque valeur du nœud étant donné les combinaisons des valeurs des parents du nœud. Cambriolage Séisme Alarme JeanApelle MarieAppelle C S P(A|C,S) T T.95 T F.94 F T.29 F F.001 A P(J|A) T.90 F.05 A P(M|A) T.70 F.01 P(C).001 P(S).002 IFT6154

5 Définitions l Sil y a un arc dun nœud X vers un nœud Y, cela signifie que la variable X influence la variable Y. u X est appelé le parent de Y. u Parents(X) est lensemble des parents de X. l Si X na pas de parents, sa distribution de probabilités est dite inconditionnelle ou à priori. l Si X a des parents, sa distribution de probabilités est dite conditionnelle (par rapport aux parents) ou à postériori. l Deux variables sont indépendantes si l Si X est une variable observée, ont dit que cest une évidence. Cambriolage Séisme Alarme JeanApelle MarieAppelle C S P(A|C,S) T T.95 T F.94 F T.29 F F.001 A P(J|A) T.90 F.05 A P(M|A) T.70 F.01 P(C).001 P(S).002 IFT6155

6 Rappel de notions de base en probabilités l P(X,Z) = P(X|Z)P(Z). l P(Z,X) = P(Z|X)P(X). l On en déduit u P(X|Z) = P(X,Z) / P(Z) u P(X|Z) = P(Z|X)P(X) / P(Z) Règle de Bayes l Si on a une distribution conjointe pour P(Z,Y) on peut calculer la distribution P(Z) par la somme des probabilités pour toutes les valeurs possibles de Y (marginalisation): P(Z) = Σ y P(Z, Y = y). l Si on a une distribution conditionnelle P(Z|Y), on peut « conditionner » : P(Z) = Σ y P(Z | Y = y)P(Y=y). l P(Z) peut donc être considéré comme un facteur constant, α IFT6156

7 Rappel de notions de base en probabilités l Ceci nous donne u P(X|Z) = α P(X,Z) u α est une constante de normalisation pour sassurer que la somme des probabilités de la distribution P(X,Z) soit égale à 1. l De manière générale, soit u X, lensemble de variables pour laquelle on fait linterrogation, u E, les variables dévidences (quon peut observer) et u Y, les variables cachées (quon ne peut pas observer). u e, les valeurs observées pour les variables dans E. l P(X|E=e) = α P(X,E=e) = Σ y P(X, E=e, Y = y) l Noté aussi P(X|e) = α Σ y P(X, e, y) IFT6157

8 Inférence par énumération l On a vu que : P(X|e) = α Σ y P(X, e, y) où e=evidence, et y=variables cachées. l On a vu aussi que selon la sémantique dun RB P(X 1, …,X n ) = π i = 1 P (X i | Parents(X i )) l Les termes P(X, e, y) peuvent donc sécrire comme le produit des probabilités conditionnelles du réseau. l En dautre termes, on peut calculer la réponse à une interrogation P(X|e) sur un RB, simplement en calculant les sommes des produits des probabilités conditionnelles du RB. u Algorithme Figure 14.9, Page 506 du livre. n IFT6158

9 Exemple l P(Cambriolage | JeanApelle = T, MarieAppelle = T ) l Noté P(C | j, m) l Les variables cachées sont Séisme et Alarme. l P(C | j, m) = α Σ s,a P(C, s, a, j, m) l Note : s et a veulent dire, toutes les valeurs possibles de S=s et A=a variables. Ne pas confondre avec j et m qui sont des évidences fixes (J=j et M=m). Cambriolage Séisme Alarme JeanApelle MarieAppelle C S P(A|C,S) T T.95 T F.94 F T.29 F F.001 A P(J|A) T.90 F.05 A P(M|A) T.70 F.01 P(C).001 P(S).002 IFT6159

10 Exemple l P(C | j, m) = α Σ s,a P(C, s, a, j, m) l On calcule pour C = true P(c | j, m) = α Σ s,a P(c)P(s)P(a|c,s)P(j|a)P(m|a) =0.001*0.002*0.95*0.90* *0.998*0.94*0.90* *0.02*0.05*0.05* *0.998*0.06*0.05*0.01 =α ( ) l Et C = false P(c | j, m) = α Σ s,a P( c)P(s)P(a| c,s)P(j|a)P(m|a) = α ( ) α = 1/( ) l Donc, P(C | j, m) = [0.284, 0.716] Cambriolage Séisme Alarme JeanApelle MarieAppelle C S P(A|C,S) T T.95 T F.94 F T.29 F F.001 A P(J|A) T.90 F.05 A P(M|A) T.70 F.01 P(C).001 P(S).002 IFT61510

11 Apprentissage dun RB l La structure dun RB (le graphe) est le plus souvent spécifiée à laide dun expert. l Dans dautres applications, la structure est générée automatiquement à partir des données statistiques. u Cest un des problèmes dapprentissage machine. l Dans dautres problèmes, on connaît la structure du RB, mais on ne connaît pas les TPC. u Là aussi, on peut les apprendre à partir des données statistiques. u Cest un autre problème dapprentissage machine. IFT61511

12 Diagrammes dinfluence l Un diagramme dinfluence (DI) est une extension dun RB avec des nœuds de décision et des nœuds dutilité. u Les nœuds habituels dun RB sont appelés des nœuds chances. u On ajoute : »Des nœuds de décision représentant une prise de décision »Des nœuds dutilité représentant lutilité (coût ou degré de désirabilité) des nœuds chances influencés par les actions. l Ainsi on peut modéliser des prises des décisions simples u Pour des décisions complexes (séquentielles), les processus de décision de Markov sont généralement préférables. IFT61512

13 Résumé Un RB est un graphe orienté, acyclique, représentant des connaissances causales, et reflétant les dépendances conditionnelles entre des variables. La topologie du réseau (arcs entres les variables) et les TPC donnent une représentation compacte de la distribution conjointe des probabilités. Les connaissances du réseau (liens de causalité et probabilités) sont généralement obtenus avec laide dun expert. Pour des applications concrètes, ceci peut être très laborieux. Un diagramme dinfluence est un réseau bayésien avec des nœuds de décision et des nœuds dutilité. IFT61513

14 Exemple l Exemple – fichier PDF © É. Beaudry & F. Kabanza14IFT615

15 Réseaux bayésiens dynamiques (RBD) l Comment modéliser des situations dynamiques? u Les changements dynamiques peuvent être vues comme une séquence détats, chaque état représentant la situation à un instant donné. u X t : Ensemble des variables non observables décrivant létat au temps t. u E t : Ensembles de variables observées (évidence) au temps t. l Le terme dynamique réfère au dynamisme du système quon veut modéliser et la structure du réseau. IFT61515

16 l Problème: u Il faudrait spécifier un nombre infini de tables de probabilité conditionnelle: une pour chaque variable, dans chaque état. u Chaque table pourrait impliquer un nombre infini de parents. l Solution: 1. Supposer que les changements dynamiques sont causées par un processus stationnaire - les probabilités ne changent pas dans le temps: P(X t | Parent(X t )) est la même pour tous les t. 2. Supposer que les changements dynamiques sont causées par un processus markovien – létat courant dépend seulement dun nombre fini détats précédents. Processus markoviens du premier ordre: P(X t | X 0:t-1 ) = P(X t | X t-1 ) modèle pour les transitions 3. Supposer que lévidence dépend uniquement de létat courant. P(E t | X 0:t,E 0:t-1 ) = P(E t | X t ) modèle pour les observations/capteurs RBD - Représentation IFT61516

17 RBD - Illustrations RBD du second ordre Réseau bayesien dynamique (RBD) du premier ordre avec une seule variable X, répliquées dans les différents états pour modéliser la dynamique du système. IFT61517

18 RBD l Comment rendre un RBD plus précis? 1. Augmenter lordre du modèle markovien. Par exemple, Rain t aurait comme parents, non seulement Rain t-1 mais aussi Rain t-2 pour un processus markovien du second ordre. Ceci donnerait des prédictions plus précises. 2. Augmenter le nombre de variables détats. Par exemple, on pourrait ajouter: »Une variable Season t pour tenir compte des statistiques historiques sur les temps de pluie selon les saisons. »Des variables Temperature t, Humidity t and Pressure t pour tenir compte de la physique des conditions de pluie. IFT61518

19 Types dinférence dans un RBD l Filtrage (filtering) ou monitorage/surveillance (monitoring) l Prédiction, lissage l Explication la plus plausible (séquence détats) Des algorithmes pour des RBD générales existent pour chaque type dinférence. Des algorithmes plus efficaces existent pour des cas particuliers de RBD: u Chaînes cachées de Markov u Filtres de Kalman u Filtres de particules IFT61519

20 IFT61520 Réseaux de neuronnes l net = Σ w i x i l f(net)= +1 si net 0, -1 sinon. l C.à-d. : f(net) = sign(net) [McCulloch-Pitts, 1943] i=1 n

21 IFT61521 Fonction dactivation sigmoïde f(x) = sign(x) i=1 n x= Σ w i x i f(x) = 1 1+e - λ x

22 IFT61522 Comment un RNA apprend ? l Les liens entre les neurones ont des poids numériques. l Un poids reflète la force, limportance, de lentrée correspondante. l La sortie de chaque neurone est fonction de la somme pondérée de ses entrées. l Un RNA apprend en ajustant ses poids itérativement jusquà ce que les sorties soient en accord avec les entrées.

23 IFT61523 Est-ce quun seul neurone peut apprendre ? Paramètres x i : entrée w i : poids (nombre réel) c : pas(step) dapprentissage:0 c 1 d : sortie désirée Oui. Perceptron [Rosenblatt, 1958] y=f(net)= sign(net) Algorithme dapprentissage Pour chaque donnée dentraînement, incrémenter le poids w i par : w i = c(d-y)x i i=1 n net = Σ w i x i

24 IFT61524 Exemple y=f(net)= sign(net) 1 i=1 n net = Σ w i x i c = 0.2 wi = c (d-y)x i x1x1 x2x2 d Initialisation : w = [w 1, w 2, w 3 ] = [.75,.5, -.6] 2. f(net) = sign(.75×1+.5×1-.6×1)=sign(.65)=1; w = 0.2(1-1)X= 0; donc w est inchangé. 3. f(net) = sign(.75×9.4+.5×6.4-.6×1)=sign(9.65)=1; w = -.4X; donc w = w -.4 [9.4, 6.4, 1] = [-3.01, -2.06, -1] … 500. w = [-1.3, -1.1, +10.9]. Équation de la ligne séparant les données : -1.3x x = 0.

25 IFT61525 Apprentissage dun perceptron avec une fonction dactivation sigmoïde o i : sortie du neurone i di : sortie désirée pour le neurone i c : pas dapprentissage : 0 c 1 w ji : ajustement du poids de lentrée j au neurone i. f (net i )= λ × f(net i ) × (1-f(net i )) Algorithme dapprentissage Pour chaque donnée dentraînement, incrémenter le poids w ji par : w ji = c(d i -o i )f (net i )x ji o i =f(net i ) = 1 1+e - λ neti n j=1 net i = Σ w ji x ji x 1i x ni f(net i )

26 Réseaux de neurones l Exemple – Fichier pdf © É. Beaudry & F. Kabanza26IFT615

27 Logique du premier ordre l Mettre sous forme clausale u Eliminer implications u Distribuer les négations u Standardiser les variables u Skolemisation (on enlève les quantificateurs existentiels pour les remplacer par une fonction) u On enlève les quantificateurs universels u On distribue les OU au lieu des ET © É. Beaudry & F. Kabanza27IFT615

28 © É. Beaudry & F. Kabanza28IFT615

29 Systèmes experts l Base des connaissances l Moteur d'inférence - chaînage avant l Moteur d'inférence - chaînage arrière © É. Beaudry & F. Kabanza29IFT615


Télécharger ppt "IFT 615 Intelligence Artificielle Jean-François Landry Département dinformatique Université de Sherbrooke Révision – Examen final"

Présentations similaires


Annonces Google