La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

IFT 616 Intelligence Artificielle Jean-François Landry Département dinformatique Université de Sherbrooke Réseaux bayésiens dynamiques.

Présentations similaires


Présentation au sujet: "IFT 616 Intelligence Artificielle Jean-François Landry Département dinformatique Université de Sherbrooke Réseaux bayésiens dynamiques."— Transcription de la présentation:

1 IFT 616 Intelligence Artificielle Jean-François Landry Département dinformatique Université de Sherbrooke Réseaux bayésiens dynamiques

2 Sujets couverts l Cest quoi un réseau bayésien dynamique (RBD)? l Exemple dinférence simple dans un RBD. l Cas particuliers des chaînes cachées de Markov. IFT6152

3 Réseaux bayésiens dynamiques (RBD) l Comment modéliser des situations dynamiques? u Les changements dynamiques peuvent être vues comme une séquence détats, chaque état représentant la situation à un instant donné. u X t : Ensemble des variables non observables décrivant létat au temps t. u E t : Ensembles de variables observées (évidence) au temps t. l Le terme dynamique réfère au dynamisme du système quon veut modéliser et la structure du réseau. IFT6153

4 l Problème: u Il faudrait spécifier un nombre infini de tables de probabilité conditionnelle: une pour chaque variable, dans chaque état. u Chaque table pourrait impliquer un nombre infini de parents. l Solution: 1. Supposer que les changements dynamiques sont causées par un processus stationnaire - les probabilités ne changent pas dans le temps: P(X t | Parent(X t )) est la même pour tous les t. 2. Supposer que les changements dynamiques sont causées par un processus markovien – létat courant dépend seulement dun nombre fini détats précédents. Processus markoviens du premier ordre: P(X t | X 0:t-1 ) = P(X t | X t-1 ) modèle pour les transitions 3. Supposer que lévidence dépend uniquement de létat courant. P(E t | X 0:t,E 0:t-1 ) = P(E t | X t ) modèle pour les observations/capteurs RBD - Représentation IFT6154

5 RBD - Illustrations RBD du second ordre Réseau bayesien dynamique (RBD) du premier ordre avec une seule variable X, répliquées dans les différents états pour modéliser la dynamique du système. IFT6155

6 RBD - Exemple l Contexte: Un gardien de sécurité passe un mois dans un édifice sous-terrain, sans sortir. Chaque jour, son directeur arrive avec ou sans parapluie. Le gardien veut inférer la possibilité quil ait plu ou non en fonction des séquences dobservation du parapluie. l Modélisation: u Variables: X t = {R t } (pour « Rain ») et E t ={U t } (pour « Umbrella »). u Dépendances entre les variables (c-.à-d., le RBD): Modèle des transitions: P(R t | R t-1 ). Modèle dobservation: P(E t | R t ). IFT6156

7 RBD l Comment rendre un RBD plus précis? 1. Augmenter lordre du modèle markovien. Par exemple, Rain t aurait comme parents, non seulement Rain t-1 mais aussi Rain t-2 pour un processus markovien du second ordre. Ceci donnerait des prédictions plus précises. 2. Augmenter le nombre de variables détats. Par exemple, on pourrait ajouter: »Une variable Season t pour tenir compte des statistiques historiques sur les temps de pluie selon les saisons. »Des variables Temperature t, Humidity t and Pressure t pour tenir compte de la physique des conditions de pluie. IFT6157

8 Types dinférence dans un RBD l Filtrage (filtering) ou monitorage/surveillance (monitoring) l Prédiction, lissage l Explication la plus plausible (séquence détats) Des algorithmes pour des RBD générales existent pour chaque type dinférence. Des algorithmes plus efficaces existent pour des cas particuliers de RBD: u Chaînes cachées de Markov u Filtres de Kalman u Filtres de particules IFT6158

9 RBD – Filtrage ou monitorage l Calculer létat de croyance (belief state) – c-.à-d., la distribution de probabilité à priori de létat courant, étant donné lévidence (observation) jusque là. Un agent intelligent a besoin du filtrage pour maintenir à jour son état courant – ceci est nécessaire pour prendre des décisions rationnelles (déterminer laction appropriée dans létat courant). IFT6159

10 RBD – Filtrage ou monitorage l Étant donnés les résultats du monitorage jusquau temps t, on peut facilement calculer les résultats au temps t+1 à partir des nouvelles observations e t+1. (séparer lévidence en 2) (Règle de Bayes) (Hypothèse markovienne) α : constante de normalisation. (Hypothèse Markovienne) IFT61510

11 RBD – Filtrage Exemple de lagent de sécurité Données: une distribution de probabilité à priori P(R 0 ), par exemple. Un modèle des transition P(R t |R t-1 ) et Un modèle dobservation P(U t |R t ). IFT61511 Voyons maintenant les deux premières étapes de la détermination de létat R t : Jour 1, le parapluie apparait, (U1=true ou u 1 ). La prédiction de t=0 à t=1 est:

12 DBN – Filtrage Exemple de lagent de sécurité Jour 2, le parapluie apparait de nouveau, c.-à-d., U1=true. La prédiction de t=1 à t=2 donne: IFT61512 avec

13 Exemple dapplication: Projet assisted cognition Henry Kautz, University of Rochester BA Goals work, home, friends, restaurant, doctors,... Trip segments Home to Bus stop A on Foot Bus stop A to Bus stop B on Bus Bus stop B to workplace on Foot Work 13

14 Modèle hiérarchique du RBD Transportation mode x= GPS reading Goal Trip segment x k-1 z k-1 zkzk xkxk m k-1 mkmk t k-1 tktk g k-1 gkgk Kautz et al. 14

15 Reconnaître les buts dun usager Kautz et al. 15

16 RBD – Cas spécial: Chaînes cachées de Markov l Une chaîne de Markov (de premier ordre) est définie par u Cas particulier avec une seule variable aléatoire, appelée variable détat. u Une distribution initiale de probabilités sur des symboles (états). u Une matrice de transitions contenant des probabilités conditionnelles. IFT61516

17 Exemple de chaîne de Markov Symbole actuel A B C Prochain symbole A Exemple de chaîne : CCBBAAAAABAABACBABAAA A B C Représentation matricielle Représentation graphique IFT61517 C B

18 Probabilité de générer une chaîne Une séquence de symboles, allant du temps 1 au temps T Distribution initiale de probabilités. Probabilité de transition Produit des probabilités, une pour chaque terme de la séquence IFT61518

19 Apprendre la table des probabilités conditionnelles l Approche Naïve : Observer plusieurs chaînes et définir les probabilités conditionnelles en fonction des fréquences doccurrence des symboles. l Problèmes avec zéro occurrences. u Mieux: P(B|A) = Σ #AB chaînes Σ #A chaînes P(B|A) = Σ #AB chaînes Σ #A chaînes 1 + Nb chaînes + IFT61519

20 Chaînes cachées de Markov l Comment modéliser les états et les observations ? u Les états sont considérés cachés. Létat caché suivant dépend uniquement de létat caché courant, mais peut contenir des informations sur un ou plusieurs états antérieurs. u Le symbole (signal) émis dans létat est observable et dépend uniquement de létat actuel. l Une chaîne de Markov avec des états cachées est dite une chaîne cachée de Markov (CCM) ou un modèle caché de Markov (MCM): u Hidden Markov Model (HMM) en anglais. IFT61520

21 Exemple Chaque nœud caché a un vecteur de probabilités de transitions et un vecteur de probabilités de sorties (observations). i A B C k j IFT61521

22 Simuler une CCM l Il est facile de générer des mots. À chaque étape, faire deux choix aléatoires : u Utiliser les probabilités de transitions du nœud caché courant, pour obtenir le nœud suivant. u Utiliser les probabilités de sortie du nœud caché courant pour obtenir le symbole de sortie. l On peut aussi générer la séquence des nœuds dabord et ensuite générer les sorties correspondantes. u Les nœuds cachés dépendent uniquement des nœuds précédents u Les sorties ne dépendront pas sur la séquence (visible) des sorties. IFT61522

23 Probabilité de générer une séquence cachée Une séquence de nœuds cachés, allant du temps 1 au temps T Distribution initiale Produit des probabilités, une pour chaque terme de la séquence Probabilité de transitions entre les nœuds. P ij = p(h t = j | h t-1 = i) IFT61523

24 Probabilité de générer une séquence cachée et une séquence visible Séquence de nœuds cachés et de symboles de sortie. Probabilité de sortir le symbole s t au nœud h t. IFT61524

25 Probabilité de générer une séquence visible séquences cachés l La même séquence de sortie peut être produite par plusieurs séquences cachées différentes. l Mais il y a un nombre exponentiel de séquences cachées possibles. l Le calcul est donc très inefficace. IFT61525

26 Programmation dynamique pour CCM l Une façon plus efficace de générer une séquence de sortie. La probabilité jointe pour produire une séquence jusquau temps, en utilisant le nœud i au temps est notée: Cela peut être calculé récursivement : IFT61526

27 Apprentissage des paramètres dune CCM l Il est facile dapprendre les paramètres dune CCM pourvu que : u Pour chaque séquence observée, on puisse inférer les probabilités postérieures des états cachées. l On peut utiliser la programmation dynamique pour inférer quelle séquence cachée a donnée lieu à une séquence dobservations. IFT61527

28 Application : reconnaissance vocale l La reconnaissance vocale est difficile : u Bruit ambiant ou introduit par la digitalisation u Variations dans la prononciation u Différents mots ayant la même prononciation. l Problème : Quelle est la séquence de mots la plus vraisemblable étant donné un signal sonore ? l Réponse : Choisir la séquence de mots qui maximise la probabilité u P(mots | signal) IFT61528

29 Modèle acoustique et modèle du langage l Choisir la séquence de mots qui maximise la probabilité u P(mots | signal). l Utiliser la règle de Bayes : P(mots | signal) = α P(signal | mots) P(mots) l Cest-à-dire, décomposer le problème en modèle acoustique et modèle du langage : u P(signal | mots) : modèle acoustique. u P(mots) : modèle du langage. l Chaîne cachée : les mots. l Chaîne observée : le signal. IFT61529

30 Phones l Des travaux dans le domaine de phonologie ont montré que tous les langages naturels utilisent seulement 40 à 50 sons de base, appelés phones. l Les phones découlent de larticulation des lèvres, des dents, de la langue, des cordes vocales et du flux de lair. l Intuitivement, un phone est un son qui correspond à une seule consonne ou une seule voyelle. l Mais cest plus subtil ! Des combinaisons de consonnes comme « th » ou « ng » en anglais font un seul phone. l Un phonème est la plus petite unité de son distinctive que lon puisse isoler par segmentation dans un mot. IFT61530

31 Phones : exemple Phones pour langlais américain : IFT61531

32 Modèle acoustique l Rappel : u P(mots | signal) = α P(signal | mots) P(mots) »P(signal | mots) : modèle acoustique. »P(mots) : modèle du langage. l Lexistence des phones permet de diviser le modèle acoustique en deux parties : u Modèle de prononciation : spécifie, pour chaque mot, une distribution de probabilité sur une séquence de phones. Par exemple, « ceiling » est parfois prononcé [s iy l ih ng], ou [s iy l ix ng], ou encore [s iy l en]. »Le phone est la variable cachée. Le signal est la variable observée. u Modèle phonique : Le modèle phonique P(e t |x t ) donne la probabilité que le signal échantillonné soit e t au temps t si le phone est x t. IFT61532

33 Exemple de modèle de prononciation l P([towmeytow]| « tomato») = P([towmaatow]| « tomato») = 0.1 l P([tahmeytow]| « tomato») = P([tahmaatow]| « tomato») = 0.4 l Les transitions sont spécifiées manuellement. Les probabilités sont apprises. IFT61533

34 Conversation continue l Dans une conversation continue on doit tenir compte de la corrélation des mots adjacents et non juste la reconnaissance dun mot isolé. l Actuellement les meilleurs systèmes peuvent reconnaître de 60 % à 80 %, selon les applications et le contexte. IFT61534

35 Applications l Reconnaissance vocale u CMU Sphinx (publique) : u Dragon Naturally Speaking (commercial) u IBM ViaVoice (commercial) l Reconnaissance de caractères u Observé : image. u Caché : mots. IFT61535


Télécharger ppt "IFT 616 Intelligence Artificielle Jean-François Landry Département dinformatique Université de Sherbrooke Réseaux bayésiens dynamiques."

Présentations similaires


Annonces Google