Fusion de données : Vision probabiliste de la fusion « Ce que les hommes veulent en fait, ce n’est pas la connaissance, c’est la certitude. » Bertrand Russel
Rappels Théorie des probabilités Approche fréquentiste une probabilité = la limite d'une fréquence d'occurrence d'événements Approche subjective (ou confiance) une probabilité reflète simplement un état de connaissance et le lien avec une fréquence réelle d'occurrence n'existe que dans certains cas. Théories non probabilistes théorie des possibilités (cadre de la logique floue) théorie de l'évidence proposée par Shafer (1976). Deux écoles de pensée : 1- les probabilistes: les résultats et mécanismes auxquels conduisent ces approches toujours atteints par une méthode strictement probabiliste (à condition qu'elle soit suffisamment adaptée) 2- les adeptes de la théorie de l'évidence ou des possibilités volonté de chercher une modélisation plus fidèle sémantiquement vis-à-vis de l'information disponible.
Introduction Modèle probabiliste le plus ancien et le plus utilisé Deux approches différentes : approche objectiviste (fréquentiste) : distribution de probabilité d'une variable aléatoire approche subjective : répartition de probabilités image de l'état des connaissances
Approche fréquentiste étude statistique du phénomène évaluation de la fréquence d'occurrence d'un événement exemple : jet de dé le ratio de fréquence d'apparition d'une face est de 1/6
Approche subjective codage de l'état des connaissances confiance dans l'apparition d'un événement exemple : Paul apprend à rouler à vélo, il a beaucoup de "chances" de tomber.
Théories des probabilités Le cadre classique Ensemble fini W={w1,…,wc} A W : événement, proposition, hypothèse, … P : 2W [0,1] est une mesure de probabilité si : P(W)=1 A,B W, AB= P(AB)=P(A)+P(B) [axiome d’additivité] Conséquences : P()=0 A,B W, P(AB)=P(A)+P(B)-P(AB) p : W [0,1] ,
Théories des probabilités Qu’est-ce que P(A) ? Interprétation fréquentiste : limite vers laquelle tend la fréquence relative de l’événement A au cours d’une suite d’épreuves indépendantes (phénomènes aléatoires) suppose la répétabilité des épreuves Interprétation classique : issue de la théorie des jeux Interprétation subjectiviste : P(A)=degré de croyance d’un agent rationnel en l’occurrence de l’événement A. [Axiomes de Cox (1946)]
Représentation de l’ignorance Théories des probabilités Représentation de l’ignorance Principe de raison insuffisante (PRI) : en l’absence d’information, prendre la loi de probabilité uniforme p(w)=cste. Exemple 1 : course entre 3 chevaux W={a, b, c}. Pour le néophyte p(a)=p(b)=p(c)=1/3 Pour le connaisseur sachant que les 3 chevaux sont de même valeur : Deux états de connaissance très différents sont représentés exactement de la même façon...
Modélisation de la précision Précision : distribution de probabilité sur l'espace de définition continu Probabilité que X [a,b], si la mesure est d. Distribution Gaussienne : moyenne d, variance s2
Modélisation de la confiance Incertitude : distribution de probabilités sur W : P(H1), P(H2), P(H3), P(H4) Propriétés : A 2 W, 0 P(A) 1 P(W ) =1 A, B 2W, P(A B) = P(A) + P(B) si A B= A, B 2W, P(A) = P(A B) + P(A B)
Modélisation de la méconnaissance (ignorance) Modélisation implicite : répartition de la probabilité sur les différentes hypothèses possibles : A = H1 H2 ; P(A) = 0.6 P(H1) = 0.3 et P(H2) = 0.3 Exemple : jet de pièce P(pile) = P(face) = 0.5
Modélisation de la méconnaissance (ignorance) Principe d’indifférence ou de « raison insuffisante » Ignorance = modélisée par une distribution de probabilité uniforme Principe de maximum d’entropie
Méconnaissance pour probabilités subjectives Modélisation Méconnaissance pour probabilités subjectives Confusion entre doute et méconnaissance Exemple : Les fantômes existent-ils ? P(fantôme existe) = P(fantôme n'existe pas) = 0.5
Conversion numérique-symbolique modèle de conversion : statistique : apprentissage supervisé subjective : modélisation d'une connaissance experte distribution de vraisemblance : Hi W , vd (Hi ) = p (d /Hi) d
Fusion Fusion bayesienne Basée sur l'utilisation du théorème de Bayes
Le théorème du révérend Thomas Bayes Théorème de Bayes: conséquence immédiate de la loi de composition des probabilités (qui est nécessairement un des axiomes fondamentaux de toute théorie des probabilités). Si A et B deux événements, loi de composition des probabilités indique: probabilité P(AB) d'observer à la fois A et B est simplement donnée par: P(AB) = P(A) P(B|A) = P(B) P(A|B) où P(A|B) se lit "probabilité d'observer A sachant que B s'est réalisé". Cela implique immédiatement: P(B|A) = P(B) P(A|B)/P(A) Théorème de Bayes Rq: Ce théorème se généralise au cas de plusieurs événements A, B, C, D, etc. A priori
Le théorème du révérend Thomas Bayes Propriétés Approche bayesienne compare des hypothèses aux données réelles; Approche classique compare les données réelles à des données hypothétiques. Inférence bayesienne dépend des données examinées et des données et des connaissances (ou croyances...) antérieures; Inférence classique ne dépend que des seules données examinées.
P(Bj|A) = P(A|Bj)·P(Bj)/ P(A|Bi)·P(Bi) Le théorème du révérend Thomas Bayes Propriétés Soit (Bi),i=1...N, une partition de l’espace W et A un événement. Supposons que l’on connaît les probabilités P(Bi) et les probabilités conditionnelles P(A|Bi) et que l’on s’intéresse à la probabilité conditionnelle d’un événement Bj sachant que A s’est réalisé, i.e. P(Bj|A). On trouve: P(Bj|A) = P(Bj A)/P(A) = P(A|Bj)·P(Bj)/P(A) En exprimant P(A) à l’aide des probabilités conditionnelles P(A|Bi) en utilisant la loi de probabilité totale, on obtient la formule de Bayes: P(Bj|A) = P(A|Bj)·P(Bj)/ P(A|Bi)·P(Bi)
Le théorème du révérend Thomas Bayes Exemple Dans un système de communication numérique, on transmet des « 0 » et des « 1 » via un canal de transmission bruité tel que: Si un « 0 » est émis , on reçoit un « 0 » avec une probabilité 0.75; Si un « 1 » est émis, un « 1 » est reçu avec une probabilité 0.9. Supposons qu’un « 0 » est émis avec une probabilité 0.4. Quelle est la probabilité que, quand un « 0 » est reçu, un « 0 » a été émis? P(B0|A0) =? Soit B0 l’événement « un 0 a été émis", B1 l’événement « un 1 a été émis", A0 l’événement « un 0 a été reçu" et A1 l’événement « un 1 a été reçu". Les probabilités suivantes sont connues: P(B0) = 0.4 P(B1) = 0.6 P(A0|B0) = 0.75 P(A1|B0) = 0.25 P(A0|B1) = 0.1 P(A1|B1) = 0.9
Le théorème du révérend Thomas Bayes Exemple (suite) P(B0) = 0.4 P(B1) = 0.6 P(A0|B0) = 0.75 P(A1|B0) = 0.25 P(A0|B1) = 0.1 P(A1|B1) = 0.9 Quelle est la probabilité que, quand un « 0 » est reçu, un « 0 » a été émis? P(B0|A0) =? En appliquant la formule de Bayes à A0 et la partition (B0,B1) on obtient: P(B0|A0) = P(A0|B0)·P(B0)/ [P(A0|B0)·P(B0) + P(A0|B1)·P(B1)] = 0.75·0.4/[0.75·0.4 + 0.1·0.6] = 0.833=5/6.
Fusion : modèle - mesure Information disponible : distribution de probabilité a priori P(Hi) distribution de vraisemblance P(d/Hi)=vd(Hi) probabilité a posteriori Bayes
Fusion : mesure - mesure Information disponible : distribution de vraisemblance source 1 : p(d1/Hi)=vd1(Hi) distribution de vraisemblance source 2 : p(d2/Hi)=vd2(Hi) Vraisemblance
Modélisation du conflit Fusion Modélisation du conflit Notion de conflit n'existe pas Combinaison concordante normalisée Conflit total : la mesure de vraisemblance n'est plus possible Problème!
ü n1(H1)=0,1 ï n1(H2)=0,9 n12(H1)=0,5 ý n12(H2)=0,5 n2(H1)=0,9 Fusion Doute et conflit Doute donc répartition équiprobable Et donc je n’en sais pas plus! ? Pas plus l’une que l’autre! n1(H1)=0,1 ü ï ý þ n1(H2)=0,9 n2(H1)=0,9 n2(H2)=0,1 n12(H1)=0,5 n12(H2)=0,5 Désaccord (conflit)
Décision avec des probabilités Maximum de probabilité a posteriori (MAP) Maximum de vraisemblance (MV)
Exemple : Jet de dé Point de départ ensemble de définition W={F1, F2, F3, F4, F5, F6} probabilités a priori P(F1)= P(F2)= P(F3)= P(F4)= P(F5)= P(F6) = 1/6 Capteur 1 : indique le nombre de point au milieu Capteur 2 : indique le nombre de points sur un coté
Exemple : Jet de dé Capteurs D’après M. Rombaut (LIS – UJF, Grenoble)
Fusion : modèle - mesure Exemple : Jet de dé Fusion : modèle - mesure Information disponible distribution de probabilité a priori P(Hi) distribution de vraisemblance P(d/Hi)=vd(Hi) probabilité a posteriori
Probabilités conditionnelles Exemple : Jet de dé Probabilités a priori Probabilités conditionnelles p(point/face) = vpoint(face) p(face) p(F1)= 1/6 p(F2)= 1/6 p(F3)= 1/6 p(F4)= 1/6 p(F5)= 1/6 p(F6)= 1/6 D’après M. Rombaut (LIS – UJF, Grenoble)
Exemple : Jet de dé Fusion modèle-mesure Capteur 1 : 1 point D’après M. Rombaut (LIS – UJF, Grenoble)
Fusion : mesure - mesure Exemple : Jet de dé Fusion : mesure - mesure Information disponible distribution de vraisemblance source 1 : p(d1/Hi)=vd1(Hi) distribution de vraisemblance source 2 : p(d2/Hi)=vd2(Hi) vraisemblance
p(1point,1point/F3)=v1point,1point(F3) = 0.81 / 1.38 = 0.59 Exemple : Jet de dé Fusion mesure-mesure Capteur 1 : 1 point Capteur 2 : 1 point p(1point,1point/F3)=v1point,1point(F3) = 0.81 / 1.38 = 0.59 D’après M. Rombaut (LIS – UJF, Grenoble)
Curiosité liée aux probabilités Paradoxe de Bertrand Soit une bouteille contenant un mélange eau – vin La bouteille contient : au moins autant d’eau que de vin; au plus deux fois plus d’eau que de vin. Question : Probabilité que la bouteille contienne au plus 1.5 fois plus d’eau que de vin ?
Curiosité liée aux probabilités Paradoxe de Bertrand Soit le rapport eau/vin : PRI : loi uniforme sur [1;2] 0.5 Probabilité que la bouteille contienne au plus 1.5 fois plus d’eau que de vin égale 0.5
Curiosité liée aux probabilités Paradoxe de Bertrand Soit le rapport vin/eau : PRI : loi uniforme sur [0.5;1] 2/3 Probabilité que la bouteille contienne au plus 1.5 fois plus d’eau que de vin égale 2/3 !!! Au même événement sont attribuées des probabilités différentes !
Curiosité liée aux probabilités Paradoxe de Bertrand Triangle équilatéral inscrit dans un cercle. Une corde de ce cercle choisie au hasard. Quelle est la probabilité que sa longueur soit supérieure au côté du triangle? Corde caractérisée par la position de son milieu P=1/4 Corde caractérisée par la distance de son milieu au centre du cercle P=1/2 Corde caractérisée par ses extrémités P=1/3 Au même événement sont attribuées des probabilités différentes !
Théories des probabilités Conséquence La théorie des probabilités n’est pas suffisamment générale pour modéliser toutes les formes d’incertitude. Généralisations : mesures de confiance théorie des possibilités théorie des fonctions de croyance En particulier Remise en cause de l’additivité mesures floues [Sugeno, 74] capacités [Choquet, 53]
Conclusion Mesures de confiance Un cadre plus général que celui de la théorie des probabilités. W fini (domaine d’une variable y), g:2W[0,1] est une mesure de confiance (mesure floue) si g()=0, g(W)=1 A,B W, A B g(A) g(B) [monotonie] Interprétation : g(A)=degré de confiance dans l’événement A (c.a.d. dans le fait que y A) Une mesure de probabilité est une mesure de confiance, mais une mesure de confiance n’est pas nécessairement additive.
Conclusion Formalisme très largement utilisé Distribution continue (e.g. gaussienne) Confusion entre méconnaissance (ignorance) et équiprobabilité Fusion conjonctive normalisée Conflit non modélisé (ennuyeux quand sources sont en désaccord) Bon fonctionnement en cas de connaissances riches
This is the end of this part!