Le modèle de Bayes Christelle Scharff IFI 2004. La classification de Bayes Une méthode simple de classification supervisée Basée sur lutilisation du Théorème.

Slides:



Advertisements
Présentations similaires
Multiplier un nombre entier par une fraction. Choisir la bonne méthode
Advertisements

Classification et prédiction
Classification et prédiction
Champs de Markov en Vision par Ordinateur
RECONNAISSANCE DE FORMES
Test statistique : principe
Évaluation de la qualité d'une clusterisation
TESTS RELATIFS AUX CARACTERES QUANTITATIFS
Timothy J. Gilbride Greg M. Allenby Présenté par: Audrey Hamel &
Critère d’ordonnancement en temps réel Partie II
Inférence statistique
Les K plus proches voisins
Nombre de sujets nécessaires en recherche clinique
Application de réseaux bayésiens à la détection de fumées polluantes
1 Réunion biblio 13/12/00 Support Vectors Présentation générale SSS Maintaining Algorithm.
M. EL Adel & M. Ouladsine LSIS – UMR-CNRS 6168 Marseille - France
Les tests d’hypothèses
Estimation de la survie comparaison des courbes de survie FRT C3.
Christelle Scharff IFI Juin 2004
Les attributs, leurs types, leurs valeurs Christelle Scharff IFI Juin 2004.
Christelle Scharff IFI 2004
Apprendre à partir des observations
QTLmap et les données ayant une distribution non gaussienne
RECONNAISSANCE DE FORMES
Chapitre 2: Les régularités et les relations
FDD et Arbres de Décision
IFT313 Introduction aux langages formels
Méthode des k plus proches voisins
Groupe 1: Classes de même intervalle
Plan d’expérience dynamique pour la maximisation
DEA Perception et Traitement de l’Information
RECONNAISSANCE DE FORMES
FRACTIONS PARTIELLES cours 13.
Prise en compte des données avec excès de zéros
Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo.
STT-3220 Méthodes de prévision Section 2 Modèle avec deux variances inconnues: Méthode reposant sur un test préliminaire Version: 21 janvier 2008.
Apprentissage par arbre de décision
Échantillonnage (STT-2000) Section 3 Utilisation de variables auxiliaires. Version: 8 septembre 2003.
Les groupes.
ORGANIGRAMME-MÉTHODES STATISTIQUES-COMPARAISONS DE MOYENNES
PPA Lyon – GT Qualité de l’Air – 3 Novembre 2005 PPA LYON Simulations de scenarii.
Activité 1 sommaire Vous avez redécouvert ce que l'on appelle le principe 68%-95%-99,7% : Ce principe est valable pour des distributions de fréquences.
Apprentissage (III) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes.
Théorème de la limite centrale l’inférence statistique
Christelle Scharff IFI 2004
Fast and Furious Decision Tree Induction
Probabilités et Statistiques Année 2009/2010
Françoise Soulié Fogelman
- Chap 7 - Fractions.
Vers une loi à densité. Masse en gEffectifFréquence % [600,800[1162,32 [800,900[3957,9 [900,1000[91818,36 [1000,1100[124824,96 [1100,1200[121824,36 [1200,1300[71514,3.
Chapitre 3: Variables aléatoires réelles continues
TNS et Analyse Spectrale
Fusion de paramètres en classification Parole/Musique Julie Mauclair – Equipe Parole Julien Pinquier – Equipe SAMoVA.
Knowledge discovery in Databases (KDD)
L’erreur standard et les principes fondamentaux du test de t
Poucentages et probabilités
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :05 Asymétrie fluctuante.
Méthode des moindres carrés (1)
Le Marketing Prédictif
1.  On souhaite comparer deux traitements dans le cadre d’un essai randomisé sur les lombosciatiques :  corticoïdes par infiltrations  placebo  Critère.
La distribution normale «standard» Utilisez ce tableau pour trouver l'aire en dessous la courbe normale standard à la gauche de z = -1,03 Comparez cette.
CALCUL STRATÉGIQUE Calcule vite et bien ! Ajouter 1, faire +1.
LES FRACTIONS ÉQUIVALENTES
Comparaison de plusieurs moyennes observées
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Distributions d’échantillonnage pour des proportions
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
23/05/2016 Déterminer la taille des échantillons notion sous-jacente : puissance d'un test Claire Chabanet fonction F4, étendre l'écran configurer le diaporama,
FRACTIONS Calcul avec des fractions.
Transcription de la présentation:

Le modèle de Bayes Christelle Scharff IFI 2004

La classification de Bayes Une méthode simple de classification supervisée Basée sur lutilisation du Théorème de Bayes: Où H est lhypothèse à tester, et E est lévidence associée à lhypothèse P(E | H) et P(H) sont facilement calculables P(H) est une probabilité a priori: la probabilité de H avant la présentation de lévidence Il nest pas nécessaire de calculer P(E) Note: Pr(E)= P(E)

Méthode Une évidence E est donnée On calcule P(H | E) pour toutes les valeurs de H Si P(H = h | E) est maximum, alors on choisit: H=h

Étude de cas Météo et match de foot

Les données

Calcul: Pr[yes|E] = / Pr[E]

Calcul: Pr[No|E] Pr[No | E] = = Pr[Outlook = Sunny | No] x Pr[Temperature = Cool | No] x Pr[Humidity = High | No] x Pr[Windy = True | No] x Pr[No] / Pr[E] = 3/5 x 1/5 x 4/5 x 3/5 x 5/14 / Pr[E] = / Pr[E]

Conclusion de lexemple On compare Pr[Yes|E] et Pr[No|E] Pr[Yes|E] = / Pr[E] Pr[No|E] = / Pr[E] Donc le match ne va pas avoir lieu, car >

Cas dun numérateur égal à 0 Pour éviter davoir un numérateur égal à 0 et donc une probabilité égale à 0, dans le cas où le nombre dattributs ayant une certaine valeur serait 0, on ajoute une constante k à chaque valeur au numérateur et au dénominateur Un rapport n/d est transforme en (n + kp)/(d+k), où p est une fraction du nombre total des valeurs possibles de lattribut K est entre 0 et 1 Estimation de Laplace: k = 1

Exemple: Pr[No | E] K = 1 Pr[No | E] = = Pr[Outlook = Sunny | No] x Pr[Temperature = Cool | No] x Pr[Humidity = High | No] x Pr[Windy = True | No] x Pr[No] / Pr[E] = (3+1/3)/(5+1) x (1+1/3)/(5+1) x (4+1/2)/(5+1) x (3+1/2)/(5+1) x 5/14 / Pr[E] = / Pr[E]

Données manquantes Les données manquantes sont traitées de façon satisfaisante par la méthode de Bayes Les valeurs manquantes sont ignorées, et une probabilité de 1 est considérée Le match naura pas lieu

Données numériques Une fonction de densité des probabilités f(x) représente la distribution normale des données de lattribut numérique x en fonction dune moyenne et dune déviation standard Les valeurs manquantes ne sont pas incluses dans les calculs des moyennes et des déviations standards

Exemple de calcul de f(x) Temperature: x = 66, = 73, = 6.2 pour yes Yes No

Exemple de classification Le match naura pas lieu

Relations entre densité et probabilité

Conclusion Méthode efficace La classification ne demande pas des estimations exactes des probabilités, mais seulement que la probabilité maximum soit donnée à la bonne classe Les numériques ne sont pas toujours distribués normalement, on a donc besoin dautres estimations Kernel density estimator

References R. J. Roiger and M. W. Geatz. Data Mining : A Tutorial-Based Primer. Addison Wesley. I. H. Witten, and E. Frank. Data Mining : Practical Machine Learning Tools and Techniques with Java Implementations. Morgan Kaufmann.