Techniques du Data Mining

Slides:



Advertisements
Présentations similaires
Classification et prédiction
Advertisements

Classification et prédiction
Atelier 1 Le problème du surpoids sur géogébra. Etude de la prévalence du surpoids: (document Ressources pour la classe de terminale) Situation: On souhaite.
Chapitre 4: Variation dans le temps  Les données : audience totale en milliers (tableau 4.1, p. 47, extrait) o Origine : enquête sur les habitudes d’écoute.
Active Learning for Natural Language Parsing and Information Extraction, de Cynthia A. Thompson, Mary Elaine Califf et Raymond J. Mooney Philippe Gambette.
Les bonzes sont poursuivis par le Yéti. Ils doivent tous les trois gravir la montagne pour être en sécurité et ainsi gagner la partie. Le but du jeu est.
Présentation  Objectif : Une initiation au « Machine learning ».  Comprendre et assimiler les différentes techniques permettant d’indexer ou de classifier.
BRITT-MARI BARTH Ouvrage : L’apprentissage de l’abstraction Par M-Alexandra Bergiers et Mikel Gjoni Cours de différenciation des apprentissages – Mme Martella.
Calcul de probabilités
Initiation à la conception des systèmes d'informations
Classement alphabétique
Cours d’Econométrie de la Finance (Stat des choix de portf. IV 1-2)
Suites ordonnées ou mettre de l’ordre
Chapitre 4: Variation dans le temps
Analyse, Classification,Indexation des Données ACID
Les Instructions Itératives (Les Boucles)
OUTILS D’AIDES AUX SYNDICATS
Information, Calcul, Communication
Semaine #1 INF130 par Frédérick Henri.
Master Réseaux et Systèmes Distribués (RSD)
Techniques d’Optimisation Chapitre 2: Problème de flôt
L’Instruction de Test Alternatif
Les bases de données et le modèle relationnel
Langage de Manipulation des Données LMD
Un Algorithme , c'est Quoi ?
Techniques d’Optimisation Chapitre 3: Programmation en 0-1 (bivalente)
Technologies de l’intelligence d’affaires Séance 11
Technologies de l’intelligence d’affaires Séance 12
Scénario Quatre hipsters entrent en collision un dans l'autre dans un ascenseur plein de personnes. En conséquence ils laissent tomber leurs téléphones.
Techniques du Data Mining
Fonctions Logiques & Algèbre de BOOLE
2.2 Probabilité conditionnelle
L’I NSTRUCTION DE T EST A LTERNATIF Réalisé par : OUZEGGANE Redouane Département de Technologie Faculté de Technologie – Université A.Mira, Bejaia Année.
L ES I NSTRUCTIONS I TÉRATIVES (L ES B OUCLES ) Réalisé par : OUZEGGANE Redouane Département de Technologie Faculté de Technologie – Université A.Mira,
3.3 loi discrète 1 cours 14.
Les tableaux.
4.2 Estimation d’une moyenne
La méthode du simplexe. 1) Algorithme du simplexe  Cet algorithme permet de déterminer la solution optimale, si elle existe, d’un problème de programmation.
Calcul Relationnel Chapitre 4, Section 4.3.
Langage d’interrogation des Données LID
Techniques du Data Mining
Royaume de Maroc Université Hassan Premier Settat Faculté des Sciences et Techniques de Settat LA CLASSIFICATION K-MEANS SOUS R /MATLAB Master :Automatique.
OPTIMISATION 1ère année ingénieurs
Présentation de la base Frantext
La méthode scientifique
Les méthodes non paramétriques
Calcul de probabilités
Arbres de décision.
Data Mining Fait par : Belhaj Nadia Derouich Maryem.
Réalisé par: Benjeddou Nasser Module: Modélisation des SI.
Chapitre 1 Formulation d’un programme linéaire (PL) Georges Abboudeh BUST 347.
Information, Calcul, Communication
Moteurs de recherches Data mining Nizar Jegham.
CSI 3505 Algorithmes Voraces
La collecte d’informations Présenté par: Boudries. S.
RABAH M ed Ali 2018/2019
La démarche scientifique
Plan I.Définitions II.Objectifs III.Intérêt IV.Quoi tester ? V.Processus VI.Exemples VII.Conclusion VIII.Références.
Flowchart Itération Cours 04.
Programme d’appui à la gestion publique et aux statistiques
INTELLIGENCE ARTIFICIELLE
CSI 3505 / Automne 2005: Conception et Analyse des Algorithmes I.
Tableau de bord d’un système de recommandation
INTELLIGENCE ARTIFICIELLE
A. Zemmari SDRP & MA Problème du rendez vous : un algorithme probabiliste et une analyse probabiliste A. Zemmari.
Boulain Joris, Handouz Yassine, Regnier Fabien, Giraud Antoine
DONNÉE DE BASE QM Manuel de formation. Agenda 2  Introduction  Objectif de la formation  Données de base QM: Caractéristique de contrôle Catalogue.
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES.
La programmation dynamique
Transcription de la présentation:

Techniques du Data Mining Année universitaire 2017/2018 Techniques du Data Mining Ingénierie Economique et Financière Fahmi Ben Rejab

Classification Arbre de décision

Modèle de classification Ensemble d’apprentissage Classifieur Choix de la technique Phase de construction (apprentissage) Phase de classification (inférence) Classification: Classifier les données (construire un modèle) en se basant sur un ensemble où l’on connaît déjà l’association données-classes (training set: ensemble d’apprentissage)

Classification— Processus à deux étapes Construction du modèle: Chaque tuple (exemple, observation) est supposé appartenir à une classe. Les données sont partagées en 2 sous ensembles Le modèle (construit sur le 1er sous ensemble) est représenté par des règles de classification, arbres de décisions … Utilisation du modèle: Estimer la pertinence sur le 2ème sous ensemble Comparer les labels de classe de l’ensemble avec ce que prévoit le modèle Le pourcentage de tuples qui sont correctement classifiés par le modèle donne une mesure de la précision

Processus de Classification (1): Construction du modèle Algorithmes de Classification Données D’apprentissage Modèle SI Grade = ‘professeur’ OU Années > 6 ALORS Titulaire = ‘oui’

Processus de Classification (2): Prédiction Modèle Données Pour test Nouvelles données (Sleh, Professeur, 4) Titulaire? OUI

Apprentissage Supervisé vs non supervisé Apprentissage Supervisé (classification) Les données d’apprentissage (observations) sont accompagnés par les labels indiquant leurs classes Les nouvelles données sont classifiées en se basant sur le training set Apprentissage non supervisé (regroupement) Le label de classe des éléments observés (training set) n’est pas connu Le but est de détecter l’existence de classes ou groupes dans les données

Classification avec arbres de décision Une technique de classification. Expression simple de la connaissance. Compréhension et interprétation facile des résultats.

Classification avec arbres de décision Arbre de Décision Les nœuds internes correspondent à des tests Un arc correspond au résultat d’un test Les nœuds feuilles représentent des classes La génération se fait en 2 phases Construction de l’arbre Au début tous les tuples se trouvent sur la racine Partitionner les tuples récursivement en se basant à chaque fois sur un attribut sélectionné Simplification de l’arbre Identifier et supprimer les branches qui correspondent à des exceptions Utilisation: Tester les attributs du tuple par rapport à l’arbre pour trouver la branche et qu’il satisfait donc sa classe

Training set

Output: Un arbre de décision pour “achète_ordinateur” age? <=30 31..40 >40 oui étudiant? Crédit ? Non Oui Excellent Correct Non Oui Non Oui

Création de l’arbre de décision Algorithme Décider si un nœud est terminal, c’est-à-dire décider si un nœud doit être étiqueté comme une feuille ou porter un test. Si un nœud n’est pas terminal, sélectionner un test à lui associer. Si un nœud est terminal, lui affecter une classe. On peut alors définir un schéma général d’algorithme, sans spécifier comment seront définis les 3 opérateurs: Algorithme d’apprentissage générique entrée : échantillon S début Initialiser l’arbre courant à l’arbre vide ; la racine est le nœud courant répéter Décider si le nœud courant est terminal Si le nœud est terminal alors Lui affecter une classe sinon Sélectionner un test et créer autant de nouveaux nœuds fils qu’il y a de réponses possibles au test FinSi Passer au nœud suivant non exploré s’il en existe Jusqu’à obtenir un arbre de décision fin

Création de l’arbre de décision L’arbre est construit top-down récursivement Au début, toutes les observations sont sur la racine Les attributs sont qualitatifs (discrétisation s’il le faut) Les observations sont ensuite partitionnées en fonction de l’attribut sélectionné L’attribut de test est sélectionné en utilisant des heuristiques ex: gain informationnel Conditions d’arrêt du partitionnement Toutes les observations d’un nœud se trouvent dans la même classe

Choix de l’attribut de partionnement (1) Soit le training set suivant Si c’est A qui est choisi en premier A B Classe 1 C1 C2 A 1 C2 C1 Si c’est B qui est choisi en premier B 1 A 1 A 1 C2 C1 C1 C2

Choix de l’attribut de partionnement (2) Un arbre de décision représente la suite de questions à poser pour pouvoir classifier un nouvel exemple. Le but consiste à obtenir une classification en posant le moins possible de questions Dans l’exemple précédent, on dira que l’attribut A apporte plus d’information, respectivement à la classification des exemples, que B Nous avons donc besoin de quantifier l’information apportée par chaque attribut

Notions sur la théorie de l’information(1) Intuitivement : Plus un événement est probable, moins il nous apporte d’information Exemple : Vous êtes dans le désert et on vous annonce que le lendemain, il fera beau. C’est un événement très probable, ce message n’apporte donc presque aucune information Un événement certain apporte une quantité d’information nulle, ainsi f(1) doit être nulle

Notions sur la théorie de l’information(2) La réalisation de 2 événements indépendants apporte une quantité d’information égale à la somme de leurs informations respectives, i.e C’est la fonction log en base 2 qui a été choisie. Ainsi, La fonction h satisfait les 2 conditions: croissante et l’info de deux événements indépendants est la somme des infos

Notions sur la théorie de l’information(3) Supposons maintenant qu’il y a deux classes, P et N Soit S un ensemble qui contient p éléments de P et n éléments de N La probabilité qu’un élément soit dans P est p/(p+n) La quantité d’information nécessaire pour décider si un élément quelconque de S se trouve dans P ou dans N est définie par

Cas particulier Supposons que p soit nul. Cela veut dire que I(n,p)=0 p=0 et log(p/[n+p])=- le produit donne 0 (pour être précis, la limite du produit tend vers 0 quand p tend vers 0) log(n/[n+p])=0 donc le produit donne 0 Ce qui est conforme à l’intuition: On n’a pas besoin d’info pour décider si un élément est dans N ou P; on est sûr qu’il est dans N

Intuition de l’expression I(n,p) Chaque élément apporte une information qui est si il est dans P si il est dans N Si l’on fait le total des infos, on obtient I(n,p)

Gain d’information et arbre de décision Supposons qu’en utilisant l’attribut A, S est partitionné en {S1, S2 , …, Sv} (ça veut dire que A prend v valeurs) Si Si contient pi tuples de P et ni tuples de N, l’entropie, ou la quantité d’information nécessaire pour classifier les objets de tous les sous arbres Si est L’entropie mesure la « quantité de  désordre » qui reste après le choix de A L’information de codage gagnée en utilisant A sera

Application à l’exemple Il y a 2 classes C1 (P) et C2 (N) En choisissant A, S est partitionné en S1 ={O1,O2}et S2 ={O3,O4} p1=2, n1=0, p2=0 et n2=2 E(A)=(I(2,0)+I(0,2)) I(2,0)=-log(1)-0*log(0)=0 I(0,2)=0 E(A)=0 Gain(A)=I(2,2)-E(A) //en total nous avons 2 C1 et 2 C2 I(2,2)=-2*log(2/4)-2*log(2/4)=4 Gain(A)=4 A B Classe 1 C1 C2

Application à l’exemple En choisissant B, S est partitionné en S1 ={O1,O3} et S2 ={O2,O4} p1=1, n1=1, p2=1 et n2=1 E(B)=(I(1,1)+I(1,1)) I(1,1)=-log(1/2)-log(1/2)=2 E(B)=4 Gain(B)=I(2,2)-E(B)=0 //en total nous avons 2 C1 et 2 C2 Il vaut mieux choisir A!! A B Classe 1 C1 C2 S1 S2

Gain d’information: Exemple Ainsi, Classe P: achète_ordinateur = “oui” Classe N: achète_ordinateur = “non” I(p, n) = I(9, 5) =13,16 L’entropie de l’attribut age: Gain(age)=I(p,n)-E(age)=3,45 C’est l’attribut qui maximise le gain Remarquer que le salaire n’a pas du tout été utilisé

Extraction de règles de classification De la forme SI-ALORS Chaque chemin partant de la racine et atteignant une feuille donne lieu à une règle Chaque paire attribut-value le long d’un chemin forme une conjonction Les feuilles constituent la classe Exemple SI age = “<=30” ET étudiant = “non” ALORS achète_ordinateur = “non” SI age = “<=30” ET étudiant = “oui” ALORS achète_ordinateur = “oui”