Les Arbres de décision ou régression

Slides:



Advertisements
Présentations similaires
QUALIFICATION COMPORTEMENTALE DES BASES DE DONNEES CLIENTS
Advertisements

Soutenance du stage de DEA.
STATISTIQUE INFERENTIELLE L ’ESTIMATION
Thomas G. Dietterich Approximate Statistical Tests for Comparing
A. Cornuéjols IAA (basé sur Rob Schapires IJCAI99 talk) Combiner des apprenants: le boosting.
Classification et prédiction
Classification et prédiction
Apprentissage supervisé à partir de séquences
Test statistique : principe
GEF 435 Principes des systèmes d’exploitation
Atelier sur lanalyse approfondie des migrations à partir des données de recensement: Ouagadougou novembre 2011 Bonayi Hubert DABIRE, UO/ISSP
La régression logistique: fondements et conditions d’application
Comparaison de plusieurs moyennes observées
Les TESTS STATISTIQUES
Application de réseaux bayésiens à la détection de fumées polluantes
Les TESTS STATISTIQUES
Scoring Séance II.
Exercice °1 Les caractéristiques principales de la description d’un processus: Identifier les étapes de début et de fin des processus: Cet aspect est conventionnel,
Probabilités au collège
Régression -corrélation
Thème « Modélisation comportementale des Systèmes critiques »
1 TICE 2000 / Troyes / octobre 2000 Des moteurs de recherche efficaces pour des systèmes hypertextes grâce aux contextes des nœuds Des moteurs de.
Répondre aux questions suivantes :
Modèle de correction de données en assurance vie
Christelle Scharff IFI 2004
Traitement de données socio-économiques et techniques d’analyse :
Apprendre à partir des observations
Systèmes d’équations du premier degré à deux variables
Systèmes d’équations du premier degré à deux variables
Application des algorithmes génétiques
CHAPITRE 9 CHAPITRE 9 Lorganisation de la Production Lorganisation de la Production CHAPITRE 9 CHAPITRE 9 Lorganisation de la Production Lorganisation.
Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff,
Méthode des k plus proches voisins
Régression linéaire simple
Groupe 1: Classes de même intervalle
Tableaux de distributions
Tableaux de distributions
DataLab® Toute la connaissance client en quelques minutes
Thème 8 : l'observation et l'expérimentation
Modeles Lineaires.
La méthodologie expérimentale Fondements et bases d’application
Des indicateurs de performance pertinents et adéquats
Prévisions météorologiques, projections climatiques : que peut- on prévoir et avec quelle fiabilité ? Exercice 2: estimation de la prévisibilité dans le.
La régression logistique
La corrélation et la régression
Corrélation Principe fondamental d’une analyse de corrélation
Révisions - IA Généralité: problèmes de lIA Recherche Logique Traitement de lincertitude Apprentissage Langue naturelle.
Les prévisions et la gestion de la demande
Le forage de données ou data mining
Les analyses multivariées
AIP PRIMECA des Pays de La Loire – 9 novembre 2006
La fonction inversement proportionnelle
Théorie de l’échantillonnage (STT-6005)
Apprentissage par arbre de décision
Régression linéaire (STT-2400)
ANALYSE METHODE & OUTILS
ANALYSE DE DONNEES TESTS D’ASSOCIATION
La Démarche Scientifique
Application à la viabilité des systèmes irrigués à Podor de la modélisation à la restitution aux paysans Olivier Barreteau.
Méthode des moindres carrés (1)
Échantillonnage (STT-2000) Section 5 Types d’erreur de sondage. Version: 22 août 2003.
Les distributions de fréquences et de pourcentages
PROGRAMMATION SCIENTIFIQUE EN C PRO Approximation de fonctions et régression u Approximation linéaire –Méthode du moindre carré u Exemple.
Détecter les groupes à hauts risques cardiaques à partir de caractéristiques telles que l’alimentation, le fait de fumer ou pas, les antécédents familiaux.
Corrélation et causalité
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Arbres de décision Algorithme CART Aurélien Vesin Master 2 Pro –
Prédiction du niveau de certification des établissements de santé Soutenance de stage 12 septembre 2012 Benjamin Robillard.
Technologies de l’intelligence d’affaires Séance 11
Transcription de la présentation:

Les Arbres de décision ou régression

Contexte Supposons que nous désirons comprendre ou expliquer le profil des gens qui achète un ordinateur. Pour ce faire, nous considérons les variables suivantes: Âge, revenu, étudiant ou non,cote de crédit Quel raisonnement ou démarche fait-on naturellement pour établir ce profil?

Les arbres de décision Les arbres de décision sont utilisés pour la prédiction ou l’explication d’une variable cible (Y)(target variable, variable dépendante) à partir d’un ensemble de variable explicatives (X) (input variables, variables indépendantes) Le principe des arbres de décision est de diviser l’ensemble des données d’apprentissage successivement en sous-groupes, selon les valeurs prises par les variables explicatives qui à chaque étape discrimine le mieux la variable cible.

Le résultat est un ensemble de règles simples qui permettent de réaliser des prévisions, de segmenter la population ou d’identifier qu’elles sont les variables qui discriminent le plus la variable cible.

Exemple

Exemple d’un arbre de décision Achat:Non=5 Oui=9 Age<=30 Non=3 Oui=2 Age:31-40 Non=0 Oui=4 Age:>40 Non=2 Oui=3

Achat: Non=5 Oui=9 Age<=30 Non=3 Oui=2 Age:31-40 Non=0 Oui=4 Étudiant=non Non=3 Oui=0 Étudiant=oui Non=0 Oui=2

Achat: Non=5 Oui=9 Age<=30 Non=3 Oui=2 Age:31-40 Non=0 Oui=4 Crédit=bon Non=0 Oui=3 Crédit=exc. Non=2 Oui=0 Étudiant=non Non=3 Oui=0 Étudiant=oui Non=0 Oui=2

Algorithmes et logiciels les plus répandus pour construire les arbres de décision: CHAID  Chi-Square Automatic Interaction Detection (1975) CART  Classification And Regression Trees (Breiman et al., 1984) Knowledge seeker

Algorithme Pour chaque nœud de l’arbre: Pour chacune des variables explicatives X, jumelage des modalités à partir du test du chi-carré. Après le jumelage des modalités pour chaque X, Sélection de la variable X la plus fortement lié avec la variable cible Y, c.-à-d. p-value du test du chi-carré le plus petit. Pour chaque nœud fils suivant, reprise des étapes a) et b) Le processus s’arrête lorsque à tous les nœuds de l’arbre, les tests du chi-deux entre les variables X et Y sont tous non significatifs c.-à-d. p-value > 

Conditions d’arrêt de la croissance de l’arbre Développement de l’arbre complet: toutes les observations dans le nœud appartiennent à la même classe de la variable cible; il n’y a plus de variables explicatives X à considérer pour poursuivre la croissance de l’arbre; trop peu d’observations dans le nœud pour poursuivre.

L’élagage (pruning) L’arbre complet est le meilleur, en terme de taux d’erreur, pour prédire la variable cible, pour l’ensemble des données d’apprentissage! Qu’en est-il pour un nouvel ensemble de données? L’arbre complet n’est probablement pas la meilleure solution! Évaluer les sous-arbres: Utiliser un échantillon de validation. Utiliser la validation croisé.

Avantages des arbres de décision Règles simples et facilement interprétables. Traitement des valeurs manquantes. Aucun modèle et aucun présupposé à satisfaire.

Désavantages Peu performants lorsqu’il y a beaucoup de classes. Taux d’erreurs élevés lorsqu’il y a des régions non rectangulaires Peu faire de l‘overfit’ si on ne contrôle pas le nombre minimum d’observation par nœuds.

Construire un arbre à partir d’excel Nous pouvons générer un arbre manuellement à partir d’excel: On utiliser la fonction ‘pivot tables’ pour obtenir nous comptes On utilise les utilitaire graphiques d’excel. Exemple.