Technologies de l’intelligence d’affaires Séance 11

Slides:



Advertisements
Présentations similaires
Les Arbres de décision ou régression
Advertisements

L’évaluation dans le cadre de l’approche par compétences
Atelier 1 Le problème du surpoids sur géogébra. Etude de la prévalence du surpoids: (document Ressources pour la classe de terminale) Situation: On souhaite.
Du chapitre 1 au chapitre 2 1. Les graphiques : introduction (p.15)  Pour prendre possession des données o des chiffres dans un tableau, c’est bien o.
Comparing color edge detection and segmentation methods Projet TIM.
Active Learning for Natural Language Parsing and Information Extraction, de Cynthia A. Thompson, Mary Elaine Califf et Raymond J. Mooney Philippe Gambette.
Utilisation du logiciel EduStat © Analyse classique d’items L’examen du rapport.
Révision – mathématiques 8
Outils de Recherche Opérationnelle en Génie MTH 8414
Analyse, Classification,Indexation des Données ACID
Interprétation des indicateurs?
Comparaison de deux pourcentages.
Chapitre 4: Variation dans le temps
Cours d’Econométrie de la Finance (STA202 – IV 3-4)
Information, Calcul, Communication
Les inégalités et les inéquations
4°) Intervalle de fluctuation :
Pédiatrie – année 2015 Nous avons défini comme pédiatriques les malades dont l’âge est inférieur à 16 ans. Selon ce critère, depuis le début 704 patients.
Université Abou Bakr Belkaid Faculté des Sciences Département d’informatique Algorithmique Avancée et Complexité Chap5: Les méthodes de résolution exactes.
Résultat de d’une étude auprès des membres du Syndicat de Champlain
Master Réseaux et Systèmes Distribués (RSD)
Les bases de données et le modèle relationnel
Technologies de l’intelligence d’affaires Séance 13
Technologies de l’intelligence d’affaires Séance 10
POL1803: Analyse des techniques quantitatives
Cyber-Sphinx Séance 2.
Technologies de l’intelligence d’affaires
Technologies de l’intelligence d’affaires Séance 9
Deux interpretations de la moyenne d’une ensemble de données quantitatives : Partie équitable et point d’équilibre Des parties de ces diapositives sont.
Techniques d’Optimisation Chapitre 3: Programmation en 0-1 (bivalente)
Technologies de l’intelligence d’affaires Séance 14
Plans d’experiences : plans de melanges
VI. Tri par tas (Heap sort)
Routage S 3 - Questionnaire N°1
Université Abou Bakr Belkaid Faculté des Sciences Département d’informatique Algorithmique Avancée et Complexité Chap7: Les méthodes de résolution exactes.
Technologies de l’intelligence d’affaires Séance 12
Scénario Quatre hipsters entrent en collision un dans l'autre dans un ascenseur plein de personnes. En conséquence ils laissent tomber leurs téléphones.
République Algérienne Démocratique et Populaire Ministère de l'Enseignement Supérieur et de la Recherche Scientifique Université Saad.
4.3 Estimation d’une proportion
Cyber-Sphinx Séance 2.
La méthode du simplexe. 1) Algorithme du simplexe  Cet algorithme permet de déterminer la solution optimale, si elle existe, d’un problème de programmation.
Techniques du Data Mining
Fonction rationnelle Chapitre 5.
Statistiques. Moyenne, Moyenne pondérée, Tableur et graphiques.
OPTIMISATION 1ère année ingénieurs
Statistiques.
Apports de la statistique spatialisée
Révision – mathématiques 8
Arbres de décision.
4°) Intervalle de fluctuation :
Lois de Probabilité Discrètes
Lois de Probabilité Discrètes
Comment analyser en fonction du genre et du sexe?
Data Mining Fait par : Belhaj Nadia Derouich Maryem.
Position, dispersion, forme
Réalisé par: Benjeddou Nasser Module: Modélisation des SI.
Chapitre 1 Formulation d’un programme linéaire (PL) Georges Abboudeh BUST 347.
Reconnaissance de formes: lettres/chiffres
Contribution du LHyGeS
Moteurs de recherches Data mining Nizar Jegham.
Les erreurs de mesure Projet d’Appui au renforcement des capacités
La démarche scientifique
Conception cartographique
PROGRAMMATION SCIENTIFIQUE EN C
INTELLIGENCE ARTIFICIELLE
Les méthodes quantitatives en éducation
Révision – mathématiques 8
INTELLIGENCE ARTIFICIELLE
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES.
Outils de Recherche Opérationnelle en Génie MTH 8414
Transcription de la présentation:

Technologies de l’intelligence d’affaires Séance 11 Les Arbres de décision

Références: Tree Node du Help de EM Berry et Linoff, chapitre 12 Han et Kamber, chapitre 7, section 7.3.

Les arbres de décision Les arbres de décision sont utilisés pour la prédiction ou l’explication d’une variable cible (target variable, variable dépendante) à partir d’un ensemble de variables explicatives (input variables, variables indépendantes) Le principe des arbres de décision est de diviser l’ensemble des données d’apprentissage successivement en sous-groupes, selon les valeurs prises par les variables explicatives qui à chaque étape discrimine le mieux la variable cible.

Le résultat est un ensemble de règles simples qui permettent de réaliser des prévisions, de segmenter la population ou d’identifier qu’elles sont les variables qui discriminent le plus la variable cible.

Exemple

Exemple d’un arbre de décision Achat:Non=5 Oui=9 Age<=30 Non=3 Oui=2 Age:31-40 Non=0 Oui=4 Age:>40 Non=2 Oui=3

Achat: Non=5 Oui=9 Age<=30 Non=3 Oui=2 Age:31-40 Non=0 Oui=4 Étudiant=non Non=3 Oui=0 Étudiant=oui Non=0 Oui=2

Achat: Non=5 Oui=9 Age<=30 Non=3 Oui=2 Age:31-40 Non=0 Oui=4 Crédit=bon Non=0 Oui=3 Crédit=exc. Non=2 Oui=0 Étudiant=non Non=3 Oui=0 Étudiant=oui Non=0 Oui=2

Algorithmes les plus répandus pour construire les arbres de décision: CHAID  Chi-Square Automatic Interaction Detection (1975) CART  Classification And Regression Trees (Breiman et al., 1984) ID3, C4.5 et C5.0 (Quinlan, 1986 et 1993)

CHAID La variable cible (target) est nominale ou ordinale. Si elle est continue, elle doit être recodée en classes. La variable cible correspond par définition au sommet de l’arbre (nœud racine). Les variables explicatives (input) continues doivent être recodées en classes.

Algorithme CHAID Pour chaque nœud de l’arbre: Pour chacune des variables explicatives X, jumelage des modalités à partir du test du chi-carré. Après le jumelage des modalités pour chaque X, Sélection de la variable X la plus fortement lié avec la variable cible Y, c.-à-d. p-value du test du chi-carré le plus petit. Pour chaque nœud fils suivant, reprise des étapes a) et b) Le processus s’arrête lorsque à tous les nœuds de l’arbre, les tests du chi-deux entre les variables X et Y sont tous non significatifs c.-à-d. p-value > 

Algorithme CHAID Exemple: voir fichier CHAID.pdf

CART La variable cible peut être nominale, ordinale ou continue. Les variables explicatives peuvent être nominales ou continues. Les variables explicatives ordinales sont traitées comme continues. Tous les embranchements sont binaires (binary splits).

CART Le choix de la variable explicative pour un embranchement à partir d’un nœud se fait en considérant tous les embranchements binaires possibles pour toutes les variables explicatives, étant donné les données dans le fichier d’apprentissage. Exemple: 215 cas X 19 variables = maximum de 4085 embranchements possibles.

Comment choisir la «meilleure» variable explicative pour un embranchement? On utilise un indice de diversité. Un indice de diversité élevé indique une distribution uniforme des classes, tandis qu’un indice bas signifie que les membres d’une seule classe prédominent. La « meilleure » variable explicative est celle qui provoque la plus grande baisse de diversité dans les données, ou le plus grand gain informationnel (measure of worth).

Indices de diversité Supposons que la variable cible a K classes. Gain informationnel = I(nœud) -

Conditions d’arrêt de la croissance de l’arbre Développement de l’arbre complet: toutes les observations dans le nœud appartiennent à la même classe de la variable cible; il n’y a plus de variables explicatives X à considérer pour poursuivre la croissance de l’arbre; trop peu d’observations dans le nœud pour poursuivre.

Mesurer le taux d’erreur À la fin du processus de croissance de l’arbre, chaque cas du fichier d’apprentissage est alloué à une feuille. Pour chaque feuille (et nœud) de l’arbre, on assigne une classe, celle avec la proportion la plus élevée d’observations dans la feuille. Le taux d’erreur dans une feuille est égale à (1 – proportion d’observations bien classés). Le taux d’erreur de l’arbre de décision entier est la somme pondérée des taux d’erreurs des feuilles.

L’élagage (pruning) L’arbre complet est le meilleur, en terme de taux d’erreur, pour prédire la variable cible, pour l’ensemble des données d’apprentissage! Qu’en est-il pour un nouvel ensemble de données? L’arbre complet n’est probablement pas la meilleure solution! Évaluer les sous-arbres: Utiliser un échantillon de validation. Utiliser la validation croisé.

C5.0, C4.5, ID3 Très semblable à CART. Utilise Entropie comme indice de diversité. Les embranchements ne sont pas contraints à être binaire. L’élagage est basé sur les données d’apprentissage.

Avantages des arbres de décision Règles simples et facilement interprétables. Traitement des valeurs manquantes. Aucun modèle et aucun présupposé à satisfaire.

Désavantages Peu performants lorsqu’il y a beaucoup de classes. Taux d’erreurs élevés lorsqu’il y a des régions non rectangulaires