Technologies de l’intelligence d’affaires Séance 12

Slides:



Advertisements
Présentations similaires
Atelier 1 Le problème du surpoids sur géogébra. Etude de la prévalence du surpoids: (document Ressources pour la classe de terminale) Situation: On souhaite.
Advertisements

Généralisation de la comparaison de moyennes par Analyse de la variance (ANOVA)
Chapitre 6. Introduction à l’échantillonnage Les sondages Notions fondamentales Fluctuations d’échantillonnage d’une moyenne Théorème central limite C6-1.
Utilisation du logiciel EduStat © Analyse classique d’items L’examen du rapport.
PERFORMANCES D’TEST DE DEPISTAGE Dr S.AMAROUCHE Maître assistante Epidémiologie Université 3 Constantine SEMEP CHU Constantine.
Système d’aide à la décision Business Intelligence
Révision – mathématiques 8
Outils de Recherche Opérationnelle en Génie MTH 8414
Analyse, Classification,Indexation des Données ACID
Statistiques descriptives univariées
Direction Régionale Tanger- Tétouan مديــرية جهــة طنجــة – تطــوان
Les décisions et le processus de décision
Cours d’Econométrie de la Finance (STA202 – IV 4-5)
Loi Normale (Laplace-Gauss)
4°) Intervalle de fluctuation :
Rapports et proportions
Technologies de l’intelligence d’affaires Séance 13
1 Cotation fonctionnelle des pièces 1 Exigences fonctionnelles 2 Cotation des jonctions entre pièces 3 Méthode de cotation d’une pièce.
Technologies de l’intelligence d’affaires Séance 10
POL1803: Analyse des techniques quantitatives
Technologies de l’intelligence d’affaires
Les plans de mélange Les plans d’expérience : Présentée par :
Technologies de l’intelligence d’affaires Séance 9
Technologies de l’intelligence d’affaires Séance 14
Plans d’experiences : plans de melanges
et discussion de l'article 2
Technologies de l’intelligence d’affaires Séance 11
Révision et preparation à l’examen
Scénario Quatre hipsters entrent en collision un dans l'autre dans un ascenseur plein de personnes. En conséquence ils laissent tomber leurs téléphones.
Principes comptables Caractéristiques qualitatives des états financiers: Intelligibilité Pertinence Importance relative Fiabilité Image fidèle Prééminence.
République Algérienne Démocratique et Populaire Ministère de l'Enseignement Supérieur et de la Recherche Scientifique Université Saad.
4.3 Estimation d’une proportion
4.2 Estimation d’une moyenne
Techniques du Data Mining
CLASSIFICATIONS DES ENTREPRISES Partie 1 : L’entreprise et son environnement.
Calculs des incertitudes Lundi 30 Avril 2018 Master de Management de la Qualité, de la Sécurité et de l’Environnement.
Royaume de Maroc Université Hassan Premier Settat Faculté des Sciences et Techniques de Settat LA CLASSIFICATION K-MEANS SOUS R /MATLAB Master :Automatique.
INDICATEURS ET TABLEAUX DE BORD EN MAINTENANCE. Définitions Indicateur : chiffre significatif d’une situation économique pour une période donnée. Tableau.
Programme financé par l’Union européenne
Les méthodes non paramétriques
POL1803: Analyse des techniques quantitatives
Révision – mathématiques 8
Arbres de décision.
Présentation 3 : Sondage aléatoire simple
Présentation 5 : Sondage à probabilités inégales
Prelude 7 ERP Sales Management 05/12/2018 © Gérard Baglin,
On lance 100 fois de suite une pièce de monnaie.
Data Mining Fait par : Belhaj Nadia Derouich Maryem.
Rencontre provinciale Automne 2018
La vraie question ce n'est pas le prix,
Je veux reprendre une entreprise, comment bien évaluer son prix?
Position, dispersion, forme
Réalisé par: Benjeddou Nasser Module: Modélisation des SI.
Chapitre 1 Formulation d’un programme linéaire (PL) Georges Abboudeh BUST 347.
Contribution du LHyGeS
Moteurs de recherches Data mining Nizar Jegham.
Les erreurs de mesure Projet d’Appui au renforcement des capacités
La démarche scientifique
Programme d’appui à la gestion publique et aux statistiques
PROGRAMMATION SCIENTIFIQUE EN C
INTELLIGENCE ARTIFICIELLE
Matrices.
Les méthodes quantitatives en éducation
Révision – mathématiques 8
Tests d’hypothèses paramétriques 1 Cours Statistiques Chapitre 9.
INTELLIGENCE ARTIFICIELLE
Impact Evaluation 4 Peace March 2014, Lisbon, Portugal 1 Echantillonage pour une Evaluation d’Impact Latin America and the Caribbean’s Citizen Security.
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES.
Outils de Recherche Opérationnelle en Génie MTH 8414
Évaluation des Actifs Financiers 1. 2 Valeur capitalisée: Valeur d’un investissement après une ou plusieurs périodes Intérêts simples: Intérêts calculés.
Transcription de la présentation:

Technologies de l’intelligence d’affaires Séance 12 Les Arbres de décision avec SAS Entreprise Miner Référence: « Tree Node » du « Help » de SAS EM

Types de variables acceptés par SAS EM Variable cible (target) peut être: nominale, binaire, ordinale ou continue. Variables explicatives (input) peuvent être:

Partition des données SAS suppose qu’il y a une très grande quantité d’observations disponibles pour faire du data mining. Dans cette situation, l’ approche privilégiée pour construire, évaluer et sélectionner le modèle est de diviser l’ensemble de données en trois parties: Apprentissage (train) : pour construire le modèle; Validation : estimer les erreurs de prédiction ou classification afin de choisir le modèle; Test : évaluer la performance (estimation généralisée de l’erreur du modèle final sélectionné.

Critères de sélection des embranchements (splitting criterions) Variable cible continue Test F Réduction de la variance ( ) Variable cible ordinale Entropie Gini Variable cible binaire ou nominale Chi-deux

Analyse de variance à un facteur … les sources de variabilité Déviation totale se décompose en: déviation intra groupes: (à l’intérieur du nœud i ) déviation inter groupes: (entre les branches) Ainsi:

Tableau d ’ANOVA L’idée principale de l’analyse de la variance est de décomposer la variabilité totale en différentes sources de variation. Généralement, on présente cette décomposition dans un tableau qu’on appelle Tableau d’ANOVA. Source de variation Sommes des carrées Degrés de libertés Carrés moyens Groupes (SSgr) k-1 MSgr=SSgr/(k-1) Erreur (SSE) N-k MSE=SSE/(N-k) Totale N-1

Nombre d’observations dans un nœud pour évaluer et sélectionner les embranchements Par défaut, SAS utilise un échantillon aléatoire de 5000 observations (ou le nombre total d’observations dans le nœud si < 5000) pour chercher et déterminer un embranchement. Un nouvel échantillon de 5000 observations est utilisé pour chaque nœud dans la croissance de l’arbre. Il est possible de changer la taille de 5000. Le maximum possible est de 32767. L’échantillon est le plus équilibré possible par rapport à la distribution de la variable cible dans le nœud (ex si n=1000 pour cible 1 et n=10000 pour cible 2, alors les 1000 observations de la cible 1 seront dans l’échantillon et 4000 pour la cible 2) .

Méthodes d’évaluation des modèles Si un fichier de validation est disponible, il sera alors utilisé pour l’évaluation et la sélection du modèle. Pour une variable cible binaire ou nominale, l’évaluation et la sélection du modèle peuvent être basées sur: Proportion des observations classées correctement. Profit moyen maximum ou perte moyenne minimum (si une matrice de décision est définie pour la variable cible -> target profile) Proportion bien classée, profit ou perte dans le premier 10, 25 ou 50%. Arbre avec le plus petit indice de Gini.

Élagage ou sélection des sous-arbres À partir de l’arbre complet, SAS évalue tous les sous-arbres possibles et retient pour chaque nombre de feuilles possibles le meilleur sous-arbre basé sur la méthode d’évaluation choisie (Best assessment value). Par défaut, SAS choisit le sous-arbre ayant la plus grande valeur de performance pour les données de validation et le plus petit nombre de feuilles.

Traitement des valeurs manquantes dans SAS EM Si la valeur de la variable cible est manquante, l’observation est ignorée dans les analyses (apprentissage, validation et test). Les valeurs manquantes pour une variable explicative (input) sont traitées comme une catégorie séparée (ou une même valeur inconnue si la variable est continue).

Exemple Une entreprise de services financiers offre à ses clients, qui ont un prêt hypothécaire avec elle, la possibilité d’avoir une marge de crédit. Dans le passé, plusieurs de ses clients ont obtenu et utilisé la marge de crédit et un bon pourcentage d’entre eux (environ 20%) ont eu des défauts de paiement. En utilisant des données géographiques, démographiques et financières, l’entreprise veut construire un modèle de prévision pour identifier les clients qui ont une forte probabilité d’être en défaut de paiement.

Exemple (voir fichier SAMPSIO.HEMQ)