Les dossiers patients d’un hôpital contiennent les attributs suivants : – nom – code postal – pression systolique en mm de mercure. – s’il est porteur.

Slides:



Advertisements
Présentations similaires
Algorithmique et simulation
Advertisements

Règles de base en formule classique.
Classification et prédiction
Classification et prédiction
Regroupement (clustering)
Regroupement (clustering)
Références à une cellule dans EXCEL
LES MESURES ET LES ANGLES
Diagram-Based Techniques
Question : pourquoi les fonctions ?
Etalonnage d’un capteur résistif
David Rolland, formateur en mathématiques
Les attributs, leurs types, leurs valeurs Christelle Scharff IFI Juin 2004.
GED Masters: Gestion Électronique de Documents
Traitement de données socio-économiques et techniques d’analyse :
COURS 5 Les tableaux croisés, le chi-carré et la corrélation
CD 1 : Interroger les réalités sociales dans une perspectives historique. CD 2 : Interpréter les réalités sociales à laide de la méthode historique. CD.
Intégration numérique
17 octobre 2012 Grégory Petit
Accueil cuisine nature laboratoire. accueil cuisine nature laboratoire.
Fonction puissance Montage préparé par : André Ross
Méthode des k plus proches voisins
La segmentation
Les conceptions des objets mathématiques portées par le langage :
IFT-2000: Structures de données Les graphes Dominic Genest, 2009.
IFT Complexité et NP-complétude
Courbes de Hermite Michael E. Mortenson, Geometric Modeling. Wiley, 1997, 523p.
États du larynx Phonologie Théories et traits Règles phonologiques
La corrélation et la régression multiple
1 CSI 4506: Introduction à lintelligence artificielle La recherche adversairiale.
La corrélation et la régression
Recherche dun même objet / scène Approches basées sur des descripteurs locaux Approches basées sur des descripteurs globaux.
Apprentissage par arbre de décision
Références à une cellule dans EXCEL
Modélisation géométrique de base
Introduction à la reconnaissance:
Rappel... Valeurs propres et vecteurs propres. Définitions;
Des variables et des données. Dans le domaine de la statistique le mot variable signifie une idée différente de celle dans l’algèbre ou les fonctions.
CONCEPTUALISER Processus de pensée qui permet de partir d’une notion pour en construire intellectuellement le concept c’est-à-dire définir le concept.
Fast and Furious Decision Tree Induction
STATISTIQUES DESCRIPTIVES
Vers les fonctions …. Objectifs Travailler sur les tableaux (type tableaux de proportionnalité, mais pas seulement !) Travailler sur la représentation.
Tutorat en bio-informatique
CORRECTION DU TP 7 : LA DIFFRACTION DE LA LUMIERE
Intervalles de confiance pour des proportions L’inférence statistique
La recherche au service du communicateur: Cours 9 Automne 2006 L’analyse de données.
Un Devoir Maison Transformation d’une activité issue du manuel Triangle chez Hatier. Mise en situation de communication pour convaincre. Situation motivante.
N6: Déterminer une racine carrée approximative des nombres rationnels et positifs qui sont les carrés non parfaits.
Chapitre 3: Variables aléatoires réelles continues
VARIABLES ET MESURES DE FREQUENCES Pr. KELLIL M 1.
Knowledge discovery in Databases (KDD)
Nouvelles Technologies Internet & Mobile
La résolution de problème
Thème 4 : Les éléments naturels. Cours 2 : L’eau dans la nature et chez les êtres vivants. Français Guide du Maître Thème 2 : Les personnes et les choses.
Cours 8 La motivation scolaire. Objectifs: à la fin du cours vous aurez établi une définition opérationnelle de la motivation. aurez pris connaissance.
Les objets de la classe de classe. Qu'est-ce que c'est? C'est...
Chapitre 4 La représentation des nombres.
Master 1 SIGLIS Java Lecteur Stéphane Tallard Correction du TD Chapitre 3.
Distribution à deux variables
Domaine: Mesure R.A.: Je peux expliquer la grande idée derrière les formules pour calculer l’aire de figures planes (carré, rectangle, parallélogramme,
1 CSI 4506: Introduction à l’Intelligence Artificielle La Recherche Adversariale.
M. YAMANAKA – Cours de mathématiques. Classe de 4ème.
A.Aarabi ´. ´ Objectifs Faciliter la prise en main du logiciel MATLAB Présenter les fonctionnalités utiles au travail scientifique.
Les bases de données Séance 3 Construction du Modèle Conceptuel de Données.
IFT 501 Recherche d'information et forage de données Chaptitre 4 : Classification concepts de base, arbres de décision et évalution des modèles Partie.
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
STATISTIQUE DESCRIPTIVE
Processus ponctuels Caractéristiques et Modèles de répartitions spatiales.
GEOMETRIE du cycle 1 au cycle 3 quelques pistes
Des variables et des données. Dans le domaine de la statistique le mot variable signifie une idée différente de celle dans l’algèbre ou les fonctions.
Transcription de la présentation:

Les dossiers patients d’un hôpital contiennent les attributs suivants : – nom – code postal – pression systolique en mm de mercure. – s’il est porteur du virus de hépatite A – le degré de douleur sur une échelle subjective entre 0 et 4 (0 aucune douleur ; 4 douleur intolérable) – leur température en centigrade – leur poids Classifier chacun de ces attributs, pour des tâches de forage de donnée, selon deux dimensions. Dimension 1 : nominal, ordinal, intervalle, ratio Dimension 2 : asymétrique, binaire non asymétrique, discret (non binaire), continu Dans un examen, vous aurez qu’un ou deux attributs à classifier.

Que veut dire « attribut asymétrique » dans le cadre d’un attribut catégorique (binaire en particulier)?

Expliquer, avec l’aide d’un exemple, comment utiliser le coefficient de Jaccard pour définir une fonction de similitude entre deux objects catégoriques (objets représentés par des vecteurs dont chaque composante est une valeur catégorique).

Qu’est-ce qui distingue les mesures de distance euclédienne, de Mahalanobis, et du cosinus en fonction des situations où il préférable d’utiliser l’une d’elle plutôt que les autres.

Supposons que les données que vous devez analysés soient caractérisés par les attributs A 1 et A 2. A 1 est un attribut catégorique les valeurs sont A, B, C et D. A 2 est de type numérique et ses valeurs sont dans l’intervalle [0 100]. Le tableau suivant présente une partie des données. A 1 (catégorique) A 2 (numérique) x 1 A00,4 x 2 D12,9 x 3 B93,2 x 4 C08.0 x 5 C53,6 x 6 A44,8 ……… Proposer une mesure de similitude entre deux données qui traite de façon équitable les deux attributs. Plusieurs mesures sont possibles.

Trouver les feuilles à élaguer pour améliorer la précision de l’arbre de décision de la diapositive suivante à l’aide de l’erreur pessimiste (la pénalité est de 0,5 par feuilles). Dans un examen, je vous donnerais un arbre plus simple.

Le graphe ci-dessous représente un arbre de décision qui identifie la classe (c1, c2 et c3) d’une base de donnée de 66 objets utilisée pour l’apprentissage de cette arbre. Les noeuds internes, identifiés par les lettres a,b…g, sont représentés par des ellipses. Chacune des lettres représente l’attribut utilisé pour la partition des données. Les données sont décrites à l’aide de 12 attributs. Les feuilles sont représentées par des rectangles identifiant le nombre de données de chaque classe qu’elles possèdent. L’étiquette de la feuille est la classe majoritaire.

Selon le protocole donné dans les diapositives quelle est la longueur de description de l’arbre précédent. Je vous redonnerai le protocole à l’examen si je vous posais une question similaire. Quel serait les nœuds à élaguer en utilisant la longueur de description ?

Je vous donne un arbre de décision simple (comme celui des diapositives pour prédire les client qui seront en défaut dans le paiement d’un prêt). Je vous demande comment vous procéder pour classer une nouvelle donnée avec une information manquante. Je pourrais aussi vous demander de construire un arbre de décision avec des données ayant des valeurs manquantes.

Que veut-on dire par système de recommandation basé sur les modèles ? Décrivez un avantage des systèmes de recommandation basé sur les modèles. Dans le cadre des systèmes de recommandation de la famille des plus proches voisins, Quels sont les avantages et les désavantages de l’approche dite basé sur le contenu des items par rapport celle dite basé sur le filtrage collaboratif. Quels sont les avantages et les désavantages de la sous-approche « basée sur les items » par rapport à celle « basée sur les utilisateurs ». Ce sont des sous-approches de l’approche « basé sur le filtrage collaboratif ».

La formule suivante vous a été présenté pour calculer la précision d’un système de recommandation L Expliquez dans vos mots pourquoi cette formule mesure le rappel. En quoi se distingue-t-elle de la rappel tel que mesurée avec les matrices de confusion (a)/(a + b) ?

Quel est la relation entre le nombre d’hyperparamètres et le sur-apprentissage ? Comment le sur-apprentissage survient-il dans un arbre de décision ?