La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Les dossiers patients d’un hôpital contiennent les attributs suivants : – nom – code postal – pression systolique en mm de mercure. – s’il est porteur.

Présentations similaires


Présentation au sujet: "Les dossiers patients d’un hôpital contiennent les attributs suivants : – nom – code postal – pression systolique en mm de mercure. – s’il est porteur."— Transcription de la présentation:

1 Les dossiers patients d’un hôpital contiennent les attributs suivants : – nom – code postal – pression systolique en mm de mercure. – s’il est porteur du virus de hépatite A – le degré de douleur sur une échelle subjective entre 0 et 4 (0 aucune douleur ; 4 douleur intolérable) – leur température en centigrade – leur poids Classifier chacun de ces attributs, pour des tâches de forage de donnée, selon deux dimensions. Dimension 1 : nominal, ordinal, intervalle, ratio Dimension 2 : asymétrique, binaire non asymétrique, discret (non binaire), continu Dans un examen, vous aurez qu’un ou deux attributs à classifier.

2 Que veut dire « attribut asymétrique » dans le cadre d’un attribut catégorique (binaire en particulier)?

3 Expliquer, avec l’aide d’un exemple, comment utiliser le coefficient de Jaccard pour définir une fonction de similitude entre deux objects catégoriques (objets représentés par des vecteurs dont chaque composante est une valeur catégorique).

4 Qu’est-ce qui distingue les mesures de distance euclédienne, de Mahalanobis, et du cosinus en fonction des situations où il préférable d’utiliser l’une d’elle plutôt que les autres.

5 Supposons que les données que vous devez analysés soient caractérisés par les attributs A 1 et A 2. A 1 est un attribut catégorique les valeurs sont A, B, C et D. A 2 est de type numérique et ses valeurs sont dans l’intervalle [0 100]. Le tableau suivant présente une partie des données. A 1 (catégorique) A 2 (numérique) x 1 A00,4 x 2 D12,9 x 3 B93,2 x 4 C08.0 x 5 C53,6 x 6 A44,8 ……… Proposer une mesure de similitude entre deux données qui traite de façon équitable les deux attributs. Plusieurs mesures sont possibles.

6 Trouver les feuilles à élaguer pour améliorer la précision de l’arbre de décision de la diapositive suivante à l’aide de l’erreur pessimiste (la pénalité est de 0,5 par feuilles). Dans un examen, je vous donnerais un arbre plus simple.

7 Le graphe ci-dessous représente un arbre de décision qui identifie la classe (c1, c2 et c3) d’une base de donnée de 66 objets utilisée pour l’apprentissage de cette arbre. Les noeuds internes, identifiés par les lettres a,b…g, sont représentés par des ellipses. Chacune des lettres représente l’attribut utilisé pour la partition des données. Les données sont décrites à l’aide de 12 attributs. Les feuilles sont représentées par des rectangles identifiant le nombre de données de chaque classe qu’elles possèdent. L’étiquette de la feuille est la classe majoritaire.

8 Selon le protocole donné dans les diapositives quelle est la longueur de description de l’arbre précédent. Je vous redonnerai le protocole à l’examen si je vous posais une question similaire. Quel serait les nœuds à élaguer en utilisant la longueur de description ?

9 Je vous donne un arbre de décision simple (comme celui des diapositives pour prédire les client qui seront en défaut dans le paiement d’un prêt). Je vous demande comment vous procéder pour classer une nouvelle donnée avec une information manquante. Je pourrais aussi vous demander de construire un arbre de décision avec des données ayant des valeurs manquantes.

10 Que veut-on dire par système de recommandation basé sur les modèles ? Décrivez un avantage des systèmes de recommandation basé sur les modèles. Dans le cadre des systèmes de recommandation de la famille des plus proches voisins, Quels sont les avantages et les désavantages de l’approche dite basé sur le contenu des items par rapport celle dite basé sur le filtrage collaboratif. Quels sont les avantages et les désavantages de la sous-approche « basée sur les items » par rapport à celle « basée sur les utilisateurs ». Ce sont des sous-approches de l’approche « basé sur le filtrage collaboratif ».

11 La formule suivante vous a été présenté pour calculer la précision d’un système de recommandation L Expliquez dans vos mots pourquoi cette formule mesure le rappel. En quoi se distingue-t-elle de la rappel tel que mesurée avec les matrices de confusion (a)/(a + b) ?

12 Quel est la relation entre le nombre d’hyperparamètres et le sur-apprentissage ? Comment le sur-apprentissage survient-il dans un arbre de décision ?


Télécharger ppt "Les dossiers patients d’un hôpital contiennent les attributs suivants : – nom – code postal – pression systolique en mm de mercure. – s’il est porteur."

Présentations similaires


Annonces Google