Les attributs, leurs types, leurs valeurs Christelle Scharff IFI Juin 2004
Attributs Un attribut a un type et des valeurs contraintes par ce type Le type dun attribut peut être: Ordinal Nominal Intervalle Ratio
Attributs à valeurs nominales Les valeurs sont des symboles (des noms) Exemple: Les valeurs de Temps sont {Ensoleillé, Pluvieux, Neigeux, Gris} Aucune relation (ordre ou distance) entre les nominaux nexiste Seuls des tests dégalité peuvent être exécutés Exemple de règle: If Temps = Pluvieux Then Match = No
Attributs à valeurs ordinales Une notion dordre simpose sur les ordinaux Mais il nest pas possible de calculer directement des distances entre des valeurs ordinales Les opérations daddition et de soustraction ne sont pas possibles Exemple: La température est décrite par les adjectifs {chaud, froid, moyen}, et chaud > moyen > froid Exemple de règle: If température > froid Then match = Yes
Attributs de type intervalle Les intervalles impliquent une notion dordre, et les valeurs sont mesurées dans des unités spécifiques et fixées La somme, la différence et le produit de 2 intervalles ne sont pas possibles (car le point zéro nexiste pas) Exemples: La température exprimée en degrés Celsius ou Fahrenheit Lattribut année
Attributs de type rapport (ratio) Toutes les opérations mathématiques sont autorisées sur les attributs de ce type Exemple: Lattribut distance On peut comparer 2 distances On peut additionner 2 distances La distance entre un objet et lui-même est zéro
Les types des attributs en pratique En général: nominaux et ordinaux Les attributs nominaux sont aussi appelés attributs discrets Mais le terme discret implique une notion dordre Les attributs ordinaux sont aussi appelés attributs numériques Mais le terme numérique implique certaines opérations Cas particulier: Les attributs de type booléen
Transformation dordinaux en booléens Un attribut de type ordinal à n valeurs peut être transformé en n-1 attributs de type booléen Cette solution est plus appropriée que dutiliser un attribut de type nominal
Les attributs numériques Les numériques sont identifiés aux réels Les attributs numériques sont interprétés comme des ordinaux si les opérateurs de relation sont utilisés Les attributs numériques sont interprétés comme des rapports sil est nécessaire de calculer des distances
Nominal versus Ordinal Lutilisation dun ordinal peut permettre de simplifier les règles Exemple: Age prend les valeurs {Jeune, Adulte, Âgé} Si Age est un attribut nominal: If Age = Jeune Then Loisirs = Yes If Age = Adulte Then Loisirs = Yes If Age = Âgé Then Loisirs = No Si Age est un attribut ordinal: If Age <= Adulte Then Loisirs = Yes If Age = Âgé Then Loisirs = No
Valeurs manquantes Les données ne sont pas toujours collectées pour être fouillées Les valeurs sont manquantes parce que: inconnues, non nécessaires, non enregistrées… Exemples: Non-fonctionnement du matériel, mesure non possible, temps… Parfois, une valeur manquante doit être détectée et ajoutée, car elle signifie quil y a un problème dans les données Exemple: Examen médical
Valeurs incohérentes Les données ne sont pas toujours collectées pour être fouillées Les valeurs sont incohérentes parce que: des erreurs (délibérées ou non), des omissions, des duplications ont été introduites… Exemples: Erreurs typographiques dans les nominaux Erreurs de mesure…
WEKA: Le format ARFF Attributs numériques et nominaux
FDD et attributs Les algorithmes de FDD dépendent beaucoup des types des attributs Les valeurs manquantes et incohérentes doivent être détectées et traitées spécialement par les algorithmes
Réferences I. H. Witten, and E. Frank. Data Mining : Practical Machine Learning Tools and Techniques with Java Implementations. Morgan Kaufmann.