Méthodes statistiques
Tableaux, population, échantillon On rassemble les données dans des tableaux = individus * variables Une ligne = un « individu statistique » (un interviewé, un abonné, un contrat d’assurance, etc) Les colonnes = les variables Population = l’ensemble des individus visés VS échantillon = une partie représentative de cette population cible Exemple: Population : les consommateurs français, échantillon : les interviewés Plusieurs techniques d’échantillonnage: aléatoirement (c’est la clé de l’échantillonnage). D’autres méthodes : calage sur marges (respect de certaines proportions en fonction de variable comme l’âge, le sexe, les tranches de revenus, etc) Caractère = aspect particulier des individus. Qualitatif (non mesurable) ou quantitatif (mesurable : discret ou continu) Modalités = différentes rubriques associés à un caractère qualitatif. Le sexe comporte deux modalités Nomenclature = ensemble des modalités précédées d’un code de numéro
Type de données Données qualitatives Données nominales Données ne faisant pas l’objet d’une mesure Exemples: sexe, état matrimonial (célibataire, marié, veuf, divorcé) Données nominales Nombre de cas dénombrables, codés pour distinguer les modalités, aucune relation d’ordre entre les codes, opérateurs arithmétiques/mathématiques inapplicables Exemples : CSP, région, civilité ou code produit des nomenclatures. Données ordinales Nombre de cas dénombrables, codées pour distinguer les modalités, il existe une relation d’ordre entre les modalités, mais les écart ne sont pas quantifiables, on peut appliquer des calculs Exemple: satisfaction de 1 à 5, tranches de revenus Données numériques ou continues quantitatives Nombre de cas théoriquement infini, il existe une relation d’ordre entre les valeurs, les écarts sont quantifiables, calculs algébrique autorisés
Transformation des données Chaque type de données possède des méthodes statistiques adaptée d’où la nécessité de faire des transformations préalables Discrètes -> numériques: codage disjonction complet une nouvelle variable binaire 0/1 par modalité on perd toute notion d’ordre Numériques -> discrètes : découpage ou discrétisation Numériques -> numériques Obtenir des distributions plus « normales », correction des effets d’échelles Standardisation = X – moyennes / écart type Log (), racine () …
Transformation des données Fonction de répartition: F(x) = proportion d’individus dont la valeur du caractère est inférieure à x. Transformation log Transformation racine carrée
SAS : premiers pas Le journal (log), l’explorateur (explorer) et les résultats (output) Les bibliothèques SAS La bibliothèque « work » est la bibliothèque par défaut de SAS, les tableaux n’y sont enregistrés que de façon temporaire et disparaissent à la fermeture de la session Créer un tableau de données – Etape Data A partir d’informations « papiers » À partir d’une autre table Données manquantes, commentaires, majuscules, renommer des variables Fusionner deux tables SAS Plusieurs méthodes