Initialisation au logiciel (Statistical Analysis System) Ecole Supérieure de la Statistique et de l’Analyse de l’Information de Tunisie Initialisation au logiciel SAS (Statistical Analysis System) Slim ZOUAOUI Slim_zouaoui@essai.rnu.tn
Introduction de gestion et d’analyse statistique de grande puissance . SAS est un logiciel de gestion et d’analyse statistique de grande puissance . généraliste . multi plateforme (il est écrit en C). traite un nombre quasiment illimité de données. contient une importante bibliothèque de fonctions prédéfinit qui sont disponibles dans un ensemble de modules. Introduction
Etape DATA (pour données) Un programme SAS Il se compose de deux types d'instructions: Etape DATA (pour données) import des données. saisie et manipulation des données sous SAS. créer différents jeux de données et des nouvelles variables . Etape Proc (pour procédure) Effectuer des opérations sur les tables. Etudier et analyser les données. Tracer des graphes.
TP 1 Création d’une table SAS à partir d’un fichier texte. Saisie des données sous SAS. Les contrôleurs de pointeur. Création d'un fichier permanent. Lecture d'un fichier de données en format SAS. Etape DATA
infile “ chemain du fichier_en_entrée ” ; input variables ; Création d’une table SAS à partir d’un fichier texte DATA nom du table ; infile “ chemain du fichier_en_entrée ” ; input variables ; Proc print ; Run ; Etape DATA
DATA nom du table ; input variables ; Cards ; Proc print ; Run ; Saisie des données sous SAS DATA nom du table ; input variables ; Cards ; ……………………. …….données……... ; Proc print ; Run ; Etape DATA
Les contrôleurs de pointeur @n : déplace le pointeur à la colonne n spécifiée. +n : déplace le pointeur à n colonnes vers la droite. / : déplace le pointeur à la ligne suivante. #n : déplace le pointeur à la ligne n spécifiée. _N_ : n éme étapes du block DATA. A la fin de l’énoncé Input @ : rester sur la ligne de données courante pour le prochain énoncé INPUT . @@ : rester sur la ligne courante pour des exécutions futures du bloc DATA. Etape DATA
Création d’un fichier permanent LIBNAME nom_librairie ‘trajectoire_librairie‘ ; DATA nom_librairie.non_du_table ; INFILE ‘chemin du fichier ‘ ; INPUT variables ; RUN ; Proc print ; Run ; Etape DATA
Lecture d'un fichier de données en format SAS LIBNAME nom_librairie ‘trajectoire_librairie‘ ; DATA nom du table ; SET nom_librairie.non_du_table; RUN; Proc print ; Run ; Etape DATA
Création d'un fichier de données ASCII à partir d'un fichier SAS DATA _NULL_; SET nom_librairie.nom_du_table; FILE ' chemin du fichier texte '; PUT variables ; RUN; Etape DATA
Concaténation verticale et horizontale de fichiers DATA nom du table ; SET table1 table2 ; RUN; Proc print ; Run ; DATA nom du table ; SET table 1; SET table 2 ; RUN; Proc print ; Run ; Etape DATA
Création d'un fichier à partir d'un sous-ensemble de variables Keep, drop : pour garder ou supprimer une variable des données; DATA Exemple1(Keep=variables) Exemple2(Drop=variables) ; SET non_du_table ; RUN ; Proc print ; Run ; Etape DATA
Traitement des données Créer une nouvelle variable nouv_variable = formule appropriée IF/THEN/ELSE IF condition THEN énoncé; Else énoncé ; DELETE : pour éliminer certaines observations d'un fichier SAS. DO permet de répéter un certain nombre de fois un bloc d'instructions DO variable=valeur1 TO valeur2 [BY pas]; énoncés END; Etape DATA
Etape Proc (pour procédure) Effectuer des opérations sur les tables. Etudier et analyser les données. Tracer des graphes. Etape PROC
Proc contents proc contents data=nom_du_table ; run; donne les attributs, les formats et les labels des tables et des bibliothèques SAS. proc contents data=nom_du_table ; run; Etape PROC
imprimer les observations d’une table SAS. Proc print imprimer les observations d’une table SAS. proc print <options> ; run; <options> : DATA=nom_du_table ; Id variables ; BY variables ; SUM variables ; LABEL étiquettes ; NOOBS ; Etape PROC
Proc printto permet de rediriger dans un fichier le contenu de la fenêtre OUTPUT et/ou celui de la fenêtre LOG. proc printto print =”chemain_du_fichier.out” log= ”chemain_du_fichier.log” <option>; run; <options> : new Etape PROC
trie une table SAS suivant une ou plusieurs variables. Proc sort trie une table SAS suivant une ou plusieurs variables. proc sort data=nom_du_table out=fichier_de sortie ; By <descending> variable (s) ; run ; Etape PROC
Proc means proc means <options> <mots-clés_statistiques> ; procure des outils de calcul de statistiques élémentaires pour les variables numériques. proc means <options> <mots-clés_statistiques> ; run ; <options> : by variable (s) ; class variable (s) ; var variable (s); Etape PROC
permet d’obtenir un nombre plus important de statistiques Proc univariate permet d’obtenir un nombre plus important de statistiques Proc univariate <options> ; run ; <options> : by variable (s) ; var variable (s) ; id variables ; Etape PROC
ordonne les variables, calcule les rangs et les scores. Proc rank ordonne les variables, calcule les rangs et les scores. proc rank data=nom_du_table out=fichier_de sortie ; var variable (s) ; ranks nom (s) ; by variable (s) ; run ; Etape PROC
Proc freq Proc freq <options> ; run ; by variable (s) ; Cette procédure produit des tableaux de fréquences unidimensionnelles ou des tris croisés multidimensionnels. Proc freq <options> ; run ; <options> : by variable (s) ; tables variable (s) ; Etape PROC
Proc standard permet de normaliser les valeurs de quelques-unes ou de toutes les variables d'un jeu de données SAS. Proc standard <options> ; run ; <options> : by variable ; freq variable ; var variable ; Etape PROC
permet de calculer des corrélations entre les variables numériques. Proc corr permet de calculer des corrélations entre les variables numériques. Proc corr <options> ; run ; <options> : var variable (s) ; with variable (s) ; partial variable ; By variable ; Etape PROC
Proc freq Produire le tableau de contingence, profil ligne et profil colonne pour les deux variables qualitatives . Proc freq ; Tables var1*var2; run ; Etape PROC
Proc reg Étudier la liaison entre la production et le capital en mettant en œuvre une régression linéaire simple. Proc reg ; Model var1=var2; run ; Etape PROC
Étudier le modèle de l’analyse de la variance Proc anova Étudier le modèle de l’analyse de la variance Proc anova ; Class var_qual ; Model var_quant = var_qual ; run ; Etape PROC
Proc chart Proc chart <options> ; run ; block variable (s) ; produit en mode caractère des histogrammes horizontaux et verticaux, des histogrammes en bloc, des diagrammes circulaires et en étoiles. Proc chart <options> ; run ; <options> : block variable (s) ; by variable (s) ; Vbar variable (s) ; Hbar variable (s) ; Pie variable (s) ; Etape PROC
Proc plot Proc plot <options> ; tracer en mode caractère une ou plusieurs courbes sur un même graphique. Proc plot <options> ; Plot var_verticale*var_horizontale ; /option run ; <options> : data non du table ; /option By variable (s) ; Etape PROC
SAS/GRAPH permet d'obtenir sur périphériques graphiques des sorties simples et complexes à plusieurs dimensions. Il permet également la modification interactive des graphiques grâce à un éditeur graphique.
Proc gplot représente sous forme de courbe une variable en fonction d'une autre et peut tracer plusieurs courbes dans un même système d'axes. Proc gplot ; Plot var_verticale*var_horizontale ; run ;
Proc gchart produit des histogrammes horizontaux et verticaux, des diagrammes circulaires, en étoiles et diagrammes en blocs. Proc gchart <options> ; run ; <options> : block variable (s) ; by variable (s) ; Vbar variable (s) ; Hbar variable (s) ; Pie variable (s) ;
Tracer un histogramme et qqplot Proc gchart Tracer un histogramme et qqplot Proc univariate ; Var variable ; Histogram / normal (mu=est sigma=est) ; qqplot / normal (mu=est sigma=est) ; Run ;
représente trois variables dans un repère à trois dimensions. Proc G3D représente trois variables dans un repère à trois dimensions. Proc G3D; Plot var1 * var2 = var3 ; Scatter var1 * var2 = var3 ; run ;
Analyse des données avec SAS
Analyse en Composantes Principales (ACP) PROC PRINCOMP DATA = tab1 OUT = tab2 OUTSTAT = tab3 N = ; VAR variables; RUN; PROC PLOT DATA = tab2; PLOT axe2*axe1=age; Etape PROC
Analyse Factorielle des Correspondances (AFC) PROC CORRESP DATA=tab1 OUTC = tab2 ; VAR modalités ; ID var_qual ; RUN; PROC PLOT DATA = tab2; PLOT dim2*dim1 = var_qual; Etape PROC
Etape PROC