Décrire des variables quantitatives sous SAS
L'analyse statistique univariée des variables quantitatives avec PROC MEANS
L'analyse descriptive des variables quantitatives peut s'effectuer très rapidement de deux façons dans SAS. Une première méthode consiste à utiliser PROC MEANS, la seconde méthode va être d'employer PROC UNIVARIATE pour une analyse plus détaillée. Nous allons nous concentrer dans cet article sur PROC MEANS.
Analyse univariée standard
Les informations rendues par PROC MEANS sont limitées en standard puisqu'elles se résument aux nombres d'observations, à la moyenne,
l'écart-type, le minimum et le maximum. Dans la plupart des cas, pour une première approche sur un ensemble conséquent de variables,
cela sera amplement suffisant.
Voici un exemple sur la base cars de la librairie sashelp :
proc means data=sashelp.cars;
run;

Les options
La proc means ne se contente, bien sûr, pas des statistiques énoncées plus haut. De nombreuses options sont disponibles. Ainsi il
suffira d'ajouter les statistiques requises en fin d'instruction. Ci-dessous une liste d'options disponibles :
n : nombre d'observations
nmiss : nombre de valeurs manquantes
mean : moyenne
mode : mode
skewness : Coefficient d’asymétrie de Fisher
kurtosis : Coefficient d’aplatissement de Fisher
cv : coefficient de variation
min : minimum
p1 / p10 / p95 :percentiles (ici 1er, 10e et 95e)
q1 / q3 : 1er et 3e quartile
max : maximum
range : étendue
qrange : écart inter-quartile (q3 - q1)
Il est recommandé de consulter la documentation officielle SAS pour avoir la liste de l'ensemble des options disponibles.
Illustrons quelques-unes de ces options en ne précisant que quelques variables à étudier.
proc means data=sashelp.cars nmiss mean kurtosis cv qrange;
var msrp weight length wheelbase ;
run;

Redirection des résultats dans une table SAS
En plus de l'édition SAS, il est également possible de rediriger les résultats dans une table de travail. Il suffira pour cela de préciser l'instruction output out=<nom table>.
proc means data=sashelp.cars nmiss mean kurtosis cv qrange;
var msrp weight length wheelbase ;
output out=mystat;
run;
proc print data=mystat;
run;
Regroupement et sous-regroupement
Proc means peut encore aller plus loin puisqu'en effet il est possible de dérouler une analyse descriptive des variables
quantitatives regroupées par classe de variables catégorielles et ce, sur plusieurs niveaux.
Illustrons ceci en dressant le nombre d'observations manquantes, la moyenne et la médiane des variables
msrp, weight, length et wheelbase, par constructeur (make) et par type de véhicule (type). Nous en profitons également
pour ne demander à SAS que 2 décimales via l'option maxdec = <n>.
proc means data=sashelp.cars nmiss mean median maxdec=2;
class make type;
var msrp weight length wheelbase ;
run;

Retrouvez dans la rubrique "Nos datasets" toutes les données dont vous aurez besoin pour tester et pratiquer !