Presentation STATA
Presentation STATA
Presentation STATA
Initiation au traitement des donnes sous Stata................................................................ Ce que STATA peut faire ............................................................................................... 2 La prise en main du logiciel............................................................................................ 2 Entrer et sortir de STATA .......................................................................................... 2 Apparence lcran.................................................................................................... 3 Charger/sauvegarder un fichier ................................................................................... 3 Enregistrer les rsultats dune sance de travail .......................................................... 4 La syntaxe des commandes Stata ................................................................................ 4 Les fichiers de donnes .................................................................................................. 5 Cration et corrections de variables ................................................................................ 6 Les statistiques simples .................................................................................................. 8 Les graphiques ............................................................................................................. 10 ANNEXES ...................................................................................................................... 11 Annexe 1 : Rcapitulatif ............................................................................................... 11 Annexe 2 : Ouvrages sur Stata...................................................................................... 14
-1-
Ce que STATA peut faire 1. Des calculs directs : Avant, aprs ou pendant le traitement des donnes, Stata permet le calcul arithmtique et laccs diffrentes fonctions statistiques. Les rsultats des commandes de Stata peuvent tre rutiliss pour faire des calculs particuliers. 2. Des analyses exploratoires graphiques et statistiques : Stata permet dobtenir rapidement une description des donnes. La commande graphique de Stata produit huit types de graphiques (histogramme, bton, trait, bote, point, matrice, toile, camembert) qui peuvent tre combins. De mme on peut associer des courbes de lissage aux graphiques afin de synthtiser les informations. 3. Des modles de rgression trs diversifis : Les modles proposs par Stata vont de la simple rgression statistique jusquaux rgressions les plus complexes pour traiter les donnes de panels. Stata est particulirement adapt au traitement des donnes denqutes, quelles soient de nature pidmiologique, conomique, sociologique ou dmographique. 4. De la manipulation de fichiers et de la programmation avance : Linstrument le plus puissant de Stata est certainement son langage de programmation. Plus que de simples macros, Stata vous permet dcrire des programmes spcifiques, accessibles de la mme faon que nimporte quelle autre commande du logiciel, avec arguments et options. Dans notre cas, nous nous arrterons aux deux premiers points. La prise en main du logiciel Entrer et sortir de STATA Avant dentrer dans Stata, il est prfrable de contrler la place en mmoire vive qui sera alloue au fichier de donnes. En effet, par dfaut, Stata nallouera que 1 Mo de mmoire vive (RAM). Cest peu, et il serait dommage en plein travail de se trouver court de mmoire et dtre oblig de sortir de Stata pour allouer de la mmoire supplmentaire. La configuration optimale dpend des capacits de lordinateur et de la place occupe par les autres logiciels. Le tableau qui suit donne la formule approximative pour connatre le nombre maximum de Mo de RAM allouer Stata selon le systme dexploitation Windows : Windows 3.1 Total 4 Windows 95, 98 et Millnium (3/4 Total) - 3
Ainsi, avec 32 Mo de RAM sous Windows, un maximum de 21 Mo (=(32*3/4)-3) devra tre allou Stata. Pour configurer la mmoire utilise par Stata, on devra modifier les proprits associes au programme excutable de Stata. La procdure diffre dun systme dexploitation lautre (par exemple pour configurer 9 Mo) : Pour DOS, il suffit de taper c :>stata /k9000
-2-
Pour Windows, on accde la fentre des proprits de Stata dans le sous rpertoire : c:\windows\Menu dmarrer\Programmes\Stata. Ensuite, modifier la cible (appele ligne de commande dans windows 3.1) tel que c:\Stata\wstata.exe /k9000 (au lieu de /k1000 par dfaut) Ensuite, le mode dentre dans Stata dpend du systme dexploitation. Le tableau qui suit indique quelles sont les commandes excuter pour entrer dans Stata. DOS c:>stata Apparence lcran Stata se prsente sous la forme de plusieurs fentres lcran dont voici la lgende : Windows 3.1 Stata (icne) Windows 95, 98 et Millenium Dmarrer- Programmes- Stata
3 4
1. 2. 3. 4. 5.
Menu classique et menu raccourci Liste des commandes dj appliques Liste des variables du fichier en cours Zone de programmation pour les commandes Fentre des rsultats
Charger/sauvegarder un fichier La version 7 de Stata facilite les modalits pour charger un fichier. Ainsi il suffit dutiliser le menu de type Windows (lgende 1 ci-dessus). Il en est de mme pour la sauvegarde, mais attention, si lon enregistre un fichier modifi il est prfrable de garder une version non modifie en cas derreurs.
-3-
Enregistrer les rsultats dune sance de travail Sortir des rsultats, cest bien, les conserver, cest encore mieux. Avant de commencer lanalyse de vos donnes, il est prfrable de penser conserver les rsultats qui apparaissent lcran dans un fichier que vous pourrez consulter librement, en tapant, aprs avoir ouvert votre base de donnes : log using nom de fichier dans la fentre de commande. Il est aussi possible dutiliser le menu Windows. A la fin des analyses, il suffit de taper dans la fentre de commande : log close De mme, il est possible dinterrompre lenregistrement pendant les analyses, en tapant dans la ligne de commande : log off, puis de reprendre lenregistrement en tapant : log on. Si lon veut ajouter aux rsultats de la veille, les rsultats de la session du jour, ou remplacer un vieux fichier de rsultats, on crira respectivement en ligne de commande : Log using nom de fichier , append Log using nom de fichier , replace Il est possible, sous Windows, de visualiser la fentre du fichier de rsultats pendant que lon travaille sur Stata, en passant par le menu Windows. La syntaxe des commandes Stata Stata comme tous les logiciels, utilise un langage qui nest ni de langlais, ni du franais, mais son propre langage. Hormis quelques exceptions, la syntaxe des commandes de Stata est : [by listevar :] commande [listvar] [=exp] [if exp] [in intervalle] [pondration] [, options] Le nom de la commande est videmment obligatoire, et il peut ventuellement tre prcd dun prfixe by, et le plus souvent il est suivi dun ou de plusieurs suffixe. Les suffixes sont entours de crochets pour indiquer leur caractre optionnel : listevar correspond une liste de variables, exp une expression logique, intervalle une srie dobservations dans le fichier de donnes, et pondration une expression indiquant la variable et le mode de pondrations des donnes. Enfin, aprs une virgule, on peut ajouter une ou plusieurs options pour lexcution de la commande. La syntaxe complte pour chaque commande figure dans les manuels de rfrence de Stata, qui reste de ce point de vue irremplaables. Mais puisque le prfixe by et les suffixes if, in et la pondration sont communs la majorit des commandes, nous nous en tiendrons dans les paragraphes suivants exposer la syntaxe de base qui prend la forme : Commande [listevar] [=exp] [, options] En prenant la commande list on obtient : [by listevar :] list [listvar] [if exp] [in intervalle] [, [no]display nolabel noobs] Le suffixe [listevar]
Immdiatement aprs le nom de la commande, une liste de variables indique sur quelles variables doit seffectuer la commande. Dans les autres cas, la liste de variables par dfaut est la totalit des variables du fichier.
-4-
Ce prfixe permet dexcuter la commande pour chaque sous ensemble dobservations dfini pour chaque valeur de listevar. Avant la commande, le fichier doit dabord tre tri (avec la commande sort listevar) selon la mme variable utilise par le prfixe by. Le suffixe [if exp]
Le suffixe if restreint lexcution de la commande au sous ensemble des observations pour lesquelles lexpression logique exp est vraie, cest dire diffrente de la valeur 0. Exple : list listevar if var==1 Le suffixe [in intervalle]
Ce suffixe est moins courant dans la pratique, car il suppose de bien connatre lordre dans lequel sont classs les observations du fichier. Il permet dexcuter la commande pour certaines observations. Exple : list listevar in 10/12 qui nous donne la liste des variables demandes pour les observations 10, 11 et 12. Le format des donnes
Afin de faciliter la lecture des gros fichiers, il est recommand dadapter le format des variables au mieux. Pour ceci, la commande compress permet dadapter le bon format aux variables. Il faut le faire avant de sauvegarder un fichier. Les fichiers de donnes Les fichiers Stata sont toujours rectangulaires, cest dire que chaque ligne a le mme nombre de colonnes, et chaque colonne le mme nombre de lignes. Cela signifie en particulier que lon ne peut avoir une case vide dans le fichier lorsquune variable nest applique aucune unit dobservation, ou lorsquune unit dobservation ne dispose daucune variable. Chaque fois que cest le cas, Stata attribuera cette case un code spcial correspondant une valeur manquante, qui apparat sous forme dun point . . Saisir des petits fichiers : le tableur de Stata edit
Pour activer lditeur de Stata, cliquez sur le bouton Editor. Vous verrez apparatre une nouvelle fentre Stata Editor fonctionnant comme un tableur classique. Pour donner des noms aux variables, il suffit de cliquer deux fois sur la colonne correspondant la variable. Une nouvelle fentre apparat qui permet de changer le nom ( Name ), le libell ( Label ) et mme le format daffichage de la variable ( Format ). Couper dans la fentre dun tableur et coller sur le tableur intgr de Stata
Le fameux couper-coller des environnements Windows et MacIntosh est certainement la plus agrable faon de transfrer les donnes vers lditeur de Stata. Linverse est galement possible. Slectionnez les donnes copier dans le tableau dune feuille de calcul. Quelle que soit la prsentation du tableau dans le tableur ou le traitement de texte, limportant est que dans la partie
-5-
slectionne, chaque colonne dfinisse une variable (et une seule), lexception de la premire qui dfinit le nom des variables. Ensuite, copiez en mmoire la slection de cellules, puis placez-vous dans la fentre de lditeur de Stata, et cliquez sur la premire cellule en haut gauche. Tirez sur le menu Edit de la fentre principale de Stata et cliquez sur Paste. Cration et corrections de variables Les commandes generate et replace
La commande generate cre de nouvelles variables. Elle a la syntaxe de base suivante : [by listevar :] generate var = exp [if exp] [in intervalle] La commande replace utilise la mme syntaxe, sauf quelle sapplique aux variables dj existantes. Comme on le voit, cette syntaxe est simple, ce qui nest pas le cas de la forme que peut prendre exp. La premire expression exp (aprs le signe =) spcifie le contenu de la variable, cest dire le plus souvent une valeur numrique. La seconde expression exp (aprs if) doit tre formule comme une expression logique dont le rsultat est soit vrai soit faux : la cration (ou le remplacement) de la variable est restreint aux observations pour lesquelles le rsultat de lexpression est vrai. Les oprateurs arithmtiques
Les oprateurs arithmtiques de Stata sont bien classiques : + (addition), - (soustraction), * (multiplication), / (division), ^ (puissance), tout comme les oprateurs relationnels > (suprieur), < (infrieur), >= (suprieur ou gal), <= (infrieur ou gal). Cest peut tre moins le cas des oprateurs relationnels == (gal) ou ~= (diffrent, que lon peut aussi crire !=), et des oprateurs logique & (et), | (ou bien), et ~ (non). En effet Stata distingue le signe = (affectation dune valeur) du signe == (galit entre deux valeurs). Dans le cas dune affectation dune valeur une variable, la variable apparat gauche du signe = tandis que la valeur affecte apparat droite. Au contraire, dans le cas dune galit entre deux valeurs, lordre peut tre invers sans que cela affecte lgalit logique. Les expressions logiques sont particulirement utiles pour crer des variables dichotomiques, cest dire qui ne prennent que deux valeurs, 0 et 1. En effet, une expression logique, cest dire une expression o interviennent les oprateurs relationnels >, <, >=, <=, ==, !=, ou bien les oprateurs logiques &, |, et ~, est code 1 lorsque son rsultat est vrai, et code 0 lorsque son rsultat est faux. Les fonctions mathmatiques, statistiques, etc. De nombreuses fonctions sont disponibles dans Stata : elles apparaissent dans des expressions (notes exp), et elles ont chacune un nom et un ou plusieurs arguments ordonns : Nomfonction (arg1 [,arg2]) -6-
Chaque argument peut lui-mme tre compos dune expression ou dune fonction. Ainsi, on peut combiner plusieurs fonctions ( conditions que cela ait un sens). Nous ne mentionnerons ici que quelques fonctions, les plus utiles et les plus communes pour la cration de nouvelles variables : cond(), int(), et round(). Cond() exprime la condition : Cond(exp,a,b) Si lexpression exp est vrai, la fonction reticent la valeur a et sinon la valeur b. Les valeurs a et b peuvent prendre la forme dexpressions, y compris la valeur manquante. La fonction int(x) retient lentier de x obtenu par troncature. Ainsi, la valeur 2,123 est value 2 et la valeur 1,89 1. La valeur de x est obtenue laide dune expression ; limportant est que le rsultat de lexpression soit un nombre. Le rsultat est trs diffrent avec la fonction round(x,y) qui arrondi la valeur 2,123 2 tout comme 1,89. La prcision de larrondi est dfinie par y, cest dire que x est arrondi au plus proche multiple de y. Ainsi round(2,123,.1) est valu 2,1. L aussi x et y peuvent tre obtenus laide dexpressions. Quelques prcautions prendre
Tout dabord, il faut savoir que Stata attribue une valeur manquante toute opration arithmtique impossible (par exemple une division par 0) ou pour toute opration sur une valeur manquante. Cest parfaitement logique, mais cest quelque chose quon oublie facilement. Une autre source trs frquente derreur, plus insidieuse celle-l, est lutilisation des signes > ou >= dans le cas o la variable contient des valeurs manquantes. Dans Stata, les valeurs manquantes sont considres comme suprieurs nimporte quelle autre valeur. A moins dtre assur quaucune variable nest code manquante pour aucune observation dans le fichier, il vaut mieux toujours effectuer les calculs pour les variables renseignes, cest dire non manquantes. Loption if est un excellent garde fou. Ceci nous amne une autre source derreur, la confusion entre lexpression (logique ou non) qui spcifie le contenu de la variable, et lexpression logique de loption if qui restreint le calcul certaines observations. Par exemple, la commande : Generate newvar=var==x A une signification trs diffrente de la commande : Generate newvar=1 if var==x Dans le premier cas, la variable newvar est gale 1 pour les observations qui vrifient la condition logique var=x, et 0 pour les autres observations. Dans le deuxime cas, la variable newvar est gale 1 pour les observations qui vrifient la condition var==x, et elle sera code manquante pour les autres observations.
-7-
Une alternative Replace sous Windows est lditeur de Stata auquel on accde par le bouton Edit ou par la commande edit. Le bouton Edit est quivalent la commande edit sans argument, cest dire que lensemble du fichier est accessible sans restriction sur les observations ou les variables. Sil il sagit simplement de consulter le fichier, il est prfrable dutiliser le bouton Browse ou bien la commande du mme nom, comme alternative la commande list. Lorsquil sagit de modifier des donnes, il est prfrable de restreindre laffichage de lditeur aux seules variables et observations modifier. Cela vous vitera des erreurs de manipulation que vous pourriez regretter. Pour cela, une fois dans lditeur, utilisez le bouton Hide pour cacher certaines variables. Mais il est prfrable dutiliser les options if et in de la commande edit pour restreindre ldition non seulement certaines variables mais aussi certaines observations. Par exemple : Edit var1 var2 if var3==x Le mme principe vaut pour corriger une seule observation: Edit var1 var2 in x X est le numro de lobservation. A ce sujet, il faudra faire attention au tri effectuer sur le fichier avant la commande edit, moins quil y ait une variable identifiant. Pour effacer des donnes, les commandes sont drop et delete. A utiliser avec prudence. Lavantage de lditeur est la touche Restore qui permet de revenir au fichier non modifi en cas derreur. Ladressage par ligne
Chaque fois que Stata ouvre un fichier de donnes, deux variables systmes sont cres : _n qui contient le rang courant de chaque observation dans lordre du fichier _N qui contient le rang de la dernire observation Elles sont appeles variables systmes parce quelles peuvent tre utilises mais ne peuvent pas tre modifies. Les statistiques simples Stata offre de nombreuses commandes pour lanalyse des donnes, autant sous forme de tableaux que de graphiques. La forme des tableaux dpend du nombre de variables croises. Lorsquune seule variable est dcrite, on parle de distribution univarie, ou de frquence simple. Pour deux variables, on parle de distribution bivarie, et, au del de deux variables, de distribution multivarie. Plus le nombre de variables est lev, plus la lecture sera complexe : un tableau croisant plus de quatre variables est souvent incomprhensible pour une personne normalement constitue (y compris un statisticien). -8-
La premire chose faire avant de travailler sur un fichier est dexaminer lensemble des variables, pour dtecter dventuelles erreurs la saisie ou lors du transfert des donnes, et surtout pour se familiariser avec les donnes. La commande codebook listevar donne une description adapte aux variables alphanumriques et numriques. Parmi les variables numriques, elle distingue automatiquement les variables continues et discrtes. Pour tre considre comme discrte, une variable doit avoir au maximum 9 catgories distinctes. La commande summarize listevar permet aussi de rsumer la distribution, en particulier pour les variables numriques continues. Loption detail permet une description plus prcise des variables continues, incluant les pourcentiles, les quatre plus grandes (Largest) et plus basses (Smallest) valeurs. A linverse de la commande summarize, la commande tabulate est utile pour les variables discrtes. Tableaux croiss deux variables
La commande tabulate devient vraiment intressante pour croiser les distributions de deux variables discrtes. La syntaxe de base de cette commande est : Tabulate varligne varcol Les modalits de la premire variable cite figurent en ligne, tandis que les modalits de la deuxime apparaissent en colonne. Des options permettent dobtenir les pourcentages en ligne (row), en colonne (column) ou par cellule (cell) du tableau. Pour afficher les pourcentages sans les frquences, on utilisera loption nofreq. La commande tabulate prvoit par dfaut un maximum de 5 modalits en colonnes, ce qui explique que le tableau soit scind en deux afin de tenir sur les 80 caractres que comporte une ligne sur lcran. Notez que la colonne Total fait rfrence au total gnral et non au total de chaque partie du tableau. Avec loption wrap, le tableau nest pas scind en deux car aucune limite nest impose au nombre de colonnes : tabulate varligne varcol, wrap Pour une reprsentation lcran dun tableau crois avec loption wrap, il y aura problme car le nombre de modalits ne permettra pas davoir une vue gnrale du tableau. Mais si les rsultats sont enregistrs dans un fichier *.log , un tableau de plus de 5 colonnes pourra tre imprim sur une feuille en format paysage par exemple. Il peut arriver quune variable ne soit pas renseigne pour certaines catgories dobservations : dans ce cas, seules les observations pour lesquelles les variables croises sont renseignes figureront dans le tableau. Pour que la totalit des observations (y compris celles dont les valeurs sont manquantes) figurent dans le tableau, on utilisera loption missing. Dans ce cas, une modalit intitule . sera ajoute aux colonnes ou aux lignes dj prsentes.
-9-
Le prfixe by listevar est utilis pour produire des tableaux croiss deux variables pour chaque combinaison des modalits numres dans listevar. Si une seule variable est numre dans listevar, on obtient un tableau crois trois variables, si deux variables sont numres, un tableau crois quatre variables, etc. Le prfixe by ncessite un tri pralable selon les variables numres : sort var by listevar: tabulate varligne varcol Les graphiques Tout comme les tableaux, les graphiques peuvent tre univaris, bivaris ou multivaris. Mais ils ont lavantage sur les tableaux quils peuvent rendre compte plus facilement des variables continues, alors que les tableaux se limitent gnralement aux variables discrtes (ou ordonnes) pour un nombre rduit de catgories. Pour ce qui concerne les options communes tous les types de graphiques, la syntaxe de base de la commande graph est : Graph [listevar] [,options spcifiques au type de graphique by(nomvar) total x/y/r/tlabel x/y/r/ttick x/y/r/tline x/y/rscale y/x/rlog symbol(s..s) connect(c..c) saving(nomfichier, [replace])] Les options communes concernent essentiellement la mise en forme du graphique: libells (label), graduations (tick), lignes (line), chelle des axes (scale, log), symbols (symbol), liaison des points (connect). La commande graph produit par dfaut un histogramme lorsquune seule variable figure dans la liste des variables. La commande hist est plus adapte aux variables discrtes Loption pie, avec graph, permet dobtenir des camemberts : graph listevar, pie by (var)
- 10 -
ANNEXES
Annexe 1 : Rcapitulatif
Charger un fichier :
Use c:\adresse\nom de fichier dans la ligne de commande, ou Ouvrir dans le menu.
Sauvegarder un fichier
Save nom de fichier Save nom de fichier , replace (si le fichier est dj existant) Ou Save dans le menu.
- 11 -
Noobs : se situe en fin de commande, prcd dune virgule. Permet de ne pas afficher les numros des observations Nodisplay : Mme fonctionnement que Noobs mais concerne la prsentation, permet laffichage en lignes Nolabel : Mme fonctionnement que Noobs, affiche la version dichotomique des donns
Fusion de fichiers
Append : permet de fusionner des fichiers ayant des informations sur des observations diffrentes Merge : permet de fusionner des fichiers ayant des informations sur les mmes variables use nom de fichier 1 Append using nom de fichier 2 use nom de fichier 1 sort var commune use nom de fichier 2 - 12 -
sort var commune merge nom de var commune using nom de fichier 1 Remarque 1 : Il faut choisir comme fichier matre le fichier dont les libells sont les plus clairs, ou les plus rcents, car ceux de lautre fichier ne seront pas pris en compte. Remarque 2 : La commande merge cre une variable _merge code comme suit : 1. Si lobservation ne figure que dans le fichier matre 2. Si lobservation ne figure que dans le fichier appel 3. Si lobservation figure dans les deux fichiers Si on a 2 fichiers avec des variables communes, mais lun des observations manquantes ou primes , on utilisera alors la commande : Merge var commune using nom de fichier , update replace Remarque 3 : On aura alors deux codes supplmentaires pour _merge : 4. Si lobservation contenait des valeurs manquantes dans le fichier matre, actualises par celles du fichier appel (commande update) 5. Si lobservation contenait des valeurs non manquantes dans le fichier matres mais mises jour par celles du fichier appel (commande replace) Les commandes generate et replace Generate : permet de crer de nouvelles variables Replace : permet de remplacer des variables dj existantes Remarque : lutilisation de ces commandes se fait comme suit : Generate nom nlle var = Replace nom var = Les oprateurs arithmtiques, relationnels et logiques Ceux sont les oprateurs arithmtiques classiques : +, -, *, /, ^, >, <, >=, <= Les oprateurs relationnels sont : = (affectation dune valeur), = = (gal), ~= (diffrent), & (et), | (ou bien), ~ (non) Les oprateurs logiques permettent un recodage utile lanalyse, exemple : Generate ouest=cond(region= =4,1,0) Mais il y a des risques derreurs dinversion entre 1 et 0, on utilisera plutt la faon abrge: Generate ouest=region= =4 Les fonctions mathmatiques, statistiques, etc. (les plus communes) Cond() : impose une condition Int(x) : retient lentier de x obtenu, par dfaut Round(x,y) : arrondi le rsultat x au plus proche multiple de y Sum(nom var) : cumule les valeurs dune variable ATTENTION :lors dun calcul, les valeurs manquantes sont considres dans Stata comme suprieures nimporte quelle valeur. Pour viter ce genre derreur, on utilise la fonction IF. Exemple : generate urbain=region !=3 & region !=4 if region!=.
- 13 -
De plus, IF ne doit pas tre pour crer une variable dichotomique. Elle est ncessaire pour restreindre un calcul et corriger les valeurs dune variable dj existante. Les corrections sous Editor Edit : Commande qui permet daccder leditor (on peut aussi y accder avec le menu Windows) de faon prcise, laide de IF et des autres fonctions Drop ou delete :Commandes de suppression Les corrections laide dun fichier .do Ceux sont des fichiers programme. On les utilise de 2 faons : Pour la cration et la modification de variables, prsent sous la forme suivante : 1.* nom et date du programme use c:\chemin du fichier original save nom de fichier commandes souhaites save nom de fichier , replace 2. * nom et date de cration du programme log using nom fichier rsultats use nom de fichier commandes souhaites log close Remarque : Lexcution dun programme .do sinterrompe lorsquil contient une erreur. Ladressage par ligne Chaque fois que Stata ouvre un fichier de donnes, 2 variables systmes sont cres : _n qui contient le rang courant de chaque observation dans lordre du fichier _N qui contient le rang de la dernire observation, Elles sont utilisables mais pas modifiables. Annexe 2 : Ouvrages sur Stata Users Guide de Stata, ditions Stata Lessentiel de Stata par Philippe Boquier aux ditions Global Design
- 14 -