Curso de Introducción A STATA - S1
Curso de Introducción A STATA - S1
Curso de Introducción A STATA - S1
Jordi Muoz
([email protected])
http://gent.uab.cat/jmunoz/content/curs-stata
1
Curso de introduccin a Stata Jordi Muoz (UAB)
Docencia /
SPSS Alta Baja* Muy alto
profesional
Investigacin
Stata Muy alta Media Medio/Alto
aplicada
Investigacin
R Mxima Alta Gratuito
bsica y aplicada
Mens o sintaxis?
En los paquetes de anlisis de datos podemos trabajar de dos modos: meidante un sistema de
mens y ventanas, o mediante la sintaxis (escribiendo nosotros mismos los comandos que
debe ejecturar el programa).
En este curso usaremos una combinacin de ambos mtodos. Sin embargo, el trabajo con
sintaxis a pesar de la curva de aprendizaje ms pronunciada, tiene ventajas:
Ventanas de Stata
Stata se organiza en diversas ventanas que nos aportan informacin y nos permiten realizar
distintas operaciones. Las principales ventanas en Stata son las siguientes:
2
Curso de introduccin a Stata Jordi Muoz (UAB)
Lnea de comando
Nos permite escribir las rdenes que queremos que ejecute el programa. Es uno de los
principales mecanismos de relacin del usuario hacia el programa.
Results
En esta ventana apareceran los resultados de los comandos que vayamos ejecutando.
En esta ventana es donde el programa responde a nuestras rdenes.
Review
Esta ventana va archivando las rdenes que vamos escribiendo en la lnea de
comando. Esto es muy til ya que nos permite repetir con facilidad operaciones ya
realizadas, recuperar comandos para introducir pequeas modificaciones, y archivar lo
que hayamos hecho durante una sesin de trabajo en Stata.
Variables
Esta ventana nos muestra una lista de las variables que contiene nuestra base de
datos, as cmo sus etiquetas. Esto nos permite seleccionarlas (mediante un dobre clic)
para usarlas en nuestros comandos sin necesidad de memorizar o escribir los nombres
de todas ellas.
3
Curso de introduccin a Stata Jordi Muoz (UAB)
Explorador/editor de datos
Esta ventana nos muestra nuestra base de datos. La podemos abrir con dos funciones:
editor o navegador. En la primera la podremos modificar mientras que en la segunda no
ser necesario. Es util generalmente para inspeccionar nuestra base de datos y ver que
informacin tenemos y cmo est organizada, aunque habitualmente no la usaremos.
4
Curso de introduccin a Stata Jordi Muoz (UAB)
Do-file editor
Esta ventana en realidad es un editor de textos simple, similar al bloc de notas de
windows, en el que podremos crear, modificar, abrir y ejectuar archivos de sintaxis de
Stata.
Log viewer
La ventana de resultados graba slo una pequea parte de los resultados que va
produciendo el programa, as que si queremos conservar todos los resultados de
nuestra sesin de trabajo debemos abrir un archivo log, que podremos ver y copiar
desde esta ventana.
Ayuda
La ventana de ayuda (que abrimos mediante el men o mediante la orden help en la
lnea de comando nos ofrece ayuda sobre todos los comandos y funciones de stata
Mens
Como cualquier programa windows, mediante los mens de la parte superior de la
pantalla, podemos abrir multitud de cuadros de dilogo que nos permitirn realizar una
parte sustancial de los procedimientos de Stata. Sin embargo, en la mayora de los
casos, utilizaremos la sintaxis y los mens sern slo subsidiarios.
Datos (.dta)
Los datos que utilizaremos en stata los guardaremos en formato .dta, que es el formato
propio de Stata. De todos modos, Stata tiene la capacidad de importar datos en muy
diversos formatos (Excel, SPSS, ASCII, CSV, etc) as que con un poco de trabajo
podremos abrir la mayora de las bases de datos.
5
Curso de introduccin a Stata Jordi Muoz (UAB)
Sintaxis (.do)
Los archivos de sintaxis se guardan en formato do, y por eso los conocemos cmo do-
files. En realidad son meros archivos de texto que podemos editar en mltiples
programas, pero nos sirven para conservar la sintaxis de nuestro trabajo.
Output (.log)
Si queremos conservar los resultados lo podemos hacer en un log file. Podemos elegir
dos tipos, aunque el ms recomendable es .log, que no tiene formato y nos garantiza
compatibilidad con otros editores de textos.
Extensiones (.ado)
Son uno de los puntos fuertes de Stata. Los usuarios, con relativa facilidad, pueden
escribir funciones y comandos nuevos y distirbuirlos gratuitamente. De este modo, la
potencia del programa se multiplica, ya que all donde la distribucin oficial no llega, s
lo hacen los usuarios. Durante el curso aprenderemos a buscar e instalar archivos ado
que nos permitiran realizar funciones que no vienen por defecto en el programa.
Stata es un programa de uso extendido, con lo cual disponemos de mltiples fuentes de ayuda
que, cuando sepamos utilizar, nos van a permitir aprender con rapidez nuevos procedimientos
y poder realizar operaciones nuevas. Estos recursos los usaremos constantemente, pero
durante el proceso de aprendizaje inicial van a resultar especialmente tiles.
Manual de Stata
Stata dispone de un muy buen manual en diversos volmenes temticos. Con el programa
viene una versin en formato .pdf, que podemos consultar desde el men help PDF
documentation. El manual tiene muchsima informacin, y cuando nos habituamos a su
estructura, podemos aprender muchsimo usndolo.
UCLA http://www.ats.ucla.edu/stat/stata/
6
Curso de introduccin a Stata Jordi Muoz (UAB)
UCLA dispone de una web con abundante informacin, muy bien explicada y organizada,
sobre aspectos muy diversos relacionados en el uso de Stata, desde manuales hasta
vdeos. Navegando por su web encontraremos informacin sobre la mayora de problemas
que tengamos.
www.stata.com
La web de Stata Corp. Tambin resulta de gran utilidad. Tiene un apartado de support
con enlaces, FAQs y una seccin especialmente til llamada Visual overview for
creating graphs, que veremos en su momento.
San Google
Como con (casi) todo en la vida, si nos queda alguna duda, siempre se la podemos
preguntar a google: las probabilidades de que nos la resuelva son muy altas.
Manuales
Existen muchos manuales de Anlisis de datos con Stata que podemos consultar. En
http://www.stata.com/bookstore/ estn referenciados la mayora de ellos. Algunos de
los ms tiles pueden ser los siguientes:
o Modesto Escobar Mercado, Enrique Fernndez Macas, and Fabrizio Bernardi
Anlisis de datos con Stata Centro de Investigaciones Sociolgicas, Cuadernos
Metodolgicos
o Philip H. Pollock III A Stata Companion to Political Analysis, 2nd Edition CQ
Press 2011
Como ya hemos dicho, en este curso usaremos de modo preferente la sintaxis para
relacionarnos con Stata. Antes de empezar a ver ejemplos de comandos bsicos, conviene
hacer una pequea introduccin sobre los elementos generales a tener en cuenta sobre la
sintaxis de Stata:
Abreviaciones en stata
Una caracterstica muy til de Stata pero que al principio puede provocar alguna
confusin, es que los comandos, opciones y nombres de variables se pueden abreviar.
La norma general es que se permite una abreviacin tan corta como sea posible para
identificar sin ambigedad el comando, opcin o variable. Por eso es habitual ver
sintaxis de stata en las que el comando summarize se substituye por sum, tabulate
por tab, la variable gender por gend, etc.
7
Curso de introduccin a Stata Jordi Muoz (UAB)
Mltiples variables
Otra caracterstica til del lenguaje de Stata es que mediante el signo * podemos
aplicar una orden a un conjunto de variables que compartan un prefijo. Adicionalmente,
separando los nombres de dos variables con un guin -, aplicaremos el comando a
todas las variables comprendidas entre ambas.
Do-files
Cuando escribamos do-files, existen una serie de smbolos que nos resultarn muy
tiles:
o Comentarios: en nuestros archivos de sintaxis, es conveniente introducir
numerosos comentarios para recordarnos lo que estamos haciendo cuando
retomemos el trabajo. Por supuesto, no queremos que Stata lea estos
elementos, que slo tienen carcter informativo para nosotros mismos. Para
eso, podemos usar los siguientes smbolos:
Un asterisco (*) al principio de la lnea, convierte toda la lnea en un
comentario (representado en verde)
El smbolo /* abre un comentario y */ lo cierra
o Saltos de lnea: Tres /// le dicen a Stata que el resto de la lnea es un
comentario y que el comando sigue en la lnea de abajo.
Inspeccin de datos
Ms adelante veremos cmo importar a Stata datos en formatos diversos, y como abrir
archivos desde la lnea de comandos. De momento,abriremos en Stata un archivo de datos
usando el men, como con cualquier otro programa de windows. Una vez tenemos abierto el
archivo de datos que nos interese, podemos empezar a trabajar con l. La primera tarea a
realizar ser la inspeccin de los datos. A continuacin presentamos algunos de los comandos
que nos permitiran realizar una inspeccin bsica de nuestra base de datos.
Browse
El comando browse nos permite abrir la ventana de exploracin de datos. Si
escribimos browse en la lnea de comandos, sin especificar nada ms, veremos la
base de datos completa. Si, en cambio, queremos restringir la inspeccin a un conjunto
de variables (u observaciones) slo tenemos que aplicarlo.
Summarize
El comando summarize nos proporciona informacin bsica sobre las variables que
nos interesen (nmero de observaciones (sin contar los casos perdidos), media,
desviacin tpica, mnimo y mximo. Ms adelante veremos ms opciones de este
comando.
Tabulate
En caso de variables categricas, o de cadena, la orden summarize no funcionar o
nos aportar informacin insuficiente o inapropiada. Por ello, usaremos el comando
tabulate, para generar tablas de frecuencias que nos informarn de la distribucin de la
variable elegida. Por defecto, nos muestra cuantos casos hay en cada categora, el
porcentaje que representan y el porcentaje acumulado.
8
Curso de introduccin a Stata Jordi Muoz (UAB)
Describe
El comando describe nos proporciona informacin sobre la(s) variable(s)
espeficicadas, como el tipo de variable, el formato en el que est guardada, su nombre
y etiqueta. Es til para resumir un conjunto de variables de nuestra base de datos.
Inspect
Inspect es un comando que produce mini-histogramas de las variables, til para ver
rpidamente su distribucin
Codebook
codebook es un comando ms completo que describe aunque precisamente por ese
motivo, los resultados que genera son menos compactos. Produce abundante
informacin sobre la varibale, los valores que toma, el rango, los casos perdidos, etc.
List
list es un comando de inspeccin de casos, que nos muestra los valores de las
variables especificadas para los casos que escojamos. Si no especificamos que
variables queremos, por defecto nos mostrar los valores de todas las variables, igual
que para los casos. Si trabajamos con encuestas no es un comando muy til porque no
tenemos inters en los casos particulares pero si nuestra base de datos fuese, por
ejemplo, de pases o de municipios, entonces s nos interesara.
Lookfor
A menudo trabajaremos con bases de datos grandes, con numerosas variables en las
que puede resultar difcil orientarnos. Un comando muy til para encontrar las variables
que buscamos, o explorar el contenido de una base de datos (siempre que est bin
etiquetada) es el comando lookfor, que funciona como una orden de bsqueda en
los nombres y etiquetas de las variables.
Subgrupos
Stata por defecto aplicar todas las rdenes a todos los casos de la base de datos. Sin
embargo, a menudo nos interesar trabajar solo con una submuestra de ellos, ya sea por
razones substantivas o de conveniencia para realizar clculos y transformaciones. Existen
diversas instrucciones para precisar a que parte de los datos aplicar cada orden.
If
if es la instruccin principal para definir subgrupos. Usando if tras un comando
aplicaremos la orden anterior slo al subgrupo definido por la expresin lgica que
precisemos: se realizar la operacin slo para aquellos casos que cumplan la
condicin definida por la expresin lgica. Como if trabaja con operadores lgicos, se
trata de un mecanismo muy potente que nos permite definir casi cualquier tipo de
subgrupo que podamos necesitar. As podemos hacer referencia a valores de la misma
variable a la que estemos aplicando la orden u otras variables de la base de datos.
Podemos combinar condiciones de diversos modos.
9
Curso de introduccin a Stata Jordi Muoz (UAB)
In
Si en lugar de definir una expresin lgica queremos aplicar la orden a un grupo de
observaciones definido por su nmero de posicin en la base de datos, usaremos la
expresin in en lugar de if. Para indicar entre que observaciones queremos aplicar la
orden usaremos los nmeros de orden separados por una barra /
By
By sirve, no para filtrar los casos como if, sino para segmentar la ejecucin de la
orden y hacerlo por los grupos definidos por la variable que acompae a by. El
operador by es uno de los pocos elementos en Stata que rompe con la estructura
bsica de la sintaxis, puesto que se escribe delante del comando y no despus como el
resto. As, escribiremos by variable (variable2) : comando
Bysort
By requiere que la base de datos est ordenada por la(s) variables(s) que usemos, por
economa computacional. A menudo esto no es as, y entonces tenemos dos opciones:
o ordenar previamente la base de datos usando la instruccin sort, o combinar ambas
instrucciones en un solo comando usando el comando bysort, que se usa
exactamente igual que by.
Valores perdidos
Prcticamente siempre nuestros datos sern incompletos. Es decir: tendremos observaciones
para las cuales no dispondremos de toda la informacin de todas las variables. En esos casos
hablamos de casos perdidos o valores perdidos. Con Stata podemos trabajar con ellos de
diversos modos.
Definicin
Para definir valores perdidos usaremos los comandos de recodificacin que veremos
en la prxima sesin, dando el valor . (o .a, etc.) a la variable.
Tipos de variables
Stata trabaja con distintos tipos de variables, de momento vamos a fijarnos en las dos grandes
categorias de variables que podemos encontrar: numricas y de texto o de cadena. Para saber
qu tipo de variable es cada una, podemos usar el comando describe, o ver la ventana
properties si la tenemos abierta.
Numricas
Las variables numricas en stata nos permiten realizar la mayora de operaciones
normales, y en el caso que sean variables categricas, podemos asociar etiquetas de
10
Curso de introduccin a Stata Jordi Muoz (UAB)
Cadena (string)
Las variables de cadena (denominadas por Stata str) contienen texto y no nmeros,
con lo cual el tipo de operaciones que podremos realizar con ellas es limitado.
11