Curso de Introduccion Al Paquete Stata - 9 - 1
Curso de Introduccion Al Paquete Stata - 9 - 1
Curso de Introduccion Al Paquete Stata - 9 - 1
CIENCIAS HUMANAS
Y SOCIALES
Stata
(versión 9.1 SE)
Stata es una aplicación desarrollada para realizar análisis estadísticos sobre muestras
aleatorias de poblaciones. Hay quien señala una fuerte especialización en problemas
asociados con la econometría.
Si bien tiene una interface gráfica de usuario (GUI), en la práctica es mucho más
cómodo utilizar el potente a la vez que sencillo lenguaje de programación que incluye.
Este lenguaje de programación requiere un cierto esfuerzo inicial hasta que el usuario
empiece a acostumbrarse con los comandos; también suministra un sistema de ayuda
realmente detallado y completo.
Nota:
Genero ¡= genero
Este entorno puede ser configurado (hasta cierto punto) para adaptarlo a nuestras
necesidades.
Nota:
Ejemplo:
cd d:\datos\enuesta
Para solicitar ayuda sobre un tema, por ejemplo regresión, sólo tenemos que escribir la
orden help seguida de la palabra clave. Automáticamente se abre el visor de ayuda
mostrando un completísimo informe, incluso con ejemplos y temas relacionados.
Ejemplo
help probit
La aplicación Stata posee un lenguaje de programación avanzado que respeta unas normas
de sintaxis, al igual que otros lenguajes de programación como PASCAL o C++; quienes
estén familiarizados con estos lenguajes les resultará muy sencillo asimilar el lenguaje de
Stata.
Cualquier orden en Stata (con muy pocas excepciones) posee la siguiente sintaxis:
[prefix :] command [varlist] [=exp] [if] [in] [weight] [using filename] [, options]
Ejemplos:
Realiza una tabla de contingencia del género y la edad sólo para personas de más de 1,70
de altura
Realiza una tabla de contingencia del género y la edad solo para personas de más de 1,70
de altura utilizando únicamente los 100 primeros casos de la base de datos
table genero edad if altura > 1.70 in 1/100 [weight = pondera] , chi
En este comando, además, se indica que los datos van ponderados por la variable pondera
y se solicita que realice el test Chi cuadrado
display _N
Tipos de datos
Tipo menor valor mayor valor valor mas cercano de cero bytes
byte -127 100 +/-1 1 1
int -32,767 32,74 +/-1 2
long -2,147,483,647 2,147,483,620 +/-1 4
-
float 1.70141173319*10^38 1.70141173319*10^36 +/-10^-36 4
-
double 8.9884656743*10^307 8.9884656743*10^307 +/-10^-323 8
Para cargar un fichero de datos en formato Stata ( extensión *.dta ) tenemos dos
opciones: bien realizar esta operación desde la barra de menús, o bien mediante una
instrucción escrita en la ventana command.
La sintaxis de este comando es bastante flexible, permitiendo controlar qué parte del
fichero se desea cargar.
infile obs sexo carrera edad nota horast riesgo trabajo using "C:\creditos.dat" , clear
Nota
En principio, Stata no guarda las modificaciones realizadas en la base de datos; por ello,
si deseamos guardar el fichero de datos con las posibles modificaciones que hayamos
realizado, entonces utilizaremos el comando save
Ejemplo:
Para ordenar el dataset en función a una serie de variables se utiliza el comando sort
sort by iden
sort by hogar iden
Es muy común en el trabajo diario combinar varias bases de datos. En este manual
vamos a mostrar dos operaciones básicas: añadir variables y añadir casos. Las
instrucciones asociadas a estas operaciones son merge y append.
La instrucción Merge
Merge se utiliza para añadir variables, pero no observaciones. Los ficheros de datos
deben de tener una variable de identificación y, además, deben de estar ordenados por
dicha variable.
Ejemplo:
Data1 Data2
use data1
merge obs using data2
y obtenemos:
La instrucción Append
Se utiliza para añadir observaciones. La sintaxis de este comando es mucho más
sencilla.
Dataset 1 Dataset 2
use data1
append using data2
Si deseamos construir una nueva base de datos que condense la información original,
podemos utilizar el comando collapse
Ejemplo
Supongamos que tenemos una base de datos de hogares y en cada hogar se ha realizado
un muestreo de personas. Deseamos construir una base de datos donde la unidad
muestral sea el hogar, con una variable edad que represente la edad media de las
personas que viven en dicho hogar.
Resumen
Una vez cargada la base de datos que deseamos analizar es muy común modificarla,
creando nuevas variables o bien transformado las existentes.
Básicamente existen tres formas de crear y modificar las variables contenidas en la base
de datos:
a) Generar nuevas variables en función a expresiones matemáticas ya existentes.
b) Reemplazar algunos o todos los valores de una variable en función a una regla.
c) Agrupar los valores en intervalos prefijados, es decir recodificar.
Ejemplo
Nota
Si la variable a crear ya existe, el sistema dará un mensaje de error, pues este comando no
permite cambiar o alterar los valores de una variable ya existente. Si lo que deseamos es
alterar los valores, entonces deberemos utilizar el comando replace , que tiene la misma
sintaxis que generate
+
-
*
/
^
Funciones matemáticas
abs(x)
acos(x) arcocoseno de x; -1 < x < 1
asin(x) arcoseno de x; -1 < x < 1
atan(x) arcotangente de x
ceil(x) retorna el entero mas pequeño mayor que x; n-1<x<=n
comb(n,k) numero de combinaciones posibles de n elementos tomados de k en k
cos(x) coseno de x
exp(x) exponencial de x, la function inversea es ln(x)
int(x) retorna el enetero de truncar x; int(1.2) = 1, and int(-1.2) = -1
ln(x) logaritmo en base e
log10(x) logaritmo en base 10
logit(x) logit de x, logit(x) = ln(x/(1-x))
max(x1,x2,...,xn) retorna el maximo de x1, x2, ..., xn
min(x1,x2,...,xn) retorna el minimo de x1, x2, ..., xn
mod(x,y) retorna el modulo de x respecto de y, mod(x,y) = x - y*int(x/y)
sin(x) seno de x
sqrt(x) raiz cuadrada de x
sum(x) suma acumulada de x
tan(x) tangente de x
Nota
El comando egen es una extensión del comando generate . El comando egen genera
variables en función de valores de otras variables; por ejemplo:
Genera una variable que contiene la desviación estándar de la edad en cada género.
c) Recodificación de variables
Para recodificar variables, tanto continuas como discretas, se puede utilizar el comando
recode .
Algunos ejemplos
Cuando se está trabajando con series temporales es habitual tener que utilizar el
operador de retardos.
La forma de generar retardos de orden k es la siguiente:
Nota
gen dtempk=temp-temp[_n-k]
En general, todo análisis estadístico, por complejo que sea, empieza por un completo
análisis descriptivo. A continuación presentamos los comandos más utilizados.
Ejemplo:
codebook salini
Ejemplo:
sumamarize salini salario educ
tabulate clima
table sexo minoría , cont ( mean salario) col row format (%9.1f)
Ejemplo:
table region , cont (mean pib_cap sd pic_cap count pib_cap) format (%8,2f)
Introducción
Por ejemplo:
reg altura edad peso
Con los parámetros del modelo estimados es habitual realizar una serie de diagnósticos
para contrastar si se cumplen determinadas hipótesis.
Ejemplo:
Introducción
Por ejemplo:
Ejemplo:
estat class
lsens
Lroc
1.00 0.75
Sensitivity/Specificity
0.25 0.50
0.00
Sensitivity Specificity