Estadistica Ii - Con Lenguaje R

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 10

PROBABILIDAD Y ESTADISTICA I

Resumen de los comandos básicos del programa R


Introducción de datos: Para introducir un conjunto de datos (muestra) con el nombre
‘datos’ escribimos

datos = c(20, 8, 10.5, 7.3, 10, 5.8, 13, 9.1, 25, 3.6, 4, 9, 12, 14.2, 9.1) #crea una muestra
de valores

mean(datos) #Calcula la Media aritmética


median(datos) #Mediana
modes(datos) #Antes calcular la Moda, previamente se debe instalar el
paquete
“modes”
var(datos) #Calcula la Varianza
sd(datos) #Calcula la Desviación estándar
min(datos) #Localiza el menor valor en la muestra(mínimo)
max(datos) #Localiza el mayor valor en la muestra(máximo)
range(datos) #Rango, o sea la distancia entre el menor y mayor valor en la
muestra
length(datos) #Determina el número de datos en la muestra
quantile(datos, 0.25) #Calcula el primer Cuartil (Q1)
quantile(datos, 0.50) # Calcula el segundo Cuartil (Q2)
quantile(datos, 0.75) # Calcula el tercer Cuartil (Q3)
sort(datos) #Ordena el vector de datos de menor a mayor
sum(datos) #Suma de todos los datos de una muestra
prod(datos) #Multiplica todos los datos de una muestra
sqrt(datos) #Raíz cuadrada del vector datos o de una constante
summary(datos) #Comando de resumen (datos mínimo, máximo y cuartiles,...)
help(duda) #Nos explica cómo usar el comando “hist”.
cov(x,y) #Covarianza
cor(x,y) #Correlación

Funciones para crear vectores:

Función seq(a,b by c) # genera secuencias de números reales, donde el primer


argumento indicará el principio de la secuencia, el
segundo el final y el tercero el incremento que se debe
usar para generar la secuencia.
Ejemplo
> seq(1, 9, by = 2) # crea un vector con elementos impares del 1
al 9.
[1] 1 3 5 7 9
> seq(0, 1, length.out = 11) #Crea 11 números reales entre 0 y 1
[1] 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
> seq(stats::rnorm(20)) # Genera números enteros de 1 hasta 20
[1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
> seq(1, 9, by = pi) #Genera valores con incrementos de 3.14115
[1] 1.000000 4.141593 7.283185
> seq(1, 6, by = 3)
[1] 1 4
> seq(1.575, 5.125, by = 0.05)
[1] 1.575 1.625 1.675 1.725 1.775 1.825 1.875 1.925 1.975 2.025 2.075 2.125
[13] 2.175 2.225 2.275 2.325 2.375 2.425 2.475 2.525 2.575 2.625 2.675 2.725
[25] 2.775 2.825 2.875 2.925 2.975 3.025 3.075 3.125 3.175 3.225 3.275 3.325
[37] 3.375 3.425 3.475 3.525 3.575 3.625 3.675 3.725 3.775 3.825 3.875 3.925
[49] 3.975 4.025 4.075 4.125 4.175 4.225 4.275 4.325 4.375 4.425 4.475 4.525
[61] 4.575 4.625 4.675 4.725 4.775 4.825 4.875 4.925 4.975 5.025 5.075 5.125
> seq(17) # igual que 1:17, o incluso mejor
seq_len
[1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Función REP
rep(a; b) # crea un vector con b elementos idénticos al valor a.

Ejemplo
> rep(1:3, 4) # repite la secuencia 1 2 3, 4 veces
[1] 1 2 3 1 2 3 1 2 3 1 2 3

> rep(3,10) # repite el elemento 3 diez veces


[1] 3 3 3 3 3 3 3 3 3 3

Otras funciones
> abs(-9) # devuelve el valor absoluto
[1] 9

> sequence(c(5,3)) # se ha creado una secuencia del vector 1:5 y del 1:3
[1] 1 2 3 4 5 1 2 3

> sin(-2*pi) # esta función devuelve el seno de -2pi


[1] 2.449213e-16

> log(100) # esta función devuelve el logaritmo neperiano de 100


[1] 4.60517

>log10(100) # esta función devuelve el logaritmo decimal de 100


[1] 2

> exp(3) # esta función devuelve el valor de 𝑒 3


[1] 20.08554
round(a, b) # esta función redondea el argumento a con b decimales
> round(2.345632)
[1] 2
> round(2.3456432, 3)
[1] 2.346

> pi # devuelve el valor π, se escribe simplemente pi

Factorial(num) # calcula el factorial de un numero natural


Ejemplo:
>factorial(5)
[1] 120
INTERVALOS DE CONFIANZA
RESUELTOS CON R

Intervalo de confianza para la media en una población con varianza 𝝈𝟐


conocida
𝝈 𝝈
̅ − 𝒛𝟏−𝜶⁄𝟐
𝑷 [𝑿 ̅ + 𝒛𝟏−𝜶⁄𝟐
<𝝁<𝑿 ]=𝟏−𝜶
√𝒏 √𝒏

8.14. Se sabe que la desviación típica de los volúmenes de las botellas de 710 ml de agua
mineral embotellada por una empresa es de 6 ml. Se ha tomado una muestra aleatoria de 90
botellas y se han medido.
a) Halle el factor de fiabilidad de un intervalo de confianza al 92 por ciento de la media
poblacional de los volúmenes.
b) Calcule el error típico de la media.
c) Calcule la amplitud de un intervalo de confianza al 92 por ciento de la media
poblacional de los volúmenes
d) Calcule el intervalo de confianza con un nivel de confianza del 92%, sabiendo que la
media muestral es 42.

SOLUCION:
>sigma<-6
>n<-90
>alfa<-0.08
a) >cuantil<-qnorm(1-alfa/2)
>cuantil
[1] 1.750686
b) >errortipico<-sigma/sqrt(n)
>errortipico
[1] 0.6324555
c) >me<-cuantil*errortipico
>w<-2*me
> w
[1] 2.214462
d) >media<-42
> liminf<-media-qnorm(1-alfa/2)*sigma/sqrt(90)
> liminf
[1] 40.89277
> limsup<-media+qnorm(1-alfa/2)*sigma/sqrt(90)
> limsup
[1] 43.10723
El intervalo de confianza es: [40.89277; 43.10723]

Intervalo de confianza para la media en una población con varianza 𝝈𝟐


desconocida
𝒔 𝒔
̅ − 𝑡(𝑛−1)
𝑷 [𝑿 ̅ + 𝑡(𝑛−1)
<𝝁<𝑿 ]=𝟏−𝜶
1−𝛼⁄ 1−𝛼⁄
2
√𝒏 2
√𝒏

EJEMPLOS:

8.26. Preocupa la velocidad a la que se conduce en un determinado tramo de una autopista.


El radar indica la siguiente velocidad de una muestra aleatoria de siete automóviles en
kilómetros por hora: 79 73 68 77 86 71 69
Suponiendo que la población sigue una distribución normal, halle el margen de error del
intervalo de confianza al 95 por ciento de la velocidad media de todos los automóviles que
circulan por este tramo de la autopista y el intervalo de confianza para la media poblacional.
Además construir un intervalo de confianza del 95%.

SOLUCION:
>datos<-c(79, 73, 68, 77, 86, 71, 69)
>alfa<-0.05
> me<-qt(1-alfa/2, 8, lower.tail=T)*sd(datos)/sqrt(7)
>me
[1] 5.574398
>t.test(datos, conf.level=0.95)

One Sample t-test

data: datos
t = 30.908, df = 6, p-value = 7.617e-08
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
68.79927 80.62931
sample estimates:
mean of x
74.71429

9.12 Una muestra aleatoria de 10 barras energéticas de chocolate de cierta marca tiene, en
promedio, 230 calorias por barra y una desviación estándar de 15 calorías. Construya un
intervalo de confianza del 99% para el contenido medio verdadero de calorías de esta marca
de barras energéticas de chocolate. Suponga que la distribución del contenido calórico es
aproximadamente normal.

SOLUCION:
Como no se cuenta con una muestra de valores, utilizaremos la fórmula del intervalo para este caso, entonces
alfa<-0.01
media<-230
n<-10
s<-15
La función que devuelve los cuantiles de t-Student es:
qt(p, gl, lower.tail=T)
p: vector de valores
gl: grados de libertad
lower.tail: valor de la cola derecha

> alfa<-0.01
> cuantil<-qt(1-alfa/2, 9, lower.tail=T)
> cuantil
[1] 3.249836

> media<-230
> n<-10
> s<-15
> liminf<-media-cuantil*s/sqrt(n)
> liminf
[1] 214.5847
> limsup<-media+cuantil*s/sqrt(n)
> limsup
[1] 245.4153
P[214.58<μ<245.42]=0.99

Intervalo de confianza para la proporción P

𝒑̂𝒒
̂ ̂𝒒
𝒑 ̂
̂ − 𝒛𝟏−𝜶⁄𝟐 √
𝑷 [𝒑 ̂ + 𝒛𝟏−𝜶⁄𝟐 √ ] = 𝟏 − 𝜶
<𝑷<𝒑
𝒏 𝒏

EJEMPLOS:

8.39. Suponga que las autoridades sanitarias creen que este año la epidemia de gripe será
menor que durante el mismo periodo del año pasado. Se ha preguntado a los residentes de
una zona metropolitana si esta noticia los disuadiría de vacunarse contra la gripe. Si sólo 40
personas de una muestra aleatoria de 246 declararan que ahora no se vacunarían, estime con
una confianza del 98 por ciento la proporción de todos los residentes de la zona metropolitana
que ahora consideran innecesario vacunarse contra la gripe.

SOLUCION:
>n<-246
>x<-40
>alfa<-0.02
> prop.test(x,n,conf.level=0.98)

1-sample proportions test with continuity correction

data: x out of n, null probability 0.5


X-squared = 110.67, df = 1, p-value < 2.2e-16
alternative hypothesis: true p is not equal to 0.5
98 percent confidence interval:
0.1135176 0.2267402
sample estimates:
p
0.1626016
8.35. En un estudio reciente de una biblioteca universitaria, se preguntó a los estudiantes si
pensaban que la biblioteca tenía una colección suficiente de libros. Los resultados de la
encuesta se encuentran en el fichero de datos llamado Library.
a) Halle una estimación puntual insesgada de la proporción de estudiantes que piensa que la
colección es suficiente (las respuestas se han codificado de tal forma que 1 significa «sí» y
2, «no»).
b) Halle el intervalo de confianza al 90 por ciento de la proporción de estudiantes que piensan
que la colección de libros de la biblioteca es suficiente.

SOLUCION:
># De acuerdo al archivo Library existen:
> n<-356
>x<-136
>prop.test(x,n,conf.level=0.90)
1-sample proportions test with continuity correction

data: x out of n, null probability 0.5


X-squared = 19.351, df = 1, p-value = 1.088e-05
alternative hypothesis: true p is not equal to 0.5
90 percent confidence interval:
0.3393409 0.4265425
sample estimates:
p
0.3820225

Intervalo de confianza para la varianza 𝝈𝟐


(𝒏 − 𝟏)𝒔𝟐 (𝒏 − 𝟏)𝒔𝟐
[ < 𝝄𝟐 < ]
𝝌𝟐 𝒂𝒍𝒇𝒂⁄ 𝝌𝟐𝒂𝒍𝒇𝒂
(𝟏− 𝟐, (𝒏−𝟏)) ( ⁄𝟐, (𝒏−𝟏))

𝒂𝒍𝒇𝒂⁄ (𝒏
qchisq(𝟏 − 𝟐, − 𝟏))
EJEMPLO:

9.71W Un fabricante de baterías para automóvil afirma que sus baterías duraran, en
promedio, 3 años con una varianza de 1 año. Suponga que 5 de estas baterías tienen
duraciones de 1.9, 2.4, 3.0, 3.5 y 4.2 años y con base en esto construya un intervalo de
confianza del 95% para σ2, después decida si la afirmación del fabricante de que σ2 = 1 es
válida. Suponga que la población de duraciones de las baterñias se distribuye de forma
aproximadamente normal.

SOLUCION:
> muestra<-c(1.9, 2.4, 3.0, 3.5, 4.2)
> n<-length(muestra)
> s2<-var(muestra)
> alfa<-0.05
> linf<-(n-1)*s2/qchisq(1-alfa/2,n-1)
> lsup<-(n-1)*s2/qchisq(alfa/2,n-1)
> ic<-c(linf, lsup)
> ic
[1] 0.2925528 6.7297174
El intervalo de confianza al 95% es: [0.293< σ2< 6.729]

9.72W Una muestra aleatoria de 20 estudiantes obtuvo una media de 𝑋̅= 72 y una varianza
de s2=16 en un examen universitario de colocación en matemáticas. Suponga que las
calificaciones se distribuyen normalmente y con base en esto construya un intervalo de
confianza del 98% para σ2.

SOLUCION:
> n<-20
> s2<-16
> alfa<-0.02
> linf<-(n-1)*s2/qchisq(1-alfa/2,n-1)
> lsup<-(n-1)*s2/qchisq(alfa/2,n-1)
> ic<-c(linf, lsup)
> ic
[1] 8.399909 39.828477

El intervalo de confianza al 95% es: [8.400< σ2< 39.828]

Intervalo de confianza para la diferencia de medias en dos poblaciones


normales relacionadas (Muestras pareadas)
𝒔 𝒔
̅ − 𝒕𝟏−𝜶⁄𝟐
𝑷 [𝒅 ̅ + 𝒕𝟏−𝜶⁄𝟐
< 𝝁𝑫 < 𝒅 ]=𝟏−𝜶
√𝒏 √𝒏
EJEMPLOS:

9.4. Se elige una muestra aleatoria de 10 pares de viviendas idénticas de una gran ciudad y
se instala un sistema pasivo de calefacción solar en uno de los miembros de cada par. Se
obtienen las facturas totales de combustible (en dólares) de tres meses de invierno de estas
casas que se muestran en la tabla adjunta. Suponiendo que las poblaciones siguen una
distribución normal, halle el intervalo de confianza al 90 por ciento de la diferencia entre las
dos medias poblacionales.
Sin Con Sin Con
Calefacción calefacción calefacción calefacción
Par solar solar Par solar solar
1 485 452 6 386 380
2 423 386 7 426 395
3 515 502 8 473 411
4 425 376 9 454 415
5 653 605 10 496 441

SOLUCION:
> sin<-c(485,423,515,425,653,386,426,473,454,496)
> con<-c(452,386,502,376,605,380,395,411,415,441)
> t.test (sin, con, paired = TRUE, conf.level = 0.90)
Paired t-test

data: sin and con


t = 6.68, df = 9, p-value = 9.058e-05
alternative hypothesis: true difference in means is not equal
to 0
90 percent confidence interval:
27.06425 47.53575
sample estimates:
mean of the differences
37.3

El intervalo de confianza al 05% es: [27.064 <𝝁𝑫 < 47.536]

9.45W El gobierno otorgo fondos para los departamentos de agricultura de 9 universidades


para probar las capacidades de cosecha de dos nuevas variedades de trigo. Cada variedad se
siembra en parcelas con la misma área en cada universidad, y las cosechas, en kilogramos
por parcela, se registran como sigue:
Universidad
Variedad 1 2 3 4 5 6 7 8 9
1 38 23 35 41 44 29 37 31 38
2 45 25 31 38 50 33 36 40 43
Calcule un intervalo de confianza del 95% para la diferencia media entre las cosechas de
las dos variedades, suponiendo que las diferencias entre las cosechas se distribuyen de
forma aproximadamente normal. Explique por qué es necesario el pareado en este
problema.

SOLUCION:
> variedad1<-c(38, 23, 35, 41, 44, 29, 37, 31, 38)
> variedad2<-c(45, 25, 31, 38, 50, 33, 36, 40, 43)
> t.test(variedad2, variedad1, paired = TRUE, conf.level = 0.95)

Paired t-test

data: variedad2 and variedad1


t = 1.8209, df = 8, p-value = 0.1061
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.7400393 6.2955948
sample estimates:
mean of the differences
2.777778
El intervalo de confianza al 05% es: [074 <𝝁𝑫 < 6.30]

Intervalo de confianza para la diferencia de medias en dos poblaciones


normales independientes
a) Si las varianzas son desconocidas pero iguales

1 1 1 1
𝑃 [[(𝑋̅1 − 𝑋̅2 ) − 𝑡(𝑛1+𝑛2−2; 2
1−𝛼⁄2) √𝑆𝑃 [ + ] < 𝜇1 − 𝜇2 < (𝑋̅1 − 𝑋̅2 ) + 𝑡(𝑛1+𝑛2−2; 2
1−𝛼⁄2) √𝑆𝑃 [ + ]]
𝑛1 𝑛1 𝑛1 𝑛1

= 1 − 𝛼]

(𝑛1 − 1)𝑆12 + (𝑛2 − 1)𝑆22


𝑆𝑃2 =
𝑛1 + 𝑛2 − 2

También podría gustarte