Taller 4

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 11

Taller 4

Lina Buitrago PhD(c), [email protected]


Juan Sosa PhD, [email protected]

1. Determinar y justificar si las siguientes afirmaciones son Falsas o Verdaderas.

 La mitad de las observaciones de una muestra es menor o igual que la media.


FALSO. Considere el conjunto de
datos x1=0,x2=30,x3=30,x4=30x1=0,x2=30,x3=30,x4=30. En este caso la media
es x¯=22.5x¯=22.5, pero tan solo una observación es menor o igual que 22.5.
# datos
x <- c(0, 30, 30, 30)
# promedio
mean(x)
## [1] 22.5

 La media de un conjunto de datos es el valor que ocurre con más frecuencia.


FALSO. Considere el conjunto de datos x1=0,x2=3,x3=3x1=0,x2=3,x3=3. En ester
caso la media es x¯=2x¯=2, pero el valor que ocurre con más frecuencia es 3.
# datos
x <- c(0, 3, 3)
# promedio
mean(x)
## [1] 2

 La media de una muestra es igual a una de las observaciones de la muestra.


FALSO. Considere el conjunto de datos x1=0,x2=1x1=0,x2=1. En ester caso la
media es x¯=0.5x¯=0.5, pero el valor de la media no coincide con ninguna de las
observaciones.
 Es preferible utilizar un instrumento de medición que genere observaciones con
una desviación estándar grande.
FALSO. Si un instrumento de medición genera observaciones con una desviación
estándar grande, entonces tales observaciones tienen un alto grado de
heterogeneidad respecto al promedio, y en consecuencia las observaciones son
poco precisas.
 Por lo general, la media y la mediana de un conjunto de datos son valores muy
similares.
FALSO. La media y la mediana de un conjunto de datos son valores muy similares,
siempre que la distribución de los datos sea aproximadamente simetrica. Si la
distribución de los datos es sesgada positivamente(negativamente), entonces la
media es mayor(menor) que la mediana.

2. Yanowitz, en In-use Emissions From Heavy-Duty Diesel Vehicles, investigó los


factores que afectan las emisiones de un vehículo diesel, y obtuvo datos acerca de
la emisión de partículas para una muestra de 138 vehículos conducidos en bajas
altitudes (cerca del nivel del mar) y para una muestra de 62 vehículos conducidos a
grandes altitudes (aproximadamente a una milla del nivel del mar). Todos los
vehículos se fabricaron entre 1991 y 1996. Las muestras contenían proporciones
parecidas de vehículos de bajo y alto kilometraje. Los datos, en unidades de
gramos de partículas por galón de combustible consumido, se presentan en el
archivo EP.txt. En esta base de datos, “emisión” es la variable emisión de
partículas (en unidades de gr/gal) y “altitud” es la variable altitud a la que se
conduce el vehículo (0 = baja; 1 = alta). A grandes altitudes, la presión barométrica
es más baja, así la razón de eficiencia aire/combustible también es más baja. Por
esta razón se pensó que la emisión de partículas podría ser mayor a grandes a
altitudes.

 Completar la siguiente tabla:

Altitud
nn Mín. Cuar. 1 Cuar. 2 Cuar. 3 Máx. M

Baja 138 0.250 1.472 3.180 5.265 11.230 3.71


Alta 62 1.110 3.487 5.750 7.755 23.380 6.59
DE: Desviación Estándar. CV: Coeficiente de Variación.

# establecer el directorio de trabajo


setwd(dir = "C:/Users/Juan
Camilo/Dropbox/UN/probabilidad_y_estadistica_2021_2/")

# importar base de datos en el objeto llamado base_de_datos


base_de_datos <- read.table(file = "EP.txt", header = TRUE)
# extraer los valores de emision con altitud baja en el objeto llamado
baja
baja <- base_de_datos$emision[base_de_datos$altitud == 0]

# extraer los valores de emision con altitud alta en el objeto llamado


alta
alta <- base_de_datos$emision[base_de_datos$altitud == 1]

# tamaños de la muestra
n_baja <- length(baja)
n_baja
## [1] 138
n_alta <- length(alta)
n_alta
## [1] 62
# medida de tendencia
summary(baja)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.250 1.472 3.180 3.715 5.265 11.230
summary(alta)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.110 3.487 5.750 6.596 7.755 23.380
# medidas de dispersión
sd(baja)
## [1] 2.55804
sd(alta)
## [1] 4.518998
sd(baja)/mean(baja)
## [1] 0.6886513
sd(alta)/mean(alta)
## [1] 0.685065

 Comparar los resultados para determinar si los datos apoyan el supuesto de que la
emisión de partículas podría ser mayor a grandes a altitudes.

Las medidas de tendencia y localización indican que la emisión de partículas podría ser
mayor a grandes a altitudes, dado que en grandes alturas estas medidas son claramente
superiores. Sin embargo, ambos conjuntos de datos tienen una alta dispersión respecto al
promedio, dado que el CV es aproximadamente 68% en ambos casos. Por lo tanto, se
recomienda un análisis más profundo usando métodos gráficos e inductivos.

3. El artículo Computing and Using Rural versus Urban Measures in Statistical


Applications (C. Goodall, K. Kafadar y J. Tukey, The American Statistician, 1998:101-
111) analiza los métodos para medir el grado a los cuales los condados de los
Estados Unidos son urbanos más que rurales. La siguiente tabla de frecuencias
presenta las frecuencias de población de los condados de los Estados Unidos.

 Completar la distribución de frecuencias (frecuencia relativa y frecuencias


acumuladas).

Población (en miles) Marcas de clase No. de condados F. Relativa (%) F. A. Acum

0.064 – 5.405 2.735 305 9.94 305

5.405 – 8.780 7.092 294 9.58 599

8.780 – 12.417 10.598 331 10.79 930

12.417 – 16.384 14.401 286 9.32 1216

16.384 – 21.619 19.002 306 9.97 1522

21.619 – 28.526 25.072 273 8.90 1795

28.526 – 40.342 34.434 334 10.89 2129

40.342 – 65.536 52.939 326 10.63 2455

65.536 – 131.072 98.304 290 9.45 2745

131.072 – 8388.608 4259.840 323 10.53 3068

Total N.A. 3068 100 N.A.

# limite inferior
li <-
c(0.064,5.405,8.780,12.417,16.384,21.619,28.526,40.342,65.536,131.072)
# limite superior
ls <-
c(5.405,8.780,12.417,16.384,21.619,28.526,40.342,65.536,131.072,8388.6
08)
# marcas de clase
yj <- (li + ls)/2
yj
## [1] 2.7345 7.0925 10.5985 14.4005 19.0015 25.0725
34.4340
## [8] 52.9390 98.3040 4259.8400
# frecuencias absolutas
nj <- c(305,294,331,286,306,273,334,326,290,323)
# tamaño de la muestra
n <- sum(nj)
n
## [1] 3068
# frecuencias relativas
hj <- nj/n
100*hj
## [1] 9.941330 9.582790 10.788787 9.322034 9.973924 8.898305
10.886571
## [8] 10.625815 9.452412 10.528031
# frecuencias absolutas acumuladas
Nj <- cumsum(nj)
Nj
## [1] 305 599 930 1216 1522 1795 2129 2455 2745 3068
# frecuencias relativas acumuladas
Hj <- Nj/n
100*Hj
## [1] 9.94133 19.52412 30.31291 39.63494 49.60887 58.50717
69.39374
## [8] 80.01956 89.47197 100.00000
 Calcular la media, la mediana, la moda, y el coeficiente de variación.

Las fórmulas para calcular estas medidas son:


Medida Valor

Media 474.70

Mediana 21.92

Moda 38.97

CV 273.61%

Media:

Media(y)≈1n∑j=1mnjyj=∑j=1mhjyjMedia(y)≈1n∑j=1mnjyj=∑j=1mhjyj

# media
media <- sum(nj*yj)/n
media
## [1] 474.7069
# otra manera
sum(hj*yj)
## [1] 474.7069

Mediana:

Mediana(y)≈y′k−1+ak(0.5n−Nk−1nk)Mediana(y)≈yk−1′+ak(0.5n−Nk−1nk)

donde kk es el índice del primer intervalo cuya frecuencia relativa acumulada es mayor
o igual a 50%50%. En este caso k=6k=6.
# indice primer intervalo tal que Hj > 0.5
k <- 6
# mediana
mediana <- li[k] + (ls[k]-li[k])*((0.5*n - Nj[k-1])/nj[k])
mediana
## [1] 21.9226

Moda:
Moda(y)=y′k−1+ak(nk−nk−12nk−nk−1−nk+1)Moda(y)=yk−1′
+ak(nk−nk−12nk−nk−1−nk+1)
donde kk es el índice del(de los) interlo(s) con mayor frecuencia. En este caso k=7k=7.
# indice intervalo con mayor frecuencia
k <- 7
# moda
moda <- li[k] + (ls[k]-li[k])*((nj[k] - nj[k-1])/(2*nj[k] - nj[k-1] -
nj[k+1]))
moda
## [1] 38.97203

Varianza:

Varianza(y)=1n−1∑j=1mnj(yi−y¯)2Varianza(y)=1n−1∑j=1mnj(yi−y¯)2

donde yjyj y njnj son las marcas de clase y las frecuencias absolutas, respectivamente.


Así, se tiene que el coeficiente de variación correspondiente es:
CV(y)=∣∣∣Varianza(y)−−−−−−−−−√Media(y)∣∣∣∗100%.CV(y)=|
Varianza(y)Media(y)|∗100%.

# varianza
varianza <- sum(nj*(yj - media)^2)/(n-1)
abs(sqrt(varianza)/media)*100
## [1] 273.6193

 Comentar los resultados del numeral anterior.

Dados los valores de las medidas estadísticas, se observa que la distribución de la


población tiene un sesgo positivo. Este sesgo se puede ver algo enmascarado por los
valores de las frecuencias relativas porque estas parecen tomar valores más o menos
uniformes, pero se debe notar que las amplitudes de los intervalos no son iguales. Por eso
se recomienda calcular la densidad de cada intervalo dj=hj/ajdj=hj/aj y hacer el gráfico
correspondiente (denominado histograma) como sigue:
# amplitudes
aj <- ls - li
aj
## [1] 5.341 3.375 3.637 3.967 5.235 6.907 11.816
25.194
## [9] 65.536 8257.536
# densidades
dj <- hj/aj
dj
## [1] 0.0186132370 0.0283934521 0.0296639744 0.0234989511
0.0190523866
## [6] 0.0128830246 0.0092134149 0.0042175974 0.0014423236
0.0000127496
# histograma
barplot(height = dj, border = "gray20", col = "gray95", ylab =
"Densidad", xlab = "Población (miles)")

 
La amplitud de los intervalos de este gráfico no están a escala y se representan con un
valor constante para facilitar la visualización, dado que las últimas categorías tienen una
amplitud muy grande.
De otra parte, se observa que la dispersión de la distribución de la población es muy alta
dado que el CV >> 15%, lo cual se puede explicar por el sesgo que presenta la distribución.

4. Una muestra de temperaturas para iniciar una cierta reacción química dio un
promedio muestral (C) de 87.3 y una desviación estándar muestral de (C) 1.04.
¿Cuáles son el promedio muestral y la desviación estándar medidos en F?

Sea XX = “la temperatura de la reacción en grados centigrados” y YY = “la temperatura de


la reacción en grados Fahrenheit”. En este caso se tiene que Y=95X+32Y=95X+32, y por
lo tanto, Y¯=95X¯+32Y¯=95X¯+32. Así, se tiene que el promedio de la reacción química
en grados Fahrenheit es y¯=95(87.3)+32=189.14y¯=95(87.3)+32=189.14, con una
desviación estándar de sy=(95)2(1.042)−−−−−−−−−
−√=1.872sy=(95)2(1.042)=1.872.

# promedio en grados Fahrenheit


(9/5)*(87.3) + 32
## [1] 189.14
# desviación en grados Fahrenheit
sqrt((9/5)^2*1.04^2)
## [1] 1.872

5. Sean XX y YY dos variables tales que:

∑i=110xi=110,∑i=110yi=60,∑i=110x2i=3156y∑i=110y2i=1138.∑i=110xi
=110,∑i=110yi=60,∑i=110xi2=3156y∑i=110yi2=1138.

Para cada variable calcular el coeficiente de variación. Interpretar y comparar los


resultados obtenidos.

Tendiendo en cuanta que el promedio de una variable XX para datos sin agrupar se puede
calcular con la fórmula
x¯=1n∑i=1nxix¯=1n∑i=1nxi

y que además, la varianza (muestral) correspondiente se puede calcular con la fórmula

s2=1n−1∑i=1n(xi−x¯)2=1n−1(∑i=1nx2i−nx¯2)s2=1n−1∑i=1n(xi−x¯)2=1n−1(∑

i=1nxi2−nx¯2)
se tiene que:
x¯=11ys2x=216.222x¯=11ysx2=216.222
y
y¯=6ys2y=86.444y¯=6ysy2=86.444
Por lo tanto, los coeficientes de variación correspondientes son:
CVx=133.67%yCVy=154.95%.CVx=133.67%yCVy=154.95%.
Así, ambos conjuntos de datos tienen un alto grado de heterogeneidad respecto al
promedio. Sin embargo, la variabilidad de la variable YY es un poco más alta que la
de XX.
# tamaño de muestra
n <- 10
# suma de valores
suma_x <- 110
suma_y <- 60
# suma de valores al cuadrado
suma_x2 <- 3156
suma_y2 <- 1138
# promedios
xb <- suma_x/n
xb
## [1] 11
yb <- suma_y/n
yb
## [1] 6
# varianzas
vx <- (suma_x2 - n*xb^2)/(n-1)
vx
## [1] 216.2222
vy <- (suma_y2 - n*yb^2)/(n-1)
vy
## [1] 86.44444
# coeficientes de variacion
sqrt(vx)/xb*100
## [1] 133.6772
sqrt(vy)/yb*100
## [1] 154.9592

6. En cierta región la distribución de predios por extensión tiene una media de 35.4
hectáreas y una desviación típica de 19.33 hectáreas, mientras que la distribución
por canon de arrendamiento tiene una media de $245,750 y una desviación de
$7,470. ¿Cual de las dos distribuciones tiene mayor variabilidad? ¿Por qué?

En este caso se tienen dos variables, a saber XX = “extensión de los predios” (en
hectáreas) y YY = “canon de arrendamiento” (en pesos). De acuerdon la información, el
promedio y la desviación estándar correspondientes son:
x¯=35.4ysx=19.33x¯=35.4ysx=19.33
y
y¯=245750ysy=7470y¯=245750ysy=7470
Por lo tanto, los coeficientes de variación correspondientes son:
CVx=54.60%yCVy=3.03%.CVx=54.60%yCVy=3.03%.
Así, la variabilidad relativa respecto al promedio de la variable YY es
considerablemente menor, en comparación con la variabilidad de la varaible XX.
# CV de x
19.33/35.4*100
## [1] 54.60452
# CV de y
7470/245750*100
## [1] 3.039674

También podría gustarte