Taller 4
Taller 4
Taller 4
Altitud
nn Mín. Cuar. 1 Cuar. 2 Cuar. 3 Máx. M
# tamaños de la muestra
n_baja <- length(baja)
n_baja
## [1] 138
n_alta <- length(alta)
n_alta
## [1] 62
# medida de tendencia
summary(baja)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.250 1.472 3.180 3.715 5.265 11.230
summary(alta)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.110 3.487 5.750 6.596 7.755 23.380
# medidas de dispersión
sd(baja)
## [1] 2.55804
sd(alta)
## [1] 4.518998
sd(baja)/mean(baja)
## [1] 0.6886513
sd(alta)/mean(alta)
## [1] 0.685065
Comparar los resultados para determinar si los datos apoyan el supuesto de que la
emisión de partículas podría ser mayor a grandes a altitudes.
Las medidas de tendencia y localización indican que la emisión de partículas podría ser
mayor a grandes a altitudes, dado que en grandes alturas estas medidas son claramente
superiores. Sin embargo, ambos conjuntos de datos tienen una alta dispersión respecto al
promedio, dado que el CV es aproximadamente 68% en ambos casos. Por lo tanto, se
recomienda un análisis más profundo usando métodos gráficos e inductivos.
Población (en miles) Marcas de clase No. de condados F. Relativa (%) F. A. Acum
# limite inferior
li <-
c(0.064,5.405,8.780,12.417,16.384,21.619,28.526,40.342,65.536,131.072)
# limite superior
ls <-
c(5.405,8.780,12.417,16.384,21.619,28.526,40.342,65.536,131.072,8388.6
08)
# marcas de clase
yj <- (li + ls)/2
yj
## [1] 2.7345 7.0925 10.5985 14.4005 19.0015 25.0725
34.4340
## [8] 52.9390 98.3040 4259.8400
# frecuencias absolutas
nj <- c(305,294,331,286,306,273,334,326,290,323)
# tamaño de la muestra
n <- sum(nj)
n
## [1] 3068
# frecuencias relativas
hj <- nj/n
100*hj
## [1] 9.941330 9.582790 10.788787 9.322034 9.973924 8.898305
10.886571
## [8] 10.625815 9.452412 10.528031
# frecuencias absolutas acumuladas
Nj <- cumsum(nj)
Nj
## [1] 305 599 930 1216 1522 1795 2129 2455 2745 3068
# frecuencias relativas acumuladas
Hj <- Nj/n
100*Hj
## [1] 9.94133 19.52412 30.31291 39.63494 49.60887 58.50717
69.39374
## [8] 80.01956 89.47197 100.00000
Calcular la media, la mediana, la moda, y el coeficiente de variación.
Media 474.70
Mediana 21.92
Moda 38.97
CV 273.61%
Media:
Media(y)≈1n∑j=1mnjyj=∑j=1mhjyjMedia(y)≈1n∑j=1mnjyj=∑j=1mhjyj
# media
media <- sum(nj*yj)/n
media
## [1] 474.7069
# otra manera
sum(hj*yj)
## [1] 474.7069
Mediana:
Mediana(y)≈y′k−1+ak(0.5n−Nk−1nk)Mediana(y)≈yk−1′+ak(0.5n−Nk−1nk)
donde kk es el índice del primer intervalo cuya frecuencia relativa acumulada es mayor
o igual a 50%50%. En este caso k=6k=6.
# indice primer intervalo tal que Hj > 0.5
k <- 6
# mediana
mediana <- li[k] + (ls[k]-li[k])*((0.5*n - Nj[k-1])/nj[k])
mediana
## [1] 21.9226
Moda:
Moda(y)=y′k−1+ak(nk−nk−12nk−nk−1−nk+1)Moda(y)=yk−1′
+ak(nk−nk−12nk−nk−1−nk+1)
donde kk es el índice del(de los) interlo(s) con mayor frecuencia. En este caso k=7k=7.
# indice intervalo con mayor frecuencia
k <- 7
# moda
moda <- li[k] + (ls[k]-li[k])*((nj[k] - nj[k-1])/(2*nj[k] - nj[k-1] -
nj[k+1]))
moda
## [1] 38.97203
Varianza:
Varianza(y)=1n−1∑j=1mnj(yi−y¯)2Varianza(y)=1n−1∑j=1mnj(yi−y¯)2
# varianza
varianza <- sum(nj*(yj - media)^2)/(n-1)
abs(sqrt(varianza)/media)*100
## [1] 273.6193
La amplitud de los intervalos de este gráfico no están a escala y se representan con un
valor constante para facilitar la visualización, dado que las últimas categorías tienen una
amplitud muy grande.
De otra parte, se observa que la dispersión de la distribución de la población es muy alta
dado que el CV >> 15%, lo cual se puede explicar por el sesgo que presenta la distribución.
4. Una muestra de temperaturas para iniciar una cierta reacción química dio un
promedio muestral (C) de 87.3 y una desviación estándar muestral de (C) 1.04.
¿Cuáles son el promedio muestral y la desviación estándar medidos en F?
∑i=110xi=110,∑i=110yi=60,∑i=110x2i=3156y∑i=110y2i=1138.∑i=110xi
=110,∑i=110yi=60,∑i=110xi2=3156y∑i=110yi2=1138.
Tendiendo en cuanta que el promedio de una variable XX para datos sin agrupar se puede
calcular con la fórmula
x¯=1n∑i=1nxix¯=1n∑i=1nxi
s2=1n−1∑i=1n(xi−x¯)2=1n−1(∑i=1nx2i−nx¯2)s2=1n−1∑i=1n(xi−x¯)2=1n−1(∑
i=1nxi2−nx¯2)
se tiene que:
x¯=11ys2x=216.222x¯=11ysx2=216.222
y
y¯=6ys2y=86.444y¯=6ysy2=86.444
Por lo tanto, los coeficientes de variación correspondientes son:
CVx=133.67%yCVy=154.95%.CVx=133.67%yCVy=154.95%.
Así, ambos conjuntos de datos tienen un alto grado de heterogeneidad respecto al
promedio. Sin embargo, la variabilidad de la variable YY es un poco más alta que la
de XX.
# tamaño de muestra
n <- 10
# suma de valores
suma_x <- 110
suma_y <- 60
# suma de valores al cuadrado
suma_x2 <- 3156
suma_y2 <- 1138
# promedios
xb <- suma_x/n
xb
## [1] 11
yb <- suma_y/n
yb
## [1] 6
# varianzas
vx <- (suma_x2 - n*xb^2)/(n-1)
vx
## [1] 216.2222
vy <- (suma_y2 - n*yb^2)/(n-1)
vy
## [1] 86.44444
# coeficientes de variacion
sqrt(vx)/xb*100
## [1] 133.6772
sqrt(vy)/yb*100
## [1] 154.9592
6. En cierta región la distribución de predios por extensión tiene una media de 35.4
hectáreas y una desviación típica de 19.33 hectáreas, mientras que la distribución
por canon de arrendamiento tiene una media de $245,750 y una desviación de
$7,470. ¿Cual de las dos distribuciones tiene mayor variabilidad? ¿Por qué?
En este caso se tienen dos variables, a saber XX = “extensión de los predios” (en
hectáreas) y YY = “canon de arrendamiento” (en pesos). De acuerdon la información, el
promedio y la desviación estándar correspondientes son:
x¯=35.4ysx=19.33x¯=35.4ysx=19.33
y
y¯=245750ysy=7470y¯=245750ysy=7470
Por lo tanto, los coeficientes de variación correspondientes son:
CVx=54.60%yCVy=3.03%.CVx=54.60%yCVy=3.03%.
Así, la variabilidad relativa respecto al promedio de la variable YY es
considerablemente menor, en comparación con la variabilidad de la varaible XX.
# CV de x
19.33/35.4*100
## [1] 54.60452
# CV de y
7470/245750*100
## [1] 3.039674