1.medidas Dispersion Posicion Sesgo
1.medidas Dispersion Posicion Sesgo
1.medidas Dispersion Posicion Sesgo
EJEMPLO 1:Para estudiar si el virus afectaba a las características morfológicas de las abejas, se midió la longitud
en cm. de 6 abejas portadoras del virus y de otras 6 no portadoras, obteniendo los siguientes resultados:
Portadoras 2.31 2.53 2.44 2.3 2.23 2.15
2
No 2.24 2.46 2.90 2.9 2.95 2.53
Portadoras 6
Existe evidencia para pensar que las abejas no portadoras tienen una mayor longitud que las portadoras.
SCRIPT SOLUCION
p<-c(2.31,2.53,2.44,2.32,2.23,2.15) > p<-c(2.31,2.53,2.44,2.32,2.23,2.15)
np<-c(2.24,2.46,2.90,2.96,2.95,2.53) > np<-c(2.24,2.46,2.90,2.96,2.95,2.53)
mean(p) > mean(p)
mean(np) [1] 2.33
median(p) > mean(np)
median(np) [1] 2.673333
table(p) > median(p)
table(np) [1] 2.315
boxplot(p,horizontal=T) > median(np)
points(mean(p),1,pch=8,col=2) [1] 2.715
Nota: si se desea calcular, la media en ambas variables, una > table(p)
posible solución sería: p
M<-c(mean(p),mean(np)) o 2.15 2.23 2.31 2.32 2.44 2.53
K<-(summary(p),summary(np)). Ahora bien, si la presentación 1 1 1 1 1 1
es de esta forma: Si el archivo se llama abeja > table(np)
np
p Np 2.24 2.46 2.53 2.9 2.95 2.96
1 1 1 1 1 1
2,31 2,24 Boxplot(p)
2,53 2,46
2,44 2,90
2,32 2,96
2,23 2,95
2,15 2,53
R=rowMeans(abeja[,1:2])
C=colMeans(abeja[,1:2]) > M<-c(mean(p),mean(np))
Se debe crear el archivo en Excel > M
Abrir Rstudio [1] 2.330000 2.673333
Import dataset(primer panel de la derecha) > K<-c(summary(p),summary(np))
From Excel > K
Browse(ubica el archivo de Excel a importar Min. 1st Qu. Median Mean 3rd Qu. Max.
Open 2.150000 2.250000 2.315000 2.330000 2.410000 2.530000
Import 2.240000 2.477500 2.715000 2.673333 2.937500 2.960000
Otra forma es: Abrir Rstudio,File (import dataset.from
Excel,Browse,open,import)
r=rowMeans(abejas[,1:2])
>r
[1] 2.275 2.495 2.670 2.640 2.590 2.340
> c=colMeans(abejas[,1:2])
>c
p Np
2.330000 2.673333
EJEMPLO 2: Los peces absorben mercurio a medida que el agua pasa a través de sus branquias, y demasiado mercurio hace que el pez no sea
apto para el consumo humano. En 1994, el estado de Maine emitió una advertencia sanitaria para que las personas tuvieran cuidado de comer
peces de los lagos de Maine (71 lagos), debido al elevado nivel de mercurio. Antes de la advertencia, la Agencia de Protección Medioambiental
de los Estados Unidos recopilo datos de los lagos del estado de Maine, en colabora con el propio estado. El objetivo es tomar una muestra
aleatoria de los lagos (los cuales se encuentran identificados con 215 puntos de muestreo), clasificados de acuerdo al siguiente criterio: Los lagos
de tipo 1 Eutróficos (equilibrados entre la vegetación que se descompone y los organismos vivientes), los lagos de tipo 2 son oligotróficos
(elevado nivel de descomposición y poco oxigeno) y los lagos tipo 3 son meso tróficos (entre los otros dos estados), se cuenta también con la
información si el lago se ha formado detrás de la represa, SI,NO)
tipo Ni Si ppm E ppm P E
1-eutroficos 24 0.10 0.03 0.75 0.10
2-oligotroficos 92 0.50 0.03 0.5 0.10
3-Mesotroficos 99 0.3 0.03 0.4 0.10
total 215
Suponga que al determinar el tamaño de la muestra por Muestreo Estratificado de elementos, se encuentra la siguiente muestra:
Punto Hg- Tipo Rep Punto Hg- Tipo Rep Punto Hg- Tipo Rep
ppm lago ppm lago ppm lago
1 1.05 2 S 13 1.22 2 N 25 0.77 2 N
2 0.230 2 S 14 0.24 1 S 26 0.67 3 N
3 0.100 3 N 15 0.90 3 N 27 0.60 3 S
4 0.77 2 S 16 2.5 2 S 28 0.68 2 S
5 0.91 2 N 17 0.34 3 N 29 0.22 3 S
6 0.25 2 S 18 0.40 3 S 30 0.47 3 S
7 0.13 1 S 19 0.45 2 S 31 0.37 3 S
8 0.290 2 N 20 1.12 3 S 32 0.29 2 N
9 0.41 3 S 21 0.32 2 N 33 0.43 2 S
10 0.210 3 N 22 0.37 3 N 34 0.16 1 N
11 0.94 2 N 23 0.54 3 N 35 0.49 3 N
12 0.36 1 S 24 0.86 3 N
Existe evidencia para concluir que el nivel de mercurio para los lagos tipo 2 difiere de los de tipo 3.
SCRIPT
mean(HG$`Hg-ppm`)
boxplot(HG$`Hg-ppm`,horizontal=T)
points(mean(HG$`Hg-ppm`),1,pch=8,col=2)
median(HG$`Hg-ppm`)
table(HG$`Hg-ppm`)
hist(HG$$`Hg-ppm`)
SOLUCION:
> mean(HG$`Hg-ppm`)
[1] 0.5731429
> boxplot(HG$`Hg-ppm`,horizontal=T)
> points(mean(HG$`Hg-ppm`),1,pch=8,col=2)
> median(HG$`Hg-ppm`)
[1] 0.43
> table(HG$`Hg-ppm`)
0.1 0.13 0.16 0.21 0.22 0.23 0.24 0.25 0.29 0.32 0.34 0.36 0.37 0.4 0.41 0.43
1 1 1 1 1 1 1 1 2 1 1 1 2 1 1 1
0.45 0.47 0.49 0.54 0.6 0.67 0.68 0.77 0.86 0.9 0.91 0.94 1.05 1.12 1.22 2.5
1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1
MEDIDAS DE DISPERSION O VARIABILIDAD Y MEDIDAS DE LOCALIZACIÓN O POSICION. DISTRIBUCIONALIDAD
1. Las medidas de dispersión sirven como indicador de la variabilidad de los datos. También son
llamadas de variabilidad. La mayoría de las medidas de dispersión tienen las mismas unidades que
la cantidad que se mide. En otras palabras, si las medidas están en metros o segundos, también lo
es la medida de dispersión. Excepto la varianza que se expresa en unidades al cuadrado y el
coeficiente de variación que se expresa en porcentaje.
Varianza es una buena medida de dispersión absoluta, sirve para comparar variables que tengan las
mismas unidades y la misma media. De lo contrario su análisis es muy complicado dado que sus
unidades van al cuadrado.
n En R
∑ ( x i−x́ )2 var(x)
2 i=1
s= En su lugar es mejor calcular una medida conocida como la desviación
n−1 estándar o desviación típica, esta es la raíz cuadrada de la varianza.
Sus unidades están en las mismas unidades de la variable y su análisis es más claro:
n En R
√
2
S
∑ ( x i− x́ ) sd(x)
i=1
¿
n−1
Coeficiente de variación es una medida que mide la dispersión relativa y sirve para comparar la
variabilidad de diferentes grupos, con las mismas o diferentes unidades.
s En R
CV = ×100
x́ (sd(x)/mean(x))*100
Usando R,
SCRIPT
r<-c(3.9,3.8,4.4,4.2,3.8,5.4,5.4,3.9,4,4,3.2,3.8,4.1,4.2,4.6,3.3,4.8,5,3.9,4.2)
length(r)
var(r)
sd(r)
cv<-(sd(r)/mean(r))*100
cv
SOLUCION:
r<-c(3.9,3.8,4.4,4.2,3.8,5.4,5.4,3.9,4,4,3.2,3.8,4.1,4.2,4.6,3.3,4.8,5,3.9,4.2)
length(r)
[1] 20 Numero de observaciones
var(r)
[1] 0.3541842 (libras por pulgada cuadrada)2
sd(r)
[1] 0.5951338 En promedio, la resistencia de cada una de las vigas varia en 0.5951338 libras
por cada pulgada al cuadrado con respecto a la resistencia media.
cv<-(sd(r)/mean(r))*100
cv
[1] 14.18674 La variación de la resistencia de las vigas es un 14.18674% de la resistencia
media. Las observaciones analizadas son medianamente homogéneas (5% y 20%)
2. Medidas de localización, miden la posición relativa de un elemento con respecto a los demás
elementos del grupo. Se parte de la base que el conjunto de datos es lo suficientemente grande
para que pueda ser dividido en partes iguales aceptables. Estas medidas dividen el grupo total,
que equivale al 100% en partes iguales. Los más usados son los Percentiles (dividen el grupo de
datos en 100 partes iguales, cada segmento vale 1%), Deciles (en 10 partes iguales, cada segmento
vale 10%), Quintiles (en 5 partes iguales, cada segmento vale el 20%), Cuartiles (en 4 partes
iguales, cada segmento vale el 25%).
La expresión usada para calcular los valores en R es: quantile(x,d) donde d es el valor acumulado
en decimal de la medida buscada, ejemplo:
Percentil 2, d=0.02, Decil 8 , d=0.80, Quintil 3, d=0.75, Cuartil 1, d=0.25
Algunas veces se hace difícil entender el valor de d, siga este consejo, determine el tipo de
medida (PERCENTIL, DECIL, QUINTIL, CUARTIL) va a calcular, identifique cuantas veces ésta medida
divide el grupo de datos (Percenti=100,Decil=10,Quintil=5,Cuartil=4) y identifique la posición que
le están pidiendo dentro de la medida(1,2,3,4,5,6,……). Vea un ejemplo, calcular el Quintil 2, el
quintil divide la población en 5 partes iguales, cada parte valor el 20%, se está pidiendo el
segundo, entonces el valor de d es igual a, (20)(2)=44, pero esto se debe expresar en decimales es
decir d=0.40.
Percentil 20 Quantile(r,0.20)=3.8 En el 20% de las vigas la resistencia es de 3.8 o menos y
el 80% de las vigas restantes tienen una resistencia mayor a 3.8 libras por
pulgada cuadrada.
Decil 3 Quantile(r,0.30)=3.9 En el 30% de las vigas la resistencia es de 3.9 o menos y
el 70% de las vigas restantes tienen una resistencia mayor a 3.9 libras por
pulgada cuadrada.
Quintil 3 Quantile(r,0.60)=4.2 En el 60% de las vigas la resistencia es de 4.2 o menos y
el 40% de las vigas restantes tienen una resistencia mayor a 4.2 libras por
pulgada cuadrada.
Cuartil 3 Quantile(r,0.75)=4.45 En el 75% de las vigas la resistencia es de 4.45 o menos y
el 25% de las vigas restantes tienen una resistencia mayor a 4.45 libras por
pulgada cuadrada.
3. Distribucionalidad y patrones de comportamiento: Cuando se tiene muestras relativamente
grandes, es importante agruparlas o resumirlas dado que es difícil observar sus patrones de
comportamiento. A estos agrupamientos se les llama distribución de frecuencias. Existen dos
conceptos para determinar esto, uno es la curtosis (mide la mayor o menor concentración de los
datos alrededor de la media) y la asimetría (mide la mayor o menor simetría de la distribución de
datos).
CURTOSIS: ASIMETRIA O SIMETRIA
En este curso no se estudiará la curtosis. La asimetría, se puede observar mediante una gráfica de
histograma o diagrama de caja y bigotes. El script completo de R, para calcular todo lo estudiado
en esta charla es el siguiente:
r<-c(3.9,3.8,4.4,4.2,3.8,5.4,5.4,3.9,4,4,3.2,3.8,4.1,4.2,4.6,3.3,4.8,5,3.9,4.2)
length(r)
var(r)
sd(r)
cv<-(sd(r)/mean(r))*100
cv
quantile(r,0.2)
quantile(r,0.3)
quantile(r,0.6)
quantile(r,0.75)
hist(r)
boxplot(r,horizontal=T)
points(mean(r),1,pch=8,col=2)
Histograma: se observa que los datos tienen un Diagrama de caja y bigote: la distribucion de
sesgo a la derecha los datos presenta una asimetria positiva. Es
decir su sesgo es a la derecha.
Histogram of r
8
6
Frequency
4
2
0
COMENTARIO ESPECIAL: Como se puede determinar cuál es la mejor medida de tendencia central,
conociendo todos los conceptos que hasta el momento hemos aprendido. Lea atentamente lo siguiente:
En una distribución normal, la media, moda y mediana tienen un valor idéntico (Figura 1(a)). Esto en
realidad es evidente, dado que una distribución normal es perfectamente simétrica, y la curva tiene
un sólo punto máximo (moda) que también se encuentra en el centro. Así, la media debe ser nuestra
medida preferida de tendencia central para los conjuntos de datos que se distribuyen normalmente ,
puesto que es más fácil de calcular y de usar en forma matemática.
3
2
1
0
|
EJERCICIOS ADICIONALES:
Hoja 1 2 3 4 5 6 7 8
Lesiones con A 31 20 18 17 9 8 10 47
Lesiones con B 18 17 14 11 10 7 5 6
1. Se quiere probar si una preparación de un virus A es más dañina que la de otro virus B en las
plantas de tabaco. Para ello se toman 8 hojas de tabaco y se untan las dos mitades de cada hoja
con cada uno de los preparados. Posteriormente medimos el número de lesiones locales que aparece
en cada mitad. Los resultados son los siguientes:
Puede decirse que existen en promedio mayores lesiones con el virus B en relación al A. ¿En este
caso sería mejor estudiar por separado cada parte de la hoja o será mejor calcular la diferencia
entre las dos?
2. Se desea determinar el contenido de grasa en la carne para poder determinar su precio de venta
al consumidor. Una compañía empacadora de carne está considerando el uso de dos métodos diferentes
para determinar el porcentaje de grasa. Ambos métodos fueron usados para evaluar el contenido de
grasa en ocho diferentes muestras de carne. ¿Los resultados se muestran en la siguiente tabla
sugieren estos datos que los métodos difieren en su medición del contenido de grasa en la carne?
¿Es mejor estudiar por separado o calcular su diferencia?
3. Se probaron con dos máquinas, A y B, para pruebas de torsión de alambres de acero, doce pares
distintos de alambre, los resultados fueron los siguientes:
Maq. A 32 35 38 28 40 42 36 29 33 37 22 42
Maq. B 30 34 39 26 37 42 35 30 30 32 20 41
¿La máquina B da menores lecturas que la A?