1.medidas Dispersion Posicion Sesgo

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 13

NOTA IMPORTANTE:

EJEMPLO 1:Para estudiar si el virus afectaba a las características morfológicas de las abejas, se midió la longitud
en cm. de 6 abejas portadoras del virus y de otras 6 no portadoras, obteniendo los siguientes resultados:
Portadoras 2.31 2.53 2.44 2.3 2.23 2.15
2
No 2.24 2.46 2.90 2.9 2.95 2.53
Portadoras 6
Existe evidencia para pensar que las abejas no portadoras tienen una mayor longitud que las portadoras.
SCRIPT SOLUCION
p<-c(2.31,2.53,2.44,2.32,2.23,2.15) > p<-c(2.31,2.53,2.44,2.32,2.23,2.15)
np<-c(2.24,2.46,2.90,2.96,2.95,2.53) > np<-c(2.24,2.46,2.90,2.96,2.95,2.53)
mean(p) > mean(p)
mean(np) [1] 2.33
median(p) > mean(np)
median(np) [1] 2.673333
table(p) > median(p)
table(np) [1] 2.315
boxplot(p,horizontal=T) > median(np)
points(mean(p),1,pch=8,col=2) [1] 2.715
Nota: si se desea calcular, la media en ambas variables, una > table(p)
posible solución sería: p
M<-c(mean(p),mean(np)) o 2.15 2.23 2.31 2.32 2.44 2.53
K<-(summary(p),summary(np)). Ahora bien, si la presentación 1 1 1 1 1 1
es de esta forma: Si el archivo se llama abeja > table(np)
np
p Np 2.24 2.46 2.53 2.9 2.95 2.96
1 1 1 1 1 1
2,31 2,24 Boxplot(p)

2,53 2,46

2,44 2,90

2,32 2,96

2,23 2,95

2,15 2,53

R=rowMeans(abeja[,1:2])
C=colMeans(abeja[,1:2]) > M<-c(mean(p),mean(np))
Se debe crear el archivo en Excel > M
Abrir Rstudio [1] 2.330000 2.673333
Import dataset(primer panel de la derecha) > K<-c(summary(p),summary(np))
From Excel > K
Browse(ubica el archivo de Excel a importar Min. 1st Qu. Median Mean 3rd Qu. Max.
Open 2.150000 2.250000 2.315000 2.330000 2.410000 2.530000
Import 2.240000 2.477500 2.715000 2.673333 2.937500 2.960000
Otra forma es: Abrir Rstudio,File (import dataset.from
Excel,Browse,open,import)
r=rowMeans(abejas[,1:2])
>r
[1] 2.275 2.495 2.670 2.640 2.590 2.340
> c=colMeans(abejas[,1:2])
>c
p Np
2.330000 2.673333

EJEMPLO 2: Los peces absorben mercurio a medida que el agua pasa a través de sus branquias, y demasiado mercurio hace que el pez no sea
apto para el consumo humano. En 1994, el estado de Maine emitió una advertencia sanitaria para que las personas tuvieran cuidado de comer
peces de los lagos de Maine (71 lagos), debido al elevado nivel de mercurio. Antes de la advertencia, la Agencia de Protección Medioambiental
de los Estados Unidos recopilo datos de los lagos del estado de Maine, en colabora con el propio estado. El objetivo es tomar una muestra
aleatoria de los lagos (los cuales se encuentran identificados con 215 puntos de muestreo), clasificados de acuerdo al siguiente criterio: Los lagos
de tipo 1 Eutróficos (equilibrados entre la vegetación que se descompone y los organismos vivientes), los lagos de tipo 2 son oligotróficos
(elevado nivel de descomposición y poco oxigeno) y los lagos tipo 3 son meso tróficos (entre los otros dos estados), se cuenta también con la
información si el lago se ha formado detrás de la represa, SI,NO)
tipo Ni Si ppm E ppm P E
1-eutroficos 24 0.10 0.03 0.75 0.10
2-oligotroficos 92 0.50 0.03 0.5 0.10
3-Mesotroficos 99 0.3 0.03 0.4 0.10
total 215
Suponga que al determinar el tamaño de la muestra por Muestreo Estratificado de elementos, se encuentra la siguiente muestra:
Punto Hg- Tipo Rep Punto Hg- Tipo Rep Punto Hg- Tipo Rep
ppm lago ppm lago ppm lago
1 1.05 2 S 13 1.22 2 N 25 0.77 2 N
2 0.230 2 S 14 0.24 1 S 26 0.67 3 N
3 0.100 3 N 15 0.90 3 N 27 0.60 3 S
4 0.77 2 S 16 2.5 2 S 28 0.68 2 S
5 0.91 2 N 17 0.34 3 N 29 0.22 3 S
6 0.25 2 S 18 0.40 3 S 30 0.47 3 S
7 0.13 1 S 19 0.45 2 S 31 0.37 3 S
8 0.290 2 N 20 1.12 3 S 32 0.29 2 N
9 0.41 3 S 21 0.32 2 N 33 0.43 2 S
10 0.210 3 N 22 0.37 3 N 34 0.16 1 N
11 0.94 2 N 23 0.54 3 N 35 0.49 3 N
12 0.36 1 S 24 0.86 3 N
Existe evidencia para concluir que el nivel de mercurio para los lagos tipo 2 difiere de los de tipo 3.

SCRIPT
mean(HG$`Hg-ppm`)
boxplot(HG$`Hg-ppm`,horizontal=T)
points(mean(HG$`Hg-ppm`),1,pch=8,col=2)
median(HG$`Hg-ppm`)
table(HG$`Hg-ppm`)
hist(HG$$`Hg-ppm`)

SOLUCION:
> mean(HG$`Hg-ppm`)
[1] 0.5731429
> boxplot(HG$`Hg-ppm`,horizontal=T)
> points(mean(HG$`Hg-ppm`),1,pch=8,col=2)
> median(HG$`Hg-ppm`)
[1] 0.43
> table(HG$`Hg-ppm`)

0.1 0.13 0.16 0.21 0.22 0.23 0.24 0.25 0.29 0.32 0.34 0.36 0.37 0.4 0.41 0.43
1 1 1 1 1 1 1 1 2 1 1 1 2 1 1 1
0.45 0.47 0.49 0.54 0.6 0.67 0.68 0.77 0.86 0.9 0.91 0.94 1.05 1.12 1.22 2.5
1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1
MEDIDAS DE DISPERSION O VARIABILIDAD Y MEDIDAS DE LOCALIZACIÓN O POSICION. DISTRIBUCIONALIDAD

1. Las medidas de dispersión sirven como indicador de la variabilidad de los datos. También son
llamadas de variabilidad. La mayoría de las medidas de dispersión tienen las mismas unidades que
la cantidad que se mide. En otras palabras, si las medidas están en metros o segundos, también lo
es la medida de dispersión. Excepto la varianza que se expresa en unidades al cuadrado y el
coeficiente de variación que se expresa en porcentaje.

Varianza es una buena medida de dispersión absoluta, sirve para comparar variables que tengan las
mismas unidades y la misma media. De lo contrario su análisis es muy complicado dado que sus
unidades van al cuadrado.
n En R
∑ ( x i−x́ )2 var(x)
2 i=1
s= En su lugar es mejor calcular una medida conocida como la desviación
n−1 estándar o desviación típica, esta es la raíz cuadrada de la varianza.
Sus unidades están en las mismas unidades de la variable y su análisis es más claro:
n En R


2
S
∑ ( x i− x́ ) sd(x)

i=1
¿
n−1

Coeficiente de variación es una medida que mide la dispersión relativa y sirve para comparar la
variabilidad de diferentes grupos, con las mismas o diferentes unidades.
s En R
CV = ×100
x́ (sd(x)/mean(x))*100

Definida, si la media es diferente de cero


Uno de los criterios más usados de análisis es el siguiente:
Si el CV es menor que el 5% las observaciones son homogéneas.
Esta entre el 5% y el 20% las observaciones son medianamente homogéneas.
Es mayor que 20% las observaciones son heterogéneas.

Ejemplo 1: En el diseño de estructuras de concreto, la propiedad más importante del concreto es su


resistencia a la compresión. Se probaron 20 vigas de concreto y sus resistencias a la compresión,
en miles de libras por pulgada cuadrada, fueron:
3.9 3.8 4.4 4.2 3.8 5.4 5.4 3.9 4 4 3. 3.8 4.1 4.2 4,6 3. 4.8 5 3.9 4,2
2 3

Usando R,
SCRIPT
r<-c(3.9,3.8,4.4,4.2,3.8,5.4,5.4,3.9,4,4,3.2,3.8,4.1,4.2,4.6,3.3,4.8,5,3.9,4.2)
length(r)
var(r)
sd(r)
cv<-(sd(r)/mean(r))*100
cv

SOLUCION:
r<-c(3.9,3.8,4.4,4.2,3.8,5.4,5.4,3.9,4,4,3.2,3.8,4.1,4.2,4.6,3.3,4.8,5,3.9,4.2)
length(r)
[1] 20 Numero de observaciones
var(r)
[1] 0.3541842 (libras por pulgada cuadrada)2
sd(r)
[1] 0.5951338 En promedio, la resistencia de cada una de las vigas varia en 0.5951338 libras
por cada pulgada al cuadrado con respecto a la resistencia media.
cv<-(sd(r)/mean(r))*100
cv
[1] 14.18674 La variación de la resistencia de las vigas es un 14.18674% de la resistencia
media. Las observaciones analizadas son medianamente homogéneas (5% y 20%)

2. Medidas de localización, miden la posición relativa de un elemento con respecto a los demás
elementos del grupo. Se parte de la base que el conjunto de datos es lo suficientemente grande
para que pueda ser dividido en partes iguales aceptables. Estas medidas dividen el grupo total,
que equivale al 100% en partes iguales. Los más usados son los Percentiles (dividen el grupo de
datos en 100 partes iguales, cada segmento vale 1%), Deciles (en 10 partes iguales, cada segmento
vale 10%), Quintiles (en 5 partes iguales, cada segmento vale el 20%), Cuartiles (en 4 partes
iguales, cada segmento vale el 25%).

La expresión usada para calcular los valores en R es: quantile(x,d) donde d es el valor acumulado
en decimal de la medida buscada, ejemplo:
Percentil 2, d=0.02, Decil 8 , d=0.80, Quintil 3, d=0.75, Cuartil 1, d=0.25
Algunas veces se hace difícil entender el valor de d, siga este consejo, determine el tipo de
medida (PERCENTIL, DECIL, QUINTIL, CUARTIL) va a calcular, identifique cuantas veces ésta medida
divide el grupo de datos (Percenti=100,Decil=10,Quintil=5,Cuartil=4) y identifique la posición que
le están pidiendo dentro de la medida(1,2,3,4,5,6,……). Vea un ejemplo, calcular el Quintil 2, el
quintil divide la población en 5 partes iguales, cada parte valor el 20%, se está pidiendo el
segundo, entonces el valor de d es igual a, (20)(2)=44, pero esto se debe expresar en decimales es
decir d=0.40.
Percentil 20 Quantile(r,0.20)=3.8 En el 20% de las vigas la resistencia es de 3.8 o menos y
el 80% de las vigas restantes tienen una resistencia mayor a 3.8 libras por
pulgada cuadrada.
Decil 3 Quantile(r,0.30)=3.9 En el 30% de las vigas la resistencia es de 3.9 o menos y
el 70% de las vigas restantes tienen una resistencia mayor a 3.9 libras por
pulgada cuadrada.
Quintil 3 Quantile(r,0.60)=4.2 En el 60% de las vigas la resistencia es de 4.2 o menos y
el 40% de las vigas restantes tienen una resistencia mayor a 4.2 libras por
pulgada cuadrada.
Cuartil 3 Quantile(r,0.75)=4.45 En el 75% de las vigas la resistencia es de 4.45 o menos y
el 25% de las vigas restantes tienen una resistencia mayor a 4.45 libras por
pulgada cuadrada.
3. Distribucionalidad y patrones de comportamiento: Cuando se tiene muestras relativamente
grandes, es importante agruparlas o resumirlas dado que es difícil observar sus patrones de
comportamiento. A estos agrupamientos se les llama distribución de frecuencias. Existen dos
conceptos para determinar esto, uno es la curtosis (mide la mayor o menor concentración de los
datos alrededor de la media) y la asimetría (mide la mayor o menor simetría de la distribución de
datos).
CURTOSIS: ASIMETRIA O SIMETRIA

En este curso no se estudiará la curtosis. La asimetría, se puede observar mediante una gráfica de
histograma o diagrama de caja y bigotes. El script completo de R, para calcular todo lo estudiado
en esta charla es el siguiente:

r<-c(3.9,3.8,4.4,4.2,3.8,5.4,5.4,3.9,4,4,3.2,3.8,4.1,4.2,4.6,3.3,4.8,5,3.9,4.2)
length(r)
var(r)
sd(r)
cv<-(sd(r)/mean(r))*100
cv
quantile(r,0.2)
quantile(r,0.3)
quantile(r,0.6)
quantile(r,0.75)
hist(r)
boxplot(r,horizontal=T)
points(mean(r),1,pch=8,col=2)
Histograma: se observa que los datos tienen un Diagrama de caja y bigote: la distribucion de
sesgo a la derecha los datos presenta una asimetria positiva. Es
decir su sesgo es a la derecha.
Histogram of r
8
6
Frequency

4
2
0

3.0 3.5 4.0 4.5 5.0 5.5

3.5 4.0 4.5 5.0

COMENTARIO ESPECIAL: Como se puede determinar cuál es la mejor medida de tendencia central,
conociendo todos los conceptos que hasta el momento hemos aprendido. Lea atentamente lo siguiente:
En una distribución normal, la media, moda y mediana tienen un valor idéntico (Figura 1(a)). Esto en
realidad es evidente, dado que una distribución normal es perfectamente simétrica, y la curva tiene
un sólo punto máximo (moda) que también se encuentra en el centro. Así, la media debe ser nuestra
medida preferida de tendencia central para los conjuntos de datos que se distribuyen normalmente ,
puesto que es más fácil de calcular y de usar en forma matemática.

Figura 1(a) Figura 1(b)


Una distribución bimodal (Figura 1(b)) tiene dos puntos máximos. Esto hace que la media y la mediana
no sean de utilidad, puesto que sus valores estarán en algún lugar entre los dos puntos máximos y
distorsionarán enormemente la descripción de la distribución. La moda, y observe que en este caso hay
dos modas, pasa a ser la única medida útil de tendencia central. Sin embargo, una distribución bimodal
es poco común y en general podemos decir que consta de dos distribuciones que se pueden analizar en
forma independiente.

Cuando se describen distribuciones asimétricas (sesgadas) positivas o negativas, la media no es la


mejor medida de tendencia central disponible. Mientras mayor sea la asimetría o sesgo de los datos,
mayor utilidad tendrá la mediana (y más engañosa será la media), porque la mediana estará más cerca
del ‘valor promedio’ real de las observaciones. Por ejemplo, en el caso de una distribución asimétrica
positiva, la media se encuentra ‘inflada’ por la minoría de las observaciones que tienen un valor
mayor. Esto sucede, por ejemplo, con el ingreso per cápita, puesto que las distribuciones del ingreso
son asimétricas positivas. En las siguientes figuras se muestran las posiciones relativas de la media,
la moda y la mediana en cuatro distribuciones asimétricas.
Observe que cuando la distribución es asimétrica ‘positiva’, (es decir, el extremo más largo de la
distribución apunta hacia el este o hacia su derecha), la moda está a la izquierda de la mediana, y a
su vez, la mediana está a la izquierda del promedio. Sucede lo contrario cuando la distribución es
asimétrica negativa o sesgada negativamente. Esto nos lleva a una consideración final: si una
distribución es asimétrica, es decir, notoriamente sesgada, la mediana será mejor que la media
(promedio aritmético) para describir la tendencia central de la distribución de los datos . Observe las
figuras anteriores. Note que, en todas las distribuciones asimétricas, la mediana efectivamente se
acerca más que la media al valor ‘promedio o ‘normal’ de las observaciones o, en otras palabras,
refleja mejor la existencia de un sesgo en los datos.
2.Para estudiar el efecto de las aguas residuales de las alcantarillas que afluyen a un lago, se
toman medidas de la concentración de nitrato en el agua. Para ello se toman muestras de agua en un
punto del lago próximo a la zona de vertido de aguas residuales (C=cercano al vertido) y en otro
punto alejado de dicha zona de vertido donde no llegan los vertidos (L=lejano al vertido). Los datos
obtenidos son los siguientes (las unidades son microgramos de nitrato por litro de agua)
C 223.97 208.42 255.51 231.70 169.33 185.47 165.79
L 162.17 171.84 150.44 215.33 165.64 194.64 348.99
¿Puede decirse que la concentración de nitrato en un sitio cercano al vertido es superior a un punto
lejano del vertido?
SCRIPT SOLUCION
c<- c<-
c(223.97,208.42,255.51,231.7,169.33,185.47,165.7 c(223.97,208.42,255.51,231.7,169.33,185.47,165.7
9) 9)
var(c) var(c)
sd(c) [1] 1137.176
cv<-(sd(c)/mean(c))*100 sd(c)
cv [1] 33.72203
quantile(c,0.4) cv<-(sd(c)/mean(c))*100
quantile(c,0.12) cv
quantile(c,0.85) [1] 16.39049
hist(c) quantile(c,0.4)
boxplot(c,horizontal=T) 40%
points(mean(c),1,pch=8,col=2) 194.65
quantile(c,0.12)
12%
168.3388
quantile(c,0.85)
85%
234.081
hist(c)
boxplot(c,horizontal=T)
points(mean(c),1,pch=8,col=2)

180 200 220 240

Para la otra variable:


l<- l<-
c(162.17,171.84,150.44,215.33,165.64,194. c(162.17,171.84,150.44,215.33,165.64,194.95,34
95,348.99) 8.99)
var(l) var(l)
sd(l) [1] 4717.819
cv<-(sd(l)/mean(l))*100 sd(l)
cv [1] 68.68638
hist(l) cv<-(sd(l)/mean(l))*100
boxplot(l,horizontal=T) cv
points(mean(l),1,pch=8,col=2) [1] 34.11511
quantile(l,0.25) hist(l)
boxplot(l,horizontal=T)
points(mean(l),1,pch=8,col=2)
quantile(l,0.25)
25%
163.905
Histogram of l
5
4
F re q u e n c y

3
2
1
0

150 200 250 300 350

150 200 250 300 350

|
EJERCICIOS ADICIONALES:

Hoja 1 2 3 4 5 6 7 8
Lesiones con A 31 20 18 17 9 8 10 47
Lesiones con B 18 17 14 11 10 7 5 6
1. Se quiere probar si una preparación de un virus A es más dañina que la de otro virus B en las
plantas de tabaco. Para ello se toman 8 hojas de tabaco y se untan las dos mitades de cada hoja
con cada uno de los preparados. Posteriormente medimos el número de lesiones locales que aparece
en cada mitad. Los resultados son los siguientes:
Puede decirse que existen en promedio mayores lesiones con el virus B en relación al A. ¿En este
caso sería mejor estudiar por separado cada parte de la hoja o será mejor calcular la diferencia
entre las dos?

2. Se desea determinar el contenido de grasa en la carne para poder determinar su precio de venta
al consumidor. Una compañía empacadora de carne está considerando el uso de dos métodos diferentes
para determinar el porcentaje de grasa. Ambos métodos fueron usados para evaluar el contenido de
grasa en ocho diferentes muestras de carne. ¿Los resultados se muestran en la siguiente tabla
sugieren estos datos que los métodos difieren en su medición del contenido de grasa en la carne?
¿Es mejor estudiar por separado o calcular su diferencia?

Método 1 23.1 27.1 25 27.6 22.2 27.1 23.2 24.7


Método 2 22.7 27.4 24.9 27.2 22.5 27.4 23.6 24.4

3. Se probaron con dos máquinas, A y B, para pruebas de torsión de alambres de acero, doce pares
distintos de alambre, los resultados fueron los siguientes:
Maq. A 32 35 38 28 40 42 36 29 33 37 22 42
Maq. B 30 34 39 26 37 42 35 30 30 32 20 41
¿La máquina B da menores lecturas que la A?

También podría gustarte