Godiazca - GUIA DIDACTICA UNIDAD # 1 ANÁLISIS DE DATOS
Godiazca - GUIA DIDACTICA UNIDAD # 1 ANÁLISIS DE DATOS
Godiazca - GUIA DIDACTICA UNIDAD # 1 ANÁLISIS DE DATOS
CLASES DE ESTADÍSTICA....................................................................................................3
Estadística descriptiva:.....................................................................................................3
Estadística inferencial:......................................................................................................3
Estadística multivariable:..................................................................................................3
CONCEPTOS BÁSICOS..........................................................................................................3
Población............................................................................................................................3
Muestra...............................................................................................................................3
Muestra aleatoria...............................................................................................................3
Muestra significativa..........................................................................................................3
Estadístico..........................................................................................................................3
Parámetros.........................................................................................................................3
Variable...............................................................................................................................4
Constante...........................................................................................................................4
Datos...................................................................................................................................4
Representación de los datos...........................................................................................4
I. Datos no agrupados..................................................................................................4
II. Datos agrupados........................................................................................................4
DATOS NO AGRUPADOS......................................................................................................5
MEDIDAS DE TENDENCIA CENTRAL..........................................................................5
MEDIDAS DE DISPERSIÓN...................................................................................................6
a) Varianza......................................................................................................................6
FORMA DE LOS DATOS.........................................................................................................7
DATOS AGRUPADOS..........................................................................................................10
Tablas de distribución de frecuencias..........................................................................10
MEDIDAS DE TENDENCIA CENTRAL................................................................................12
a. La media aproximada..............................................................................................12
b. La mediana aproximada.........................................................................................12
c. Moda aproximada....................................................................................................12
d. Rango medio aproximado.......................................................................................12
I. MEDIDAS DE DISPERSIÓN..........................................................................................12
TEORIA PROBABILISTICA...................................................................................................16
Conceptos Fundamentales:...........................................................................................16
3. Suceso o Evento......................................................................................................16
PROBABILIDAD CONDICIONAL..........................................................................................23
TEOREMA DE BAYES...................................................................................................25
TÉCNICAS DE CONTEO...............................................................................................25
DISTRIBUCION DE PROBABILIDAD..................................................................................26
DEFINICIÓN 1.................................................................................................................26
DEFINICIÓN 2.................................................................................................................26
DEFINICIÓN 3.................................................................................................................26
Variables Discretas:........................................................................................................26
Distribución De Probabilidad Uniforme.................................................................27
Distribución De Probabilidad Binomial..................................................................27
Distribución De Probabilidad Hipergeometrica:...................................................28
Distribución De Probabilidad Poisson...................................................................29
Variables Continuas:.......................................................................................................30
Distribución De Probabilidad Normal:...................................................................30
Distribución Muestrales Para Proporciones:................................................................31
ESTADÍSTICA
Conjunto de métodos que nos permiten recolectar, presentar y analizar y obtener
información de un conjunto de datos.
CLASES DE ESTADÍSTICA
Estadística descriptiva:
Conjunto de métodos que nos permite describir cualquier conjunto de datos para obtener
información de ellos.
Estadística inferencial:
Conjunto de métodos que nos permite obtener información del comportamiento de toda
una población a partir del conocimiento de una porción significativa de esta.
Estadística multivariable:
Conjunto de métodos que nos permite analizar simultáneamente gran cantidad de
individuos con una gran cantidad de atributos.
CONCEPTOS BÁSICOS
Población (N): conjunto de objetos, valores o medidas que tienen una característica en
común o de interés para el investigador.
Muestra aleatoria(n): es aquella muestra en la que todos sus elementos tienen la misma
probabilidad de escogencia.
Muestra significativa (n): es aquella muestra que trata de involucrar la mayor cantidad
posible de atributos o características de toda una población, debe cumplir con dos (2)
condiciones:
( x)numero de exito
Proporción :=
( n ) tamaño muestra
Las medidas producen valores exactos y su ventaja es que conocemos el aporte de cada
dato a la medida por otro lado su desventaja es que se necesita mucho tiempo en el
análisis de volúmenes grandes de datos.
Sus medidas producen valores aproximados teniendo una ventaja de ahorro de tiempo y
dinero, pero con desventaja, de que no se conoce el aporte de los datos a la medida.
DATOS NO AGRUPADOS
MEDIDAS DE TENDENCIA CENTRAL.: Este grupo de medidas como su nombre
lo indica buscan siempre la mitad del conjunto de datos, y se supone que allí se
debe encontrar lo más homogéneo, lo mas parecido, lo más repetido…es decir
este grupo de medidas tratan de buscar la mejor representativa de la variable.
∑ xi
ẍ = i=1
n
n+1
m Posición=
2
;
Ejemplos:
Cuando n = 5 (impar)
A= {21, 82 ,103 ,154 ,205} ; m = (5+1)/2
m= 3
med= 10
Cuando n= 6 (par)
B= {21, 82 ,103 ,154 ,205, 306} ; m= (6+1)/2
m= 3.5
1o +15
med= = 12.5
2
d) Rango medio(rm):
x mayor+ x menor
rm=
2
MEDIDAS DE DISPERSIÓN
2 ∑ (x i)2
( x i− ẍ ) ∑ x i − n
2
2
S=
∑ =
n−1 n−1
S
CV = ∗100 %
ẍ
r =¿rmayor – rmenor
b. ẍ >med
Grafica asimétrica con sesgo (+) o a la derecha, tenemos (+) del 50% de los
datos por debajo del representante y esto lo genera los valores atípicos
muy pequeños.
c. ẍ <med
Grafica asimétrica con sesgo (-) o a la izquierda, tenemos (+) del 50% de
los datos por encima del representante y esto lo genera los valores atípicos
muy grandes.
aplicación de formulas
horas en
ajuste
fallar
diseño A 20 4
diseño B 23 3
diseño C 19 8
diseño D 21 10
Solución:
coeficiente de
variabilidad
diseño A (4/20)*100 = 20%
diseño B (3/23)*100 = 13.04%
diseño C (8/19)*100 = 42.10%
diseño D (21/10)*100 = 47.61%
EXPLICACION DE LA RESPUESTA DEL EJERCICIO: En este caso el
coeficiente mas pequeño fue el del diseño B lo que indica que el mejor soporte es
el diseño B según las especificaciones de la prensa hidráulica.
20 20 20 23
21 18 20 20
20 20 19
20 20 20
19 19 20
19 18 19
20 19 21
22 19 20
20 19 22
21 19 20
18 19 20 22
18 20 20 23
19 20 20
19 20 20
19 20 20
19 20 20
19 20 21
19 20 21
19 20 21
19 20 22
Medidas de dispersión
2 2
Varianza S2: formula:s =∑ ( x i) −¿¿ ¿ ¿
¿¿
s2=∑ ( x i)2−¿¿ ¿ ¿
2
Desviación estándar (S): formula: √ S 2 unid 2
2
S= √1.1845 años 2=1.0883 años
s
Coeficiente de variación (CV): formula: ( ¿∗100 %
x
1.0883
CV = ∗100=¿ 5.46%
19.90
r = 23 – 18 = 5
ẍ <med grafica asimétrica con sesgo (-) a la izquierda hay más del 50% de
los datos por encima del representante.
DATOS AGRUPADOS
a. Frecuencia absoluta (fi): se define como el número de datos que cae en cada
clase y la suma de estas debe ser igual a “n”.
ultima
ultima
Frecuencia acumulada ∑ fr
relativa mayor. FA >↓% primera Punto máximo relativo
primera
Frecuencia acumulada ∑ fi
absoluta menor que. FA <↑ ultima
Punto mínimo absoluto
primera
Frecuencia acumulada ∑ fr
relativa menor que. FA <↑% ultima Punto mínimo relativo
Rango
I=
número de clase
Li +ls
mi=
2
MEDIDAS DE TENDENCIA CENTRAL
ẍap =
∑ (mi∗fi¿) ¿
n
n
( −fA) I
2
medap=LI +
fi
Clase mediana es la clase que contiene el 50% de los datos. Se
acostumbra a calcular utilizando la frecuencia acumulada relativa mayor
que (FA>%).
s2 ap=∑ ¿ ¿ ¿
sap= √ s2 ap unidade s 2
sap
CVap=( )∗100
ẍap
Con las edades anteriores aplicaremos las medidas vistas en datos agrupados.
n = 32
Numero de clases = 1 + (3.33)log (32)= 6.01≈ 6 ( se aproxima a 6 clases)
Rango = 23 – 18 = 5
Intervalo de clase I = (5/6 )= 0.833
(mi -
#c clase fi fr% fa>↓ fa>↓% fr<↑ fr<↑% mi mi*fi ẍap)2*fi
2/32 2/32 32/32 18.41
1 [18 - 18.83) 2 (6.25) 2 (6.25) 32 (100) 5 36.83 4.96
173.1
28.12
2 [18.83-19.66) 9 11 34.37 30 93.75 19.24 6 5.06
3 [19.66-20.49) 15 46.87 26 81.25 21 65.62 20.08 301.2 0.12
4 [20.49-21.32) 3 9.37 29 90.26 6 18.75 20.91 627.3 2.53
5 [21.32-22.16) 2 6.25 31
96.87 3 9.37 21.74 43.48 6.12
6 [22.16-23) 1 3.12 32
100 1 3.12 22.58 22.58 6.7
max 639.9
32 100% max A R min A min R 8 25.51
639.98
ẍap = =19.99
32
32
medap=19.66 +
( 2
−11 )∗0.833
=19.90
15
Donde la clase mediana es la clase que contiene el 50% de todos los datos
se y acostumbra a tomar la fA>↓%
18+23
rmap= =20.5
2
MEDIDAS DE DISPERSIÓN.
25.51
s2 ap= =0.8231 a ñ os 2
31
0.9072
CVap= ∗100=4.53 %
19.99
rap=23−18=5
Histograma
16
14
12
Polígono de frecuencia
10
8
frecuencia
6
4
2
0
) ) ) ) ) )
83 66 49 32 16 23
8. 9. 0. 1. 2. 6-
-1 -1 -2 -2 -2 .1
8 83 66 49 32 [2
2
[1 1 8. 1 9. 2 0. 2 1.
[ [ [ [
clases
Grafico circular o torta :
1 2 3 4 5 6
3% 6%
6%
9%
28%
47%
Grafico ojiva
120
100
80
60
40
20
0
EJERCICIOS DE APLICACIÓN DE LAS MEDIAS VISTAS EN DATOS
AGRUPDOS
EJERCICIOS PROPUESTOS
1. Una lista de 10 números tiene media de 20, una mediana de 18 y una desviación
de 5. El número más grande en la lista es de 39,27; accidentalmente este número
se cambia a 392,7.
a. ¿Cuál es la media después del cambio?
b. ¿Cuál es la mediana?
c. ¿Cuál es la desviación?
10 9 10
200=∑ x ∑ x +392,7=∑ x
i=1 i=1 i=1
n: 10
9 10
ẍ: 20 200−39.27=∑ x 160,73+392,7=∑ x
i =1 i=1
med: 18
9 10
S: 5 160,73=∑ x 553,43=∑ x
i=1 i=1
553,43
a) ~
x= = 55,343
10
b) med: 18 ordenar los datos: como el valor que cambio fue el ultimo la mediana es
la misma porque al ordenar los datos sigue estando en la misma posición.
113663,4125
c) s2=∑ ¿ ¿¿ s2= s2=12629.2680
9
s=112,38
2. Un grupo de 400 empleados, que tiene una compañía, se dividen en operarios y
técnicos con un salario promedio de 1.260.960. Los salarios promedios para cada
uno de los siguientes grupos son de 857.300 y de 1.320.856 respectivamente.
a. ¿Cuántos operarios y cuantos técnicos tiene la compañía?
b. Si el gerente establece una bonificación de 30.000 para los operarios y del 8%
para los técnicos. ¿Cuál será el salario promedio para los 400 empleados de la
compañía?
n n
a)
∑x ∑x
i=0
x̌ 0= x̌ t= i=0
n n
n0 nt
857300∗n0=∑ xi 1320856∗nt =∑ x i
i=0 i=0
100
162464000
nt =
463556
nt =368 tecnicos
n0 + nt=400
n0 =400−348
n0 =52
b) 857300+30000= 887300
1320856 + (1320856 * 8%)= 1426524,48
887300*52 + 1426524,48*348= 542570119
542570119
^x =
400
^x =1356425,298
SECCION A
n A =120 trabajadores
~
X A =240 dias
SECCION B
n B=180 operarios
X̌ B=216 dias
SECCION C
nC =? obreros
X̌ C =230 dias
X̌ F =226,70 dias
n A +nB + nC =nf
X̌ A =
∑ x iA X̌ A =
∑ x iB X̌ A =
∑ x iC
nA nB nC
240∗120=∑ X iA
216∗180=∑ X iB
230∗nc =∑ X iC
x̌ f =∑ X iA + ∑ X iB + ∑ X iC
28800+38880+230∗nC
226,70=
n A +n B +nC
67680+230∗nC
226,70=
300+ nC
68010+226,70∗nC =67680+230∗nC
68010−67680=3,3 nC
nC =100 obreros
DIA 1 2 3 4 5 6 7 8 9 10
AUTO
S 3 4 2 1 3 2 4 6 5 4
n = 34
18500000 *0,5=92500 270000/30=9000
92500 *34=3145000 9000*10=90000
3145000+90000=3235000 sueldo en los 10 días
CLASE Fi
0-100 10
200-399 13
400-599 17
600-799 42
800-999 18
Enrique el director de operaciones del Banco sabe que una fluctuación en el cobro de
cheques mayor a 200 cheques diarios ocasiona problemas de personal y organización de
las sucursales, debido a la carga de trabajo disparejo. ¿Deberá preocuparse por la cantidad
de empleados que va a utilizar el siguiente mes?
~
x ap=
∑ mi f i
n
~ 58950
x ap=
100
~
x ap=589,5
2 ( mi −xˇap )2∗f i
sap =
n−1
ˇ
5870000
sap2=
99
sap2=59292,9292
S= 243.501
Si debería preocuparse por la cantidad de empleados que va a utilizar el mes siguiente,
debido a que la variabilidad en la cantidad de cheques diarios es mayor a 200
6. La edad de los estudiantes regulares que acuden a un curso en los turnos matutino
y vespertino del nivel de licenciatura de la universidad central se da en las
siguientes 2 muestra.
TURNO MATUTINO 23 29 27 22 24 21 25 26 27 24
TURNO VESPERTINO 27 34 30 29 28 30 34 35 28 29
La homogeneidad de la clase3 es de un factor importante y positivo en el aprendizaje
entonces, ¿en cuál de los dos grupos es más fácil enseñar?
TURNO MATUTINO
n=10
10
∑ xi 258
x̌= i=0 = =24.8
n 10
s2=¿ ¿ ¿
55,6
s2= =6,1777
19
s= √ s2 =√ 6,1777=2.4835
s
()
cv = ~ ∗100
x
cv =( 2,4855
24.8 )
∗100=10,02 %
TURNO VESPERTINO
55,6
s2= =¿
19
s=2.8751
2,8751
cv =(24.830 .4 )
∗100=9,46 %
7. El hospital krolina tiene los siguientes datos que representa el peso en libras de 200
bebes prematuros al momento de nacer.
mi mi f i f a >↓
CLASE NUMERO DE BEBES
0, 7 10
0,5-0,9 10 7
1, 22,8 29
1,0-1,4 19 2
1, 40,8 53
1,5-1,9 24 7
2, 59,4 80
2,0-2,4 27 2
2, 78,3 109
2,5-2,9 29 7
3, 108,8 143
3,0-3,4 34 2
3, 148 183
3,5-3,9 40 7
4, 71,4 200
4,0-4,4 17 2
~
x ap=
∑ mi f i = 536,5 =2,6825 lb
n 200
8. El dueño de una farda está interesado en construir una nueva tienda. La construirá
si el número promedio de animales vendidos en los primeros 6 meses de 1995 es
de al menos 300 y si el promedio mensual global del año es al menos de 285. Los
datos para 1995 son de los siguientes.
ENE FEB MAR ABR MAY JUN JUL AGO SEP OCT NOV DIC
234 216 195 400 315 274 302 291 275 300 375 450
x̌=
∑ x i = 3627 =302
n 12
No construiría una nueva tienda, ya que solo se cumple una condición de la dos para la
construcción de la misma.
a. Si Cline tiene la creencia de que el lapso normal de tiempo muerto por turno es de
108 minutos, ¿Cuántos de los últimos 35 turnos de la sección 3 exceda este límite?;
¿Cuántos se encuentran abajo?
b. Construya una distribución de frecuencias con intervalos de 10 minutos. ¿Cline
debería estar preocupado según la distribución construida?
60 107
66 108
72 110-2
75 111
80 112
84 113-2
87 114
91 115
93-2 116
97 119-2
99-2 121
100 126
101 128
102 129
105 139
a) Exceden: 16 turnos
Abajo: 18 turnos
# de clase clase fi mi m i f i❑
1 [60-70) 2 65 130
2 [70-80) 2 75 150
3 [80-90) 3 85 255
4 [90-100) 6 95 570
5 [100-110) 6 105 630
6 [110-120) 11 115 1265
7 [120-130) 4 125 500
8 [130-140) 1 135 135
~
x ap=
∑ mi f i = 3635 =103,8571
n 35
Como la media aproximada excede los 108 minuos, cline no deberá
preocuparse.
10. La American Foods comercializa con fuerza 3 de sus productos a nivel nacional.
Uno de los objetivos fundamentales de la publicidad de cada producto consiste en
lograr que los consumidores reconozcan que American Foods elabora el producto.
Para medir que tan bien cada anuncio logra este reconocimiento, se pidió a un
grupo de consumidores que identificara lo más rápido posible a la compañía
responsable de una larga lista de productos. El primer producto de la American
obtuvo un tiempo promedio, antes de ser reconocido, de 2,5 segundos, con una
desviación estándar de 0,004 segundos. El segundo producto tuvo un tiempo
promedio de 2,8 segundos con una variabilidad promedio de 0.006 segundos. El
tercero un promedio de 3,7 segundos con una variabilidad de 0.00811 segundos al
cuadrado. Uno de los encuestados en particular tuvo los siguientes tiempos antes
de reconocer la procedencia del producto: 2,495 para el primer producto; 2,79
para el segundo y 3,90 para el tercero. ¿para cuál de los productos estuvo el
consumidor en cuestión más alejado del desempeño promedio, en unidades de
variabilidad promedio estándar?.
PRMER PRODUCTO
X̌ =2,5 seg
s=0.004 seg
SEGUNDO PRODUCTO
X̌ =2,8 seg
s=0.006 seg
TERCER PRODUCTO
X̌ =3,7 seg
s=0.0081 seg
ENCUESTADO
X̌ =2.495 seg
X̌ =2,79 seg
X̌ =3,90 seg
cv 1 er ∏ ¿ ( 0,004
2,5 )
∗100=0,16 %
cvseg ∏ ¿ ( 0.006
2,8 )
∗100=0,2142 %
cvter ∏ ¿ ( 0,09
3,7 )
∗100=2,4324 %
Para el tercer producto estuvo el consumidor en cuestión mas alejado del desempeño
promedio.
11. La compañía sedal sport equipment tiene en existencia dos categorías de sedal de
pesca. Los datos sobre cada categoría son los siguientes:
MASTER
25
cv =( )
40
∗100=62,5 %
SUPER
5
cv =( )
30
∗100=16,66 %
Con el sedal super tiene mayor posibilidad de atrapar una mayor cantidad de peces, por
que posee menos dispersionde los datos entorno al promedio.
12. Allison Barret realiza análisis estadísticos para un equipo de carreras
automovilísticas. A continuación presentamos las cifras en galón por millas del
gasto de combustible de sus autos en carreras recientes :
4,77 6,11 6,11 5,05 5,99 4,91 5,27 6,01
5,75 4,89 6,05 5,22 6,02 5,24 6,11 5,02
a. Calcule el dato representativo del consumo de combustible con sesgo igual a cero.
b. El consumo de combustible en carreras recientes
c. Si agrupamos los datos en cinco clases de igual tamaño, ¿Cuál es el consumo de
combustible para la clase representativa de la distribución de frecuencias?
a. Sesgo = 0
X=med n=16
16+1
m= =8,5
2
5,27+5,75
med= =5,51
2
El dato representativo con sesgo igual a cero es 5,51
b. Consumo de combustible
16
∑ x =88,52
i=1
rango 1.34
c. # de clases= 5 I= = =0,268 rango= 6,11-4.77
¿ de clases 5
Rango= 1,34
# de clase intervalo fi mi mi f i
1 4,77-5,038 4 4.904 19.616
2 5,038-5,306 4 5.172 20.688
3 5,306-5,574 0 5.44
4 5,574-5,842 1 5.708 5.708
5 5,842-6,11 7 5.976 41.832
16 87.844
~
x ap=
∑ mi f i = 87,844 =5.4902
n 16
Consumo de 5,44 galones de combustible para la clase representativa.
13. San electrony piensa emplear uno de sus dos programas de capacitación se
capacitó a 2 grupos para la misma tarea. El grupo recibió el programa A, y el grupo
2 recibió el B. para el primer grupo los tiempos requeridos para capacitar a los
empleados tuvieron un promedio de 32,11 horas y una variabilidad de 68,09
unidades al cuadrado. En el segundo grupo el promedio fue de 19,75 horas y la
variabilidad fue de 75,14 unidades al cuadrado. ¿Qué programa de capacitación
será mejor para la empresa?
GRUPO 1: PROGRAMA A
X̌ =32,11 horas
s2=68,09 s=8,2516
GRUPO 2: PROGRAMA B
X̌ =19,75 horas
s2=75,14 s=8,6683
GRUPO 1
8,2516
cv =( 32,11 )
∗100=25,69 %
GRUPO 2
8,6683
cv =( 19,75 )
∗100=43,89 %
14. Talento Ltda. una compañía de Hollywood de selección de elenco, esa en proceso
de elegir un grupo de extras para una película. Las edades delos 20 hombres que
se entrevistaron primero son:
50 56 55 49 52 57 56 57 56 59
55 61 60 51 59 62 52 54 49 54
El editor de la película quiere hombres cayas edades se agrupen de manera cercana
alrededor de los 55 años. Con sus conocimientos de estadística, el director sugiere que
sería aceptable una desviación estándar de 3 años. ¿Califica este grupo de extras?
15. Las tiendas Reality Estéreo, etiquetaron su mercancía 35% arriba del costo de su
última adición al inventario. Hasta hace 4 meses, la grabadora Dynami 400s
costaba $300. Durante los últimos 4 meses Reality recibió 4 embarques mensuales
de esta grabadora con los siguientes costos unitarios: $275, $250, $240, $225. ¿a
qué tasa promedio mensual ha disminuido el precio de venta reality en estos 4
meses?