MANUAL
MANUAL
MANUAL
ESTADÍSTICA.
Los siguientes principios son útiles para tener éxito en este curso y en otros cursos:
1.- Para aprovechar este curso al máximo es necesario que te comprometas contigo mismo y con
el curso. Es necesario que le inviertas tiempo, energía y esfuerzo creativo. Debes pensar y actuar
como un científico, ingeniero o maestro que se preparan para ejercer en el mundo real.
2. Tu participación en clase y las preguntas que hagas te ayudarán a entenderte a ti mismo, a que
el profesor pueda identificar áreas donde necesitas ayuda y tus áreas de fortalezas. El uso de la
razón al analizar las diversas situaciones permitirá entender mejor el material del curso. No se
trata de aplicar una formula para obtener una contestación numérica. Es necesario cuestionarlo y
justificarlo todo, inclusive a ti mismo.
3. El curso se enseñara en una forma constructivista, por lo cual debes de participar activamente
en la construcción, derivación y explicación concreta de los conceptos. Es conveniente que recrees
las construcciones hechas previamente en clase.
4. Se llevarán notas del curso y las cuales formarán parte de tu libreta del curso, llevaras un
avance diario del curso y lo entregaras en un disquete al final de los temas de cada parcial, lo
complementaras con aportaciones tuyas ya sean teóricas o ejercicios y problemas.
6. Los problemas asignados sólo se discuten en clase, se hacen en el salón cuando existan
preguntas específicas al respecto. Debes de resolver los problemas asignados y no dejarlos para
última hora, esto facilitará el entender y aplicar los conceptos. Los exámenes y pruebas cortas
anteriores pueden ser de gran ayuda para estudiar.
7. Lee los materiales, en especial los problemas en forma cuidadosa y cabal, pero nunca en forma
mecánica. No asumas que sabes lo que se pide en el problema, interpreta lo que lees y asegúrate
que entiendes todo lo leído. El mismo proceso debe de ser seguido cuando escribes. Asegúrate
de leer críticamente lo que escribes, recuerda que escribes para que otra persona te entienda.
9.- Los textos son elementos complementarios al curso, no constituyen una guía para el mismo. No
se sigue el orden de ningún libro, sin embargo, debes de leer las secciones apropiadas según el
tema, debes de resolver los ejercicios y sus problemas.
10. Usa las horas de estancia del profesor, plantea preguntas en el salón y después de clase,
presenta tus puntos de vista sobre los asuntos del curso, usa el correo electrónico para enviar tus
preguntas y dudas en cualquier momento al profesor y a tus compañeros de clase, usándolo en
forma ética y profesional.
11.- Integra los conceptos aprendidos a otras áreas de la carrera de ingeniería civil ó integrada a
tus experiencias que hayas tenido antes.
ͻ De que no faltarás
Programa de clase.
Introducción:
Para fines didácticos el curso se ha dividido en 4 unidades en las cuales el estudiante conocerá
y aplicará los principales conceptos de la probabilidad y deberá de desarrollar una habilidad para
aplicar un razonamiento lógico matemático a la interpretación y solución de los fenómenos
aleatorios. En la siguiente unidad aplicará todos sus conocimientos a la generación y aplicación de
una serie de modelos matemáticos. En la tercera unidad comprenderá la necesidad de agrupar
datos para darles un tratamiento estadístico y representarlos por una serie de graficas y por sus
valores medios y de dispersión. Finalmente, entenderá y aplicará el objetivo fundamental de la
estadística que es el de al Inferencia.
Las 4 unidades consideran el comprender el significado y las implicaciones de las ideas básicas,
mas que el memorizar una lista de fórmulas.
Este curso es importante en la formación del Ingeniero Civil, ya que el quehacer de las obras de
Ingeniería, depende de las características de los datos y de cómo estos acontecen, lo que te
permitirá diseñarlas de una manera funcional (caminos, presas, viviendas, estructuras, agua
potable, alcantarillado, etc.).
El alumno desarrollara una capacidad para reconocer los modelos matemáticos que describen
los fenómenos aleatorios, a través de reconocer a la Estadística como la ciencia que se relaciona
con los datos y su tratamiento, y a la probabilidad como la ciencia que aporta los elementos o
modelos para la validación, ambas juntas a través de la Inferencia Estadística.
Contenido Temático.
e) El Teorema de Bayes.
a. La distribución Hipergeométrica
b. La distribución Binomial
c. La distribución Geométrica
d. La distribución de Poisson
e. La distribución Multinomial
a. El teorema de Tshebyshef
b. La distribución uniforme
c. La distribución Gamma
d. La distribución Exponencial
a) El diseño de experimentos
William Mendenhall
ͻ Estadística elemental.
Beaver y Mendenhall
ͻ Estadística
Murray spiegel
Elmer Mode.
UNIDAD 1
En la Ingeniería civil se aceptan una serie de hipótesis simplificatorias (las cargas son axiales, los
materiales son homogéneos, los cuerpos son rígidos, etc.) con el fin de llegar a formulaciones
simples de un problema, llamado modelo matemático, el cual facilita el calculo pero a la vez es
suficientemente representativo. Es un modelo determinado que funciona al sustituir las variables
independientes y definir las dependientes. Pero en la Ingeniería también existen fenómenos que
están sujetos a leyes azarosas o del azar, es decir existe incertidumbre en su ocurrencia y una
hipótesis no es suficiente, ( volúmenes de tránsito, velocidades del viento, volúmenes de agua
escurridos por lluvia, diseños de sistemas de agua potable y alcantarillado, programas de obra,
distribución de transito en la red vial, etc.).
Lo anterior indica contar con una base de datos para interpretar el fenómeno y una forma de
actuar ante un fenómeno con incertidumbre, lo que constituye la esencia de la Probabilidad y
Estadística.
La probabilidad plantea leyes del azar y las cuales se utilizaran como base para guiarnos a
predecir los resultados de ciertos experimentos o fenómenos teniendo así una base para la toma
de decisión, en la Estadística observaremos los resultados de acciones repetitivas y que nos
representan la realidad de los datos recolectados de una muestra asociada a una población,
finalmente con la ayuda de probabilidades estimadas realizaremos inferencias que es el fin último
del análisis del fenómeno y que nos permite definir la población de la cual se obtuvo la muestra.
En los fenómenos con los cuales trabaja el ingeniero Civil, generalmente existe un grado de
incertidumbre, por ejemplo: en las demandas de tráfico, en las precipitaciones pluviales, en la
resistencia del acero, en las cargas sobre un edificio, en la calidad del agua, en la resistencia del
suelo, en la resistencia del concreto, en la demanda de agua, en al intensidad de un sismo, en la
velocidad del viento, etc., los cuales son fenómenos que no tendrán exactamente los mismos
valores observados, aún bajo condiciones aparentemente idénticas. Lo anterior nos lleva a que un
Ingeniero Civil debe de reconocer y tratar la incertidumbre de manera realista y sobre todo de
manera económica.
LA NECESIDAD DE LA EXPERIMENTACIÓN:
Dos conceptos básicos en la Estadística son población y muestra, la población es sobre la cual
queremos hacer afirmaciones a través de un subconjunto extraído de ella y que se denomina
muestra, las conclusiones tendrán validez estadística.
PROBABILIDAD
Son herramientas usadas en al mayoría de las ciencias para poder efectuar mejores tomas de
decisiones.
ͻ EXPERIMENTO:
Proceso para obtener una observación de un fenómeno o proceso cualquiera, involucra tres
etapas; ACCION, RESULTADO Y OBSERVACION.
ͻ VARIABLES EXPERIMENTALES:
Son las que tienen un efecto sobre el experimento, pueden ser cuantitativas o cualitativas.
ͻ TIPOS DE EXPERIMENTOS:
ͻ EXPERIMENTO ALEATORIO:
Los datos y resultados están libres de determinación, se define por la distribución teórica de una
variable y de su estudio se encarga la probabilidad.
ͻ EXPERIMENTO DETERMINISTICO:
Son aquellos en que datos y resultados se conocen en forma absoluta. En su estudio se encarga de
las distribuciones empíricas de una variable a través de la estadística.
ͻ PUNTOS MUÉSTRALES:
Un experimento produce uno y solo uno de los sucesos, si a cada suceso se le asigna un punto se
tendrá un punto muestral. Un experimento tendrá tantos puntos muéstrales como sucesos
puedan acontecer.
ͻ EVENTO SIMPLE:
Es cada uno de los resultados del espacio de eventos (cada punto muestral es un evento simple).
ͻ EVENTO MULTIPLE:
ͻ EVENTO IMPOSIBLE:( Ɍ )
Es el que no se define en el espacio de eventos.
ͻ VERIFICACION DE UN EVENTO:
EJEMPLO:
Un experimento consiste en tirar un par de dados y observar las caras que caen hacia arriba.
Determine los eventos múltiples:
B = {x | x es non}
C = {x | x es 12}
D = {x | x es < 2}
S = 36
A = {(1, 1); (3, 1); (2, 2); (1, 3); ... (4, 6); (6, 6)} nA = 18
B = {(2, 1); (1, 2); (4, 1); (3, 2); ... (6, 5); (5, 6)} nB = 18
C = {(6, 6)} nC = 1
D = {Ɍ} vacío o imposible
ͻ CONJUNTO:
Es una lista bien definida de objetos, por lo que un evento será un conjunto.
ͻ INCLUSION O IGUALDAD:
Si todos los eventos simples de A son también eventos de B se dirá que A(B, o sea que A esta
contenida en B, en caso contrario se dice que A(B.
ͻ COMPLEMENTO (A͛):
Sirve para obtener nuevos conjuntos básicamente se consideran de dos tipos Unión (() e
Intersección (().
ͻ UNION:
Dados los eventos A y B la expresión: A(B = C, indica el conjunto de eventos que están en A o en
B pudiendo estar en ambos.
A(B = {x | x ( A y/o x ( B}
ͻ INTERSECCION:
Dados los eventos A y B la expresión A(B = C, indica el conjunto de eventos que están en A y en
B, es decir {x | x ( A y x ( B}
DISCRETOS O CONTINUOS:
Serán continuos cuando puedan tomar toda la gama de valores entre dos enteros consecutivos
o en el intervalo de (a, b).
FINITOS E INIFINITOS:
CONJUNTO VACIO
A(Ø=A
A(Ø=Ø
CONJUNTO UNIVERSAL
A(S=S
A(S=A
CONJUNTO COMPLEMENTARIO
A ( A' = S
A ( A' = Ø
PROPIEDAD DE COMPLEMENTO
ASOCIATIVA
A ( (B ( C) = (A ( B) ( C
A( (B ( C) = (A ( B) ( C
CONMUTATIVA
A(B=B(A Y A(B=B(A
DISTRIBUTIVA
A ( (B ( C) = (A ( B) ( (A ( C)
A ( (B ( C) = (A ( B) ( (A ( C)
ͻ ASPECTOS CUALITATIVOS Y CUANTITATIVOS DE LOS CONJUNTOS:
Un conjunto tiene estas dos propiedades, a la probabilidad y estadísticas solo les interesa el
aspecto cuantitativo, es decir, interesa cuantos son pero no quienes son.
EJEMPLO:
Un experimento consiste en tirar un dado, dados los siguientes conjuntos múltiples A, B, C, D.:
A = {x | x es par}
B = {x | x es non}
C = {x | x es > 4}
D = {x | x = 3}
-11-
DETERMINAR:
RESPUESTA:
A = {2, 4, 6}
B = {1, 3, 5}
C = {5, 6}
D = {3}
A(B = {2, 4, 6, 1, 3, 5} = {S} n A(B = 6
ͻ DIAGRAMAS DE VENN-EULER
Las operaciones con los conjuntos se pueden representar gráficamente, considerando que el
experimento es un conjunto de puntos de un plano y cada punto del espacio es un evento, como
se muestra:
A(B(C
EJEMPLO:
Un coche puede requerir reparación general, reparar la transmisión o llantas nuevas, un coche
requiere las tres reparaciones, ocho no requieren reparación alguna, dos requieren transmisión y
llantas pero no-reparación, tres reparación general y llantas pero no-transmisión, cuatro
reparación y transmisión pero no llantas, cinco transmisión pero no llantas ni reparación general,
seis llantas pero no-reparación general ni transmisión y siete reparación general pero no
transmisión y llantas.
RESPUESTA
A)
R = reparación general
T = transmisión
L = llantas
a) R, T Y L: n(R(T(L) = 1
c) T Y L NO R n(T(L(R͛) = 2
d) R Y L NO T n(R(L(T͛) = 3
e) R Y T NO L n(R(T(L͛) = 4
f) T PERO NO R Y L n(T(L͛(R͛) = 5
g) L PERO NO R NI T n(L(R͛(T͛) = 6
h) R PERO NO T Y L n(R(L͛(T͛) = 7
i) S = 36
j) n(R(T(L) = 28
k) nR = 15
l) nT = 12
m) nL = 12
B)
EJEMPLO:
RESPUESTA:
nM = 16
nF = 12
nS = 20
M(F =?
M(F
Entonces:
n (M(F) = ns ʹ (M(F)͛ = 20 ʹ 2 = 18
n (M(F) = nM + nF ʹ n(M(F)
18 = 16 + 12 ʹ n (M(F)
n (M(F) = 16 + 12 ʹ 18 = 10
n(M(F) = 10
M(F = 18
EJEMPLO
Al interrogar a 500 alumnos inscritos a uno o más cursos semestrales de álgebra, física y
estadística se encontró que tomaron álgebra 329, física 186, estadística 295, álgebra y física 83,
álgebra y estadística 217, física y estadística 63. Calcule él número de estudiantes que cursaron las
tres materias.
RESPUESTA
Datos:
nf = 186
nA = 329 A F
nE = 295
n(A(F) = 83 (a + b)
n(A(E) = 217 (a + d)
n(F(E) = 63 (a + c) E
n(A(F(E) =?
nF + nA + nE = (a + b + c + e) + (a + b + d +f) + (a + c + d + g)
nF + nA + nE = 810
500 + (a + b) + (a + d) + (a + c) ʹ a = 810
A F
Determine además:
Conceptos de probabilidad
La Frecuencia Relativa es una cifra pasada para predecir lo que sucederá en el futuro.
El problema radica en cuantas veces repetir el experimento. El fenómeno para que sea aplicable
debe tener una situación estable de frecuencia.
Las condiciones para la frecuencia relativa son, de que deben de realizarse un gran número de
intentos y el fenómeno debe de tener una consistencia estable en su frecuencia.
b) Concepto subjetivo, es una probabilidad asignada por individuos o personas en base a su juicio y
experiencia, puede considerar una frecuencia relativa o creencias vividas. Los expertos que toman
decisiones, hace un uso elevado de esta subjetividad. Al formalizarse la subjetividad se puede
llegar a formalizar un concepto de probabilidad para los sucesos.
c) Concepto clásico, es el que considera que todos los resultados son igualmente verosímiles, y no
existe fundamento para preferir una de entre varias posibilidades, todas serán equiprobables,
situación real, pero a la vez situación que quizás no puede existir.
LaPlace considero esta idea y formulo la regla clásica de probabilidad, del cociente de eventos
favorables al de caso posible, todos verosímiles, esta probabilidad también se llama a priori y
parte de una simetría en el mundo. Kolmogoroff planteo una fundamentación axiomática de la
probabilidad y es como se aplica actualmente pero basado en el concepto de LaPlace.
El problema surge cuando se tiene que comprobar lo verosímil que es lo mismo al concepto de
que es igualmente probable, es decir, si se justifica la premisa con el resultado. Entonces que
ocurre cuando un experimento no presenta dicha simetría o que hacer cuando el número de
resultados del experimento es infinito.
Teoría de la probabilidad
ͻ PROBABILIDAD
Este concepto es importante cuando se operan procesos que generan observaciones que no se
pueden predecir, pero su FRECUENCIA RELATIVA con la cual ocurre en una gran serie de
observaciones, generalmente es estable, estos eventos se denominan ALEATORIOS O
ESTOCASTICOS. La frecuencia relativa da una medida intuitiva de la posibilidad de ocurrencia de
un evento aleatorio en observaciones futuras.
PA = nA/nS
ͻ LIMITES DE LA PROBABILIDAD
P (A) = nA/nS
Sí nA = nS
P (A) = nA/nS = 1
P (Ø) = 0
nA͛ = nS - nA
Si todos están en el mismo espacio de eventos se puede dividir todo entre el espacio de
eventos
nA͛/nS = nS ʹ nA/nS
P (A͛) = 1 ʹ P (A)
P (A) = 1 ʹ P (A͛)
P(A) + P(A͛) = 1
Lo anterior indica que cualquier asignación que hagamos debe de verificar estos tres axiomas
para que se pueda llamar probabilidad.
ͻ LEY DE ADICION DE PROBABILIDAD
AUB
P(A(B) = PA + PB ʹ P(A(B)
nS
AUB
P(A(B) = PA + PB
Se generaliza la ley de adición de probabilidad tanto para conjuntos que tengan eventos
comunes, como para aquellos que sean mutuamente excluyentes, es decir:
P (A ( B ( C ( D ( ................) = PA + PB + PC + PD +..................
EJEMPLO 1
Una urna tiene 6 bolas rojas, 4 blancas y 5 azules. El experimento aleatorio consiste en extraer
una bola de la urna y observar su color. Encuentre la probabilidad de que la bola extraída.
a) sea roja nR = 6
b) sea blanca nB = 4
c) sea azul nA = 5
d) no sea roja
A(B
P(A/B)
Probabilidad condicionada
P (A(B) = P (B) * P (A / B)
Se generaliza
En forma para A
P (A ( B) = P (A) * P (B / A)
De ésta manera
Para B:
P (A ( B) = P (B) * P(A)
Para A:
EJEMPLO
El experimento extraer 3 bolas de una urna con seis bolas rojas, cuatro blancas y cinco azules.
a) P en el orden R, B, A:
C.R. P (R ( B ( A) = PR * PB * PA
S.R. P (R ( B ( A) = PR * P (B / R) * P(A / R ( B)
b) 1 de cada color
c) 2R, 1B
d) 3A
e) al menos 2R
P(2R = P2R(P3R = 3P (R(R(R͛) + P(R(R(R) = 3(6/15 * 5/14 * 9/13) + (6/15 * 5/14 * 4/13) = 4.69%
EJEMPLO
Una urna contiene 2 bolas blancas y 1 negra, una segunda urna contiene 1 bola blanca, el
experimento consiste en pasar una bola de la primera urna a la segunda urna, encuentre la
probabilidad de que al extraer una bola de la urna dos, esta sea blanca.
Entonces la suma de estas probabilidades nos da un 83.3% de sacar una bola blanca.
Ejemplo:
C x ½ ½ = ¼ SI
X c ½ ½ = ¼ SI
C c ½ ½ = ¼ no solicitada
X x ½ ½ = ¼ no solicitada
C x ¼ y x c ¼ es decir ¼ + ¼ = ½ o el 50 %.
ͻ PROBABILIDAD FRECUENTISTA
Existen experimentos en los que la probabilidad de la ocurrencia para cada uno de los eventos
del espacio se mantiene como ocurrencia de frecuencia relativa, por lo que se les ponga condición
o no, o se trate con independencia de eventos, su valor no cambiará. Ejemplos: parámetros de
calidad, tirar una moneda, tirar un dado, hijos en familias, etc.
EJEMPLO:
RESPUESTA:
P(A/Hi) a priori
P(Hi/A) a posteriori
Ejemplo:
RESPUESTA:
Datos:
P(H1) = ½
P(H2) = ½
P(A/H2) = 5/25
CON LA FORMULA:
EJEMPLO:
Si el experimento fue extraer 2 bolas sin reemplazo, y el resultado fue de una de cada color,
¿cuál es la probabilidad de que haya salido de la urna 2?
RESPUESTA:
P(H1) = ½
P(H2) = ½
SIN REEMPLAZO:
Aplicando la formula
EJEMPLO:
Una empresa emplea 3 ingenieros (1, 2, 3), estiman respectivamente los costos del 30, 20 y
50% de los costos de dicha empresa, se sabe que cada ingeniero comete 1 error grave al estimar
sus costos con probabilidad respectiva del 1, 3 y 2%. Si una licitación se incurre en un error grave
de estimación de costos, ¿qué ingeniero tiene mas probabilidad de cometer dicho error?
RESPUESTA:
Datos:
Aplicando la formula
Por lo tanto el tercer ingeniero es el que tiene más probabilidad de cometer el error.
ANALISIS COMBINATORIO:
ͻ CONTEO
Encuentre él número de placas que se puede obtener con tres letras y cuatro números.
Entonces
273*104 = 196 830 000 será él numero de placas que se pueden obtener.
ͻ ORDENACIONES (nOk)
Se llama ordenación de clase k de n objetos diferentes a los diferentes grupos ordenados que
se pueden obtener tomando k objetos de entre los n, interesa su ocurrencia y su orden.
nOk = n! / (n-k)!
EJEMPLO:
n=5 y k=2
ͻ PERMUTACIONES
Pn = n!
Sí n1 + n2 + n3 + ... = n
n1, n2, n3..... Pn = n! / n1!n2!n3!.......
ͻ COMBINACIONES (nCk)
Son los grupos que se pueden formar tomando k objetos de entre los n interesa su ocurrencia
pero no el orden, por lo que deben permutarse k veces las ordenaciones.
Entonces:
P = No. De formas de tomar ki objetos de entre ni objetos / numero total de formas de tomar k de
entre Ns. Donde k1+k2+...=k y n1+n2+.....=Ns
EJEMPLO:
a) 1 de cada color
b) 2 rojas y 1 blanca
RESPUESTAS:
b) 2R Y 1B
c) 3A
P(A(A(A) = 0.022
Una V.A. será discreta (VAD) si toma valores enteros, será continua (VAC) sí su dominio esta en
el rango de (a , b ).
Un experimento aleatorio consiste en tirar un par de dados y observar las caras que caen hacia
arriba. Si X es una VAD que designa las caras que caen hacia arriba encuentre su DP.
D.P.V.A.D. x
Xi Pi
2. 1/36
3. 2/36
4. 3/36
5. 4/36
6. 5/36
7. 6/36
8. 5/36
9. 4/36
10. 3/36
11. 2/36
12. 1/36
ѝ1
DISTRIBUCIÓN SIMÉTRICA
Si X es VAD cuya DP es conocida, su esperanza matemática estará definida por el valor que
tiende a presentarse con más frecuencia si el experimento se repite muchas veces.
La esperanza matemática se define de la siguiente manera:
EJEMPLO:
En una lotería para beneficencia se venden 8000 boletos a $1 cada uno. El premio es un
automóvil de $3000, si Juan compra 2 boletos. Calcule la esperanza matemática o valor esperado
de su ganancia.
RESULTADO:
|V.A |hxi |P |
| |SUMA |1 |
EJEMPLO:
La experiencia ha mostrado que una enfermedad causa incapacidad parcial en el 60% de los
casos e incapacidad completa en el 30% de los casos. Solo 1 persona de cada 10000 será afectada
por esta enfermedad en un año dado. Una póliza de seguros paga $20000 por incapacidad parcial
y $50000 por incapacidad total. ¿Qué prima de seguros debe de cobrar una compañía para que la
ganancia esperada sea igual a cero?
|Nada |$ 0 |0.1 |
| |Sumas |1 |
P = 1/10000
La varianza es una medida de dispersión o variabilidad que define que tan cierta es la media, al
establecer un rango de ocurrencia de la media. La raíz de la varianza es la desviación estándar.
E = {hx2} = ( hxi2 * Pi = ( (xi - (x)2 * Pxi = (x2
(x = [pic]
Concentración = (x ( (x
EJEMPLO:
Xi Pi
2. 1/36 (x = ( Xi * Pi)
4. 3/36 (x = 7
5. 4/36
6. 5/36
7. 6/36
8. 5/36
9. 4/36
10. 3/36
11. 2/36
12. 1/36
( 1
(x2 = 5.83
(x = 2.41
CONCENTRACION = 7 ( 2.41,
Estas variables al tomar toda la gama de valores entre (a, b) se deberán de solucionar por
medio de integrales bajo los principios ya establecidos.
Definida una función de probabilidad f(x) que es multiplicada por una constante k que obliga al
área bajo la función ser igual a 1.
P(x ( a) = (a( Px dx
P(x ( b) = (((b Px dx
(x = (-(( xPx dx
( x2 = (-(( (x-(x)2 Px dx
EJEMPLO:
Según datos estadístico una VAC toma valores entre 0 y 4 y su función de probabilidad esta
definida por f(x) = ½ - kx. Determine:
a) el valor de k
c) parámetros
d) polígono y concentración
a. (04 (1/2-kx)dx
(x/2 ʹ kx2/2 (0 4 = 1
(2 ʹ 8k( - 0 = 1
k = 1/8
Px = ½ - x/8
(x = (0.81 = 0.9
d. concentración (x ( (x
1.33 ( 0.9
de 0.43 a 2.23
Px
x Px ½
0. ½
4 0 x
Ejemplo1. Se ha encontrado por experiencias, que la duración de cierto producto es una v.a.c. que
se distribuye según la siguiente función
Fx = e-2x/k para x>0, determine la probabilidad de que el producto tenga una vida de menos de
dos unidades de tiempo y determine la media de la duración.
CASO DISCRETO
CASO CONTINUO
Teorema de Tchebyshef
B) Distribución Gamma
C) Distribución Exponencial
CASO DISCRETO:
ͻ DISTRIBUCION HIPERGEOMETRICA ( H )
Si tenemos un universo finito de N objetos del cual extraemos n objetos sin reemplazo de dicho
universo y si existe a objetos de cierta característica, la HIPERGEOMETRICA se define al calcular la
probabilidad de que al sacar n objetos x sean de la característica de a y el resto no lo sea.
H =[a C x * (N-a) C (n-x) ]/ N C n
p = a/N
(x = np
p+q=1
q=1ʹp
EJEMPLO:
b) Si x es una VAD que designa a las mujeres encuentre su DPVAD, polígono, concentración, (2x, (x
y (x.
RESPUESTA:
N= 20, n= 5, a= 8
a) p(3M, 2H), x= 3
H = [8C3][(20-8) C (5-3)]/20C5
H = 0.238
b) VAD _ mujeres
(x=5*(2/5) = 2
(2x= [(20-5)/(20-1)] * 5 * 2/5 * 3/5 = 0.947
(x= 0.973
concentración (x ( (x = 2 ( 0.97
px x Px
0.4 0 0.051
1 0.255
2 0.398
3 0.238
x 4 0.054
0 1 2 3 4 5 5 0.004
є 1
ͻ DISTRIBUCION BINOMIAL
PRUEBA DE BERNOULLI
Si un experimento esta compuesto por una serie de sucesos con una probabilidad p de ocurrir
o éxito y una probabilidad q de no ocurrir o falla y si el experimento se repite muchas veces y en
cada intento se mantienen los valores de p y q, se dirá que se tendrá la probabilidad de un éxito en
un intento o PRUEBA DE BERNOULLI por ejemplo: tirar una moneda, parámetros de calidad,
frecuencia relativa, etc.
La distribución binomial considera una sucesión de pruebas de Bernoulli, con una p de éxito y
una q de falla, si el experimento se repite n veces la probabilidad de x éxitos y (n-x) fallas será
pxq(n-x). La binomial se define al encontrar todas las posibles ocurrencias de lo anterior, es decir:
B = [nCx][pxq(n-x)]
El 20% (base de datos) de los remaches producidos por una maquina son defectuosos, encuentre
la probabilidad de que en una muestra de 4 remaches tomados al azar.
a) se tengan 3 defectuosos
p= 0.2
q= 0.8 (( Binomial
n= 4
x=3
b. Bx ( 2 = B2 ( B3 ( B4
Bx ( 2 = 0.1808
rango de 0 a 1.6
EJEMPLO:
Se lanza una moneda homogénea al aire 6 veces, si x es una VAD que designa las caras que
caen hacia arriba. Determine la probabilidad de tener dos caras. Determine su DPVAD, pol. Y
concentración para las caras
p = 0.5
q = 0.5
x=2
B = [6C2][(0.5)2(0.5)6-2] = 0.234
(x = np = 6(0.5) = 3
(x = 1.22
concentración (x ( (x = 3 ( 1.22
EJEMPLO:
En una intersección en Y que sirve como de libramiento en un camino para no entrar a una
ciudad, según datos estadísticos permiten asegurar que 2/3 partes del transito van a la ciudad. Si
se aproximan 8 vehículos a la intersección determine la probabilidad de que ningún vehículo use el
libramiento.
p= 1/3
q= 2/3
n= 8
x= 0
B=[8C0][(1/3)0(2/3)8-0] = 0.000304
(x= 1.333
rango de 1.334 a 4
ͻ DISTRIBUCION GEOMETRICA
G= px-1 * q
Parámetros: (= 1/q
(2= p/q2
o bien
G= qx-1 * p
Parámetros: (= 1/p
(2= q/p2
EJEMPLO:
Un dado se lanza varias veces, encuentre la probabilidad de que el primer seis caiga en el
quinto lanzamiento.
x= 5
q= 1/6
p= 5/6
G= px-1q
G=(5/6)4(1/6) = 0.0803
(= 1/q = 1/(1/6) = 6
(= 5.47
concentración (x ( (x = 6 ( 5.47
Ejemplo :
El elemento se puede romper en cada máquina y cuando esto ocurre la máquina queda
temporalmente fuera de servicio y el proceso se interrumpe.
La Hipergeométrica puede ser tratada como Binomial aunque el experimento sea sin
reemplazo. Ya que si n es suficientemente grande, el error que se puede tener al considerar una
probabilidad constante tiende a cero, por lo que el ajuste puede ser válido. Se acepta que el ajuste
es suficientemente apropiado cuando n es menor que el 5% de N
0.05N ( n
En este caso los parámetros para la Binomial n, x, p, y q se consideran de la siguiente manera:
EJEMPLO:
En una prisión 120 de los 300 internos purgan condenas por delitos contra la salud, si se
selecciona una muestra de 8 internos. Encuentre la probabilidad de que 3 de los ocho purguen
condena por delitos por la salud.
RESPUESTA:
N= 300, a=120, n= 8, x=3 condiciones de una H, pero como N es muy grande entonces se
revisará un ajuste por la binomial:
B= 8C3 * (0.4)3(0.6)5
B= 0.2787
Se observa que el ajuste funciona ya que el valor de p y q no varían mucho al hacerlo sin
reemplazo 120/300=0.4 119/299=0.398 etc.
ͻ DISTRIBUCION MULTINOMIAL
Considere un experimento en los que se verifican los eventos E1, E2, E3,... Ek todos
mutuamente excluyentes y en el que cada uno tiene una probabilidad de verificación P1, P2, P3, ...
Pk, si consideramos que el experimento se repite n veces, donde cada evento se puede verificar
n1, n2, n3, ... nk, donde n1 + n2 + n3 + ... + nk = n (con reemplazo).
k variables aleatorias.
EJEMPLO:
RESPUESTA
|TRABAJO |0,433 |6 | |
|NEGOCIOS |0,08 |2 | |
|RECREO |0,076 |0 | |
|ESCUELA |0,304 |5 | |
|OTROS |0,026 |1 | |
M= 0.0016
Una VA con esta distribución considera los valores de p y q binomiales, trata de definir que es
lo que sucederá cuando interesa él numero de la prueba en la cual ocurre el 2º, 3º, 4º, etc., éxito,
cuando se define en que prueba ocurre esto se tendrá la Binomial Negativa.
Según fgm:
Sí r= 1
(x = r/p = 1/p
r= 1 B-1 G
EJEMPLO:
Un estudio geológico indica que un pozo mana petróleo con una probabilidad de 0.2. ¿Cuál es
la probabilidad de que el 3er. encuentro de petróleo haya manado del 5to pozo que se perforo?
RESPUESTA:
p= 0.2 q= 0.8 x= 5 r= 3
B-1 = [4C2](0.2)3(0.8)2
B-1 = 0.03072
Rango = de 7 a 23
x= 15
r= 3
B-1 = [14C2](0.2)3(0.8)12
B-1 = 0.0500
EJEMPLO:
Se lanzan 2 monedas al aire, encuentre la probabilidad de que en las 2 monedas caiga ͞águila͟
por tercera vez en el sexto intento.
RESPUESTA:
x= 6 r= 3 p= 1[½ ( ½] = ¼
q= 1 ʹ ¼ = ¾
B-1= [5C2](1/4)3(3/4)3
B-1= 0.066
concentración = 12 ( 6 Rango = de 6 a 18
n (
p 0
x 0
n ( 100
p ( 0.05
x < 10
Binomial y Poisson no son recomendables cuando x (, pero también con cualquier valor de
p, q, x,n y se solicitan probabilidades acumuladas. En este caso se prefiere un ajuste del caso
continuo al caso discreto.
MODELO DE POISSON
P= [( x e-(] / x(
(x = np = (
(2x = np = (
(x = ( (
La demostración se efectuará en clase.
EJEMPLO:
El 2% de los fusibles producidos por una maquina son defectuosos. Encuentre la probabilidad
de que en una muestra de 200 fusibles tomados al azar.
se tengan 4 defectuosos
RESPUESTA:
P=[e-((x] /x!
a. ( = np = (200)(0.02)= 4
Px=4 = 0.195
Px(6= p0 + p1 + p2 + p3 + p4 + p5 + p6
Según la respuesta b. Se puede aceptar que tiende a 0, o efectuar un ajuste continuo por la
prueba normal si satisface las condiciones.
DPVAD
(x = np = 4
varianza = 4
desviación estándar = 2
rango de 2 a 6
|X |Px |
|0 |0,0183 |
|1 |0,0733 |
|2 |0,1464 |
|3 |0,1952 |
|4 |0,1952 |
|5 |0,1561 |
|6 |0,104 |
|7 |0,0595 |
|8 |0,0297 |
|9 |0,0132 |
| | |
|[pic]|0,9909 |
RESPUESTA:
EJEMPLO:
En una intersección con semáforo en tiempo fijo de ciclo de 60 segundos. 200 vehículos/ hora
dan vuelta a la izquierda, cada ciclo puede acomodar tres vueltas izquierda.
b) Si se proporciona una fase especial para darle vueltas izquierdas, en que porcentaje de los ciclos
no será necesario esta fase.
RESPUESTA:
200/60 = 3.3 = (
b) x = 0
Para aplicar el TCH es cuando las distribuciones presentan una forma del tipo monticular o tipo
joroba, pero aún con distribución desconocida podrá ser aplicado, al ser solo para valores
aproximados al TCH también se le conoce como de distribución libre, el TCH descubrió que la
fracción del área entre dos valores simétricos alrededor de la media esta relacionado con la
desviación estándar tanto para el caso discreto como para el continuo.
El TCH también es la aplicación para definir la tendencia de una DP ya que una distribución
acampanada debe satisfacer sus condiciones.
El TCH considera una VA x con parámetros ((x, (x) y demuestra para todo valor de k(+) desv std de
la media toma los siguientes valores :
Esto indica que por lo menos 1 ʹ 1/k2 de las observaciones se encuentran dentro de k
desviaciones estándar de la media. Geométricamente representa lo siguiente:
F(x)
x
(x (x (x
k( k(
es decir
k( ( 1 ʹ 1/k2
( ¾
( 8/9
( 15/16
( 24/25
EJEMPLO:
Un producto tiene un peso promedio de 16 onzas ((x = 16), con (x= 0.02 onzas. ¿Qué
porcentaje de los productos como mínimo deberán de tener su peso entre 15.8 ( x ( 16.2 onzas? Si
su distribución continua es desconocida
(x = 16
(x = 0.02 según (x ( (x
16 ( k * (x
k * (x = 0.2
k = 10
EJEMPLO:
Él numero de clientes a los que un restaurante sirve una noche de viernes es una VA con una (x
= 160, (x = 7.5, si la distribución es del tipo monticular encuentre
a) la probabilidad de que se sirvan entre 145 y 175 clientes en una noche de viernes
c) Él numero de clientes que serán atendidos con una probabilidad del 85%.
RESPUESTA:
(x = 160, (x = 7.5
(x ( k * (x k * (x = 15
160 ( 15 k = 15/7.5
k=2
(x ( k * (x k * (x = 40
160 ( 40 k = 40/7.5
k = 5.33
c) 1ʹ1/k2 = 0.85
k2 = 6.66
F(x)
A=b*h
A = (b-a)(1/b-a)
A =1 1/(b-a) a b
Para asegurar el principio probabilistico de que el área bajo la curva es igual a 1, la altura del
rectángulo debe ser 1/b-a .
Una variable de este tipo se denomina uniforme y se representa con la siguiente función:
(x = (a + b) / 2
(2x = (b ʹ a)2 / 12
EJEMPLO:
RESPUESTA:
Intervalo (a , b) = (0 , 30)
P(25 ( x ( 30) = (3025 (1/30)dx = (1/30)( x(3025= (1/30) [30-25] = 5/30 = 1/6
(2 = (30 ʹ 0)2/12 = 75
( = 8.66
Esta distribución se relaciona con variables aleatorias a las que solo se les puede asociar valores
no negativos, esto indica que su distribución es asimétrica o sesgada a la derecha, lo que implica
que la mayor cantidad de área se concentra alrededor del origen, como se muestra en la gráfica.
F(x)
(( = función de alfa
f(x) = (x(-1e-x/()/((((
0(x((
( = ((
(2 = ((2
( variará según la curva sea mas sesgada o menos sesgada y ( según sea mas o menos apuntalada.
Para la solución de esta distribución, el alumno NO podrá optar por el T.CH, para tener una
solución aproximada al problema. Pero se puede llegar a una solución exacta empleando una
técnica programada; por ejemplo, a través del Mathcad con la limitativa de no dar solución para
valores grandes de ( y (. Aunque también se podrá dar solución empleando una transformación de
la Gamma std a través de la Gamma incompleta.
Los valores de ( y ( pueden ser determinados si son conocidos los parámetros ( y (, ya que con
una relación algebraica se podrán determinar los parámetros de forma y el de escala, siendo esto
lo común.
EJEMPLO:
El tiempo para efectuar un mantenimiento de un equipo sigue una ley gamma con ( = 3 y ( = 2. Un
mecánico nuevo emplea 20 minutos para llevar a cabo dicho mantenimiento, concuerda este
tiempo con las experiencias anteriores de mantenimiento.
RESPUESTA:
( = (( = 6
(2 = ((2 = 12, ( = 3.46 Concentración ((( 6(3.46, en este rango se tendrá la mayor concentración
de probabilidad, por lo que casi se puede aceptar que 20( es demasiado tiempo y no concordará
con las experiencias anteriores. Se compararán estos valores teniendo como función de ajuste el
empleo del T.CH. :
k( = 14, k = 4.05
Px ( 20 = 1 ʹ 1/k2
= 0.94,
o sea que solo en el 6% de los casos se emplearán mas de 20 minutos, por lo que no concuerda
con los tiempos de mantenimiento. Empleando mathcad da una probabilidad exacta de = 0.997
considerando la función [ x2 e-x/2 ] / 16, se observa la diferencia que existe entre el valor
estimado y el real. Para el caso de un valor máximo de 10͛ la probabilidad exacta es 0.875 pero por
T. CH. Da 0.25 donde se observa la gran diferencia en la aproximación. En la hoja final de anexos se
muestra la hoja de cálculo del Mathcad.
F ( 20/2, 3 ) = F ( 10,3 ) = F ( X , ( )
Entrando a la tabla de la gamma incompleta y la cual se adjunta en el anexo de la pagina final, se
tendrá que P ( x < 20´) = 0.997 que coincide con el valor calculado por mathcad, para el caso de P
( x 5 para p > 0.5
( = np
(( = (npq
EJEMPLO:
Un dado se lanza al aire 1000 veces. Encuentre la probabilidad de que la cara 3 caiga...
RESPUESTA:
Pero como a),b),c) son probabilidades acumuladas muy laboriosas, entonces se revisará un ajuste
normal: np=167>>5 y p=1/6< 0.5, ok ajuste normal.
a) P(150( x ( 180)
( = np = 1000*1/6 = 167
(( = (npq = 11.8
Los valores mayores a z=3 cubren un área acumulada de .4999 por lo que se podrá aceptar
tendencias al 0% o al 100%, según la prueba solicitada.
Introducción
Actualmente las técnicas estadísticas son utilizadas en casi todas las ramas de las ciencias,
desde las exactas hasta las sociales pasando por las astronómicas, médicas y biológicas entre
otras. Las técnicas utilizadas van desde los simples promedios y desviaciones estándar hasta
modelos de pronósticos de series de tiempos. Algunas veces dichas técnicas son utilizadas sin
darse cuenta, como es el caso en la evaluación de jugadores de Base Ball (promedio de bateo por
jugador, promedio de carreras limpias por juego para un pitcher, etc.).
La razón fundamental por la cual se utilizan las técnicas estadísticas es para toma de
decisiones cuando no se tiene información completa de los hechos, o cuando se desea efectuar un
pronóstico sobre la base de datos históricos, es decir cuando existe un grado de incertidumbre.
Mientras más información se tenga al momento de efectuar una decisión, es más posible
que dicha decisión sea mejor para la persona que la toma. De cualquier manera aun teniendo una
información perfecta se corre el riesgo aunque en menor grado de tomar una decisión incorrecta.
Pronósticos y tendencias.
Diseño de Experimentos.
Aunque las técnicas de la estadística son utilizadas en diferentes ramas de las ciencias, la mayoría
de estas técnicas son simples y comunes a todas las ramas de aplicación.
CASOS.
En este punto se describen algunos problemas que pueden ser resueltos usando técnicas
estadísticas.
Se requiere pronosticar la población del área metropolitana del Distrito Federal de México para
el año de 2005, con el fin de calcular los requerimientos de infraestructura, víveres y servicios para
dicho año.
Un instructor en el curso de matemáticas avanzadas, desea saber qué método ha dado mejor
resultado en la partición de dicha materia en la Universidad de Guadalajara. Los métodos son:
impartir la clase; Muy estricto, regularmente estricto, o poco estricto. Tales métodos han sido
llevados a cabo por el instructor y se cuenta con las calificaciones obtenidas por alumno en cada
uno de los grupos.
En la empresa Compañía Nacional de Subsistencias Populares (CONASUPO) se ha desarrollado
un nuevo envase de leche y se desea saber si dicho envase tendrá aceptación de los clientes.
Una variable es aquella que puede tomar algún valor en un determinado rango de valores
tales como peso, velocidad, número de integrantes de familia, etc. Las variables pueden ser
continuas o discretas. Las continuas son aquellas que pueden tomar cualquier valor entero o
fraccionario en un intervalo, por ejemplo: altura, peso, presión, etc. Por otro lado, algunas
variables pueden tomar sólo valores enteros como número de ocupantes por carro, boletos
vendidos de cine, etc., a dichas variables se les conoce como variables discretas.
RECOLECCION DE LA INFORMACION.
Cuando se requiere información de tipo estadístico, lo más probable es que se tenga que
recolectar de diferentes fuentes. Las informaciones pueden ser recabadas ya sea de fuentes
privadas o públicas. De hecho existen ciertas entidades gubernamentales y organizaciones
internacionales que se encargan de recolectar, clasificar y presentar información al público, tal es
el caso de los censos que en la mayoría de los países son efectuados por el gobierno
correspondiente y en algunos casos el mismo es asesorado por organizaciones como la
Organización de Naciones Unidad (ONU) o la Organización de Estados Americanos (OEA) y por el
INTERNET.
Puede suceder que la información que se requiere no se encuentre disponible y en tal caso
se tenga que recolectar por medio de observaciones, encuestas u otro método.
ABUSOS DE LA ESTADISTICA.
C) La empresa ASTRALPO produjo 50,000 bolsas de medio kilo de arroz en el mes de enero y
47,800 en el mes de febrero. En primera instancia se puede creer que durante el mes de febrero
se trabajó con mayor ineficiencia que en enero, sin embargo sucedió lo contrario ya que la
producción diaria promedio durante enero fue de (50,000/31) = 1,612.9 bolsas, mientras que en
febrero fue de (47,600/28) = 1,700 bolsas.
Así como los casos antes indicados se podrían agregar muchos otros, un gran número de
ejemplos de uso incorrecto de datos estadísticos ha sido publicado, pero para entender lo que
está incorrecto se debe de conocer el método preciso de efectuar el análisis estadístico.
Desde los comienzos de la civilización han existido formas sencillas de realizar estadísticas
utilizando símbolos en pieles, rocas, palos de madera y paredes de cuevas y así contar personas,
animales o ciertas cosas. Los romanos fueron los primeros que recopilaron gran cantidad de datos.
Con la generalización del método científico en el siglo XIX, los investigadores aceptaron la
necesidad de reducir a valores numéricos para evitar la ambigüedad de las descripciones verbales.
La función principal de las estadísticas es la de plantear principios que nos ayuden en las
tomas de decisiones frente a las incertidumbres. La estadística ha llegado a ser un instrumento
cotidiano para todo tipo de profesionales que están en contacto con datos cuantitativos ó que se
extraen conclusiones de ellos. La probabilidad es la base sobre la cual descansa la basta estructura
de la estadística moderna.
CONCEPTOS DE ESTADÍSTICA
CLASIFICACIÓN DE LA ESTADÍSTICA
Los datos pueden ser cualitativos o cuantitativos, ya sea que la variable del experimento
asuma valores numéricos que posean un orden inherente por ejemplo: pesos, diámetros,
velocidades, etc., se llaman cuantitativos. Cuando los datos indican que la variable pueda tomar
valores que asignen a uno u otro conjunto de clases, se llaman cualitativos.
--Toma de datos: es la obtención de una colección de los mismos, los cuales no han sido
ordenados numéricamente. La colección debe llevarse a cabo con un objetivo definido y con una
técnica apropiada.
--Numero de grupos ó clases (n): es el número de paquete en los cuales deberán de estar incluidos
todos los datos, los estadísticos recomiendan trabajar entre 8 y 20 clases, se recomienda emplear
la tabla en base a la formula de H.A. Sturges.
--Determinación del intervalo de clase o anchura del intervalo (c = A/n) se refiere a los limites que
se deberán de dar para mantener el mejor agrupamiento, se recomienda cerrarlos a números
enteros, por tanteos se determina el intervalo o anchura mas apropiado.
--Límites de clase: definido el intervalo asignar numéricamente los límites de intervalo, de tal
manera que los datos tiendan a concentrarse hacia la parte central. Se recomienda dar los límites
de manera que todo dato quede comprendido en un intervalo, por lo que los límites se
propondrán a la siguiente unidad inferior. Se recomienda que el primer dato quede a la mitad del
primer intervalo y así definir el primer limite, pero según las necesidades de concentración esta
recomendación se podrá modificar.
Marca de clase (Mci): es el punto medio del intervalo, este valor se supone es el que
representa a todos los datos del intervalo.
Una de las técnicas más comúnmente usadas para organizar y resumir los datos es agrupar
los datos en forma de una distribución de frecuencias. Uno de los primeros puntos a considerar,
cuando se van a agrupar ciertos datos, es cuántos intervalos van a incluirse. Muy pocos no son
convenientes, debido a que hay pérdida de información. Por otra parte, si se usan demasiados
intervalos no se logra el objetivo de la síntesis. La mejor guía en relación con lo anterior, así como
para otras decisiones que deben tomarse al agrupar los datos, es el conocimiento que se tenga de
ellos. La tabla 1 provee una guía para el número de intervalos (o clases) para usar en construir una
distribución de frecuencias.
Los resultados son en base a una fórmula dada por H.A. Sturges y según esta fórmula el número de
intervalos esta dado por :
K = 1 + 3.322 log10 n
Ejemplo:
Dados los siguientes datos sobre precipitaciones pluviales media anual en el D.F. y según el
observatorio metereológico de Tacubaya efectué el tratamiento estadístico de los datos, de modo
que se aproxime lo más posible a una Distribución Normal y que permita calcular sus parámetros
representativos y así poder efectuar inferencias y tomar decisiones.
Toma de datos:
2) Ordenación de datos.
958 882 860 856 856 829 813 810 802 784
764 762 760 750 744 743 739 738 737 734
731 726 725 721 714 711 706 704 702 692
679 675 674 670 667 659 654 650 646 646
639 637 617 615 604 591 583 580 566 555
552 538 520 513 504 473 464 460 451 397
3) Rango o Amplitud
4) n = 10 se dispersan y se propone n = 8
SUMAS 60 100
De la forma que presente los anteriores gráficos se podrá ir aceptando una tendencia a una
distribución normal: histograma y polígono de frecuencia de formas acampanadas simétricas, ojiva
de forma semejante al símbolo de integral pero de forma suavizada.
Histograma
Limite inferior ʹ vs - % Fi
[pic]
Los parámetros que se utilizan con más frecuencia son los siguientes:
La mediana (Md)
Medias:
Cuadrática ( Q)
Geométrica (G)
Armónica (H).
LA MEDIA ARITMÉTICA:
La media aritmética (x): es la más común y útil medida de tendencia central y corresponde al 1er
momento con respecto al origen. La media es representativa cuando los polígonos de frecuencia
sean de forma acampanada y se identifica con el punto de mayor concentración. Para
comportamientos donde la media no corresponde al punto de mayor concentración, es decir
comportamiento no acampanado, la media quizás ya no puede ser buen parámetro por lo que se
emplean otros que pueden sustituirle, tal como la mediana y la moda.
Para una serie de datos la media es un valor que multiplicado por él numero de términos
de la sumatoria de todos los términos de la serie:
nx = ( xi
x = ( xi
Para datos agrupados en serie de frecuencias, se considera que la Mci representa a todos
los datos del intervalo es decir, se repite (fi) veces, por la formula se transforma en la siguiente:
X = (fi * Mci
(fi
Si c = cte (ancho de intervalo), se deduce la siguiente formula corta: para la media aritmética:
fi
cdi c x
Mci
( fi (fi (fi
simplificando
(fi (fi
((x (
x = c ( fi * di + Z
(fi
CARACTERÍSTICAS DE LA MEDIA
Es un valor calculado.
Todos los valores intervienen en su cálculo.
( (xi ʹ x) ( 0
LA MEDIANA:
La mediana (Md): es valor del termino colocado a la mitad de la serie cuando los datos han sido
ordenados de acuerdo a su magnitud, por lo que el 50% de los datos será mayor ó igual que la
mediana y el 50% menor o igual que la mediana.
La posición de la mediana (T), para datos nones se obtiene por la formula T = (n + 1)/2 pero
cuando son muchos datos será: T = n/2.
Ejemplo: 1, 2, 3, 4, 5 Md = 3 1, 2, 2, 4, 5 Md = 2
Para datos agrupados en serie de frecuencias se puede considerar que la mediana se calcula
partiendo de la tabla de frecuencias acumuladas.
Md
T-Fi
T Fs
Fi
Li x
Md = Li + x
[pic] [pic]
T( posición [pic]
CARACTERISTICAS DE LA MEDIANA
Cualquier término seleccionado al azar tiene la misma probabilidad de caer arriba o debajo de
la mediana.
La media divide a la serie de frecuencias en dos partes iguales, los cuartiles en 4 partes, los
deciles en 10 partes y los percentiles en 100 partes, se calcula usando la misma formula de la
mediana y donde únicamente varia ͞T͟.Son valores que se aplican a diferentes casos estadísticos.
LA MODA:
La moda, es el valor que más se presenta en forma frecuente en una serie de datos.
Ejemplo: 1, 2, 3, 4, 5 (x = 3 Md = 3 Mo = multimodal
1, 2, 2, 4, 5 (x = 14/5 = 2.8. Mo = 2 Md = 2
Para datos en serie de frecuencias la moda se localiza en el pico del Histograma, por lo que
al hacer el tratamiento de datos deberá de evitarse varios picos que haga multimodal la gráfica, es
decir es deseable que sea unimodal.
La moda coincidirá con la marca de clase, siempre y cuando las frecuencias parciales
anterior y superior sean iguales, en caso de que no sea así; el punto se localiza hacia donde exista
mayor frecuencia.
fi = fs
fs > fi
fi fs fi fs
Mo = Mci Mo
fi > fs
fi fs
Mo
DEMOSTRACION:
c Mo = li + x
Mo
x c-x
fi x fs fi c fs
li (
fi(x) = fs (c ʹ x)
x(fi + fs) = c fs
x = [pic] Mo = li + [pic]
CARACTERISTICAS DE LA MODA
Mo Md x x Md Mo
Junto a los parámetros media, mediana y moda, se acostumbra calcular otros parámetros de
tendencia central, aunque son poco usuales, y son la media cuadrática , la media geométrica y la
media armónica y que básicamente se obtienen como una variante de la media aritmética.
La media cuadrática ( Q ) :
Se obtiene como la raíz cuadrada del promedio de los cuadrados de los términos de la serie, o es
el resultado de elevar al cuadrado todos los valores observados de la variable, obtener su media
aritmética y obtener la raíz cuadrada de dicha media.
Q = [( x2 / n] ½
Q se utiliza cuando la variable toma valores positivos y negativos y se emplea para calcular el
promedio sin efectos de signo p.ej. errores de medidas y aplicaciones físicas (RSM). En su cálculo
intervienen todos los valores, es un valor calculado, es única para cada distribución y se define por
una expresión algebraica. Es poca representativa ante la presencia de valores extremos.
La G se obtiene como la raíz enésima del producto de los n términos de una serie, términos
positivos y no nulos:
La ventaja de la G es que en su cálculo intervienen todos los datos, es única, es menos sensible
a valores extremos que la media aritmética, se define por una expresión. La desventaja es que su
valor es menos intuitivo que la media aritmética.
La media armónica H:
La H tiene su aplicación cuando los datos se expresan según una relación con alguna unidad p.ej.
km/hr, lts/seg, etc. Puede ser mejor que la media aritmética, es influenciada por valores
pequeños, no acepta datos nulos.
Existen una serie de parámetros que representan la dispersión de las series de frecuencia
tomando como base el parámetro de tendencia central elegido, dichos parámetros son lo
siguientes:
Amplitud (A)
AMPLITUD:
La amplitud es la más simple de las medidas de dispersión, se obtiene por la diferencia del
valor mayor menos el valor menor, no es un parámetro muy efectivo ya que dos series con
diferente dispersión puede tener la misma amplitud. Básicamente se toma como una medida de
referencia.
18, 21, 23, 23, 24, 24, 24, 25, 25, 27, 29, 30. Amplitud = 30 ʹ 18 = 12
18, 18, 18, 19, 19, 19, 19, 24, 27, 30, 30. Amplitud = 30 ʹ 18 = 12
Aunque tienen la misma amplitud, las series tienen diferente dispersión y no corresponden a
una situación semejante.
DESVIACIÓN MEDIA:
La desviación media, se obtiene como el promedio de los valores absolutos de las desviaciones
de los términos con respecto al parámetro central elegido. Para datos aislados se define de la
siguiente manera:
DM = ( (xi - x(
n
DM = ( fi (x ʹ Mci (
( fi
Siempre se obtendrá que la desv.std. es mayor a la desv. Media, por lo cual se considera a la desv.
Std. Como un parámetro mas crítico para medir la dispersión por eso es preferible a las desv.
Media.
S2 = (fi (x ʹ Mci)2
( fi
Empleando el mismo criterio que para la media aritmética, se pude deducir en forma
matemática una formula corta de la siguiente manera:
[pic]
Al
(1-1/k2)
k k
|K |1-1/k2 |[pic] ( ks |
|1 |0 |[pic] ( S |
|2 | 3/4 | [pic] ( 2S |
Pero la consideración de ambos conceptos nos permite definir si una masa de datos agrupados
en series de frecuencia, tienden hacia un comportamiento de tendencia normal, aunque la
aceptación matemática del hecho solo es posible mediante un análisis de variancia a través de la
prueba chi cuadrada.
COEFICIENTE DE VARIACION
Es una medida de dispersión relativa que permite comparar las dispersiones de distintas
series de frecuencias, es una medida adimensional, se calcula por la siguiente expresión:
CV = (s / x) * 100
9 10 11
CV 10%
7 10 13
30%
Mientras más pequeño sea el CV, sé tendrá más concentración y será más representativo.
x = 10ºC
S = 1ºC
<F = 1.8ºC + 32
x = 50ºF
S = 33.8ºF
COMPROBACION DE LA NORMALIDAD
Hay varias maneras en que podemos probar si una distribución observada tiene
aproximadamente la forma de una distribución normal. La manera que aquí presentaremos es
cruda y en gran medida subjetiva, pero definitivamente tiene la ventaja de que es muy fácil de
llevarse a cabo.
Para ilustrar esta técnica, nos referiremos a un ejemplo de datos de emisión de óxido de
azufre. Primero convertimos las frecuencias acumulativas en porcentajes acumulativos dividendo
cada una entre 80 la frecuencia total, y multiplicando después por 100. Esto nos da:
Toneladas de porcentaje
Una vez que hemos trazado los porcentajes acumulativos de ͞menos de͟ como en la figura
anterior, usamos el criterio siguiente:
Si los puntos siguen en gran medida el patrón de una línea recta, consideramos que ésta es una
evidencia positiva de que la distribución tiene aproximadamente la forma de una distribución
normal.
Es evidente que ͞en gran medida͟ y ͞aproximadamente͟ no son términos muy precisos
pero al principio señalan que ésta es una técnica cruda y en gran medida subjetiva, aunque fácil de
realizarse. El patrón más común en que la distribución se consideraría como ͞anormal͟ es él
patrón en que los puntos de la extrema derecha caen por debajo de la línea recta determinada por
el equilibrio de los puntos.
Para fines de este curso se aceptara una tendencia a la normalidad de una serie de datos
agrupados en serie de frecuencias, cuando se cumplan las siguientes condiciones:
X ( Md ( Mo ( Q ( G ( H
LIMITE
-80-
Media aritmética:
La mediana:
La moda:
La media cuadrática:
La media geométrica:
La media armónica:
La desviación media:
La desviación estandard:
El coeficiente de variación:
Par la regla empírica se exige respectivamente el 68.26%, 95.44% y 99.74% que también lo
cumple nuestro análisis y será con tendencia normal.
CONCLUSIÓN:
(X = 673.5 mm de agua.
S = 116.32 mm de agua.
Tendencia normal.
. Similitud de medias.
. C.V. pequeño.
Cabe destacar que la aceptación formal matemática la dará el análisis de variancia a través de la
prueba chi cuadrada.
[pic]
|2) Ordenación |
|K |% (1-1k2) |
|1 |0 ~ 66% |
|2 |3/4 ~ 75% |
|3 |8/9 ~ 88% |
|Regla Empírica |
|[pic] | |68.26 % |
|[pic] | |95.54 % |
|[pic] | |100 % |
|[pic] | |
|X |y |
|1 |9 |
|1 |11 |
|1 |10 |
|2 |22 |
|2 |17 |
|2 |18,75 |
|3 |30 |
|3 |32,5 |
|3 |25 |
|4 |37,5 |
|4 |42,5 |
|4 |45 |
Finalmente, debe decirse que, dependiendo de la forma en que se obtengan los valores
muéstrales de la variable independiente, se pueden definir dos tipos de problemas. El problema
de regresión es del Tipo I si los efectos en la variable dependiente Y se miden para ciertos valores
del factor X escogidos previamente por el experimentador.
El problema es del Tipo II cuando los valores de X y Y son escogidos al azar en la forma en que
ellos se presentan.
DIAGRAMA DE DISPERSIÓN
Y y y
. . .........
. . . ..........
.. ...........
. ............
x x x
Y (fuerza, Kg) Y( = a0 + a1 x
40
30 ( xi ,yi )
10
0 1 2 3 4 x (deformación, cm)
CURVA DE REGRESIÓN
La curva de regresión es aquella a la cual tienden a aproximarse los puntos del diagrama
de dispersión. En particular, la curva de regresión es una recta de regresión cuando la relación
funcional entre las dos variables es lineal. La ecuación de la curva de regresión se llama ecuación
de regresión.
En el caso de la regresión lineal, que será el único que aquí se estudie, se tiene una
ecuación de regresión de la forma:
Y = a0 + a1 x
Con dos parámetros por determinarse, que son la ordenada (a0) al origen de la recta y su
pendiente (a1). Existen diferentes métodos para determinar estos parámetros; El que aquí se
estudiará es el de los mínimos cuadrados.
Considérese un cierto experimento del que se han obtenido los puntos muéstrales de la
tabla 2 y graficados en un diagrama de dispersión.
X Y
x1 y1
x2 y2
x3 y3
... ...
... ...
xn yn
Se llama desviación, error o residuo a la diferencia de ordenadas de un punto muestral Y
de la recta de regresión correspondiente a una misma abscisa. Así, el residuo d1 entre el punto
muestral (x1, y1) y la recta de regresión de ecuación Y = a0 + a1 x vale:
d1 = y1 ʹ y͛1
en donde
y͛1 = a0 + a1 x1
Agrupando otras ecuaciones, se obtiene un sistema de dos ecuaciones con dos incógnitas
cuya solución proporciona, tal vez, un punto extremo para la suma de los residuos al cuadrado.
Este sistema, que se describe a continuación eliminando los índices de las variables independiente
y dependiente y los límites de las sumatorias por comodidad, reciben el nombre de sistema de
ecuaciones normales.
a0n + a1 ( x = ( y
a0 ( x + a1 ( x2 = ( xy
Aplicando la condición suficiente para que el punto extremo proporcione un valor mínimo
a la función objetivo considerado, se demuestra que efectivamente la solución del sistema de
ecuaciones normales define el mínimo de la suma de los residuos al cuadrado del método de los
mínimos cuadrados. No se hace la demostración de esto última por no tener mayor importancia
en la exposición de este tema, pero puede dejarse como tarea al lector interesado.
a0 = ((y)((x2) ʹ ((x)((xy)
n (x2 ʹ ((x)2
a1 = n (xy ʹ ((x)((y)
n (x2 ʹ ((x)2
EJEMPLO:
Tabla 3.
x y x2 xy y2
n = 12
Y = -1.21 + 10.49 x
a0 = ((x)((y2) ʹ ((y)((yx)
n (y2 ʹ ((y)2
a1 = n (yx ʹ ((y)((x)
n (y2 ʹ ((y)2
x = 0.23 + 0.09y
Despejando Y de esta ecuación se obtiene y = -2.51 + 11.01x, lo que muestra que las
ecuaciones de regresión de Y sobre X y de X sobre Y no son iguales.
COEFICIENTE DE CORRELACIÓN
Donde y corresponde a los pares de puntos, y" se refiere al valor estimado en la ecuación de
ajuste y y se refiere al promedio de los valores de las y.
Después de sustituir las ecuaciones en otras expresiones y sustituyendo a0 y a1 por sus valores
dados en las expresiones, finalmente la ecuación a utilizar seria:
n (xy ʹ ((x)((y)
r=
r=
Se cabría preguntar si el valor 0.976 y el cual fue obtenido de un muestreo, puede ser inducido
a la población completa y en realidad pueda aproximarse a dicho valor de 0.976, por lo que el
estudio debe de complementarse con un análisis de confiabilidad de la medida de correlación.
X Y YC ( YC - (Y )2 ( Y - (Y )2
( 1650.6 1732.9
Para x = 1
Y = -1.21 + 10.49 x = -1.21 + 10.49 (1) = 9.28 así para todo valor de x
(Y = 300.25 / 12 = 25.02
r2 = 1650.6 / 1732.9 = 0.9525
EJEMPLO:
Efectué un análisis de regresión y correlación, mediante un ajuste del tipo polinomial, para los
siguientes puntos muéstrales:
|x velocidad | y |
|20 |4,04 |
|25 |4 |
|30 |4,18 |
|35 |4,35 |
|40 |4,2 |
|45 |4,75 |
|50 |5,2 |
|55 |5,52 |
|60 |6,15 |
a2 = 0.00166
a1 = - 0.0814
a0 = 5.0322
Para calcular el coeficiente de correlación no lineal se aplicará la idea general del concepto
enunciado en páginas atrás:
r2 = [ є ( y" - (y )2 ] / [ є ( y ʹ (y )2 ]
(Y =[ є y ] / n = 42.38 / 9 = 4.71
x = 20
y"1 = 4.066
x = 25
y"2 = 4.033
Calculo de la correlación:
y = ( y / n = 42.38 / 9 = 4.71
Coeficiente de determinación:
r = ( 1 - [S2y/x / S2y]
Se deja al alumno que efectúe un análisis de regresión y correlación lineal para los datos
anteriores, los compare con la curva de regresión obtenida y con el coeficiente de correlación no
lineal y obtenga unas conclusiones de la comparación anterior.
Se podrá iniciar con un papel del tipo aritmético vs aritmético, se podrá variar a un papel
aritmético vs logarítmico llamado también semilogaritmico ó se podrá trabajar con un papel
logarítmico ó logarítmico vs logarítmico. Se grafican los datos y se observa si hay tendencia lineal y
si así se convierten las ecuaciones dadas a formas relacionadas con los logaritmos.
Y = a bx
Se puede transformar a uno de la forma:
Y = mx + b ó y = a0 + a1 x donde:
Se observa que x no se altera, por lo que tiene una variación aritmética, en cambio Y si se ve
afectada por el logaritmo y habrá que efectuar la transformación correspondiente. El análisis
corresponde a una variación semilogaritmica y el papel de gráfica será en el eje x aritmético y en
el eje y logarítmico.
Y = a xb
Como las variables x-y están afectadas por el logaritmo entonces se tendrá una variación
logarítmica, el papel de gráfica en ambos ejes será logarítmico.
Si en ambos casos se grafica y la tendencia es una recta, el ajuste se efectuara empleando las
formas de la línea recta y el análisis será mas simple. Para el ajuste final solo se deberá de efectuar
las transformaciones correspondientes.
Ejemplo:
En la siguiente tabla aparecen los beneficios netos de una compañía durante sus primeros seis
años de operación:
|Años |Beneficio |
| |neto $ |
|1 |112 |
|2 |149 |
|3 |238 |
|4 |354 |
|5 |580 |
|6 |867 |
Como se observa que la gráfica en papel aritmético sigue una tendencia no lineal, se pasarán
los datos a una gráfica en papel semi ʹ logarítmico y se observa que la tendencia es a una recta,
por lo que se efectuarán las transformaciones necesarias para llevar a cabo un ajuste lineal.
[pic]
Y = a0 + a1 x
Tabla de cálculos:
X Y Y=logy X2 XY
Se deja al alumno a que estudie los casos de regresión y correlación con más de dos variables.
LA INVESTIGACION Y LA ESTADÍSTICA
La investigación requiere del uso de ciertas herramientas que son proporcionadas por la
estadística.
La población o el universo se definen como el total de las unidades elementales tales como
personas, empresas, etc.
Deberá definirse si es por variables y por atributos. Muestreo de aceptación de variables y por
atributos: Si a partir de una muestra deseamos estimar una cierta característica cuantitativa, se
dice que se trata de un muestreo de variables, si en cambio nos interesa estimar una característica
cualitativa, se dice que se trata de un muestreo de atributos.
Tamaño de la muestra: se requiere una muestra mayor para muestreo de atributos que para el
caso muestreo de variables, además los elementos de la muestra pueden ser más costosos y la
inspección más destructiva.
Costos: las medidas reales y los cálculos requeridos pueden ser más costosos por variables.
En la toma de la muestra de una población cualquier persona puede tomar dicha muestra, pero
puede tomar propensión a seleccionar determinadas unidades, por lo tanto no le puede asignar
una cierta posibilidad de selección a cada elemento. Para evitar estos problemas se tiene los
siguientes métodos de selección al azar, es decir, un procedimiento para seleccionar a cada una de
las muestras una igual posibilidad de selección evitando en lo menos posible el sesgo.
METODOS ALEATORIOS
Números aleatorios.
Análisis de los resultados: una vez obtenidos los datos son necesario e importante analizarlos
para efectuar una estimulación de la población investigada.
Hoy casi todas las encuestas estadísticas, que se hacen para la toma de decisiones en los
negocios, la formulación política, desarrollo de las teorías sociales, son de muestreos. Además
pueden obtenerse resultados fidedignos de procedimientos de muestreo correctos ya que las
poblaciones pueden ser infinitas y en tales casos el muestreo es el único procedimiento práctico y
posible. Este puede ser aún el procedimiento más eficiente. Los resultados obtenidos por el
estudio de la muestra pueden ser iguales o más precisos que los hallazgos de una cuenta completa
de conjunto.
Marco de población muestreada: identificar las unidades elementales que deben ser definidas
antes de poder observarlas, esto es si la población es accesible, en caso contrario cuando presenta
dificultades se prepara cierta clase de lista con las cuales identificar las unidades muéstrales
llamándosele a este marco de población.
Muestras: las unidades que forman una población se les llaman unidades de muestreo que son
de dos tipos; las unidades de muestreo elementales que son todas las contenidas en la población
cuyas características han de ser medidas o contadas, mientras que las unidades de muestreo
primarias son las unidades elementales mismas o los grupos de las unidades elementales. Una
muestra es un conjunto de unidades de muestreo primario del que pueden hacerse inferencia
sobre la población de esta se espera que sea representativa en la población original. En la teoría
del muestreo es importante distinguir las muestras por juicio.
Eficiencia de los modelos de los muestreos: un modelo se dice que es suficiente si los
resultados deseados son obtenidos al costo más bajo posible. Un modelo de muestreo se dice que
es más eficiente que otro si el primero da la misma precisión a costos más bajos, o mayor precisión
a los mismos costos.
METODO DE MUESTREO
El muestreo o sondeo es una técnica para seleccionar de una población, unidades o grupos más
pequeños de este universo considerado, llamados muestra, que tengan las mismas características
del universo que representan. Los procedimientos generales para la extracción de muestras:
Elaborar una lista completa y precisa de las unidades y agrupaciones que componen esta
población o universo.
EL MUESTREO ALEATORIO: que consiste en darle a todas las muestras posibles de una
población la misma probabilidad de ser seleccionados, tiene dos propósitos:
Puesto que las distribuciones de probabilidad son modelos teóricos para las distribuciones de
frecuencia relativas de poblaciones, las muestras seleccionadas en poblaciones se pueden
considerar como observaciones de variables aleatorias.
EL MUESTREO ALEATORIO AL AZAR: es donde se tiene una lista del universo, y de ella se extrae
una muestra mediante métodos probabilísticas.
EL MUESTREO ESTRATIFICADO: se divide al universo en diferentes estratos, según algunas
características y se toman muestras al azar, de cada una de esas clases. El muestreo puede ser;
proporcional, que es cuando se extraen unidades de acuerdo a un por ciento convenido. Y el no
proporcional donde se extrae el número igual a cada una de las clases.
Tiempo.
Costo.
Posibilidades en el terreno.
DISEÑO DE EXPERIMENTOS
Mendenhall, wackerly
Para que las conclusiones de la teoría del muestreo e inferencia estadística sean válidas, las
muestras deben elegirse de forma que sean representativas de la población. Un estudio sobre
métodos de muestreo y los problemas de tales métodos implican, se conoce como Diseño de
Experimentos.
El proceso por medio del cual se extrae de una población, una muestra representativa de la
misma se conoce como muestra al azar, de acuerdo con ello cada miembro de la población tiene la
misma posibilidad de ser incluidos en la muestra. Una técnica para obtener una muestra al azar es
asignar números a cada miembro de la población para después extraer los números en un sorteo.
Esto puede ser sustituido por una tabla de Números Aleatorios construida especialmente para
tales propósitos.
S.
Schaum
CONCEPTOS BASICOS:
Experimento.- es un proceso por medio del cual se obtiene una observación o medición. La
experimentación se usa para someter a prueba hipótesis y establecer nuevas relaciones entre
variables.
Debe hacerse todo esfuerzo para ahorrar tiempo, dinero, personal y material experimental, es
decir, que el diseño de experimentos es una materia que se requiere tanto a la metodología
estadística como al análisis económico.
PLANEAMIENTO DE EXPERIMENTOS
BQué busco?
Y más particularmente, sobre todo en las fases iniciales del planteamiento del experimento son,
entre otras:
BQue rango de las variables primarias será necesario para poder describir el fenómeno bajo
estudio?
BCuales son los aspectos de seguridad preventiva necesarios, si dentro del experimento existe
alguna operación peligrosa?
BDe que fuentes financieras se dispone para llevar a cabo el experimento? Y ¿qué tanto se apega
las características de los aparatos al presupuesto asignado?
B. establecer las condiciones óptimas de: Presupuesto. Personal. Tiempo, Incluyendo las
programaciones o secuenciación en tiempo del proyecto.
C. Modificar el alcance del experimento de acuerdo a las condiciones reales de: presupuesto,
personal y tiempo.
Comenzar la planificación del experimento a detalle, establecer claramente los objetivos del
experimento (verificar el comportamiento de un prototipo o modelo para su producción; verificar
el análisis teórico de un fenómeno físico en particular, etc.)
Nunca pasar por alto la posibilidad de que el trabajo pudo haber sido echo anteriormente y
estar consignado en la literatura.
Establecer las variables primarias que deben medirse (Fuerza, deformación, gasto, presión,
temperatura, volumen, etc.)
Determinar, lo mejor posible, la exactitud que puede requerirse en las mediciones primarias y
él número de tales mediciones que serán necesarios para el adecuado análisis de datos.
Establecer los procedimientos de cálculo para sintetizar los datos antes de llevar a cabo el
experimento para estar seguro de que se van a recoger los datos necesarios para alcanzar el
objetivo del experimento.
Estimar los errores posibles en los resultados antes de que se lleve a cabo el experimento, para
que, si resulta necesario, pueda cambiarse los requisitos de exactitud de los instrumentos.
Seleccionar los instrumentos para las diversas mediciones que igualen los requisitos de
exactitud anticipados.
Modificar el arreglo y/o el procedimiento experimental, de acuerdo con los resultados del punto 5.
Etapa Preliminar:
Etapa Intermedia:
C) Etapa Final:
CAPITULO IV.
La I.E. es la parte de la estadística que proporciona las reglas para inferir características de una
población a partir de muestras extraídas de ellas, junto con las indicaciones probabilísticas de la
veracidad de tales inferencias, en general se le denomina inferencia estadística.
La I.E estudia las relaciones que existen en una población, las muestras extraídas de ella y las
técnicas para estimar parámetros.
Los parámetros dependen del objetivo del problema y se pueden referir a la MEDIA, VARIANZA,
DESVIACIÓN ESTANDAR, MEDIANA, MODA, a la POBLACION, etc. ya sea en forma individual o en
relación a 2 poblaciones.
Los métodos para hacer inferencias estadísticas pueden ser de 2 categorías:
Una presentación del objetivo y de los tipos de inferencia queda incompleta si no tenemos una
referencia respecto a la bondad de los métodos de inferencia.
La I.E tiene como base la teoría del muestreo, donde el diseño de experimentos trata los temas
de los métodos de muestreo donde se pretende reducir las variaciones experimentales que sea
representativo y que tenga un mínimo costo.
Para asegurar que los parámetros asociados a la muestra se siguen manteniendo como
representativos en el tiempo, estos deberían de realizarse continuamente por medio del estudio
de muestras representativas.
Consiste en tomar muestras de tamaño n de entre una población N, de manera que todas tengan
la misma probabilidad de ser elegidas, se emplean técnicas como la de los números aleatorios.
Estrato muestra
1 N1 n1
2 N2 n2
3 N3 n3
4 N4 n4
5 N5 n5
6 N6 n6
El muestreo aleatorio se puede efectuar sobre 2 tipos de poblaciones, la finita ó sin reemplazo
y la infinita o con reemplazo.
Para una población finita el número de muestras que se pueden obtener se define por la
siguiente expresión:
Número de muestras = N C n
N ї Tamaño de la población.
n ї Tamaño de la muestra.
Una muestra de tamaño n de una población finita de tamaño N es una variable aleatoria si se
selecciona de tal manera que cada una de las N C n muestras posibles tiene la misma probabilidad
1 de ser seleccionada
N C n.
EJEMPLO # 1
a) n = 2 y N = 12
b) n = 3 y N = 100
SOLUCIÓN:
a) Numero de muestras = N C n
2! 10! 2
Probabilidad = 1 .
NCn
= 1
66
= 1.5 %
b) Numero de muestras = N C n
= 100!
3!97!
= 161,700
Probabilidad = 1 .
NCn
= 1 .
161,700
= 0.0006%
ni = Ni (n)
Para i = 1, 2,3͙..k.
EJEMPLO # 2.
Se debe de obtener una muestra de tamaño 60 de una población finita de 4000 y la cual cuenta de
3 estratos de tamaño N1 = 2000 N2 = 1200 N3 = 800. ¿Qué tan grandes deben de ser las muestras
de cada estrato?
SOLUCIÓN:
n = 60
N = 4000
N1= 2000
N2= 1200
N3= 800
n1 = ?
n2 = ?
n3 = ?
n1 = N1 (n) = 2000 (60) = 30
N 4000
N 4000
N 4000
El muestreo estratificado nos permite definir una muestra representativa, ya que se tomara
una muestra más grande del estrato más grande. Pero para tener una mejor muestra, junto al
muestreo estratificado se podrá considerar la variabilidad donde seria lógico tomar una muestra
mayor del estrato de más variabilidad.
Si consideramos ʍ1, ʍ2,.......ʍk. Son las desviaciones de los estratos E1, E2,͙͙EK.
n1 = n2 = nk
N1 ʍ1 N2 ʍ2 Nk ʍk
ni = n * N1 ʍ1
N1 + N2 +͙. NK = N (Población)
nї Muestra.
EJEMPLO # 3.
Se debe de tomar una muestra de tamaño 84 de una población de 10.000, agrupadas en 3 estratos
de tamaño 5.000, 2.000, y 3.000 y con desviaciones respectivas de 15, 18, y 5.
BQué tan grandes deben de ser las muestras que se deben de obtener para lograr un muestreo
óptimo?
SOLUCIÒN:
n = 84
N =10.000
N1 = 5.000
N2 = 2.000
N3 = 3.000
1 = 15
2 = 18
3= 5
n1 = 84 (5.000) (15)
n1 = 6300000
75000 + 36000 + 150000
n1 = 6300000
126000
n1 = 50
n2 = 84 (2.000) (18)
n2 = 3024000
n2 = 3024000
126000
n2 = 24
n3 = 84 (3.000) (5)
n3 = 1260000
n1 = 1260000
126000
n3 = 10
SIN CONSIDERAR ʍ
ni = Ni (n)
N 10,000
N 10,000
N 10,000
g DISTRIBUCIONES MUESTRALES.
Si consideramos todas las muestras posibles de tamaño n que se pueden extraer de una
población de tamaño N y para cada una de ellas se calcula el promedio aritmético, seguramente
este variara de muestra a muestra.
Por lo tanto el promedio es una variable aleatoria como lo pueden ser el rango, la variancia, la
desviación estándar͟S͟, la mediana, el modo, etc.
A todo elemento que es función de los valores de los datos de una muestra se denomina
estadístico, entonces todo estadístico tiene una distribución de probabilidad que se le denomina
distribución muestral.
Si extraemos sin reemplazo todas las muestras posibles de tamaño n de una población de
tamaño N, se podrá demostrar empíricamente que los parámetros de la distribución muestral del
promedio aritmético se podrá representar por y que los parámetros poblacionales
serán ʅ y ʍ, definiéndose las siguientes expresiones para su calculo.
X = ʅ
GRAFICA:
= 0.4778 ʹ 0.2486
= 0.2292.
22.92% de probabilidad de que el peso total este entre 496 y 500kg en la muestra.
GRAFICA.
P = (0.5 ʹ 0.4963
P = 0.0037.
En la practica es frecuente que se pueda presentar el caso de tener datos de dos poblaciones
con variables aleatorias asociadas x, y, surgiendo la pregunta de que si estas pueden ser
consideradas como una sola, es decir x = y o sea que no hay diferencia significativa y que las
poblaciones se pueden considerar iguales.
EJEMPLO # 6.
Considere una población x que tiene 3 muestras posibles y cuyos promedios son 3, 7,8.
Una población y formada por 2 muestras posibles de promedio 2 y 4. Obtenga los parámetros
de la distribución muestral de la diferencia de los promedios.
SOLUCION:
X ї 3 Muestras ї ї 3, 7, 8.
Y ї 2 Muestras ї ї 2, 4.
1ER PROCEDIMIENTO.
3 - 2 = 1
3 - 4 = -1
7 - 2 = 5
7 - 4 = 3
8 - 2 = 6
8 - 4 = 4
[pic]
[pic]
[pic]
[pic]
2DO PROCEDIMIENTO.
Se acepta que
En función de todo
[pic]
3 3
= (2 ʹ 3)2 + (4 ʹ 3)2 = 2 = 1
2 2
[pic]
A).- Por medio de la teoría de la estimación, ya sea puntual o por intervalo de confianza.
g TEORIA DE LA ESTIMACIÓN
g ESTIMADORES PUNTUALES.
Se denomina así ya que se estima el parámetro de la población basado en un solo valor de una
estadística.
En la práctica la estimación nos puede conducir a estimar la media ʅ de una población, por lo
que la estimación de ʅ es una aplicación práctica de la inferencia estadística. Hemos aceptado que
el valor esperado del promedio aritmético es igual a la media ʅ de la población con un error
estándar.
Estimador puntual.
Estimador:
Se desea estimar la producción diaria de un producto elaborado en una planta. Para un periodo
de 50 días la producción diaria tuvo una media y desviación estándar de 871 toneladas y 21
toneladas.
S = 21 toneladas
Estimar ʅ =?
Estimando Npїь
Se acepta la estimación.
En el rango
871 ± 5.94
865 a 877
La estimación de un parámetro de una población mediante un par de números entre los cuales
se encuentra, con una cierta probabilidad, al valor de dicho parámetro se le llama estimación del
intervalo del mismo.
P [S ʹ ZC ʍS ч ɽ чS + ZC ʍS] = 1- ɲ
GRAFICA.
TABLA.
|1 ʹ ɲ. |ZC |
| 99.73 | 3.0 |
| 99 | 2.58 |
| 98 | 2.33 |
| 96 | 2.05 |
| 95.45 | 2 |
| 95 | 1.96 |
| 90 | 1.64 |
| 80 | 1.28 |
| 68.27 | 1 |
| 50 | 0.674 |
Los límites del intervalo de confianza para la media de una población con variable aleatoria X
asociada estarán definidos por la expresión
Por ejemplo
1 ʹ ɲ = 0.95
1 ʹ ɲ = 0.99
Es decir los límites de confianza para la media poblacional se definen de la siguiente manera
Población Finita
EJEMPLO # 8.
Las mediciones de los diámetros de una muestra aleatoria de 100 tubos de albañal mostraron
una media de 32 cm. con desviación estándar de 2 cm. obtenga los intervalos de confianza del 95 y
97 % para diámetros medios de todos los tubos producidos.
SOLUCION:
S = 2 cm.
=?
No conocemos Np
Se estima Np ї ь
Trabajando con la formula infinita
1 ʹ ɲ = 0.95
1 - ɲ = 0.95 ї ZC = 1.96
Desconocemos ʍ, se estima
= S =2
31.608 ч ʅ ч 32.408
Para el 97% hay que ir a la tabla (se deja a el alumno que lo realice).
EJEMPLO # 9.
B).-El tamaño de la muestra n necesario para que el error de la estimación de la media poblacional
no exceda de 2 puntos a un nivel de confianza del 95%.
C).- El nivel de confianza 1 ʹ ɲ para el cual la media de la población se encuentren en 72±1 puntos,
con una muestra de n =50
SOLUCION:
S = 10
Estimación sí ї S = ʍ =10
= 69.3 ч ʅ ч 74.7
b).- ͞n͟ error ч 2 puntos, (1 - ɲ) = 95%
n 1017
n ш 87.84
n = 50
71 ч ʅ ч 73
72 ± 1.379 ZC
1.379 ZC = 1
ZC = 1 = 0.72
1.379
GRAFICA.
(1 ʹ ɲ) = 2 (0.2642)
(1 ʹ ɲ) = 0.5284
En el caso particular de una prueba de hipótesis solamente se tienen dos cursos de acción
posibles, los que se denotarán como H0 y H1. A la acción H0 se le llama hipótesis nula, y a la H1,
hipótesis alternativa. Por ejemplo, si la hipótesis nula establece que ʅ1 = ʅ2, la hipótesis
alternativa puede ser una de las siguientes:
1 > ʅ2, ʅ1 ͤ ʅ2 o ʅ1 т ʅ2
Al realizar una prueba de hipótesis, se prueba siempre la verdad de la hipótesis nula H0, aun
cuando de antemano se desee rechazarla.
En otras ocasiones se acepta una hipótesis nula siendo en realidad falsa; en este caso se dice que
se ha cometido un error de tipo II.
Al probar una hipótesis nula, a la máxima probabilidad con la que se está dispuesto a cometer
un error del tipo I se le llama nivel de significancia, ɲ, de la prueba, el cual dentro de la práctica se
acostumbra establecer de 5 por ciento (0.05) o 10 por ciento (0.1). El complemento del nivel de
significancia, 1- ɲ, se conoce como nivel de confianza.
Si, por ejemplo, al realizar una prueba de hipótesis se escoge un nivel de significancia de 10 por
ciento, significa que existen 10 posibilidades en 100 de que se rechace ésta cuando debería ser
aceptada; es decir, que se rechaza a un nivel de significancia del 10 por ciento, y que la
probabilidad de que la decisión haya sido errónea es de 0.1.
Supóngase que se trata de probar la hipótesis nula de que la media, ʅS, de la distribución
muestral de la estadística S es ʅ1, en contra de la hipótesis alternativa que establece que ʅS = ʅ2,
donde ʅ2>ʅ1, es decir
H0 : ʅS = ʅ1
H1 : ʅS = ʅ2
En la figura 13.1 se muestra en forma grafica la relación entre los errores tipo I y II en el caso en
el que la regla de decisión para aceptar o rechazar H0 es la siguiente:
Si el valor de la estadística S obtenido de una muestra excede de cierto valor critico S1,
rechácese H0; en caso contrario acéptese.
En la tabla 14.1 se presentan los valores de la variable estandarizada, Z, que limitan las
regiones de aceptación y de rechazo para el caso en el que la estadística involucrada en la prueba
tenga distribución muestral normal. Cuando en alguna prueba de hipótesis se consideren niveles
de significancia diferentes a los que aparecen en la tabla mencionada, resulta necesario emplear la
de área bajo la curva normal estándar.
En la prueba de hipótesis del ejemplo anterior, la región de rechazo de la hipótesis nula quedó
en ambos extremos (colas) de la distribución muestral de la estadística involucrada en la prueba; a
las pruebas de este tipo se les denomina pruebas de dos colas. Cuando la región de rechazo se
encuentra solamente en un extremo de la distribución muestral en cuestión, se les llama pruebas
de una cola.
Las pruebas de dos colas se presentan cuando en la hipótesis alternativa aparece el signo т
(diferente de), como en el siguiente caso.
H0 : ʅS = ʅ1
H1 : ʅS т ʅ2
En los casos
H0 : ʅS = ʅ1
H1 : ʅS < ʅ1
H0 : ʅS = ʅ1
H1 : ʅS > ʅ1
Las pruebas resultan de una cola.
Para el caso de una población infinita (o finita en que se muestre con reemplazo), cuya
desviación estándar ʍ se conoce o se puede estimar adecuadamente, si se tiene que la estadística
S obtenida de la muestra es el promedio aritmético, entonces la media de su distribución muestral
es ʅS = ʅX = ʅ, y su desviación estándar es ʍS = ʍX = ʍ / яn, en donde ʅ y ʍ son, respectivamente,
la media y la desviación estándar de la variable aleatoria X asociada a la población, y n es el
tamaño de la muestra. En tal caso, si tiene distribución normal, la variable estandarizada
correspondiente será
En cualquiera de los casos anteriores, el valor o valores críticos se pueden obtener de la tabla
14.1, para valores comunes de ɲ.
EJEMPLO:
Se sabe que el promedio de calificaciones de una muestra aleatoria de tamaño 100 de los
estudiantes de tercer año de ingeniería civil es de 7.6, con desviación estándar de 0.2.
a. 0.05
b. 0.01
H0 : ʅ = 7.65
H1 : ʅ т 7.65
Puesto que ʅ т 7.65 incluye valores menores y mayores de 7.65, se trata de una prueba de dos
colas.
ʅ = 7.65 = ʅ
a).- Para la prueba de dos colas a un nivel de significancia de 0.05 se establece la siguiente regla
de decisión
Puesto que
Se encuentra fuera del rango de -1.96 a 1.96, se rechaza la hipótesis H0 a un nivel de significancia
de 0.05.
b).-Si el nivel de significancia es 0.01, el intervalo de -1.96 a 1.96 de la regla de decisión del inciso ɲ
se remplaza por el de -2.58 a 2.58 tabla (14.1). Entonces, puesto que el valor muestral Z = -2.5 se
encuentra dentro de este intervalo, se acepta la hipótesis H0 a un nivel de significancia de 0.01.
EJEMPLO:
La resistencia media a la ruptura de cables de acero fabricados por la empresa x es de 905 Kg.
Una empresa consultora sugiere a x que cambie su proceso de manufactura, con lo cual
incrementará la resistencia de sus cables. Se prueba el nuevo proceso, y se extrae una muestra
aleatoria de 50 cables, obteniéndose para ellos una resistencia promedio de 926 kg, con
desviación estándar igual a 42 kg. ¿Se puede considerar que el nuevo proceso realmente
incrementa la resistencia, con un nivel de confianza del 99%?
En este caso, se debe plantear una prueba de hipótesis de una cola, para la cual
H0 : ʅ = 905 Kg.
H1 : ʅ > 905 Kg.
En virtud de que
Se trata de probar la hipótesis nula, H0, de que no existe diferencia entre las medias, es decir,
que ʅX = ʅY. Si nX y nY son suficientemente grandes (>30), la distribución muestral de las
diferencias de los promedios es aproximadamente normal. Dicha distribución muestral es
rigurosamente normal si las variables aleatorias x y y asociadas a la población tienen distribución
normal, aunque nX y nY sean menores de 30. Para esta distribución muestral, la variable
estandarizada Z, que se compara con los valores críticos correspondientes, se encuentra dada por
Con la cual se puede probar la hipótesis nula H0 en contra de otras hipótesis alternativas, H1, a
un nivel apropiado de significancia.
EJEMPLO:
Si ʅA y ʅB son las medias respectivas de las dos poblaciones infinitas a las que corresponden
las muestras, la prueba de hipótesis adopta la forma siguiente:
H0: ʅ A = ʅB
H1: ʅ A т ʅB
a. puesto que se trata de una prueba de dos colas a un nivel de significancia del 0.05, la
diferencia es significativa si el valor de z se encuentra fuera del intervalo de -1.96 a 1.96. Como
este es el caso, puede concluirse que efectivamente existe diferencia significativa en ganancia en
voltaje de los transistores.
Ejemplo.
La estatura promedio de 50 estudiantes varones tomados al azar que participan en actividades
deportivas es de 173 cms, con desviación estándar de 6.3 cms. Otra muestra aleatoria de 50
estudiantes varones que no participan en este tipo de actividades tiene promedio de estatura
igual a 171 cms, con desviación estándar igual a 7. cms. Para probar la hipótesis de que los
estudiantes varones que practican deportes son más altos que los que no lo hacen, a un nivel de
significancia de 0.05.
Ho : µ x = µ y
H1 : µ x > µ y
µ x-ŷ = 0
= 1.3424
Se trata de una prueba de una cola y puesto que Z < Zc se concluye que la diferencia de
estaturas se debe únicamente al azar.[pic]
-----------------------
A B
(A((B)͛
A B
(A(B)͛
A(B͛
A(B
B(A͛
A B
C
(A(B(C)͛
A(B(C͛
B(A͛(C͛
A(B͛(C͛
A(C(B͛
A(B(C
C(A͛(B͛
B(C(A͛
R T
(A(B(C)͛ = 8
S= 36
3
2
A(B(C=28
M(F͛
M F
n(M(F)͛ = 2
M(F
F(M͛
M(F͛ = 6
M F
n(M(F)͛ = 2
M(F = 10
F(M͛ = 2
A(F(E
A(F͛(E͛=82
F(A͛(E͛=93
A(F(E͛ = 30
A(E(F͛ = 164
A(F(E = 53
E(F͛(A͛=68
E(F(A͛ = 10
A B
A(B
A B
B A
(A(B)͛
A(B
[pic]
Número de casos Número aproximado de a tabular Clases que se
deben
utilizar
15 - 29 5
30 - 59 6
60 - 99 7
100 - 199 8
200 - 499 9
500 - 999 10
1000 - 1999 11
2000 - 3999 12
4000 - 7999 13
8000 - 14999 14
15000 - 34999 15
35000 - 69999 16
70000 - 149999 17
150000 - 299999 18
300000 - 499999 19
500000 en adelante 20
99
98
95
90
80
70
60
50
40
30
20
10
1
Contrastar la teoría con el experimento, Correlacionar los datos, Crear nuevas teorías para explicar
los datos, etc.
Comprar instrumentos
Si no es factible, requerirá.
. distribución de tiempo o
. suspender el proyecto.
[pic] = 41.58
[pic] = z + c ( [pic]fiMci / [pic]fi)
[pic] = 41.58
Md = Li + c (T ʹ FI / FS ʹ FI) T = [pic]fi / 2
Md = 37.96
Mo = li + c (fs / fi + fs)
Mo = 34.96
Q = [pic]
log G = [pic]/[pic]
log G =155.63-100
log G =1.556317381
G = antilog 1.56
G = 36.0012339
1 / H = 3.35872541181298 / 100
H = 1 / 0.03359
H = 29.77319898
[pic]( [pic] + Md + Mo + Q + G + H ) / 6
[pic] 37.48
D.M. = [pic]fi[pic]
D.M. = 15.938
S = [pic]
S = [pic]
[pic]
10
15
20
25
30
35
40
10
20
30
40
50
60
70
80
90
100
110
120
130
140
Lim
fi
10
15
20
25
429,5
509,5
589,5
669,5
749,5
829,5
909,5