Estadist y Prob
Estadist y Prob
Estadist y Prob
• Presentación gráca
1
• Otras técnicas descriptivas.
Se dice que una muestra es representativa cuando los elementos que com-
ponen dicha muestra contienen las mismas caracteristicas que los elementos
en la población de la cual se tomó dicha muestra, el concepto de represen-
tatividad se reere a los aspectos cualitativos de la muestra. Por ejemplo
si quisiéramos conocer la preferencia política de los estudiantes de la UASD
una muestra sería representativa si en la misma se incluyen estudiantes de
todas las edades, de todas las carreras, de ambos sexo, de todos los centros re-
2
gionales, etc. de forma tal que al observar la muestra es como si observáramos
la población en miniatura.
3
cursadas por los estudiantes por semestre, etc.
Las variables se dividen en dos grupos: Cualitativas y Cuantitativas
Escala de medición
4
Las variables se clasican por escala de medición. La escala de medición
de los datos de una variable rige los cálculos que se llevan a cabo con el n
de resumir y presentar los datos.
5
Escala Nominal: Es aquella escala de medición en la cual los numerales
asignados a cada valor o atributo no representa ningún orden de jerarquía,
de importancia o preferencia. En este tipo de escala los numerales solo se
utilizan para identicar los valores o atributos de cada variable. Ej.: los
numerales o códigos asignados a las variables cualitativas, los números asig-
nados a los integrantes de un equipo béisbol, la matrícula estudiantil, etc.
6
1.3 Distribución de frecuencias
Una distribución de frecuencias es un resumen tabular de datos que muestra
el número (frecuencias) de elementos en cada una de varias clases que no se
superponen.
1. Los límites de clase inferiores son las cifras mas pequeñas que pueden
pertenecer a las diferentes clases.
2. Los límites de clase superiores son las cifras mas grandes que pueden
pertenecer a las diferentes clases.
3. Las fronteras de clase son las cifras que se utilizan para separar las clases,
pero sin los espacios creados por los límites de clase.
4. Las marcas de clase son los puntos medios de clases. Se calculan medi-
ante la semi suma de los límtes inferior y superior de clase.
1. Decida el número de clases que desea, el cual debe estar entre 5 y 20.
Se puede utilizar la fórmula k = 1 + 3.33logN .
7
2. Calcule la anchura de clase dividiendo el rango entre el número de clases.
Histogramas
8
Polígono de frecuencias
9
7. Interprete la frecuencia acumulada de la 4ta. clase.
Solución
Clases Frec. (fi) frec Rel Frec. % Fre.c Ac. Frec Ac. %
50 − 59 1 0.01429 1.43 1 1.43
60 − 69 1 0.01429 1.43 2 2.86
70 − 79 4 0.05714 5.71 6 8.57
80 − 89 7 0.1 10.00 13 18.57
90 − 99 11 0.15714 15.71 24 34.29
100 − 109 17 0.24286 24.29 41 58.57
110 − 119 10 0.14286 14.29 51 72.86
120 − 129 9 0.12857 12.86 60 85.71
130 − 139 4 0.05714 5.71 64 91.43
140 − 149 3 0.04286 4.29 67 95.71
150 − 159 3 0.04286 4.29 70 100.00
Total 70 1 100
10
1.4 Medidas de tendencia central
Como su nombre lo indica, las medidas de tendencia central son aquellas que
describen el centro de una variable, indican un valor alrededor del cual se
agrupa la mayoría de los valores de un conjunto de datos. La Importancia de
estas medidas es que a partir de ella se puede caracterizar un grupo pobla-
cional. Por ejemplo si hacemos un estudio sobre las características de los
consumidores de un producto, y nos encontramos que la edad promedio es
de 30 años, podemos describir a nuestros consumidores cono una población
joven. Aunque queda claro que hay personas con más y menos edad, pero el
promedio nos da un indicador del grupo como un todo.
11
• Mediana
• Moda
• Media Geométrica
• Media Armónica
Media aritmética
Es la medida de tendencia central o promedio más conocida y más amplia-
mente usada. Se dene como el cociente que se obtiene al dividir la suma de
los valores de la variable entre el total de las observaciones.
∑
xi
X=
n
Ejemplo: De una población de 120 supermercados se tomó una muestra
de cinco de ellos y se calculó las ventas diarias de los mismos, (ventas expre-
sadas en cientos de miles de RD$. Los datos son 4.1,2.9,2.0,4.5,1.5
∑
Xi
X̄ = n
4.1+2.9+2.0+4.5+1.5
X̄ = 5
15
X̄ = 5 = 3.0$
Media ponderada
12
la media ponderada para un conjunto de datos se determina mediante la
fórmula
∑
w i xi
Xw = ∑
wi
f1 m1 + f2 m2 + · · · + fk mk
X=
f1 + f2 + · · · fk
Mediana
n+1
2
13
Ejemplo. Determine la mediana en el siguiente conjunto de datos: 67,
45, 52, 67, 48.
Característica
14
Características y desventajas de la Moda
• Es una medida que se aplica tanto a datos cuantitativos como para datos
cualitativos.
15
2. Calcular el índice i
p
i=( )n
100
donde p es el percentil deseado y n es el número de observaciones.
a) El percentil 85 b) El percentil 70
Con frecuencia es conveniente dividir los datos en 4 partes; así, cada parte
contiene una cuarta parte o 25 % de las observaciones. A los puntos de di-
visión se le llama cuartiles y están denidos como sigue:
16
1.6 Medidas de variabilidad o dispersión
Nos indican qué tan dispersos se encuentra un conjunto de datos . Las más
usadas son:
IQR = Q3 − Q1
∑
2 (x − µ)2
σ =
N
∑
2 (x − X)2
s =
n−1
17
Desviación estándar. Se dene como la raiz cuadrada positiva de la
varianza. Para una muestra está dada por
√
∑
(x − X)2
s=
n−1
√∑
(x − µ)2
σ=
N
s
CV = (100)
X
18
Determine: La varianza, la desviación estándar y el coeciente de variación.
∑
fi x i
X=
n
n
2 −F
med = Lmed + (C)
fmed
donde
19
Nota: La mediana se ubica en la clase que tiene frecuencia acumulada de
50% o más.
Da
M oda = Lmo + (C)
Da + Db
donde
∑ √∑
fi (xi − x)2 fi (xi − x)2
s2 = y s=
n−1 n−1
20
2 Introducción a la Teoría de Probabilidad
21
1. Espacio muestral nito. Cuando tiene un número nito de elementos.
Por ejemplo, en el experimento aleatorio que consiste en lanzar un dado,
el espacio muestral nito es
S = {1, 2, 3, 4, 5, 6 }.
S = {1, 21, 31, 41, 51, 61, 221, 231, 241, 251, ...}
S = {x ∈ R :0 ≤ x ≤ r }
22
3. Evento seguro o cierto, es a quel que ocurre siempre. Consta de todos
los sucesos elementales del espacio muestral.
23
A = {t : t < 100}, B = {t : 50 ≤ t ≤ 200}, C = {t : t > 150}.
Hallar: A ∪ B , A ∩ B y C̄ .
2. Suponga que el evento A indica que la orden se llena con dos terminales
no defectuosas. Elabore una lista de los puntos muestrales de A.
24
m
P (A) =
n
25
Si se realizan n repeticiones de un experimento, y un determinado suceso
A se ha presentado en nA ocasiones, se dene la frecuencia relativa de A en
las n pruebas como:
nA
fn (A) =
n
Supongamos que el número de realizaciones del experimento crece in-
denidamente y consideremos la sucesión de frecuencias relativas de A,
fn (A), fn+1 (A), ..., fn+k (A), ...
26
2.4 Denición axiomática de probabilidad
Es la más simple de todas las deniciones y la menos controvertida. Fue
establecida por el matemático ruso Andrei N. Kolmogorov.
1. P(A)≥ 0
2. P(S) = 1
27
P(A ∪ B ) = P(A) + P(B) - P(A ∩ B )
A ∪ B = A ∪ (B ∩ A), B = (A ∩ B) ∪ (B ∩ A)
Luego,
P (A ∪ B) = P (A) + P (B ∩ A)
28
Ejemplo. Se considera un dado cargado de manera tal que la probabil-
idad de que salga un número es directamente proporcional a dicho número.
Sea A el suceso salir un número par, B salir un número primo y C el suceso
salir un número impar.
P (A ∩ B)
P (A/B) =
P (B)
Ejemplo. Suponga que una ocina tiene 100 máquinas calculadoras. Algu-
nas de estas máquinas son eléctricas (E), mientras que otras son manuales
(M). Además, algunas son nuevas (N) y otras son usadas (U). En la tabla
se muestra el número de máquina de cada categoría. Una persona entra a
la ocina, escoge una máquina al azar y descubre que es nueva. Cuál es la
probabilidad de que sea eléctrica?
29
E M T
N 40 30 70
U 20 10 30
T 60 40 100
o bién,
P (A ∩ B) = P (B)P (A/B) si
P(B)> 0
30
1. P(A ∩ B ) = P(A)P(B)
2. P(B/A) = P(B)
3. P(A/B) = P(A)
1. Bi ∩ Bj = ∅ si i ̸= j
∪k
2. i=1 Bi =S
3. P (Bi ) > 0 para todo i
31
1. La máquina X producen el 50% de todos los artículos, de los cuales 3 %
son defectuosos.
3 Variables aleatorias
32
Las variables aleatorias pueden ser discretas o continuas. Una variable aleato-
ria es discreta cuando el recorrido es nito o innito contable. Las variables
aleatorias continuas son aquellas en las cuales el recorrido Rx es un conjunto
continuo de números tales como un intervalo o una unión de intervalos.
Rx = {1, 2, 3, 4, 5, 6}
Ahora supongamos que la variable Y asigna a cada punto (a,b) la suma de
sus números, es decir, Y(a,b) = a + b. Por ejemplo, Y(1,1) = 2, Y(3,4) =
7, Y(6,3) = 9, Y(6,6) = 12. Entonces Y es una variable aleatoria discreta
donde cualquier número entre 2 y 12 puede ocurrir y ningun otro número
puede ocurrir. Por tanto el recorrido de Y es
33
Sea X el número de veces que se lanza la moneda. Entonces X es una
variable aleatoria discreta con recorrido
Rx = {1, 2, 3, ..., ∞}
Aquí X es una variable aleatoria discreta innita contable.
2. Se selecciona un punto en un círculo C de radio r. Sea X la distancia del
desde el centro. Entonces, X es una variable aleatoria cuyo valor puede
ser cualquier número entre 0 y r, inclusive. Por tanto el recorrido de X es
Rx = {x ∈ R :0 ≤ x ≤ r }
f (xk ) = P (X = xk )
Esta función f se se llama distribución de probabilidad o, simplemente, dis-
tribución de la variable aleatoria X. Esta función satisface las siguientes
propiedades:
1. f (xk ) ≥ 0
∑n
2. k=1 f (xk ) =1
34
Notación: Algunas veces se dará una distribución utilizando los pares
[xi , P (xi )] en lugar de la notación funcional [xi , f (xi )]
1. La distribución f de X
2. La distribución g de Y
Ejemplo. Supongamos que se lanza una moneda equilibrada tres veces, pro-
duciendo el siguiente espacio muestral
Ejemplo. Suponga que se lanza una moneda tres veces, pero considere-
mos ahora que el peso de la moneda ha sido alterado de manera que P(C) =
3 y P(E) = 3 . Sea X la variable aleatoria que asigna a cada punto de S el
2 1
35
3.2 Valor esperado, varianza y desviación estándar de una vari-
able aleatoria discreta
Denición. Sea X una variable aleatoria discreta con la función de distribu-
cion P(x). Entonces el valor esperado de X se dene como
∑
E(X) = xi P (xi )
x 1 5 7 9
p(x) .4 .3 .2 .1
Encuentre la media de X.
36
Ejemplo. Determine la varianza y la desviación en el ejemplo anterior.
E[g(Y )] = Σy g(y)p(y)
E[cg(Y )] = cE[g(Y )]
37
una de dos salidas. Cada artículo que sale de una línea de producción de
manufacturas es defectuoso o no defectuoso. Cada disparo en una secuencia
de tiros puede resultar en un acierto o no acierto y cada una de las n personas
entrevistada antes de una elección de un candidato está a favor o no lo está.
Estos experimentos son conocidos como experimento binomial.
38
1. El experimento comprende 4 pruebas idénticas; cada una de ellas con-
siste en determinar si una unidad particular de radar detecta o no el
avión.
3. Como todas las unidades de radar detectan el avión con igual proba-
bilidad, la probabilidad de una S en cada prueba es la misma, es decir,
P(S) = .05.
| {z }F
SSSSS...SS | F F {z
F...F F}
x n−x
39
y representa la intersección de n eventos eventos independientes en los
que hubo x éxitos seguidos por n − x fracasos. Como las pruebas fueron
independientes y la probabilidad de S, p, sigue igual de una prueba a otra,
la probabilidad de este punto muestral es
ppppp...ppqqqq...qq = px q n−x
n!
(nx ) =
x!(n − x)!
40
1, 2, ..., n, son términos de la expansión binomial
(q + p)n = (0n )q n + (n1 )p1 q n−1 + (n2 )p2 q n−2 + ... + (nn )pn
∑ ∑
n
p(x) = (nx )px q n−x = (p + q)n = 1n = 1
x=0
Ejemplo. Suponga que el 20% de los artículos producidos por una fábrica
están defectuosos. Suponga que se seleccionan 4 artículos al azar. Encuentre
la probabilidad de que:
1. 2 estén defectuosos.
2. 3 estén defectuosos.
41
3.3.1 Valor esperado, varianza y desviación estándar en una distribución bi-
nomial
Teorema. Sea X una variable aleatoria binomial basada en n pruebas y
probabilidad p de éxito. Entonces:
1. E(X) = µ = np
2. σ 2 = V (X) = npq
42
E1 : S
E2 : FS
E3 : FFS
..
.
Ek : F
| F {z
F...F} S
k−1
..
.
El evento numérico X = x contiene solo a Ex . Como los ensayos son inde-
pendientes, para cualquier x = 1, 2, ...
1. E(X) = 1
p
1−p
2. V (X) = p2
43
1. Encuentre la probabilidad de que tres cohetes serán requeridos para
alcanzar nalmente el objetivo.
Solución
p = 0.2, q = 0.8
c) E(x) = 1
p = 1
0.2 =5
Solución
44
a) E(x) = 1
p = 1
0.4 = 2.5
−r
(rx )(N
n−x )
f (x) = ,0 ≤ x ≤ r
(N
n )
donde:
f(x) es la probabilidad de x éxitos en n intentos.
Ejemplo 1. Una clase de N = 10 estudiantes tiene M = 6 hombres. De
donde hay N - M = 4 mujeres. Suponga que se ha seleccionado una muestra
aleatoria de n = 5 estudiantes. Encuentre la probabilidad de que exacta-
mente x = 3 hombres sean seleccionados.
45
Ejemplo 2. De un grupo de 20 ingenieros con doctorado, se eligen 10
aleatoriamente con el n de contratarlos. Encuentre la probabilidad de que
entre los 10 seleccionados estén los 5 mejores del grupo de 20.
nr 2 r N −r N −n
µ = E(X) = , σ = V (X) = n( )( )( )
N N N N −1
46
es decir, una variable aleatoria X tiene una distribución de poisson si y sólo si
λx −λ
P (x) = lim (nx )px q n−x
= e
n→∞ x!
Teorema. Si X es una variable aleatoria con distribución de poisson con
parámetro λ entonces
µ = E(X) = λ, σ 2 = V (X) = λ
Ejemplo 1. Suponga que hay 300 errores de impresión distribuidos
aleatoriamente a lo largo de un libro de 500 páginas. Encuentre la prob-
abilidad de que una página dada tenga
47
Denición. La función generdora de momento m(t) para una variable
aleatoria Y se dene como E(ety ). Decimos que una función generadora de
momento para Y existe si existe una constante positiva b tal que m(t) es
nita para |t| ≤ b.
(ty)2 (ty)3
ety = 1 + ty + 2! + 3! + ···
∑
E(ety ) = y ety p(y) =
Entonces E(ety ) es una función de todos los momentos µ′k alrededor del
origen, k = 1, 2, . . .
48
dk m(t)
k
|t=0 = m(k) (0) = µ′k
dt
Demostración.
Una diferencia fundamental entre las variables aleatorias discretas y las vari-
ables aleatorias continuas es cómo se calculan las probabilidades. En las
49
variables aleatorias discretas la función de probabilidad f(x) da la probabili-
dad de que la variable aleatoria tome un valor determinado. En las variables
aleatorias continuas, la contraparte de la función de probabilidad es la función
de densidad de probabilidad, que también se denota por f(x). La diferencia
está en que la función de densidad de probabilidad no da probabilidades di-
rectamente, si no que el área bajo la curva de f(x) que corresponde a un
intervalo determinado proporciona la probabilidad de que la variable aleato-
ria tome uno de los valores de este intervalo. En el lenguaje del cálculo esto
signica
∫ b
P (a ≤ X ≤ b) = f (x)dx
a
1. f (x) ≥ 0
∫∞
2. −∞ f (x)dx =1
50
siempre que exista la integral.
∫ ∞
V (X) = E((X − µ) ) = 2
(x − µ)2 f (x)dx
−∞
Como en el caso discreto pordemos probar que
∫ ∞
V (X) = E(X ) − µ =
2 2
x2 f (x)dx − µ2
−∞
Ejemplo 1. Sea X la variable aleatoria con la siguiente función de dis-
tribución
{1
2x si 0 ≤ x ≤ 2
f (x) =
0 en otra parte
Determine:
1. P (1 ≤ X ≤ 1.5)
2. E(X)
3. V(X)
Ejemplo 2. Sea X la duración en horas de cierto tipo de bombillas
elétricas. Suponga que X es una variable aleatoria continua y que la fdp f
está dada por
{ a
x3 si 1500 ≤ x ≤ 2500
f (x) =
0 en otra parte
Determine a.
51
Observaciones. En cualquier distribución continua se cumple que:
1. P( X = a) = 0
2. P (a ≤ X ≤ b) = P (a ≤ X < b) = P (a < X ≤ b) = P (a < X < b)
Teorema.
1. Si X es una variable aleatoria discreta,
∑
F (X) = p(xj ),
j
52
Demostración: Ambos resultados se deducen directamente de la deni-
ción.
0 si x < 0
1
si 0 ≤ x < 1
3
F (x) =
2 si 1 ≤ x < 2
1
1 si x ≥ 2
53
1. F(-∞) ≡ limx→−∞ F (x) = 0.
d
f (x) = F (x)
dx
para toda x en la cual F sea diferenciable.
1
b−a si a ≤ x ≤ b
f (x) =
0 si x asume otro valor
54
decimos que X está distribuida uniformemente en el intervalo [a, b].
a+b 2 (b − a)2
µ = E(X) = y σ = V (X) = .
2 12
55
cipio se creyó que la mayorá de las distribuciones eran de este tipo). Algunos
ejemplos son:
1
f (x) = √ e−(x−µ) /2σ , −∞ < x < ∞
2 2
σ 2π
56
Curva normal
En la gura siguiente aparece la forma de la distribución normal, una curva
normal en forma de campana.
57
(a) 68.3 % de los valores de una variable aleatoria normal se encuentran
más o menos a una desviación estándar de la media.
(b) 95.4 % de los valores de una variable aleatoria normal se encuentran
más o menos a dos desviaciones estándar de la media.
(c) 99.7 % de los valores de una variable aleatoria normal se encuentran
más o menos a tres desviaciones estándar de la media.
E(X) = µ y V (X) = σ 2 .
58
x−µ
z=
σ
Ejemplo.
1) Determine las probabilidad indicadas:
1. P(0.52 ≤ z ≤ 1.25)
2. P (z > −.25)
3. P (z < 1.75)
Solución
a) Haciendo uso de la tabla normal, que acumula áreas a la izquierda de un
valor z dado, buscamos el área a la izquierda de 1.25 y el área a la izquierda
de 0.25, luego restamos ambas áreas:
59
2. El área a la derecha de z es 0.1314.
Solución
a) Al buscar en el cuerpo de la tabla el valor z cuya área a la izquierda es
0.9750, encontramos z = 1.96
Solución
60
z1 = 30000−35000
5000 = −1 y z2 = 40000−35000
5000 = 1. Luego
Solución
µ = 5 pies + 9 pulgadas=69 pulgadas, σ = 5 pulgadas.
Debemos determinar un valor x tal que p(x) > 0.1. Para ésto determi-
namos el valor z cuya área a la derecha es 0.10 o cuya área a la izquierda
es 0.9000. Al buscar en la tabla vemos que el valor que más se aproxima a
0.9000 es 0.8997, con un valor z = 1.28. Usando la fórmula de conversión
x−µ x − 69
z= = 1.28 =
σ 5
,
de donde se obtiene que x = 75.4.
Esto signica que para que un adulto esté en el 10 % más alto, debe tener
una estatura de 75.4 pulgadas o más.
61
los casos en que np ≥ 5 y nq ≥ 5, la distribución normal proporciona una
aproximación a las probabilidades binomiales que es fácil de usar. Cuando se
usa la aproximación normal a la binomial, en la denición de la curva normal
√
µ = np y σ = npq .
1 1
P [X = k] = P [k − ≤ X ≤ k + ] ∀k = 0, 1, ..., n
2 2
Ejemplo. En una distribución de probabilidad binomial con p = 0.20yn =
100.
62
1 − µx
f (x) = e para x ≥ 0 µ > 0
µ
donde µ es el valor esperado o media.
1 x
f (x) = e− 8 para x ≥ 0
8
Halle:
1. P (x ≤ 6)
63
2. P (x ≥ 6)
3. P (2 ≤ x ≤ 6)
∫ ∞
Γ(α) = xα−1 e−x dx
0
64
Puede demosstrarse que existe la integral impropia anterior (converge) si
α > 0. Integrando por parte se tiene que
Γ(α) = (α − 1)Γ(α − 1)
Γ(n) = (n − 1)Γ(n − 1)
= (n − 1)(n − 2)Γ(n − 2) = · · ·
= (n − 1)(n − 2) · · · Γ(1).
∫∞
Sin embargo, Γ(1) = 0 e−x dx = 1, por tanto tenemos
Γ(n) = (n − 1)!
65
√
Γ(1/2) = π
−x
xα−1 e β
si 0 ≤ x < ∞
β α Γ(α)
f (x) =
0 si x asume otro valor
µ = E(X) = αβ y σ 2 = V (X) = αβ 2
66
b) ¾Cuál es la probabilidad de que la magnitud de un terremoto que afecte
la región exceda de 3.0 en la escala de Richter?
67
Teorema) Si Y es una variable aleatoria ji cuadrada con ν grados liber-
tad, entonces
µ=ν α2 = 2ν
3 −y/2
ky e , si y > 0
f (y) =
0 si y asume otro valor
68
5.8 Distribución Beta
La función de densidad beta es una función de densidad de dos parámet-
ros denida sobre el intervalo cerrado [0, 1]. Frecuentemente se usa como
modelo para proporciones, por ejemplo como la proporción de impurezas en
un producto químico o la proporción de tiempo que una máquina está en
reparación.
(y α−1 )(1−y)β−1
, si 0 ≤ y ≤ 1
B(α,β)
f (y) =
0 si y asume otro valor
∫1
donde B(α, β) = 0
y α−1 (1 − y)β−1 dy = Γ(α)Γ(β)
Γ(α+β)
Teorema. Si Y es una variable aleatoria con distribución beta α > 0 y β > 0, en-
tonces
α αβ
µ= α+β
σ2 = (α+β)2 (α+β+1)
.
69
semanas de observación, la distribuidora encontró que esta proporción podría ser mode-
lada por una distribución beta con α = 4 y β = 2. Encuentre la probabilidad de que la
mayorista venda al menos 90% de su existencia en una semana determinada.
donde la suma es para todos los valores (y1 , y2 ) a los que se le asignan probabil-
idades diferentes de cero.
Determine P (2 ≤ Y1 ≤ 3, 1 ≤ Y2 ≤ 2).
70
Ejemplo. Un supermercado local tiene tres cajas. Dos clientes llegan a las cajas en
momentos diferentes cuando las cajas no atienden a otros clientes. Cada cliente escoge
una caja de manera aleatoria, independientemente del otro. Denote con Y1 el número de
clientes que escogen la caja 1 y Y2 el número de clientes que escogen la caja 2. Encuentre
la función de probabilidad conjunta de Y1 y Y2 .
Solución.
Podríamos proceder en muchas formas. La más directa es considerar el espacio mues-
tral asociado con el experimento. Denotemos con el par {i, j} el evento sencillo de que el
primer cliente escogió la caja i y el segundo cliente escogió la caja j, donde i, j = 1, 2, 3.
Usando la regla mn, el espacio muestral está formado por 3 x3 = 9 puntos muestrales. De
acuerdo con las suposiciones dadas antes, cada punto muestral es igualmente probable y
tiene probabilidad 1/9. El espacio muestral asociado con el experimento es
S = [{1, 1}, {1, 2}, {1, 3}, {2, 1}, {2, 2}, {2, 3}, {3, 1}, {3, 2}, {3, 3}]
y1
y2 0 1 2
0 1/9 2/9 1/9
1 2/9 2/9 0
2 1/9 0 0
71
Para dos variables discretas Y1 y Y2 , F (y1 , y2 ) está dada por
∑ ∑
F (y1 , y2 ) = p(t1 , t2 )
t1 ≤y1 t2 ≤y2
para toda −∞ < y1 < ∞ , −∞ < y2 < ∞, entonces se dice que Y1 y Y2 son variables
aleatorias continuas conjuntas. la función f (y1 , y2 ) recibe el nombre de función de densi-
dad de probabilidad conjunta.
∫∞ ∫∞
2. −∞ −∞
f (y1 , y2 )dy1 dy2 = 1
Para el caso continuo univariante, las áreas bajo la densidad de probabilidad para
un intervalo corresponden a probabilidades. De igual manera, la función de densidad de
probabilidad bivariante f (y1 , y2 ) traza una supercie de densidad de probabilidad sobre
el plano (y1 , y2 ). Los volúmenes bajo esta supercie representan probabilidades. Así,
72
P (a1 ≤ Y1 ≤ a2 , b1 ≤ Y2 ≤ b2 ) es el volúmen bajo la supercie determinada por f (y1 , y2 )
sobre la región
a1 ≤ Y1 ≤ a2 , b1 ≤ Y2 ≤ b2 y que está dada por la integral
∫ b2 ∫ a2
f (y1 , y2 )dy1 dy2 .
b1 a1
Solución.
b)
∫ .4 ∫ .2
F (.2, .4) = f (y1 , y2 ) dy1 dy2
−∞ −∞
∫ .4 ∫ .2
= (1)dy1 dy2
∫ .4 0
) 0
∫ 4
.2
= (y1 ]0 dy2 = .2dy2 = .08
0 0
c)
∫ .5 ∫ .3
P (.1 ≤ Y1 ≤ .3, 0 ≤ Y2 ≤ .5) = f (y1 , y2 ) dy1 dy2
0 .1
73
∫ .5 ∫ .3
= 1dy1 dy2 = .10
0 .1
6.1.jpg 6.1.jpg
74
toman valores entre 0 y 1. Además, la cantidad de gasolina vendida, y2 , no puede ser
mayor que la cantidad disponible, y1 . Suponga que la función de densidad conjunta para
Y1 y Y2 está dada por
{
3y1 , 0 ≤ y2 ≤ y1 ≤ 1
f (y1 , y2 ) =
0, en otro, punto
Encuentre la probabilidad de que menos de la mitad del tanque tenga gasolina y más
de un cuarto del tanque se venda.
∫ 1/2 ∫ y1
P (0 ≤ Y1 ≤ .5, .25 ≤ Y2 ) = 3y1 dy2 dy1
1/4 1/4
∫ )
1/2
= 3y1 (y2 ]y1/4
1
dy1
1/4
∫ 1/2
= 3y1 (y1 − 1/4) dy1
1/4
[ ]]1/2
= y13 − (3/8)y12 1/4
= [(1/8) − (3/8)(1/4)] − [(1/64) − (3/8)(1/16)]
= 5/128
75
Gráca funcion de distribución
6.2.jpg 6.2.jpg
6.3.jpg 6.3.jpg
76
6.1 Distribuciones de probabilidad marginal y condicional
Denición.
y2 \ y1 0 1 T
0 .38 .17 .55
1 .14 .02 .16
2 .24 .05 .29
T .76 .24 1
Ejemplo.Sea
{
2y1 , 0 ≤ y2 ≤ y1 ≤ 1
f (y1 , y2 ) =
0, en otro, punto
77
Encuentre las funciones de densidad marginal para Y1 y Y2 .
Solución.
∫ ∞ ∫ 1 )
f1 (y1 ) = f (y1 , y2 ) dy2 = 2y1 dy2 = 2y1 (y2 ]10
−∞ 0
y si y1 < 0 o y1 > 1
∫∞ ∫1
f1 (y1 ) = −∞
f (y1 , y2 ) dy2 = 0
0dy2 = 0
Entonces,
{
2y1 , 0 ≤ y1 ≤ 1
f1 (y1 ) =
0, en cualquier otro punto.
Del mismo modo, si 0 ≤ y2 ≤ 1,
∫∞ ∫1 ]1
f2 (y2 ) = −∞
f (y1 , y2 ) dy1 = 0
2y1 dy1 = y12 =1
0
y si y2 < 0 o y2 > 1
∫∞ ∫1
f2 (y2 ) = −∞
f (y1 , y2 ) dy1 = 0
0dy1 = 0
Resumiendo, {
1, 0 ≤ y2 ≤ 1
f2 (y2 ) =
0, en cualquier otro punto.
78
p(y1 , y2 )
p(y1 /y2 ) = ,
p2 (y2 )
siempre que p2 (y2 ) > 0
f (y1 , y2
f (y1 /y2 ) = .
f2 (y2 )
{
1/2, 0 ≤ y1 ≤ y2 ≤ 2
f (y1 , y2 ) =
0, en otro, punto
Esto es, los puntos (y1 , y2 ) están uniformemente distribuidos en el triángulo con las
fronteras dadas. Encuentre la densidad condicional de Y1 dada Y2 = y2 . Evalúe la prob-
abilidad de que se venda menos de 1/2 galón, dado que la máquina contiene 1.5 galones
al empezar el día.
79
6.2 Variables aleatorias independientes
Denición. Si Y1 y Y2 son variables aleatorias discretas con función de probabilidad
conjunta p(y1 , y2 ) y funciones de probabilidad marginal p1 (y1 ) y p2 (y2 ), respectivamente,
entonces Y1 y Y2 son independientes si y sólo si
Ejemplo. Sea
{
y1 y22 , 0 ≤ y1 ≤ 1, 0 ≤ y2 ≤ 1
f (y1 , y2 ) = 6
0, en otro, punto
Demuestre que Y1 y Y2 son independientes.
80
Ejemplo. Sea
{
2y1 , 0 ≤ y1 ≤ 1, 0 ≤ y2 ≤ 1
f (y1 , y2 ) =
0, en otro, punto
Demuestre que Y1 y Y2 son dependientes.
∫ ∞ ∫ ∞ ∫ ∞
E[g(Y1 , Y2 , ..., Yk )] = ... g(Y1 , Y2 , ..., Yk )f (y1 , y2 , ..., yk )dy1 dy2 ...dyk .
−∞ −∞ −∞
Ejemplo. Sea
{
2y1 , 0 ≤ y1 ≤ 1, 0 ≤ y2 ≤ 1
f (y1 , y2 ) =
0, en otro, punto
Encuentre E(Y1 Y2 ) y E(Y1 )
Ejemplo. Del proceso para producir una sustancia química industrial se obtiene un
producto que contiene dos tipos de impurezas. Para una muestra especíca proveniente
de este proceso, denotemos con Y1 la proporción de impurezas en la muestra y con Y2
la proporción de impurezas tipo I entre todas las impurezas halladas. Suponga que la
distribución conjunta de Y1 y Y2 puede ser modelada con la siguiente función de densidad
81
de probabilidad:
{
2(1 − y1 ), 0 ≤ y1 ≤ 1, 0 ≤ y2 ≤ 1
f (y1 , y2 ) =
0, en otro, punto
Teorema. Sea g(Y1 , Y2 ) una función de las variables aleatorias Y1 y Y2 y sea c una
constante. Entonces
E[g1 (Y1 , Y2 )+g2 (Y1 , Y2 )+· · ·+gk (Y1 , Y2 )] = E[g1 (Y1 , Y2 )]+E[g2 (Y1 , Y2 )]+· · ·+E[gk (Y1 , Y2 )]
.
82
cambia. Esta relación de dependencia se mide a través de la covarianza y el coeciente
de correlación.
Cov(Y1 , Y2 )
ρ=
σ1 σ2
donde σ1 y σ2 son desviaciones estándar de Y1 y Y2 , respectivamente.
Cov(Y1 , Y2 ) = 0
83
6.6 Valor esperado y varianza de funciones lineales de variables
aleatorias
frecuentemente encontraremos estimadores que son funciones lineales de las mediciones
en una muestra, Y1 , Y2 , . . . , Yn . Si a1 , a2 . . . , an son constantes, será necesario
calcular el valor esperado y varianza de una funcián lineal de las variables aleatorias Y1 ,
Y2 , . . . , Yn ; es decir, una función de la forma
U1 = a1 Y1 + a2 Y2 + · · · + an Yn = Σni=1 ai Yi .
Denamos
U1 = Σni=1 ai Yi y U2 = Σm
j=1 bj Xj .
1. E[U1 ] = Σni=1 ai µi .
84
2. V (U1 ) = Σni=1 a2i V (Yi ) + 2ΣΣ1≤i<j≤n ai bj Cov(Yi , Yj ), donde la doble suma es para
todos los pares (i, j) tales que i < j .
3. Cov(U1 , U2 ) = Σni=1 Σm
j=1 ai bj Cov(Yi , Yj ).
de un experimento.) Dena
1 n
Y = Σ Yi
n i=1
σ2
y demuestre que E[Y ] = µ y V (Y ) = n
85
7 Muestreo y distribuciones muestrales
Gran parte de los conocimientos que tenemos sobre las poblaciones se basan en la infor-
mación contenida en las muestras que se sacan de dicha poblaciones. Cuando una rma
encuestadora desea saber el nivel de simpatía que tiene un partido político en la población
de votantes, no entrevista a toda la población de votantes, sólo entrevista a una mues-
tra. Una investigación educativa puede estar interesada en el rendimiento académico de
la población estudiantil en un distrito educativo. Dado que la población de estudiante
puede resultar muy grande sólo se investiga una muestra.
86
muestra seleccionada de manera que cada posible muestra de tamaño n tenga la misma
probabilidad de ser seleccionada.
Ejemplo. Suponga que tenemos uma población de tamaño 500 y vamos a elegir una
muestra de 10.
87
63271 59986 71744 51102 15141 80714 58683 93108 13554 79945
88547 09896 95436 79115 08303 01041 20030 63754 08459 28364
55957 57243 83865 09911 19761 66535 40102 26646 60147 15702
46276 87453 44790 67122 45573 84358 21625 16999 13385 22782
55363 07449 34835 15290 76616 67191 12777 21861 68689 03263
69393 92785 49902 58447 42048 30378 87618 26933 40640 16281
13186 9431 88190 04588 38733 81290 89541 70290 40113 08243
17726 28652 56836 78351 47327 18518 92222 55201 27340 10493
36520 64465 05550 30157 82242 29520 69753 72602 23756 54935
81628 36100 39254 56835 37636 02421 98063 89641 64953 99337
84649 48968 75215 75498 49539 74240 03466 49292 36401 45525
63291 11618 12613 75055 43915 26488 41116 64531 56827 30825
70502 53225 03655 05915 37140 57051 48393 91322 25653 06543
06426 24771 59935 49801 11082 66762 94477 02494 88215 27191
20711 55609 29430 70165 45406 78484 31639 52009 18873 96927
41990 70538 77191 25860 55204 73417 83920 69468 74972 38712
72452 36618 76298 26678 89334 33938 95567 29380 75906 91807
37042 40318 57099 10528 09925 89773 41335 96244 29002 46453
53766 52875 15987 46962 67342 77592 57651 95508 80033 69828
90585 58955 53122 16025 84299 53310 67380 84249 25348 04332
32001 96293 37203 64516 51530 37069 40261 61374 05815 06714
62606 64324 46354 72157 67248 20135 49804 09226 64419 29457
10078 28073 85389 50324 14500 15562 64165 06125 71353 77669
91561 46145 24177 15294 10061 98124 75732 00815 83452 97355
13091 98112 53959 79607 52244 63303 10413 63839 74762 50289
En algunas situaciones la población o bien es innita o tan grande que, para nes prác-
ticos, se considera innita. Por ejemplo, suponga que un restaurante de comida rápida
desea obtener el perl de su clientela seleccionando una muestra aleatoria de los mismos y
pidiéndole a cada cliente que llene un breve cuestionario. En tales situaciones, el proceso
88
continuo de clientes que visitan el restaurante puede verse como que los clientes provienen
de una población innita. En poblaciones innitas un procedimiento para la selección
de una muestra debe ser concebido especialmente para cada situación, de manera que
permita seleccionar los elementos de manera independiente y evitar así un sesgo en la
selección que dé mayores probabilidades de selección a ciertos tipos de elementos. En el
ejemplo de la selección de una muestra aleatoria simple entre los clientes de un restau-
rante de comida rápida, el primer requerimiento es satisfecho por cualquier cliente que
entra en el restaurante. El segundo requerimiento es satisfecho seleccionando a los clientes
de manera independiente. El objetivo del segundo requerimiento es evitar sesgos de se-
lección. Habría un sesgo de selección, por ejemplo, si cinco clientes consecutivos que se
seleccionaran fueran amigos. Es de esperar que estos clientes tengan perles semejantes.
Dichos sesgos se evitan haciendo que la selección de un cliente no inuya en la selección de
cualquier otro cliente. En otras palabras, los clientes deben ser seleccionados de manera
independiente.
Ejercicios
a) Dada una población nita que tiene cinco elementos A, B, C, D y E seleccione 10
muestras aleatorias simples de tamaño 2.
Estimación puntual
Para estimar el valor de un parámetro poblacional, la característica correspondiente
se calcula con los datos de la muestra, a lo que se le conoce como estadistico muestral.
89
Por ejemplo, para estimar la media poblacional µ y la desviación estándar poblacional σ
se calculan los estadísticos muestrales correspondientes; media muestral X y desviación
estándar muestral s. El proceso que se lleva a cabo para realizar estos cáculos se llama
estimación puntual. A la media muestral X se le conoce como el estimador puntual de la
media poblacional µ, a la desviación estándar muestral s como el estimador puntual de la
desviación estándar poblacional σ y a la proporción muestral pb como el estimador puntual
de la proporción poblacional p. Al valor numérico obtenido de X , s, pb se les conoce como
estimaciones puntuales.
Valor esperado de X
Como la variable aleatoria X puede tener muchos valores diferentes, suele ser de in-
terés conocer la media de todos los valores de X que se obtienen con diferentes muestras
aleatorias simples. La media de la variable aleatoria X es el valor esperado de X . Sea
E(X) el valor esperado de X y µ la media de la población de la que se selecciona una
muestra aleatoria simple. Se puede demostrar que cuando se emplea el muestreo aleatorio
simple, E(X) y µ son iguales, es decir,
E(X) = µ
Desviación estándar de X
90
Ahora se denirá la desviación estándar de la distribución muestral de X . Se empleará
la notación siguiente:
σx = desviación estándar de X
.
σ = desviación estándar de población.
n = al tamaño de la muestra.
N = al tamaño de la población.
91
medias.
92
tivamente. ¾Cuál es la probabilidad de que una muestra aleatoria de 25 niños arroje un
puntaje promedio entre 70 y 78?
Ejemplo. Si una lata de un galón de pintura cubre en promedio 513.3 pies cuadrados
con una desviación estándar de 31.5 pies cuadrados, ¾Cuál es la probabilidad de que el
área media cubierta por una muestra de 40 de estas latas de 1 galón se halle en un punto
entre 510 y 520 pies cuadrados?
Ejemplo. Una máquina embotelladora puede ser regulada para que descargue un
promedio de µ onzas por botella. Se ha observado que la cantidad de líquido dosicado
por la máquina está distribuida normalmente con σ = 1.0 onza. Una muestra de n = 9
botellas se selecciona aleatoriamente de la producción de la máquina en un día determi-
nado (todas embotelladas con el mismo ajuste de la máquina) y las onzas de contenido
líquido se miden para cada una. Determine la probabilidad de que la media muestral se
encuentre a no más de .3 onza de la verdadera media µ para el ajuste seleccionado de la
máquina.
Ejemplo. Una empresa emplea 1500 personas. La cantidad promedio gastada, du-
rante un año determinado, en servicios médicos personales por empleado fue de $25.75 y
una desviación típica de $5.25. ¾Cuál es la probabilidad de que una muestra aleatoria de
100 empleados arroje una media comprendida entre $25 y $27?
Yi − µ 2
Σni=1 Zi2 = Σni=1 ( )
σ
93
Ejemplo. Si Z1 , Z2 , . . . , Z6 denota una muestra aleatoria proveniente de la dis-
tribución normal estándar, encuentre un número b tal que
∑
Solución. Por el Teorema anterior, 6i=1 Zi2 tiene una distribución χ2 con 6 grados
de libertad. Si vemos la Tabla de la distribución χ2 , en la la con (encabezado
∑6 6 gl y la
)
columna con encabezado χ.05 , vemos el número 12.5916. Por tanto, P
2
Z 2
> 12.5916 =
(∑6 ) i=1 i
.05, o bien, lo que es equivalente, P i=1 Zi ≤ 12.5916 = .95 y b = 12.5916 es el cuantil
2
.95 ( o percentil 95) de la suma de los cuadrados de seis variables aleatorias normales
estándar e independientes.
1
S2 = Σn (Yi − Y )2
n − 1 i=1
(n − 1)S 2 1
2
= 2 Σni=1 (Yi − Y )2
σ σ
94
tiene una distribución χ2 con n − 1 grados de libertad .También, Y y S 2 son variables
aleatorias independientes.
P (b1 ≤ S 2 ≤ b2 ) = 0.90
Solución. Observe que
[ ]
( ) (n − 1)b1 (n − 1)S 2 (n − 1)b2
P b1 ≤ S ≤ b2
2
=P ≤ ≤ .
σ2 σ2 σ2
[ ]
P a1 ≤ (n − 1)S 2 ≤ a2 = .90
Un método para hacer esto es encontrar el valor de a2 que delimite un área de .05 en la
cola superior y el valor de a1 que delimite .05 en la cola inferior (.95 en la cola superior).
Como hay n − 1 = 9 grados de libertad, la Tabla indica que a2 = 16.919 y a1 = 3.325. En
consecuencia, los valores para b1 y b2 que satisfacen nuestras condiciones están dados por
95
(n−1)b1
3.325 = a1 = σ2
= 9b1 o b1 = 3.325
9
= .369 y
(n−1)b2
16.919 = a2 = σ2
= 9b2 o b2 = 16.919
9
= 1.880.
Por tanto, si deseamos tener un intervalo que incluya S 2 con probabilidad .90, uno de
estos intervalos es (.369, 1.880). Observe que este intervalo es bastante amplio.
x
pb =
n
donde
n es el tamaño de la muestra.
Para determinar qué tan cerca está la proporción muestral pb de la proporción pobla-
cional p, se necesita entender las propiedades de la distribución muestral de pb : el valor
esperado de pb , la desviación estándar de pb y la forma de la distribución muestral de pb.
96
El valor esperado de pb es E(b
p) = p. Esto signica que pb es un estimador insesgado de
p.
Desviación estándar de pb
la desviación estándar de obedece a si la población es nita o innita. Las dos fórmulas
para calcular la desviación estándar de se presentan a continuación.
np ≥ 5 y n(1 − p) ≥ 5
Suponiendo que se satisfagan estas dos condiciones, la distribución de probabilidad de
x en la proporción muestral, pb = nx , puede aproximarse por medio de una distribución
normal. Y como n es una constante, la distribución muestral de pb también se aproxima
mediante una distribución normal. Esta aproximación se formula como sigue:
97
La distribución muestral de pb se aproxima mediante una distribución normal
siempre que np ≥ 5 y n(1 − p) ≥ 5
98
Insesgadez
El estadistico muestral θb es un estimado insesgado del parámetro poblacional θ si
b =θ
E(θ)
Eciencia
Suponga que se usa una muestra aleatoria simple de n elementos para obtener dos
estimadores puntuales insesgados de un mismo parámetro poblacional. En estas circun-
stancias preferirá usar el estimador puntual que tenga el menor error estándar, ya que
dicho estimador tenderá a dar estimaciones más cercanas al parámetro poblacional. Se
dice que el estimador puntual con menor error estándar tiene mayor eciencia relativa
que los otros.
Consistencia
La tercera propiedad relacionada con un buen estimador puntual es la consistencia.
Dicho de manera sencilla, un estimador puntual es consistente si el valor del estimador
puntual tiende a estar más cerca del parámetro poblacional a medida que el tamaño de
la muestra aumenta. En otras palabras, una muestra grande tiende a proporcionar mejor
estimación puntual que una pequeña.
99
embargo, se obtienen mejores resultados cuando los elementos que forman un estrato son
lo más parecido posible.
Una vez formados los estratos, se toma una muestra aleatoria simple de cada estrato.
El valor del muestreo aleatorio estraticado depende de qué tan homogéneos sean los
elementos dentro de cada estrato. Si los elementos de un estrato son homogéneos, el es-
trato tendrá una varianza pequeña. Por tanto, con muestras relativamente pequeñas de
los estratos se obtienen buenas estimaciones de las características de los estratos. Si los
estratos son homogéneos, el muestreo aleatorio estraticado, proporciona resultados tan
precisos como los de un muestreo aleatorio simple, pero con una muestra de tamaño total
menor.
Muestreo sistemático
Para ciertos muestreos, en especial en aquellos con poblaciones grandes, se necesita mu-
cho tiempo para tomar una muestra aleatoria simple . Una alternativa al muestreo aleato-
rio simple es el muestreo sistemático. Por ejemplo, si se quiere una muestra de tamaño
50 de una población que tiene 5000 elementos, se muestrea uno de cada 5000/50 = 100
elementos de la población. En este caso, un muestreo sistemático consiste en seleccionar
en forma aleatoria uno de los primeros elementos de la lista de la población. Los otros
elementos se identican contando a partir del primer elemento 100 elementos para tomar
100
el elemento que tenga la posición 100 en la lista de la población, a partir de este ele-
mento se cuentan otros 100 y así se continúa. Por lo general, de esta manera es más
fácil de identicar la muestra de 50 que si se usara el muestreo aleatorio simple. Como
el primer elemento que se selecciona es elegido en forma aleatoria, se supone que una
muestra sistemática tiene las propiedades de una muestra aleatoria simple. Esta suposi-
ción es aplicable, en especial, cuando la lista de los elementos de la población es un orden
aleatorio de los elementos.
Muestreo de conveniencia
Los métodos de muestreo hasta ahora vistos se conocen como técnicas probabilísticas
de muestreo. Los elementos seleccionados de una población tienen una probabilidad cono-
cida de ser incluidos en la muestra. La ventaja del muestreo probabilístico es que, por lo
general, se identica la distribución muestral del estadístico muestral correspondiente. La
distribución muestral permite hacer armaciones probabilísticas acerca del error al usar
los resultados muestrales para hacer inferencias acerca de la población.
101
Muestreo subjetivo
Otra técnica de muestreo no probabilística es el muestreo subjetivo. En este método
la persona que más sabe sobre un asunto selecciona elementos de la población que consid-
era los más representativos de la población. Este método suele ser una manera relativa-
mente fácil de seleccionar una muestra. Por ejemplo, un reportero puede seleccionar dos
o tres senadores considerando que estos senadores reejan la opinión general de todos los
senadores. Sin embargo, la calidad de los resultados muestrales depende de la persona que
selecciona la muestra. Aquí también hay que tener mucho cuidado al hacer inferencias
acerca de las poblaciones a partir de muestreos subjetivos.
8 Estimación.
Un estimador es una regla, a menudo expresada como una fórmula, que indica cómo
calcular el valor de una estimación con base en las mediciones contenidas en una muestra.
102
Por ejemplo la media muestral
1∑
n
X= Xi
n i=1
es un posible estimador puntual de la media poblacional µ
Ejemplo. Una muestra aleatoria de tamaño n = 100 se toma de una población con
σ = 5.1. Dado que la media de la muestra es X = 21.6, elabore un intervalo de conanza
de 95% para la media poblacional.
103
intervalo de la media poblacional se basan en una distribución de probabilidad conocida
como distribución t. Aunque la elaboración matemática de la distribución t parte de la
suposición de que la población de la que se muestrea tiene una distribución normal, las
investigaciones han demostrado que la distribución t se aplica en muchas situaciones en
que la población se desvía signicantemente de una población normal.
Ejemplo. Los datos muestrales siguientes provienen de una población normal: 10, 8,
12, 15, 13, 11, 6, 5.
104
TAMAÑO DE MUESTRA PARA UNA ESTIMACION POR INTER-
VALO DE LA MEDIA POBLACIONAL
zσ 2
n=( )
E
Si no se conoce el tamaño de la poblacón.
N z2σ2
n=
z 2 σ 2 + E 2 (N − 1)
Si se conoce el tamaño de la poblacón.
Ejemplo. Un investigador de un centro educativo que tiene 2500 alumnos, desea hacer
una estimación del tiempo promedio que gastan los estudiantes en el viaje entre la escuela
y la casa. El investigador desea un intervalo de conanza del 99% y una estimación que
esté comprendida entre un minuto y la media verdadera. Una pequeña muestra piloto
da una varianza de 25 minutos al cuadrado. ¾Qué tamaño debe tener la muestra que se
necesita?
105
adolescente en una comunidad que tiene acceso al internet, etc. Generalmente, no es prác-
tico examinar una población entera para determinar la proporción verdadera que posee la
característica de interés. En lugar de esto se toma una muestra aleatoria de la población y
se utiliza la proporción muestral pb para hacer una estimación de la proporción poblacional
p.
√
pb(1 − pb)
pb ± z
n
Si el muestreo se hace en una población nita, entonces el intervalo de conanza es
√ √
pb(1 − pb) N −n
pb ± z
n n−1
Ejemplo. En un estudio sobre las razones que dan los alumnos suspendidos en la
escuela, un investigador tomó una muestra de 200 estudiantes suspendidos que fueron en-
trevistados, 140 dijeron que habían fallado debido a dicultades económicas en su familia.
El investigador quería construir un intervalo de conanza del 95% para la verdadera pro-
porción de jóvenes que habían fallado por esta razón.
106
Cuando el muestreo se realiza en una población innita, el tamaño de la muestra está
dado por
z 2 pq
n=
E2
donde z está asociado al nivel de conanza , E es el margen de error, p es la proporción
de la población que tiene la caracter±tica de interés y q es la proporción de la población
que no tiene la característica de interés.
N pqz 2
n=
(N − 1)E 2 + pqz 2
Ejemplo. ¾Cuál sería el tamaño de la muestra requerida para estimar una proporción
desconocida con un error máximo de 0.06 y un 95 % de conanza?
107
8.4 Inferencia estadística acerca de medias y de proporciones con
dos poblaciones
Inferencias acerca de la diferencia entre dos medias poblacionales: σ1 y σ2
conocidas
√
σ12 σ22
σx¯1 −x¯2 = +
n1 n2
Si ambas poblaciones tienen distribucion normal o si los tamaños de las muestras son
sucientemente grandes para que el teorema del límite central permita concluir que las
distribuciones muestrales de x¯1 y x¯2 puedan ser aproximadas mediante una distribución
normal, la distribución muestral de x¯1 y x¯2 tendrá una distribución normal cuya media
es µ1 − µ2 .
108
√
σ12 σ22
x¯1 − x¯2 ± zα/2 +
n1 n2
b) Dé un intervalo de conanza de 90% para la diferencia entre las dos medias pobla-
ciones.
c) Proporcione un intervalo de conanza de 95% para la diferencia entre las dos medias
poblaciones.
109
8.5 Inferencias acerca de la diferencia entre dos proporciones
poblacionales
Sea p1 una proporción de la población 1 y p2 una proporción de la población 2, a
continuación se considerarán inferencias acerca de la diferencia entre dos proporciones
poblacionales:p1 y p2 . Para las inferencias acerca de estas diferencias, se seleccionan dos
muestras aleatorias independientes, una de n1 unidades de la población 1 y otra de n2
unidades de la población 2.
√
p1 (1 − p1 ) p2 (1 − p2 )
σp¯1 −p¯2 = +
n1 n2
Como ya se indicó antes, una estimación por intervalo está dada por una estimación
puntual ± un margen de error. En la estimación de la diferencia entre dos proporciones
poblacionales, una estimación por intervalo toma la forma siguiente:
110
√
p¯1 (1 − p¯1 ) p¯2 (1 − p¯2 )
p¯1 − p¯2 ± zα/2 +
n1 n2
111
Σni=1 (Yi − Ȳ )2 (n − 1)S 2
=
σ2 σ2
tiene una distribución χ2 con (n − 1) grados de libertad. Entonces debemos halla χ2L
yχ2U tales que
(n − 1)S 2
P [χ2L ≤ ≤ χ2U ] = 1 − α
σ2
(n − 1)S 2
P [χ21−α/2 ≤ ≤ χ2α/2 ] = 1 − α
σ2
(n − 1)S 2 (n − 1)S 2
P[ ≤ σ 2
≤ ]=1−α
χ2α/2 χ21−α/2
112
(n − 1)S 2 (n − 1)S 2
( , )
χ2α/2 χ21−α/2
9 Prueba de Hipótesis
113
está cargada, se formula la hipótesis de que la moneda está bien, es decir, p = 0.5, donde
p es la probabilidad de cara. Análogamente, si se quiere decidir si un procedimiento es
mejor que otro, se formula la hipótesis de que no hay diferencia entre los procedimien-
tos, es decir, cualquier diferencia observada se debe a uctuaciones en el muestreo de la
misma población. Tales hipótesis se llaman hipótesis nula y se denotan por H0 . Cualquier
hipótesis que difera de una hipótesis dada, se llama hipótesis alternativa y se denota por
Ha . Por ejemplo, si una hipótesis es p = 0.5, las hipótesis alternativas son p ̸= 0.5,
p < 0.5, p > 0.5.
Si se rechaza una hipótesis cuando debería ser aceptada se dice que se comete un error
tipo I. Si, por el contrario, se acepta una hipótesis cuando debería ser rechazada, se dice
que se comete un error tipo II. En cualquiera de los dos casos se comete un error al tomar
una decisión equivocada.
Nivel de Signicancia
114
Media poblacional: σ conocida
El caso σ conocida se reere a aplicaciones en las que se cuenta con datos históri-
cos o con alguna información que permita obtener buenas estimaciones de la desviación
estándar poblacional antes de tomar la muestra. En tales casos, para propósitos prácti-
cos, se considera que se conoce la desviación estándar poblacional. Analizaremos cómo
realizar una prueba de hipótesis para la media poblacional en el caso en que σ es conocida.
Los métodos que se presentan en esta sección dan resultados exactos si la población
de la que se selecciona la muestra tiene distribución normal. En los casos en los que no
sea razonable suponer que la población tiene una distribución normal, se pueden aplicar
estos métodos siempre y cuando el tamaño de la muestra sea sucientemente grande.
Una prueba de una cola para la media poblacional tiene una de las dos formas sigu-
ientes:
En las pruebas de hipótesis la forma general de una prueba de dos colas es la siguiente:
H0 : µ = µ0
Ha : µ ̸= µ0
115
Hay 4 pasos involucrados en una prueba de hipótesis.
• Plantear la hipótesis
• Con base a los resultados de la muestra calcular el valor z del estad±tico de prueba.
• Interpretación y conclusiones.
Estadístico de prueba
x−µ
z=
√σ
n
116
Para calcular el valor-p se usa el valor del estadístico de prueba. El método a seguir
depende de si se trata de una prueba de la cola inferior, de la cola superior o de dos colas.
En una prueba de la cola inferior, el valor-p es la probabilidad de conseguir un valor del
estadístico de prueba tan pequeño o menor que el obtenido con la muestra. Por ende,
para calcular el valor-p en una prueba de la cola inferior, en el caso σ conocida, se halla
el área bajo la curva normal estándar a la izquierda del estadístico de prueba. Una vez
calculado el valor-p se decide si es lo sucientemente pequeño para rechazar la hipótesis
nula; como se vera más adelante, para esta decisión hay que comparar el valor-p con el
nivel de signicancia. Si la prueba es de cola superior, entonces el valor p es el área a la
derecha del estadístico de prueba.
117
Método del valor crítico.
En el método del valor crítico primero se determina un valor para
el estadístico de prueba llamado valor crítico. En una prueba de
la cola inferior, el valor crítico sirve como punto de referencia para
determinar si el valor del estadístico de prueba es lo sucientemente
pequeño para rechazar la hipótesis nula. El valor crítico es el valor
del estadístico de prueba que corresponde a un área α (nivel de
signicancia) en la cola inferior de la distribución muestral del es-
tadístico de prueba. En otras palabras, el valor crítico es el mayor
valor del estadístico de prueba que haría que se rechace la hipótesis
nula.
Ejemplo.
1.- Considere la siguiente prueba de hipótesis:
H0 : µ ≥ 20
Ha : µ < 20
En una muestra de 50, la media muestral fue 19.4. La desviación estándar poblacional
es 2.
(b) ¾ Cuál es la regla de rechazo si se usa el método del valor crítico, con α = 0 : 05?.
118
(d) ¾ Cuál es el valor p?
2.-Considere la siguiente prueba de hipótesis:
H0 : µ = 15
Ha : µ ̸= 15
En una muestra de 50, la media muestral fue 14.15. La desviación estándar pobla-
cional es 3.
119
del estadístico de prueba tiene distribucion normal estándar. Sin embargo, en el caso de σ
desconocida la distribución muestral del estadístico de prueba sigue la distribucion t; tiene
ligeramente más variabilidad debido a que la muestra se usa para obtener estimaciones
tanto deµ como de σ .
Ejemplo.
Las especicaciones para cierton tipo de listón imponen un resistencia a la ruptura
media de 180 libras. Si 5 piezas de listón (seleccionadas aleatoriamente de distintos rollos
) tienen una resistencia a la ruptura media de 169.5 libras ccon una desviación estándar de
5.7 libras, pruebe entonces la hipótesis nula µ = 180 libras contra la hipótesis alternativa
µ ̸= 180 libras con un nivel de signicancia de 0.01. Suponga que la distribución de la
población es normal.
Proporción poblacional
En esta sección se muestra cómo realizar una prueba de hipótesis para la proporción
poblacional p. Mediante p0 se denota la proporción poblacional, las tres formas de una
prueba de hipótesis para la proporción poblacional son las siguientes:
120
H0 : p ≥ p0 H0 : p ≤ p0 H0 : p = p0
Ha : p < p0 Ha : p > p0 Ha : p ̸= p0
En la administración, las decisiones suelen basarse en la relación entre dos o más vari-
ables. Por ejemplo, observar la relación entre el gasto en publicidad y las ventas puede
121
permitir a un gerente de mercadotecnia tratar de predecir las ventas correspondientes a
un determinado gasto en publicidad. O, una empresa de servicios públicos puede em-
plear la relación entre la temperatura diaria y la demanda de electricidad para predecir
la demanda de electricidad considerando las temperaturas diarias que se esperan el mes
siguiente. Algunas veces los directivos se apoyan en la intuición para juzgar la relación
entre dos variables. Sin embargo, cuando es posible tener datos, puede emplearse un
procedimiento estadístico llamado análisis de regresión para obtener una ecuación que
indique cuál es la relación entre las variables.
El tipo más sencillo de análisis de regresión en el que interviene una variable independi-
ente y una variable dependiente y en el que la relación entre estas variables es aproximada
mediante una línea recta se le conoce como regresión lineal simple. Al análisis de regresión
en el que intervienen dos o más variables independientes se le llama análisis de regresión
múltiple.
y = β0 + β1 x + ϵ
β0 y β1 se conocen como los parámetros del modelo, y ϵ (la letra griega épsilón) es una
variable aleatoria que se conoce como término del error. El término del error da cuenta
de la variabilidad de y que no puede ser explicada por la relación lineal entre x y y .
A la ecuación que describe la relación entre el valor esperado de y , que se denota E(y),
y x se le llama ecuación de regresión. La siguiente es la ecuación de regresión para la
regresión lineal simple.
122
E(y) = β0 + β1 x
La gráca de la ecuación de regresión lineal simple es una l«ea recta; β0 es la inter-
sección de la recta de regresión con el eje y , β1 es la pendiente y E(y) es la media o valor
esperado de y para un valor dado de x.
y = βb0 + βb1 x
Observación:
El análisis de regresión no puede entenderse como un procedimiento para establecer
una relación de causa y efecto entre las variables. Este procedimiento sólo indica cómo o
en qué medida las variables están relacionadas una con otra.
El procedimiento de mínimos cuadrados para ajustar una recta que pase por un con-
junto de n puntos es semejante al método que podríamos usar si ajustamos una recta a
simple vista; esto es, deseamos que las diferencias entre los valores observados y los puntos
123
correspondientes en la recta ajustada sean pequeñas en un sentido general. Una forma
cómoda de lograr esto y que proporciona estimadores con buenas propiedades, es mini-
mizar la suma de cuadrados de las desviaciones verticales a partir de la recta ajustada.
Entonces, si
yb = βb0 + βb1 x
∑
n ∑
n
SSE = (yi − ybi )2 = [yi − (βb0 + βb1 xi ]2
i=1 i=1
βb0 = y − βb1 x
∑ ∑
Si denotamos por Sxy la expresión ni=1 (xi −x)(yi −y) y por Sxx la expresión ni=1 (xi −
x)2 , entonces el estimador de β1 se puede expresar como
Sxy
βb1 =
Sxx
124
Ejemplo. Use el método de mínimos cuadrados para ajustar una recta a los n = 5
puntos de datos dados en la Tabla.
x y
-2 0
-1 0
0 1
1 1
2 3
Coeciente de correlación
Cov(X, Y )
ρ=
σx σy
Este parámetro asume valores entre -1 y 1, inclusive. Estos valores indican relaciones
negativa o positiva perfecta. El valor cero reeja la ausencia de relación lineal.
Año (x) 0 5 8 9 10 11 12
Emisión de CO2 (y) 910 680 520 450 370 380 340
Determine el coeciente de correlación lineal.
125
10.3 Modelo de regresión lineal múltiple.
La forma más adecuado para menajar modelos de regresión lineal múltiple es por medio
de matrices.
Y = β0 + β1 x1 + β2 x2 + ... + βk xk + ϵ
y hacemos n observaciones independientes, y1 , y2 ,..., yn , en Y . Podemos escribir la
observación yi como
Y = Xβ + ϵ
Para n observaciones desde un modelo lineal simple de la forma
Y = β0 + β1 x + ϵ,
tenemos
y1 1 x1 ϵ1
( )
y2 1 x2
ϵ2
β0
Y= .. , X= .. .. , ϵ= .. , β=
. . . . β1
yn 1 xn ϵn
126
(Suprimimos el segundo subíndice en x porque sólo aparece una variable x.) Las
ecuaciones de mínimo cuadrados para β0 y β1 ya dadas son:
∑ ∑
nβb0 + βb1 xi = yi
∑ ∑ ∑
βb0 xi + βb1 x2i = xi yi .
Dado que
( ∑ ) ( ∑ )
∑n ∑ x2i , y
′
XX= XY = ∑
′ i
xi xi xi y i
si
( )
βb0
βb =
βb1
entonces las ecuaciones de mínimos cuadrados están dadas por
βb = (X′ X) (X′ Y)
−1
Ejemplo. Ajuste una parábola a los datos del ejemplo anterior usando el modelo
Y = β 0 + β 1 x + β 2 x2 + ϵ
127
3. V (β̂1 ) = c01 σ 2 , donde c11 = 1
Sxx
.
−X̄
4. Cov(β̂0 , β̂1 ) = c11 σ 2 , donde c01 = Sxx
.
8. El estadístico S 2 es independiente de β0 y β1
Ejemplo. Encuentre las varianzas de los estimadores β̂0 y β̂1 para el Ejemplo an-
terior.
Las expresiones anteriores dan las varianzas para los estimadores de mínimos cuadra-
dos en términos de σ 2 , la varianza del término de error ϵ. Por lo general el valor
de σ 2 es desconocido y necesitaremos hacer uso de observaciones muestrales para
estimar σ 2 . Se puede demostrar que:
1
S2 = SSE
n−2
proporciona un estimador insesgado para σ 2 . Observe que el 2 que se presenta en el
denominador de S 2 corresponde al número de parámetros β calculados en el modelo.
128
10.5 Inferencias respecto a los parámetros βi
Suponga que un ingeniero ha ajustado el modelo
Y = β0 + β1 x + ϵ
,
Esto es, las varianzas de ambos estimadores son múltiplos constantes de σ 2 , la vari-
anza del término de error del modelo. Usando esta información, podemos construir
una prueba de la hipótesis H0 : βi = βi0 (βi0 es un valor especíco de βi ), usando el
estadístico de prueba
β̂i − βi0
Z= √
σ cii
129
si la función de densidad f de una variable aleatoria X está relacionada con un
parámetro θ y se tiene una muestra aleatoria x1 , x2 , ..., xn , entonces el método de
máxima verosimilitud selecciona en cierto sentido, de todos los posibles valores de
θ, el que tenga mayor probabilidad de haber producido esas observaciones.
Usamos un ejemplo para ilustrar la lógica en la que está basado el método de máxima
verosimilitud. Suponga que tenemos una caja que contiene tres pelotas. Sabemos
que cada una de las pelotas puede ser roja o blanca, pero no sabemos el número
total de cualquiera de los colores. No obstante, podemos muestrear aleatoriamente
dos de las pelotas sin restitución. Si nuestra muestra aleatoria contiene dos pelotas
rojas, ¾ cuál sería una buena estimación del número total de pelotas rojas en la caja?
Obviamente, el número de pelotas rojas en la caja debe ser dos o tres (si hubiera
cero o una pelota roja en la caja, sería imposible obtener dos pelotas rojas cuando
se hace muestreo sin restitución). Si hay dos pelotas rojas y una pelota blanca en
la caja, la probabilidad de seleccionar aleatoriamente dos pelotas rojas es
(22 )(10 ) 1
3
=
(2 ) 3
Por otra parte, si hay tres pelotas rojas en la caja, la probabilidad de seleccionar
aleatoriamente dos pelotas rojas es
(32 )(00 )
=1
(32 )
Parece razonable escoger el tres como la estimación del número de pelotas rojas
en la caja porque esta estimación maximiza la probabilidad de obtener la muestra
observada. Desde luego que es posible que la caja contenga sólo dos pelotas rojas,
pero el resultado observado conere más crédito a que haya tres pelotas rojas en la
caja.
130
pretende determinar el valor de λ con el que se tiene la máxima probabilidad de ob-
servación de esta muestra. Puesto que el muestreo aleatorio implica independencia,
se tiene:
P [X1 = x1 , X2 = x2 , ..., Xn = xn ]
=P ∏[X 1 = x1 ]P [X2 = x2 ]...P [Xn = xn ]
n
= i=1 P [Xi = xi ]
Por ser X una distribución de poisson su densidad está dada por
e−λ λx
P [X = x] = f (x) = x = 0, 1, 2
x!
∏
n ∏
n ∏
n
e−λ λxi
P [Xi = xi ] = f (xi ) =
i=1 i=1 i=1
xi !
Esta función de probabilidad es una función de λ y la denotamos por L(λ). Al usar
las leyes de los exponentes, se tiene:
∑
e−nλ λ xi
L(λ) = ∏
xi !
Esta función se llama función de verosimilitud. Esta permite calcular la probabilidad
de observar los valores x1 , x2 , ..., xn como función del parámetro λ. Se pretende
obtener el valor de λ que maximice esta probabilidad. En otras palabras de todos
los valores posibles de λ, interesa el que conere probabilidad máxima de observar
los valores realmente observados. A n de determinar ese valor de λ se usa el criterio
de la primera derivada para extremos relativos. Para simplicar el proceso se toma
primero el logaritmo natural de L(λ) y se usan las leyes de los logaritmos para
simplicar la expresión resultante:
∑ ∏
ln L(λ) = −nλ + xi ln λ − ln xi !
131
∑
n
λ= xi /n = x
i=1
Este procedimiento no aporta el valor exacto de λ, sino más bien un método lógico
para estimar λ, por lo tanto se escribe λb = x. Dicho de otra manera, lamedia
muestral es el estimador de máxima verosimilitud del parámetro λ de una variable
aleatoria de Poisson.
Ejemplo. Sea x1 , x2 , ..., xn una muestra aleatoria de una distribución normal con
media µ y varianza σ . La densidad de X es
1
f (x) = √ e−(1/2)[(x−µ)/σ]
2
σ 2π
132
.
Determine la función de máxima verosimilitud de la muestra.
12 Estimación Bayesiana
Donde ∫ ∞
Γ(α) = xα−1 e−x dx
0
Γ(α) = (α − 1)Γ(α − 1)
Γ(α) = (α − 1)!
133
α αβ
µ= y σ2 =
α+β (α + β)2 (α + β + 1)
134
f (y1 , y2 , ..., yn , θ) =
L(y1 , y2 , ..., yn |θ)Xg(θ)
y que la densidad marginal o función de masa de Y1 , Y2 , ..., Yn es
∫ ∞
m(y1 , y2 , ..., yn ) = L(y1 , y2 , ..., yn |θ)xg(θ)dθ
−∞
135
b) Haciendo uso del resultado anterior determine la distribución posterior en cada caso.
∑
1. α = 1, β = 3, n = 5, yi = 2
∑
2. α = 1, β = 3, n = 25, yi = 10
∑
3. α = 10, β = 30, n = 5, yi = 2
Ejemplo. Una persona que realiza una investigación para una importante compañía
petrolera supone que la proporción de personas que requieren de petróleo en una de las
estaciones de servicio de esa compañía petrolera, es una variable aleatoria con distribución
con α = 10, β = 400. En una muestra aleatoria de tamaño n = 800, encuentra que sólo
x = 3 personas requirieron de petróleo. Determine la media y la varianza de
a) la distribución anterior de p
b) la distribución posterior de p
136