Estadist y Prob

1 Estadística Descriptiva
1.1 Conceptos Básicos

Estadística. Ciencia que recoge, organiza, presenta, analiza e interpreta
datos con el n de propiciar una toma de decisiones más ecaz.
El estudio de la estadística se divide en dos categorias: la estadística descrip-
tiva y la estadística inferencial.
Estadistica Descriptiva: Es un conjunto de métodos y técnicas que

permiten describir un conjunto especico de datos.
La Estadistica Descriptiva como su nombre lo indica, describe un grupo

particular. Sus principales herramientas son.
• Cálculo de porcentaje y tasas
• Presentación tabular, (cuadros y tablas)
• Presentación gráca
• Cálculo Medidas de Tendencia Central, (promedios)
• Cálculo de medidas de dispersión o variabilidad
• Cálculo de números indice
1
• Otras técnicas descriptivas.
Estadística Inferencial. Se reere a un conjunto de métodos y técnicas

que permite obtener información acerca de una población completa, con solo
estudiar una parte de ella (muestra). La Estadistica Inferencial nos permite
llevar los resultados obtenidos en una muestra a la población. Sus princi-
pales herramientas son: Cálculo de probabilidades, muestreo y distribución
muestral, estimación, prueba de hipótesis, análisis de varianza, análisis de
regresión y correlación, otras.
Población. Es un conjunto de elementos con características parecidas o

similares y que son de interés para la realización de un estudio. En términos
estadisticos una población se dene de acuerdo a lo que se desea investi-
gar o estudiar. Por ejemplo si queremos conocer el rendimiento escolar de
los/as niños/as de la educación básica, entonces nuestra población va a estar
denida por la cantidad de niños/as inscrito en los curso de la educación
básica o si queremos evaluar la calidad de la producción de una empresa,
nuestra población estará formada por todas las unidades producidas por la
empresa durante el periodo de interés.
Muestra: Es un subconjunto de la población que se toma para nes de

desarrollar una investigación. Cuando un estudio se hace a partir de una
muestra, esta debe ser representativa y signicativa .
Se dice que una muestra es representativa cuando los elementos que com-
ponen dicha muestra contienen las mismas caracteristicas que los elementos
en la población de la cual se tomó dicha muestra, el concepto de represen-
tatividad se reere a los aspectos cualitativos de la muestra. Por ejemplo
si quisiéramos conocer la preferencia política de los estudiantes de la UASD
una muestra sería representativa si en la misma se incluyen estudiantes de
todas las edades, de todas las carreras, de ambos sexo, de todos los centros re-
2
gionales, etc. de forma tal que al observar la muestra es como si observáramos
la población en miniatura.
Por su parte el concepto de signicación tiene que ver con la cantidad de

elementos que conforma la muestra. En este sentido, no existe un número
de elementos especíco para que una muestra sea signicativa, sino, que la
cantidad de elementos necesarios para que la muestra sea signicativa varía
de acuerdo a la características de la población. Si la población a estudiar
es muy variable, se requerirá de un mayor número de elementos para que la
muestra sea signicativa que si la población tiende a ser homogénea, en cuyo
caso un muestra pequeña puede ser signicativa.
Parámetro: Es una medida de referencia la cual se calcula a partir de

datos de una población completa. El parámetro se reere a la medida de
una variable en la población. Por ejemplo, cuando se aplican las Pruebas
Nacionales y se obtiene el promedio de las calicaciones, esta medida es un
parámetro de las calicaciones de los estudiantes.
Estimador o Estadígrafo: Es una medida calculada a partir de los

datos obtenidos en una muestra y se utiliza para estimar el valor del parámetro,
ya que en la mayoría de los casos, se hace difícil y muy costoso conocer el
valor real o verdadero de la variable. Por ejemplo cuando se toma una mues-
tra para conocer la preferencia política de la población, los porcentajes que
se obtienen a partir de la encuesta son estimadores del porcentaje de real de
preferencia de todos/as las votantes.
1.2 Variables y su clasicación

Una Variable es una característica que puede variar de un elemento a otro
en la población estudiada. Ejemplos: peso corporal de las personas, tamaño
de las aulas universitarias, estatura de las personas, número de asignaturas
3
cursadas por los estudiantes por semestre, etc.
Las variables se dividen en dos grupos: Cualitativas y Cuantitativas
Variables cualitativas: son aquellas variables que describen una cual-

idad o atributo en el elemento estudiado, estas variables responden la pre-
gunta ¾cuál?, ejemplos de estas variables pueden ser: religión que profesan
los dominicanos, partido político preferido, color de la piel, sexo de los y las
estudiantes, raza, carrera estudiada, etc.
Variables cuantitativas: son aquellas variables que describen una can-

tidad en el elemento estudiado. Las variables cuantitativas responden la
pregunta ¾cuánto?, por ejemplo: número de estudiante por aula, venta di-
aria de una empresa, número de hijos por familia, estatura de los estudiantes
que cursan estadística en este semestre, etc.
Las variables cuantitativas se dividen en dos categorías: Continuas y

discontinuas o discretas. Variables cuantitativas continuas: son aquellas
variables cuantitativas cuyos resultados pueden expresarse en números frac-
cionarios o decimales. Estas variables provienen de un proceso de medición,
por ejemplo el nivel de ingreso de las personas, consumo familiar, estatura
de las personas, gasto diario de los estudiantes, etc.
Variables cuantitativas discontinuas o discretas: son aquellas vari-

ables cuantitativas cuyos resultados se expresan en números enteros, es decir
que no admiten valores decimales. Las variables cuantitativas discontinuas
o discretas provienen de un proceso de conteo, por ejemplo número de asig-
naturas por estudiante, número de estudiantes por aula, número de personas
que llega a un restaurante de comida rápida, etc.
Escala de medición
4
Las variables se clasican por escala de medición. La escala de medición
de los datos de una variable rige los cálculos que se llevan a cabo con el n
de resumir y presentar los datos.
Para el desarrollo de este curso entendemos por Medicion al proceso medi-

ante el cual se le asigna un numeral (numero, letra o simbolo) a una variable.
Por ejemplo si estamos realizando una investigacion sobre las caracteristicas
de la poblacion estudiantil podremos incluir variables como la edad, el sexo,
el numero de asignaturas cursadas el gasto diario, percepcion sobre los servi-
cios de la biblioteca, las asignaturas mas preferidas y muchas otras variables.
En cada una de estas variables tendremos una medición en cada uno de

los elementos estudiados, asi por ejemplo, para la edad nos referiremos a
los años cumplidos y por lo tanto tendremos medidas numericas, (23, 21,
19, 35,c..), para la variable sexo podriamos asignarle un numero por ejem-
plo uno para masculino y dos para femenino o viceversa, pero de igual forma
podriamos asignarle una letra, M para los masculinos y F para las femeninas.
Lo que se quiere señalar es que hay diferente forma en como podemos

establecer la medición para una variable, es decir que hay diferente tipo de
escala para medir una o múltiples variables, pudiendo entonces establecer
una denición para la escala de medición.
Escala de Medición: Es la forma en como se mide una variable, es

decir que la escala de medición es el proceso mediante el cual se le asigna un
numeral a cada variable.
Existen cuatro tipos de escala de medición: nominal, ordinal, de intervalo

y de razón o proporción.
5
Escala Nominal: Es aquella escala de medición en la cual los numerales
asignados a cada valor o atributo no representa ningún orden de jerarquía,
de importancia o preferencia. En este tipo de escala los numerales solo se
utilizan para identicar los valores o atributos de cada variable. Ej.: los
numerales o códigos asignados a las variables cualitativas, los números asig-
nados a los integrantes de un equipo béisbol, la matrícula estudiantil, etc.
Escala Ordinal: Es aquella escala en la cual los numerales se asignan a

cada variable de acuerdo a un orden de jerarquía, importancia o de prefer-
encia. En este tipo de escala, cada numeral representa un tramo jerárquico,
de preferencia o de importancia. Ej.: los códigos asignados a los cargos en
una empresa, preferencia de un producto según su orden de importancia, el
número asignado a las placas de los vehículos ociales, etc.
Tanto la escala ordinal como la nominal se usan en la medición de vari-

ables cualitativas.
Escala de intervalo. Es una escala cuantitativa cuya característica prin-

cipal, es que no parte de un cero absoluto, es decir que el punto a partir del
cual se empieza a medir es arbitrario. En este tipo de escala la presencia del
cero como medida de la variable no representa ausencia de la variable. Ej.:
Las escalas usadas para medir la temperatura, la intensidad de un temblor
de tierra, coeciente inteligente, etc.
Escala de Razón o Proporción: Es una escala cuantitativa cuya car-

acterística principal es que el proceso de medición se inicia a partir de un
cero absoluto, es decir, que la presencia del cero como medida de la variable
signica la ausencia de esta. A este tipo de escala corresponden la mayoría de
las variables con que trabajamos a diario, ejemplo, peso corporal, tamaño de
las personas, consumo familiar, ventas de una empresa, distancia recorrida,
unidades producidas, etc.
6
1.3 Distribución de frecuencias
Una distribución de frecuencias es un resumen tabular de datos que muestra
el número (frecuencias) de elementos en cada una de varias clases que no se
superponen.
Los elementos de una distribución de frecuencias son:
1. Los límites de clase inferiores son las cifras mas pequeñas que pueden
pertenecer a las diferentes clases.
2. Los límites de clase superiores son las cifras mas grandes que pueden
pertenecer a las diferentes clases.
3. Las fronteras de clase son las cifras que se utilizan para separar las clases,
pero sin los espacios creados por los límites de clase.
4. Las marcas de clase son los puntos medios de clases. Se calculan medi-
ante la semi suma de los límtes inferior y superior de clase.
5. la anchura de clase es la diferencia entre dos límites de clases inferiores

consecutivos o dos fronteras de clases inferiores consecutivas.
Procedimientos para construir una Distribución de Frecuencias
Para construir una distribución de frecuencias se dan los siguientes pasos:
1. Decida el número de clases que desea, el cual debe estar entre 5 y 20.
Se puede utilizar la fórmula k = 1 + 3.33logN .
7
2. Calcule la anchura de clase dividiendo el rango entre el número de clases.
3. Punto de partida: Comience por elegir un número para el límte infe-

rior de la primera clase. Elija el valor del dato más bajo o un valor
conveniente que sea un poco más pequeño.
4. Usando el límite inferior de la primera clase y la anchura de clase, pro-

ceda a listar los demás límites de clases inferiores. (Sume la anchura de
clase al punto de partida para obtener el segundo límite de clase inferior
y así sucesivamente). Luego proceda a determinar los límites superiores.
5. Determine la frecuencia de cada clase.
Distribución de Frecuencias relativas
Una Distribución de Frecuencias relativas se determina dividiendo la fre-

cuencia de cada clase entre el total de frecuencias.
Distribución de Frecuencias acumuladas
Otra variante de la distribución de frecuencias estándar se utiliza cuando

se busca totales acumulativos. La frecuencia acumulativa de una clase es la
suma de la frecuencia para esa clase y todas las clases anteriores.
Histogramas
Un histograma es una gráca de barras donde la escala horizontal repre-

senta clases de valores de datos y la escala vertical representa las frecuencias.
Las alturas de las barras corresponden a los valores de frecuencia; en tanto
que las barras se dibujan de manera adyacente ( sin huecos entre sí).
8
Polígono de frecuencias
Un polígono de frecuencias es un gráco de línea trazado sobre las marcas

de clases. Puede obtenerse uniendo los puntos medios de los techos de los
rectángulos en el histograma.
Ejemplo. Los datos siguientes corresponden a las puntuaciones del co-

eciente de inteligencia de 70 personas tomadas al azar. Considerando una
anchura de clase igual 10.
102 135 105 82 114 126 93 107 128 123

91 116 133 100 151 51 104 101 118 123
98 90 67 112 107 123 121 115 93 73
116 105 107 118 153 109 78 98 104 140
117 147 121 89 95 98 143 114 118 123
102 89 83 135 101 120 84 76 158 78
136 107 105 100 97 95 102 85 94 89
1. Contruya una distribución de frecuencias.
2. Contruya una distribución de frecuencias relativas.
3. Contruya una distribución de frecuencias porcentual.
4. Contruya una distribución de frecuencias acumuladas.
5. Contruya una distribución de frecuencias acumuladas porcentual.
6. Interprete la frecuencia simple de la 3ra. clase.
9
7. Interprete la frecuencia acumulada de la 4ta. clase.
8. Interprete la frecuencia acumulada porcentual de la 5ta. clase.
9. Construya un histograma y un pol'gono de frecuencias.
Solución
Distribucion del coeciente de inteligencia de una poblacion de 70

personas tomadas al azar
Clases Frec. (fi) frec Rel Frec. % Fre.c Ac. Frec Ac. %
50 − 59 1 0.01429 1.43 1 1.43
60 − 69 1 0.01429 1.43 2 2.86
70 − 79 4 0.05714 5.71 6 8.57
80 − 89 7 0.1 10.00 13 18.57
90 − 99 11 0.15714 15.71 24 34.29
100 − 109 17 0.24286 24.29 41 58.57
110 − 119 10 0.14286 14.29 51 72.86
120 − 129 9 0.12857 12.86 60 85.71
130 − 139 4 0.05714 5.71 64 91.43
140 − 149 3 0.04286 4.29 67 95.71
150 − 159 3 0.04286 4.29 70 100.00
Total 70 1 100
10
1.4 Medidas de tendencia central
Como su nombre lo indica, las medidas de tendencia central son aquellas que
describen el centro de una variable, indican un valor alrededor del cual se
agrupa la mayoría de los valores de un conjunto de datos. La Importancia de
estas medidas es que a partir de ella se puede caracterizar un grupo pobla-
cional. Por ejemplo si hacemos un estudio sobre las características de los
consumidores de un producto, y nos encontramos que la edad promedio es
de 30 años, podemos describir a nuestros consumidores cono una población
joven. Aunque queda claro que hay personas con más y menos edad, pero el
promedio nos da un indicador del grupo como un todo.
Las principales medidas de tendencia central son:
• Promedio o media aritmética
11
• Mediana
• Moda
• Media Geométrica
• Media Armónica
Media aritmética
Es la medida de tendencia central o promedio más conocida y más amplia-
mente usada. Se dene como el cociente que se obtiene al dividir la suma de
los valores de la variable entre el total de las observaciones.
Para una variable X , se denota por X en el caso de una muestra y por µ

en el caso de una población y se determina mediante la fórmula
∑
xi
X=
n
Ejemplo: De una población de 120 supermercados se tomó una muestra
de cinco de ellos y se calculó las ventas diarias de los mismos, (ventas expre-
sadas en cientos de miles de RD$. Los datos son 4.1,2.9,2.0,4.5,1.5
∑
Xi
X̄ = n
4.1+2.9+2.0+4.5+1.5
X̄ = 5
15
X̄ = 5 = 3.0$
Media ponderada
12
la media ponderada para un conjunto de datos se determina mediante la
fórmula
∑
w i xi
Xw = ∑
wi
Propiedades matemáticas de la media aritmética

1. La suma de las desviaciones individuales de los valores de la variable
con relación a la media aritmética es cero.
2. La suma de los cuadrados de las desviaciones de un conjunto de números
Xj de cualquier número a es mínima solamente si a = X .
3. Si f1 tienen media m1 , f2 tienen media m2 , . . ., fk números tiene media
mk , entonces la media de todos los números es
f1 m1 + f2 m2 + · · · + fk mk
X=
f1 + f2 + · · · fk
es decir, una media aritmética ponderada de todas las medias.
Mediana
La mediana es la observación de la mitad después que se colocan los datos

en una serie ordenada. Si el conjunto de datos tiene un número impar de
observaciones, la posición de la mediana es
n+1
2
13
Ejemplo. Determine la mediana en el siguiente conjunto de datos: 67,
45, 52, 67, 48.
Cuando un conjunto de datos contiene un número par de observaciones la

mediana es el promedio de los dos valores intermedios.
Ejemplo. Determine la mediana en el siguiente conjunto de datos: 83,

78, 70, 62, 93, 75.
Característica
• Todo conjunto de datos tiene una solo una mediana.

• Su valor no se ve afectado por la presencia de valores atípicos.
• Se puede utilizar en datos agrupados en distribuciones de frecuencia con
clases abiertas.
• Se puede utilizar en datos cualitativos, cuando estos están expresados

en una escalar ordinal.
Moda. Es la observación de mayor frecuencia.
Ejemplo. Determine la moda en el siguiente conjunto de datos: 67, 45,

52, 67.
14
Características y desventajas de la Moda
• Es una medida que se aplica tanto a datos cuantitativos como para datos
cualitativos.
• Su valor no es afectado por valores atípicos en los extremos.

• Su valor no está denido algebraicamente.
• En un conjunto de datos puede existir más de una moda y es posible
también que no haya moda.
• Si un conjunto de datos tiene una sola moda, se le denomina unimodal,

si tiene dos modas se le denomina bimodal y tiene tres o más se le de-
nomina multimodal
1.5 Percentiles y cuartiles

Un percentil aporta información acerca de la dispersión de los datos en el
intervalo que va del menor a mayor valor de los datos.
El percentil p es un valor que por lo menos p por ciento de las observa-

ciones son menores o iguales que este valor y por lo menos (100 − p) por
ciento de las observaciones son mayores o iguales que este valor.
Cálculo del Percentil p
1. Ordenar los datos de menor a mayor.
15
2. Calcular el índice i
p
i=( )n
100
donde p es el percentil deseado y n es el número de observaciones.
(a) Si i no es un número entero, debe redondearlo. El primer entero

mayor correspondiente a i denota la posición del percentil p.
(b) Si i es un número entero, el percentil p es el promedio de los valores
en las posiciones i e i + 1.
Ejemplo. Los siguientes datos corresponden a las calicaciones de 15 es-

tudiantes: 76, 87, 78, 90, 60, 70, 75, 87, 70, 70, 65, 85, 79, 85, 60. Determine:
a) El percentil 85 b) El percentil 70
Con frecuencia es conveniente dividir los datos en 4 partes; así, cada parte
contiene una cuarta parte o 25 % de las observaciones. A los puntos de di-
visión se le llama cuartiles y están denidos como sigue:
1. Q1 = primer cuartil o percentil 25.
2. Q2 = segundo cuartil o percentil 50.
3. Q3 = tercer cuartil o percentil 75.
Ejemplo. Determine Q1 y Q3 en los datos del ejemplo anterior.
16
1.6 Medidas de variabilidad o dispersión
Nos indican qué tan dispersos se encuentra un conjunto de datos . Las más
usadas son:
El rango. Se dene como la diferencia entre el valor mayor y el valor

menor. Se denota como R = Xmax − Xmin.
El rango intercuartílico. Es la diferencia entre el tercer cuartil y el primer

cuartil. En otras palabras, es el rango en que se encuentra el 50 % central de
los datos. Se denota como
IQR = Q3 − Q1
Varianza. Es una medida de variabilidad que utiliza todos los datos.

Está basada en la diferencia entre el valor de cada observación y la media. Si
los datos son de una población se le llama varianza poblacional y se denota
y se determina mediante la fórmula
∑
2 (x − µ)2
σ =
N
Si los datos provienen de una muestra la varianza se llama varianza mues-

tral y se denota y se determina
∑
2 (x − X)2
s =
n−1
17
Desviación estándar. Se dene como la raiz cuadrada positiva de la
varianza. Para una muestra está dada por
√
∑
(x − X)2
s=
n−1
y para una población
√∑
(x − µ)2
σ=
N
Medidas de dispersión relativas
Una medida de dispersión relativa que más frecuentemente se usa es el

coeciente de variación. Se dene como el cociente que se obtiene al dividir
la desviación típica o estándar de un conjunto de datos entre su correspondi-
ente media aritmética multiplicada por 100. Se denota y determina mediante
la fórmula
s
CV = (100)
X
Ejemplos. Las calicaciones de un grupo de estudiantes en un examen

de 15 puntos son las siguientes: 2, 5, 7, 1, 8, 11, 13, 8, 7, 4, 5, 8, 14, 11.
18
Determine: La varianza, la desviación estándar y el coeciente de variación.
1.7 Medidas descriptivas calculadas a partir de datos agrupados

Media aritmética. la media aritmética a partir de datos agrupados se de-
termina mediante la fórmula
∑
fi x i
X=
n
donde fi es la frecuencia de clase y xi es la marca de clase.
La mediana está dada
n
2 −F
med = Lmed + (C)
fmed
donde
1. Lmed= límite inferior de la clase que contiene la mediana.
2. F =frecuencia acumulada de la clase que antecede a la clase mediana.
3. fmd es la frecuencia de la clase mediana.
4. C es la anchura de la clase mediana.
19
Nota: La mediana se ubica en la clase que tiene frecuencia acumulada de
50% o más.
La moda se hallará en la clase que contenga la frecuencia más alta, lla-

mada clase modal. Se determina mediante la fórmula:
Da
M oda = Lmo + (C)
Da + Db
donde
1. Lmo es el límite inferior de la clase modal.

2. Da es la diferencia entre la frecuencia de la clase modal y la frecuencia
de la clase que le antecede.
3. Db es la diferencia entre la frecuencia de la clase modal y la frecuencia
de la clase que le sigue.
4. C es la anchura de clase.
La varianza y la desviación estándar muestral se determinan, respectiva-

mente, mediante la fórmula
∑ √∑
fi (xi − x)2 fi (xi − x)2
s2 = y s=
n−1 n−1
20
2 Introducción a la Teoría de Probabilidad
La teoría de la probabilidad es un modelamiento matemático del azar o

aleatoriedad. En el lenguaje cotidiano el término probabilidad se entiende
como una medida de nuestra conanza de que ocurra un evento aleatorio.
Una situación que envuelve incertidumbre es lo que en el lenguaje estadístico
se denomina fenómeno aleatorio, y se caracteriza esencialmente porque su
desarrollo no es previsible.
2.1 Conceptos relacionados con la teoría de probabilidad

2.1.1 Experimento
En el sentido usual del término, un experimento es un procedimiento u op-
eración que puede dar lugar a distintos resultados, todos ellos previamente
identicable.
Nos ocuparemos por el momento de aquellos experimentos que pueden
repetirse sucesivamente bajo las mismas condiciones. Entre ellos cabe distin-
guir dos tipos.
1. Experimentos determinísticos: aquellos que dan lugar al mismo resul-

tado siempre que se realicen bajo idénticas condiciones.
2. Experimentos aleatorios: se caractizan porque sus resultados pueden

variar, incluso si el experimento se realiza bajo idénticas condiciones
iniciales.
2.1.2 Espacio muestral

Con cada experimento E, denimos el espacio muestral como el conjunto
de todos los resultados posibles de E. Usualmente designamos este conjunto
como S.
El espacio muestral asociado a un experimento aleatorio puede ser de dos
tipos dependiendo de su cardinal.
21
1. Espacio muestral nito. Cuando tiene un número nito de elementos.
Por ejemplo, en el experimento aleatorio que consiste en lanzar un dado,
el espacio muestral nito es
S = {1, 2, 3, 4, 5, 6 }.
2. Espacio muestral innito numerable, si tienen un número innito nu-

merable de elementos . Como ejemplo consideremos el experimento
aleatorio que consiste en lanzar un dado hasta que aparezca un 1.
S = {1, 21, 31, 41, 51, 61, 221, 231, 241, 251, ...}
También se suele llamar espacio muestral discreto indistintamente a los

casos nito e innito contable.
3. Espacio muestral continuo, si tienen un número innito no numeable

de elementos. Por ejemplo si elegimos aleatoriamente un punto de un
circulo de radio r y consideramos la distancia del punto al centro del
círculo, entonces:
S = {x ∈ R :0 ≤ x ≤ r }
2.1.3 Evento o suceso

Otra noción básica es el concepto de un suceso o evento. Un evento A respecto
a un espacio muestral S asociado a un experimento E es simplemente un
conjunto de resultados posibles. Es un subconjunto del espacio muestral.
Cabe destacar, en principio 4 tipos de eventos segun el número de elemen-
tos que lo constituyan.
1. Evento elemental, evento simple o punto muestral, es cada uno de los

resultados posibles del experimento aleatorio.
2. Evento compuesto, es el que consta de dos o más eventos elementales.
22
3. Evento seguro o cierto, es a quel que ocurre siempre. Consta de todos
los sucesos elementales del espacio muestral.
4. Evento imposible, es aquel que nunca ocurre. No contiene ningún ele-

mento del espacio muestral y se identica con ∅.
2.2 Operaciones y Relaciones entre Eventos

La identicación de un evento como un subconjunto de un espacio muestral
hace posible el uso de la teoría de conjuntos para especicar matemáticamente
las relaciones y operaciones entre eventos.
1. Si A y B son eventos, entonces A ∪ B es el suceso que ocurre si y sólo

si A o B o ambos ocurren.
2. Si A y B son eventos, entonces A ∩ B es el evento que ocurre si y sólo

si A y B ocurren.
3. Si A es un evento, Ā es el evento que ocurre si y sólo si A no ocurre. El

evento Ā se llama evento complementario de A.
4. Si A1 ,A2 ,..., An es cualquier colección nita de eventos , entonces ∪ni=1 Ai

es el evento que ocurre si y sólo si al menos uno de los eventos Ai ocurren.
5. Si A1 ,A2 ,..., An es cualquier colección nita de eventos , entonces ∩ni=1 Ai

es el evento que ocurre si y sólo si todos los eventos Ai ocurren.
Denición. Dos eventos A y B, son mutuamente excluyentes si no pueden

ocurrir juntos. Expresamos esto escribiendo A ∩ B = ∅.
Ejemplo. Se prueba un artefacto electrónico y se anota el tiempo total

de uso, digamos t. Supongamos que S = {t : t ≥ 0}. Sean A, B y C los
eventos siguientes:
23
A = {t : t < 100}, B = {t : 50 ≤ t ≤ 200}, C = {t : t > 150}.
Hallar: A ∪ B , A ∩ B y C̄ .
Cuáles de los eventos anteriores son mutuamente excluyentes?
Ejemplo. Un fabricante dispone de 5 terminales de computadora, en

apariencia idéntica para enviarlas por barco. Dos de las 5 están defectuosas.
Se solicitan dos de las terminales y se procede a llenar la orden eligiéndolas
aleatoriamente entre las 5 disponibles.
1. Elabore una lista del espacio muestral para este experimento.
2. Suponga que el evento A indica que la orden se llena con dos terminales
no defectuosas. Elabore una lista de los puntos muestrales de A.
2.3 Distintas Concepciones de Probabilidad

Vamos a describir tres interpretaciones del concepto de probabilidad. Las
dos primeras se basan en la consideración de experimentos aleatorios y la
tercera en un criterio subjetivo.
2.3.1 Concepción Clásica

Esta interpretacion se basa en un experimento aleatorio en el que son posible
un número nito de n resultados, donde se supone que todos son igualemente
factibles y excluyentes.
Sea A un evento arbitrario asociado a un experimento, que se puede presentar

en m de los n posibles resultados del experimento. Se dene la probabilidad
del suceso A como
24
m
P (A) =
n
Esta es la denominada regla de Laplace para el cálculo de probabilidades de

los distintos eventos en la situacion descrita anteriormente.
Ejemplo. Sea A el evento de que aparezcan los números 1 ó 2 al lanzar

un dado no cargado. la probabilidad de que ocurra A es
2
P (A) =
6
2.3.2 Objeciones a la denición Clásica

Surgen algunas dicultades básicas si se intenta dar una denición formal
desde esta perspectiva.
1. El espacio muestral ha de ser nito.
2. Sólo es aplicable en el caso de resultados equiprobable.
3. El concepto de equiprobabilidad se basa, en esencia, en el concepto de

probabilidad que queremos denir.
2.3.3 Concepción Frecuentista

La concepción frecuentista de la probabilidad se dessarrolló a partir de las
críticas realizadas a la denición clásica de Laplace. Esta denición fue for-
malmente establecida por R. Von Mises y se basa en el concepto de frecuencia
relativa de un evento asociado a un experimento aleatorio que se repite suce-
sivamente bajo idénticas condiciones.
25
Si se realizan n repeticiones de un experimento, y un determinado suceso
A se ha presentado en nA ocasiones, se dene la frecuencia relativa de A en
las n pruebas como:
nA
fn (A) =
n
Supongamos que el número de realizaciones del experimento crece in-
denidamente y consideremos la sucesión de frecuencias relativas de A,
fn (A), fn+1 (A), ..., fn+k (A), ...
Estas frecuencias relativas tienden a aproximarse a un valor jo cuando

aumenta el número de repeticiones del experimento, lo que se conoce como
principio de regularidad de las frecuencias. La teoría frecuentista asegura
que existe el límite de esta frecuencias relativas y dene la probabilidad de
un evento como dicho límite, esto es,
P (A) = lim fn (A)

n→∞
2.3.4 Objeciones a la denición Frecuentista

No hay una indicación clara del número de pruebas que debe realizarse para
obtener la probabilidad de un evento.
2.3.5 Concepción Subjetiva

En esta concepción la probabilidad se entiende como el grado de creencia o
conanza que una persona asigna a un evento.
La probabilidad subjetiva representa un juicio personal que estará basado en
la información de dicha persona acerca de la situación considerada.
26
2.4 Denición axiomática de probabilidad
Es la más simple de todas las deniciones y la menos controvertida. Fue
establecida por el matemático ruso Andrei N. Kolmogorov.
Denición. Dado un espacio muestral S asociado a un experimento.

Para cada evento A en S asignamos un número, P (A), denominado la prob-
abilidad de A, de tal manera que se cumplen los siguentes axiomas:
1. P(A)≥ 0
2. P(S) = 1
3. Si A1 , A2 , ..., forman una sucesión de eventos mutuamente excluyentes

por parejas de S ( es decir, Ai ∩ Aj = ∅, para i ̸= j ) entonces
∞
∑
P (A1 ∪ A2 ∪ ...) = P (A1 ) + P (A2 ) + ... = (P (Ai )
i=1
.
2.4.1 Consecuencias de la denición axiomática de probabilidad

1. La probabilidad de un evento imposible es nulo, es decir, P (∅) = 0.
En efecto, A = A ∪ ∅ y por el axioma 3,

P (A) = P (A ∪ ∅) = P (A) + P (∅) ⇒ P (∅) = 0
2. Para cualquier evento A ⊂ S se verica que
P(A)= 1 - P(A).
En efecto, A ∪ A = S y A ∩ A = ∅, luego, P (A ∪ A) = P (S) = 1 =
P (A) + P (A).
3. Para dos eventos cualesquiera A, B ⊂ S se verica que
27
P(A ∪ B ) = P(A) + P(B) - P(A ∩ B )
Para demostrar esta propiedad debemos descomponer A ∪ B y B en

eventos mutuamentes excluyentes y luego aplicar la propiedad 3. Así
escribimos:
A ∪ B = A ∪ (B ∩ A), B = (A ∩ B) ∪ (B ∩ A)
Luego,
P (A ∪ B) = P (A) + P (B ∩ A)
P(B)= P(A ∩B) + P (B ∩ A)
P(A ∪B) = P (A) + P (B) − P (A ∩ B)
4. P(A ∪ B ) = P(A ∩ B ) y P(A ∩ B ) = P(A ∪ B )
Estas propiedades se deducen de las leyes de Morgan.
Ejemplo. La probabilidad de que un estudiante A apruebe un determi-

nado examen es 0.7, la de otro estudiante B es 0.5 y la probabilidad de que
aprueben los dos 0.4. Obtener las probabilidades de los siguientes eventos:
1. Que apruebe al menos uno de los dos.
2. Que ninguno apruebe.
3. Que sólo apruebe uno.
Ejemplo. Una moneda se lanza tres veces. Calcule la probabilidad de

obtener cara en dos de los tres lanzamientos.
28
Ejemplo. Se considera un dado cargado de manera tal que la probabil-
idad de que salga un número es directamente proporcional a dicho número.
Sea A el suceso salir un número par, B salir un número primo y C el suceso
salir un número impar.
1. Calcule la probabilidad de cada evento elemental.
2. Calcule P(A), P(B) y P(C).
3. Calcule la probabilidad de que salga un número par y primo.
4. Calcule la probabilidad de que salga un número par pero no primo.
2.5 Probabilidad Condicionada

La probabilidad condicionada consiste en analizar cómo afecta la acurrencia
de un evento a la probabilidad de que ocurra cualquier otro.
Denición. sean A y B eventos de un mismo espacio muestral tales que

P (B) > 0. La probabilidad condicional de A suponiendo que ocurrió el
evento B es
P (A ∩ B)
P (A/B) =
P (B)
Ejemplo. Suponga que una ocina tiene 100 máquinas calculadoras. Algu-
nas de estas máquinas son eléctricas (E), mientras que otras son manuales
(M). Además, algunas son nuevas (N) y otras son usadas (U). En la tabla
se muestra el número de máquina de cada categoría. Una persona entra a
la ocina, escoge una máquina al azar y descubre que es nueva. Cuál es la
probabilidad de que sea eléctrica?
29
E M T
N 40 30 70
U 20 10 30
T 60 40 100
2.6 Teoremas básicos de la probabilidad condicionada

La probabilidad de la intersección de dos eventos se puede deducir directa-
mente de la denición de probabilidad condicionada y se obtiene como
P (A ∩ B) = P (A)P (B/A) si P (A) > 0
o bién,
P (A ∩ B) = P (B)P (A/B) si
P(B)> 0
Ejemplo. Si dos eventos A y B son tales que P (A) = .5, P (B) = .3 y

P (A ∩ B) = .1. Hallar
a) P (A/B) b) P (B/A) c) P (A/A ∪ B).
Denición. Dos eventos A y B son independientes si se cumplen las

siguientes condiciones:
30
1. P(A ∩ B ) = P(A)P(B)
2. P(B/A) = P(B)
3. P(A/B) = P(A)
Denición. Decimos que los eventos B1 , B2 , ..., Bk representan una par-

tición de un espacio muestral S si:
1. Bi ∩ Bj = ∅ si i ̸= j
∪k
2. i=1 Bi =S
3. P (Bi ) > 0 para todo i
Por ejemplo en el lanzamiento de un dado B1 = {1, 2}, B2 = {3, 4, 5}

y B3 = {6} represente una partición del espacio muestral. Mientras que
C1 = {1, 2, 3, 4} y C2 = {4, 5, 6} no.
2.7 Teorema de la probabilidad total y teorema de Bayes

Teorema de la probabilidad total. Sea E un evento en un espacio mues-
tral S y sean A1 , A2 , ..., An eventos mutuamentes excluyentes cuya unión es
S. Entonces
P (E) = P (A1 )P (E/A1 ) + P (A2 )P (E/A2 ) + ... + P (An )P (E/An )
Ejemplo. Una fábrica utiliza tres máquinas X, Y y Z para producir

ciertos artículos. Suponga que:
31
1. La máquina X producen el 50% de todos los artículos, de los cuales 3 %
son defectuosos.
2. La máquina Y producen el 30% de todos los artículos, de los cuales 4 %

son defectuosos.
3. La máquina Z producen el 20 % de todos los artículos, de los cuales 5

% son defectuosos.
Encuentre la probabilidad de que un artículo seleccionado aleatoriamente sea

defectuoso.
Teorema de Bayes. Sea E un evento en un espacio muestral S y sean

A1 , A2 , ..., An eventos mutuamente excluyentes cuya unión es S. Entonces,
para k = 1, 2, ..., n,
P (Ak ∩E) P (Ak )P (E/Ak )

P (Ak /E) = P (E) = P (E)
Ejemplo. Suponga que en el ejemplo anterior se encuentra un artículo

defectuoso, determine la probabilidad de que haya sido producido por cada
una de las máquinas.
3 Variables aleatorias
Denición. Sea E un experimento y S un espacio muestral asociado a E.

Una función X que asigna a cada uno de los elementos s ∈ S un número real
X(s), se llama variable aleatoria.
La notacion Rx será utilizada para designar la imagen de una variable aleato-

ria X; es decir, Rx es el conjunto de todos aquellos números asignados por X
a un espacio muestral S. Se hará referencia a Rx como el recorrido de X.
32
Las variables aleatorias pueden ser discretas o continuas. Una variable aleato-
ria es discreta cuando el recorrido es nito o innito contable. Las variables
aleatorias continuas son aquellas en las cuales el recorrido Rx es un conjunto
continuo de números tales como un intervalo o una unión de intervalos.
Ejemplo. Se lanza un par de dados equilibrados. El espacio muestral S

está conformado por 36 pares ordenados (a,b) donde a y b pueden ser entero
entre 1 y 6, es decir,
S = {(1, 1), (1, 2), ..., (6, 6)}

Supongamos que X asigna a cada punto (a,b) de S el máximo de sus números,
es decir, X(a,b) = Max(a,b). Por ejemplo X(1,1) = 1, X(3,4) = 4, X(5,6) =
6. Por tanto X es una variable aleatoria discreta, donde cualquier número
entero entre 1 y 6 puede ocurrir y ningún otro número puede ocurrir y el
recorrido de X es
Rx = {1, 2, 3, 4, 5, 6}
Ahora supongamos que la variable Y asigna a cada punto (a,b) la suma de
sus números, es decir, Y(a,b) = a + b. Por ejemplo, Y(1,1) = 2, Y(3,4) =
7, Y(6,3) = 9, Y(6,6) = 12. Entonces Y es una variable aleatoria discreta
donde cualquier número entre 2 y 12 puede ocurrir y ningun otro número
puede ocurrir. Por tanto el recorrido de Y es
Ry = {2, 3, 4, 5, ..., 12}

Ejemplo.
1. Se lanza una moneda hasta que sale cara. El espacio muestral es
S = {C, EC, EEC, EEEC, ...}
33
Sea X el número de veces que se lanza la moneda. Entonces X es una
variable aleatoria discreta con recorrido
Rx = {1, 2, 3, ..., ∞}
Aquí X es una variable aleatoria discreta innita contable.
2. Se selecciona un punto en un círculo C de radio r. Sea X la distancia del
desde el centro. Entonces, X es una variable aleatoria cuyo valor puede
ser cualquier número entre 0 y r, inclusive. Por tanto el recorrido de X es
Rx = {x ∈ R :0 ≤ x ≤ r }
Aquí, X es una variable aleatoria continua.
3.1 Distribución de probabilidad de una variable aleatoria nita

Sea X una variable aleatoria nita de un espacio muestral S, es decir, X asigna
solamente un número nito de valores a S. Por ejemplo Rx = {x1 , x2 , ..., xn }.
Se supone que x1 < x2 , ... < xn . Entonces X induce una funcion f que asigna
probabilidades a los puntos en Rx de la siguiente manera:
f (xk ) = P (X = xk )
Esta función f se se llama distribución de probabilidad o, simplemente, dis-
tribución de la variable aleatoria X. Esta función satisface las siguientes
propiedades:
1. f (xk ) ≥ 0
∑n
2. k=1 f (xk ) =1
34
Notación: Algunas veces se dará una distribución utilizando los pares
[xi , P (xi )] en lugar de la notación funcional [xi , f (xi )]
Supongamos ahora que X es una variable aleatoria sobre un espacio nito

equiprobable S. Entonces X es una variable aleatoria nita y el siguiente teo-
rema nos dice cómo obtener la distribución de X.
Teorema. Sea S un espacio equiprobable nito y sea X una variable aleato-

ria sobre S con un recorrido Rx = {x1 , x2 , ..., xn }. Entonces
P (xk ) = número de puntos en S cuya imagen es xk /número de puntos en S

Ejemplo. Sea S el espacio muestral donde se lanza un par de dados equi-
librados. Considere las variables aleatorias X y Y denidas anteriormente.
Encuentre:
1. La distribución f de X
2. La distribución g de Y
Ejemplo. Supongamos que se lanza una moneda equilibrada tres veces, pro-
duciendo el siguiente espacio muestral
S = {CCC, CCE, CEC, CEE, ECC, ECE, EEC, EEE}

Sea X la variable aleatoria que asigna a cada punto de S el número de caras.
Determine la función de distribución de X.
Ejemplo. Suponga que se lanza una moneda tres veces, pero considere-
mos ahora que el peso de la moneda ha sido alterado de manera que P(C) =
3 y P(E) = 3 . Sea X la variable aleatoria que asigna a cada punto de S el
2 1
número de caras. Determine la función de distribución de X.
35
3.2 Valor esperado, varianza y desviación estándar de una vari-
able aleatoria discreta
Denición. Sea X una variable aleatoria discreta con la función de distribu-
cion P(x). Entonces el valor esperado de X se dene como
∑
E(X) = xi P (xi )
Si P(X) es una característica precisa de la distribución de frecuencia pobla-

cional, entonces E(X) = µ es la media poblacional.
Ejemplo. Sea X una variable aleatoria con distribución
x 1 5 7 9
p(x) .4 .3 .2 .1
Encuentre la media de X.
Denición. Sea X una variable aleatoria con media E(X) = µ. La

varianza de X se dene como el valor esperado de (X − µ)2 . Esto es
V (X) = σ 2 = E[(X − µ)2 ]
La desviación estándar de X es la raíz cuadrada positiva de V(X).
Teorema. Si X es una variable aleatoria discreta con función de proba-

bilidad P(X) y media E(X) = µ; entonces
V (X) = σ 2 = E[(X − µ)2 ] = E(X 2 ) − µ2
36
Ejemplo. Determine la varianza y la desviación en el ejemplo anterior.
Teorema. Sea Y una variable aleatoria discreta con función de probabil-

idad p(y) y sea c una constante. Entonces E(c) = c.

idad p(y), g(Y ) una función de valor real de Y . Entonces, el valor esperado
de g(Y ) está dado por
E[g(Y )] = Σy g(y)p(y)

idad p(y), g(Y ) una función de valor real de Y y c una constante. Entonces
E[cg(Y )] = cE[g(Y )]
3.3 Distribución Binomial

Algunos experimentos consisten en la observación de una secuencia de in-
tentos idénticos e independientes, cada uno de los cuales puede resultar en
37
una de dos salidas. Cada artículo que sale de una línea de producción de
manufacturas es defectuoso o no defectuoso. Cada disparo en una secuencia
de tiros puede resultar en un acierto o no acierto y cada una de las n personas
entrevistada antes de una elección de un candidato está a favor o no lo está.
Estos experimentos son conocidos como experimento binomial.
Denición. Un experimento binomial presenta las siguientes propiedades:
1. Consiste en un número jo, n, de pruebas idénticas.
2. Cada prueba resulta en uno de dos resultados mutuamente excluyentes

y colectivamente exhautivos, denominados éxito (S) y fracaso (F).
3. La probabilidad de un éxito en una sola prueba es igual a algún valor

p y es el mismo de una prueba a la otra. La probabilidad de fracaso es
q = 1 − p.
4. Las pruebas son independientes.
5. La variable aleatoria de interés es X, el número éxitos observados durante

las n pruebas.
Ejemplo. Un sistema de detección de alarma temprana para aviones

consta de 4 unidades de radar idénticas que operan de manera independiente
entre sí. Suponga que cada una tiene una probailidad de .95 de detectar un
avión intruso. Cuando un avión intruso entra en escena, la variable aleatoria
de interés es X, el número de unidades de radar que no detecta el avión. Es
éste un experiemento binomial?
Para decidir si este es un experiemento binomial, debemos determinar si

cada uno de los 5 requisitos de la dención se satisface.
38
1. El experimento comprende 4 pruebas idénticas; cada una de ellas con-
siste en determinar si una unidad particular de radar detecta o no el
avión.
2. Cada prueba arroja uno de dos resultados. Como la variable aleatoria

de interés es el número de éxitos, S denota que el avión no fue detectado
y F denota que fue detectado.
3. Como todas las unidades de radar detectan el avión con igual proba-
bilidad, la probabilidad de una S en cada prueba es la misma, es decir,
P(S) = .05.
4. las pruebas son independientes porque las unidades operan de manera

independiente.
5. La variable aleatoria de interés es X, el número de éxitos en 4 pruebas.
Entonces, el experimento es binomial con n = 4, p = .05 y q = 1 − p = .95
La distribución p(x) de probabilidad se puede deducir al aplicar el método

punto muestral para hallar la probabilidad de que el experimento produzca
x éxitos.
Considere un elemento particular del espacio muestral que satisfaga la

condición de que x = k . Este elemento es de la forma
| {z }F
SSSSS...SS | F F {z
F...F F}
x n−x
39
y representa la intersección de n eventos eventos independientes en los
que hubo x éxitos seguidos por n − x fracasos. Como las pruebas fueron
independientes y la probabilidad de S, p, sigue igual de una prueba a otra,
la probabilidad de este punto muestral es
ppppp...ppqqqq...qq = px q n−x
Cada uno de los puntos muestrales del evento X = x se puede represen-

tar como un arreglo que contenga un número x de éxitos y n − x fracasos.
Cualquier punto muestral que conteng a x éxitos también tiene probabilidad
px q n−x . Como el número de arreglos que contiene la cantidad x éxitos S y
n − x fracasos F es
n!
(nx ) =
x!(n − x)!
Se deduce que el evento X = x está formado por (nx ) puntos muestrales

cada uno con probabilidad px q n−x y que p(x) = (nx )px q n−x , x = 0, 1, 2, ..., n.
Este resultado es la fórmula para la distribución binomial.
Denición. Se dice que una variable aleatoria X tiene una distribución

binomial basada en n pruebas con probabilidad p de éxito si y sólo si
P (x) = (nx )px q n−x , x = 0, 1, 2, ..., n
El término experimento binomial se deriva del hecho de que cada prueba

arroja uno de dos posibles resultados y de que la probabilidad P(x) , x = 0,
40
1, 2, ..., n, son términos de la expansión binomial
(q + p)n = (0n )q n + (n1 )p1 q n−1 + (n2 )p2 q n−2 + ... + (nn )pn
Podemos observar que P (x) satisface las propiedades de necesarias para

una función de probabilidad porque P (x) es positiva para x = 0, 1, 2, ..., n
dado que p + q = 1.
∑ ∑
n
p(x) = (nx )px q n−x = (p + q)n = 1n = 1
x=0
Ejemplo. Se lanza una moneda equilibrada 6 veces; sea el resultado cara

un éxito. Encuentre la probabilidad de que:
1. Ocurran exactamente dos caras.
2. Ocurran al menos 4 caras.
3. Ocurra al menos 1 cara.
Ejemplo. Suponga que el 20% de los artículos producidos por una fábrica
están defectuosos. Suponga que se seleccionan 4 artículos al azar. Encuentre
la probabilidad de que:
1. 2 estén defectuosos.
2. 3 estén defectuosos.
3. Ninguno estén defectuosos.
41
3.3.1 Valor esperado, varianza y desviación estándar en una distribución bi-
nomial
Teorema. Sea X una variable aleatoria binomial basada en n pruebas y
probabilidad p de éxito. Entonces:
1. E(X) = µ = np
2. σ 2 = V (X) = npq
Ejemplo. El 30 % de los clientes que visitan una tienda realizan una

compra. Si 300 clientes visitan la tienda, determine el número esperado de
clientes que compren. Determine la varianza y la desviación estándar.
3.4 Distribución Geométrica

La variable aleatoria con distribución geométrica se relaciona con un experi-
mento que comparte algunas de las características del experimento binomial.
También se reere a pruebas idénticas e independientes, cada una de las
cuales pueden dar lugar a dos clases de resultados: éxito o fracaso. La prob-
abilidad de un éxito es igual a p y es constante de un ensayo a otro. Sin
embargo, más que el número de éxitos que se presenta en n ensayos, la vari-
able aleatoria geométrica X es el número de ensayos en el que ocurre el primer
éxito. Así, el experiemento consta de una serie de ensayos que concluye que
el primer éxito.
El espacio muestral S del experiemento contiene el siguiente conjunto in-

nito contable de puntos muestrales:
42
E1 : S
E2 : FS
E3 : FFS
..
.
Ek : F
| F {z
F...F} S
k−1
..
.
El evento numérico X = x contiene solo a Ex . Como los ensayos son inde-
pendientes, para cualquier x = 1, 2, ...
p(x) = P (Ex ) = p(F F F F...F S) = qqq...q p = q x−1 p

| {z }
x−1
Denición. Una variable aleatoria X tiene una distribución de probabil-

idad geométrica si y sólo si
p(x) = q x−1 p, x = 1, 2, ..., 0 ≤ p ≤ 1
Teorema. Sea X una variable aleatoria geométrica con probabilidad de

éxito p. Entonces:
1. E(X) = 1
p
1−p
2. V (X) = p2
3. Distribución acumulada F (k) = 1 − q k

4. P (k > r) = q r
Ejemplo 1. Supongamos que la probabilidad de que un cohete alcance
un objetivo es p = 0.2, y el cohete se dispara repetidamente hasta alcanzar
el objetivo.
43
1. Encuentre la probabilidad de que tres cohetes serán requeridos para
alcanzar nalmente el objetivo.
2. Encuentre la probabilidad de que cuatro o más cohetes serán requeridos

para alcanzar nalmente el objetivo.
3. Encuentre el número esperado de cohetes que serán disparado.
Solución
p = 0.2, q = 0.8
a) p(x = 3) = (0.8(3−1) )(0.2) = 0.128.
b) Aquí aplicamos la fórmula número 4 del teorema anterior, donde r = 3.
p(x ≥ 4) = p(x > 3) = 0.83 = 0.512.
c) E(x) = 1
p = 1
0.2 =5
Ejemplo 2. Suponga que la probabilidad de que el equipo A gane un

juego en un torneo es de 60%. A juega hasta que pierde.
1. Encuentre el número esperado de juegos que A juega.
2. Encuentre la probabilidad de que A juegue al menos 4 juegos.
Solución
Aquí la variable aleatoria de interés es el número juego que el equipo A

juega hasta pierde. Por tanto, p = 0.4.
44
a) E(x) = 1
p = 1
0.4 = 2.5
b) p(x ≥ 4) = p(x > 3) = 0.63 = 0.216
3.5 Distribución Hipergeométrica

La distribución hipergeométrica se relaciona estrechamente con la distribu-
ción binomial. La diferencia principal radica en que, con la distribución
hipergeométrica, los intentos no son independientes, y en que la probabili-
dad de éxito cambia de un intento a otro.
En la distribución hipergeométrica, r representa la cantidad de elemen-

tos en la población de tamaño N que se identican como éxitos y N − r
representa la cantidad de elementos en la población que se identican como
fracaso. La función de probabilidad hipergeométrica se usa para calcular la
probabilidad de que en una muestra aleatoria de n artículos, seleccionados
sin reemplazo, obtengamos x elementos identicados como éxitos y n − x
como fracasos. Para que esto suceda debemos obtener x éxitos de los r en la
población, y n − r fracasos de los N − r en la población. Esto se determina
mediante la siguiente función de distribución
−r
(rx )(N
n−x )
f (x) = ,0 ≤ x ≤ r
(N
n )
donde:
f(x) es la probabilidad de x éxitos en n intentos.
Ejemplo 1. Una clase de N = 10 estudiantes tiene M = 6 hombres. De
donde hay N - M = 4 mujeres. Suponga que se ha seleccionado una muestra
aleatoria de n = 5 estudiantes. Encuentre la probabilidad de que exacta-
mente x = 3 hombres sean seleccionados.
45
Ejemplo 2. De un grupo de 20 ingenieros con doctorado, se eligen 10
aleatoriamente con el n de contratarlos. Encuentre la probabilidad de que
entre los 10 seleccionados estén los 5 mejores del grupo de 20.
Teorema. Si X es una variable aleatoria con distribución hipergeométrica,

entonces
nr 2 r N −r N −n
µ = E(X) = , σ = V (X) = n( )( )( )
N N N N −1
3.6 Distribución de Poisson

Una variable aleatoria discreta de gran utilidad en la medición de la fre-
cuencia relativa de un evento sobre alguna unidad de tiempo o espacio es la
distribución de poisson. Se utiliza para describir el número de llegadas de
clientes por hora, el número de accidentes industriales cada mes, el número
de de conexiones eléctrica defectuosas por milla de cableado en un sistema
eléctrico, etc.
Son necesarios dos supuestos para la aplicación de la distribución de pois-

son:
1. La probabilidad de ocurrencia del evento es constante para dos intervalos

cualesquiera de tiempo o espacio.
2. La ocurrencia del evento en un intervalo es independiente de la ocurren-

cia del evento en otro intervalo cualquiera.
La función de distribución de poisson se obtiene tomando el límite de

la probabilidad binomial cuando el número de intentos crece innitamente,
46
es decir, una variable aleatoria X tiene una distribución de poisson si y sólo si
λx −λ
P (x) = lim (nx )px q n−x
= e
n→∞ x!
Teorema. Si X es una variable aleatoria con distribución de poisson con
parámetro λ entonces
µ = E(X) = λ, σ 2 = V (X) = λ
Ejemplo 1. Suponga que hay 300 errores de impresión distribuidos
aleatoriamente a lo largo de un libro de 500 páginas. Encuentre la prob-
abilidad de que una página dada tenga
1. Exactamente dos errores de impresión
2. 2 ó más errores de impresión
4 Momentos y funciones generadoras de momentos
Denición. El k−ésimo momento de una variable aleatoria Y tomada

alrededor del origen se dene como E(Y k ) y se denota por µ′k .
El primer momento alrededor del origen es E(Y ) = µ′1 = µ.
µ′2 = E(y 2 ) se emplea para hallar σ 2 .
Denición. El k−ésimo momento de una variable aleatoria Y tomada

alrededor de su media o el k−ésimo momento central, se dene como E[(Y −
µ)k ] y se denota por µk . En particular σ 2 = µ2 .
47
Denición. La función generdora de momento m(t) para una variable
aleatoria Y se dene como E(ety ). Decimos que una función generadora de
momento para Y existe si existe una constante positiva b tal que m(t) es
nita para |t| ≤ b.
¾Porqué E(ety ) recibe el nombre de función generadora momentos para

Y?
Considere la expansión en serie de ety :
(ty)2 (ty)3
ety = 1 + ty + 2! + 3! + ···
Entonces suponiendo que µ′k es nita para k = 1, 2, . . .
∑
E(ety ) = y ety p(y) =
Entonces E(ety ) es una función de todos los momentos µ′k alrededor del
origen, k = 1, 2, . . .
Teorema. Si m(t) existe, entonces para cualquier entero positivo k ,
48
dk m(t)
k
|t=0 = m(k) (0) = µ′k
dt
En otras palabras, si hallamos la k−ésima derivada de m(t) respecto a t

y luego hacemos t = 0, el resultado es µ′k .
Demostración.
Ejemplo. Encuentre la función generadora de momento m(t) para una

variable aleatoria con distribucion de Poisson y media λ.
Ejemplo. Use la función generadora de momento del Ejemplo anterior

para hallar la media, µ, y la varianza, σ 2 , para la variable aleatoria de Pois-
son.
Ejemplo.Suponga que Y es una variable aleatoria con función gener-

adora de momento m(t) = e3.2(e −1) ¾Cuál es la distribución de Y ?
t
5 Distribución de probabilidad continua
Una diferencia fundamental entre las variables aleatorias discretas y las vari-
ables aleatorias continuas es cómo se calculan las probabilidades. En las
49
variables aleatorias discretas la función de probabilidad f(x) da la probabili-
dad de que la variable aleatoria tome un valor determinado. En las variables
aleatorias continuas, la contraparte de la función de probabilidad es la función
de densidad de probabilidad, que también se denota por f(x). La diferencia
está en que la función de densidad de probabilidad no da probabilidades di-
rectamente, si no que el área bajo la curva de f(x) que corresponde a un
intervalo determinado proporciona la probabilidad de que la variable aleato-
ria tome uno de los valores de este intervalo. En el lenguaje del cálculo esto
signica
∫ b
P (a ≤ X ≤ b) = f (x)dx
a
La función f satisface las siguientes condiciones:
1. f (x) ≥ 0
∫∞
2. −∞ f (x)dx =1
Una consecuencia de la descripción probabilística de X para cualquier

valor especíco,
∫ x0 por ejemplo x0 es que P (X = x0 ) = 0, puesto que P (X =
x0 ) = x0 f (x)dx = 0.
5.1 Valor esperado y Varianza de una variable aleatoria continua

El valor esperado de una variable aleatoria continua X es
∫ ∞
E(X) = xf (x)dx
−∞
50
siempre que exista la integral.
La varianza de X está dada por
∫ ∞
V (X) = E((X − µ) ) = 2
(x − µ)2 f (x)dx
−∞
Como en el caso discreto pordemos probar que
∫ ∞
V (X) = E(X ) − µ =
2 2
x2 f (x)dx − µ2
−∞
Ejemplo 1. Sea X la variable aleatoria con la siguiente función de dis-
tribución
{1
2x si 0 ≤ x ≤ 2
f (x) =
0 en otra parte
Determine:
1. P (1 ≤ X ≤ 1.5)
2. E(X)
3. V(X)
Ejemplo 2. Sea X la duración en horas de cierto tipo de bombillas
elétricas. Suponga que X es una variable aleatoria continua y que la fdp f
está dada por
{ a
x3 si 1500 ≤ x ≤ 2500
f (x) =
0 en otra parte
Determine a.
51
Observaciones. En cualquier distribución continua se cumple que:
1. P( X = a) = 0
2. P (a ≤ X ≤ b) = P (a ≤ X < b) = P (a < X ≤ b) = P (a < X < b)
El concepto de probabilidad condicional se puede aplicar a las variables

aleatorias continuas. Por ejemplo consideremos la función
{
2x si 0 < x < 1
f (x) =
0 en otra parte
Determine
P (X ≤ 21 | 13 ≤ X ≤ 23 )
5.2 Función distribución acumulativa

Denición. Sea X una variable aleatoria, discreta o continua. Denimos
la función acumulativa F de la variable aleatoria X (abreviada fda) como
F (x) = P (X ≤ x).
Teorema.
1. Si X es una variable aleatoria discreta,
∑
F (X) = p(xj ),
j
en donde la suma se toma sobre todos los subíndices j tales que X ≤ xj .

2. Si X es una variable aleatoria continua con fdp f, entonces
∫ x
F (X) = f (s)ds.
−∞
52
Demostración: Ambos resultados se deducen directamente de la deni-
ción.
Ejemplo. Suponga que la variable aleatoria X toma los tres valores 0, 1

y 2 com probabilidades 13 , 16 y 21 , respectivamente. Entonces


 0 si x < 0








1
si 0 ≤ x < 1

 3
F (x) =
 2 si 1 ≤ x < 2
1







 1 si x ≥ 2



Ejemplo. Supongamos que X es una variable aleatoria continua con fdp

{
2x si 0 < x < 1
f (x) =
0 en otra parte
Por lo tanto la fda F está dada por


 0 si x ≤ 0


∫
x
F (x) = 2sds = x2 si 0 < x ≤ 1


0



1 si x > 1
5.2.1 Propiedades de la Función distribución acumulativa

Teorema. Si F(x) es una función de distribución acumulada entonces:
53
1. F(-∞) ≡ limx→−∞ F (x) = 0.
2. F(∞) ≡ limx→∞ F (x) = 1.
3. F(x) es una función no decreciente de x.
Teorema. Si F(x) es una función de distribución acumulada de una

variable aleatoria continua, entonces:
d
f (x) = F (x)
dx
para toda x en la cual F sea diferenciable.
Ejemplo. Supongamos que una variable aleatoria continua tiene fda F

dada por

 0 si x ≤ 0
F (x) =

1 − e−x si x > 0
Encuentre la fdp.
5.3 Variables aleatorias distribuidas uniformemente

Denición. Supongamos que X es una variable aleatoria continua que toma
todos los valores en el intervalo [a, b], en donde ambos a y b son nitos. Si
la fdp de X está dada por


1
b−a si a ≤ x ≤ b
f (x) =

0 si x asume otro valor
54
decimos que X está distribuida uniformemente en el intervalo [a, b].
Ejemplo. La llegada de clientes a una caja en un establecimiento sigue

una distribución de poisson. Se sabe que durante un período determinado
de 30 minutos, un cliente llega a la caja. Encuentre la probabilidad de que
el cliente llegue durante los últimos 5 minutos.
Teorema. Si a < b y X es una variable aleatoria uniformemente dis-

tribuida en el intervalo [a, b], entonces
a+b 2 (b − a)2
µ = E(X) = y σ = V (X) = .
2 12
5.4 Distribución Normal

La distribución normal es la más importante y la de mayor uso en la Teoría de
la Probabilidad y la Estadística Matemática. Fue obtenida inicialmente por
De Moivre en 1733 como límite de la distribución binomial, siendo luego rel-
egada al olvido hasta que Gauss en 1809 y Laplace en 1812 la obtuvieron em-
píricamente al estudiar la distribución de errores accidentales en Astronomía
y Geodesia (de ahí que se conozca también como distribución de Gauss-
Laplace).
Esta distribución es la piedra angular en la aplicación de la Inferencia

Estadística en el análisis de datos, puesto que las distribuciones de muchos
estadísticos muestrales tienden a la distribución normal cuando el tamaño de
la muestra crece. Además, la distribución normal proporciona una adecuada
representación de las distribuciones de una gran cantidad de variables físicas
(de hecho, el nombre de normal tiene carácter histórico, ya que, en un prin-
55
cipio se creyó que la mayorá de las distribuciones eran de este tipo). Algunos
ejemplos son:
- Mediciones efectuadas en organismos vivos: altura, peso, etc.

-Calicaciones en pruebas de aptitud.
- Medidas físicas de productos manufacturados, etc.
Denición. Una variable aleatoria X, de tipo continuo, se dice que sigue

una distribucíon normal si su función de densidad es
1
f (x) = √ e−(x−µ) /2σ , −∞ < x < ∞
2 2
σ 2π
Los parámetros de la distribución, µ y σ verican µ ∈ R y σ > 0 y deter-

minan completamente dicha función de densidad. Posteriormente se probará
que estos parámetros son la media y desviación típica, respectivamente, de
la variable aleatoria X.
56
Curva normal
En la gura siguiente aparece la forma de la distribución normal, una curva
normal en forma de campana.
5.4.1 Propiedades de la distribución Normal

Las siguientes son observaciones importantes acerca de las características de
la distribución normal.
1. Toda familia de distribuciones normales se diferencian por medio de dos

parámetros: la media µ y la desviación estándar σ .
2. El punto más alto de la curva normal se encuentra sobre la media, la

cual coincide con la mediana y la moda.
3. La distribución normal es simétrica respecto a la media. Las colas de la

curva normal se extienden al innito en ambas direcciones y en teoría
nunca tocan el eje horizontal. Su sesgo es cero.
4. La desviación estándar determina qué tan plana y ancha es la curva

normal.
5. Los porcentajes de los valores que se encuentran en algunos intervalos

comúnmente usados son:
57
(a) 68.3 % de los valores de una variable aleatoria normal se encuentran
más o menos a una desviación estándar de la media.
(b) 95.4 % de los valores de una variable aleatoria normal se encuentran
más o menos a dos desviaciones estándar de la media.
(c) 99.7 % de los valores de una variable aleatoria normal se encuentran
más o menos a tres desviaciones estándar de la media.
Teorema. Si X es una variable aleatoria normalmente distribuida, en-

tonces
E(X) = µ y V (X) = σ 2 .
5.4.2 Distribución normal estándar

Una variable aleatoria que tiene una distribución normal con una media 0 y
desviación estándar igual a 1 tiene una distribución normal estándar. Para
designar esta variable aleatoria normal se suele usar la letra z .
Función de densidad normal estándar.

1 z2
f (z) = √ e− 2 , −∞ < x < ∞
2π
Como ocurre en cualquier distribución de probabilidad continua, los cál-

culos de la probabilidad en cualquier distribución normal se hacen calculando
el área bajo la gráca de la función de densidad de probabilidad. Para la
distribución normal estándar se cuenta con tablas que dan estas áreas. Si
la variable aleatoria no está estandarizada, se debe estandarizar mediante la
fórmula de conversión
58
x−µ
z=
σ
Ejemplo.
1) Determine las probabilidad indicadas:
1. P(0.52 ≤ z ≤ 1.25)
2. P (z > −.25)
3. P (z < 1.75)
Solución
a) Haciendo uso de la tabla normal, que acumula áreas a la izquierda de un
valor z dado, buscamos el área a la izquierda de 1.25 y el área a la izquierda
de 0.25, luego restamos ambas áreas:
P (0.52 ≤ z ≤ 1.25) = 0.8944 − 0.6985 = 0.1959
b) Como se pide el área a la derecha de -0.25, buscamos el área a la

izquierda de este valor y se la restamos a 1:
P (z > −.25) = 1 − 0.4013 = 0.5987
c) P (z < 1.75) = 0.9599
Ahora determinamos el valor de z a partir de una probabilidad conocida
2) Dado que z es una variable aleatoria normal estándar, determine z en

cada caso.
1. El área a la izquierda de z es 0.9750.
59
2. El área a la derecha de z es 0.1314.
3. El área entre −z y z es 0.2052.
Solución
a) Al buscar en el cuerpo de la tabla el valor z cuya área a la izquierda es
0.9750, encontramos z = 1.96
b) Para hallar un valor z en la tabla, debemos conocer su área a la

izquierda. El valor cuya área a la derecha es 0.1314, es el mismo cuya área a
la izquierda es 1 − 0.1314 = 0.8686. En la tabla encontramos que este valor
es z = 1.12.
c) El valor z tal que el área entre −z y z es 0.2052, tiene área a la izquierda

igual a 0.6026. En la tabla encontramos que z = 0.26
En el siguiente ejemplo se considera una variabale aleatoria normal no

estandarizada.
3) Sea X una variable aleatoria normal con µ = 35, 000 σ =

5000. Determine:
1. P(30,000 ≤ X ≤ 40, 000)
2. P (X > 25, 000)
Solución
1) Debemos calcular los valores z correspondientes a 30000 y 40000 us-

ando la fórmula de conversión:
60
z1 = 30000−35000
5000 = −1 y z2 = 40000−35000
5000 = 1. Luego
p(30, 000 ≤ X ≤ 40, 000) = p(−1 ≤ z ≤ 1) = 0.8413 − 0.1587 = 0.6826.
2)p(X > 25, 000) = p(z > −2) = 1 − 0.0228 = 0.9772
4) El estadounidense adulto ( hombre) promedio tiene 5 pies y 9 pulgadas

de altura con una desviación estándar de 5 pulgadas. ¾Qué estatura debe
tener un hombre para estar en el 10 % más alto?
Solución
µ = 5 pies + 9 pulgadas=69 pulgadas, σ = 5 pulgadas.
Debemos determinar un valor x tal que p(x) > 0.1. Para ésto determi-
namos el valor z cuya área a la derecha es 0.10 o cuya área a la izquierda
es 0.9000. Al buscar en la tabla vemos que el valor que más se aproxima a
0.9000 es 0.8997, con un valor z = 1.28. Usando la fórmula de conversión
x−µ x − 69
z= = 1.28 =
σ 5
,
de donde se obtiene que x = 75.4.
Esto signica que para que un adulto esté en el 10 % más alto, debe tener
una estatura de 75.4 pulgadas o más.
5.4.3 Aproximación normal a la binomial

esté en el 10
La evaluación de una función de probabilidad binomial, a mano o con una
calculadora, se diculta cuando el número de ensayos es muy grande. En
61
los casos en que np ≥ 5 y nq ≥ 5, la distribución normal proporciona una
aproximación a las probabilidades binomiales que es fácil de usar. Cuando se
usa la aproximación normal a la binomial, en la denición de la curva normal
√
µ = np y σ = npq .
Dado que la normal es una distribución de tipo continuo, el uso directo

de la aproximación anterior puede conducir a graves errores ya que asignaría
una probabilidad cero a puntos aislados y a los extremos de intervalos cerra-
dos. Se usa la siguiente corrección (corrección por continuidad)
1 1
P [X = k] = P [k − ≤ X ≤ k + ] ∀k = 0, 1, ..., n
2 2
Ejemplo. En una distribución de probabilidad binomial con p = 0.20yn =
100.
1. ¾Cuál es la media y la desviación estándar?
2. ¾Cuál es la probabilidad de exactamente 24 éxitos?
3. ¾Cuál es la probabilidad de 18 a 22 éxitos?
4. ¾Cuál es la probabilidad de 15 o menos éxitos?
5.5 Distribución exponencial

La distribución exponencial se aplica a variables como las llegadas de au-
tomóviles a un lavado de coches, los tiempos requeridos para cargar un
camión, la distancia entre dos averías en una carretera, los tiempos entre
llegadas en las las de espera, etc. Esta distribución está descrita por la
función
62
1 − µx
f (x) = e para x ≥ 0 µ > 0
µ
donde µ es el valor esperado o media.
5.5.1 Propiedades de la distribución exponencial

1. La función de distribución acumulada de la distribución exponencial
está dada por
∫ x
1 − µs
e ds = 1 − e− µ
x
F (X) =
0 µ
2. El valor esperado de X es
∫ ∞
1 x
E(X) = x e− µ dx = µ
0 µ
3. La varianza de X se obtiene
V (X) = E(X 2 ) − [E(X)]2 = µ2
Ejemplo. Considere la siguiente función de densidad de probabilidad

exponencial
1 x
f (x) = e− 8 para x ≥ 0
8
Halle:
1. P (x ≤ 6)
63
2. P (x ≥ 6)
3. P (2 ≤ x ≤ 6)
5.6 La distribución de probabilidad gamma

Algunas variables aleatorias son siempre no negativas y por varias razones
dan distribuciones de datos que está sesgadas (no simétricas) a la derecha.
Esto es, casi toda el área bajo la función de densidad está ubicada cerca
del origen y la función de densidad cae gradualmente conforme la variable
aumenta.
Los intervalos de tiempo entre mal funcionamiento de motores de aviones

poseen una distribución de frecuencia sesgada, al igual que los intervalos de
llegada en una la de espera en las cajas de un supermercado (esto es, la
la de espera para llegar a la caja a pagar). Del mismo modo, los interva-
los de tiempo para completar una revisión de mantenimiento para un motor
de automóvil poseen una distribución de frecuencia sesgada. La población
asociada con estas variables aleatorias posee con frecuencia funciones de den-
sidad que son modeladas de manera adecuada por una función de densidad
gamma.
Denición. La función gamma denotada por Γ, se dene como
∫ ∞
Γ(α) = xα−1 e−x dx
0
denida para α > 0.
64
Puede demosstrarse que existe la integral impropia anterior (converge) si
α > 0. Integrando por parte se tiene que
Γ(α) = (α − 1)Γ(α − 1)
Esto demuestra que la función Gamma sigue una importante relación de

recurrencia. Suponienddo que α es un entero positivo, es decir, α = n, en-
tonces
Γ(n) = (n − 1)Γ(n − 1)
= (n − 1)(n − 2)Γ(n − 2) = · · ·
= (n − 1)(n − 2) · · · Γ(1).
∫∞
Sin embargo, Γ(1) = 0 e−x dx = 1, por tanto tenemos
Γ(n) = (n − 1)!
si n es un entero positivo. También es facil vericar que
65
√
Γ(1/2) = π
Denición. Se dice que una variable aleatoria x tiene una distribución

gamma con parámetros α > 0 y β > 0 si y sólo si la función de densidad de
X es
 −x

 xα−1 e β
si 0 ≤ x < ∞
β α Γ(α)
f (x) =


0 si x asume otro valor
Esta función de distribución es un caso particular de la función de dis-

tribución exponencial cua α = 1.
Teorema. Si X tiene una distribución gamma con parmetros
α y β , en-
tonces
µ = E(X) = αβ y σ 2 = V (X) = αβ 2
Ejemplo. Suponga que la magnitud de los terremotos que afectan una

región tienen una distribucion gamma con α = .8 y β = 2.4.
a) ¾Cuál es la magnitud media de los terremotos que afectan?
66
b) ¾Cuál es la probabilidad de que la magnitud de un terremoto que afecte
la región exceda de 3.0 en la escala de Richter?
c)¾Cuál es la probabilidad de que la magnitud de un terremoto que afecte

la región caiga entre 2.0 y 3.0 en la escala de Richter?
Ejemplo. Suponga que la cantidad de producto usado en un dia tiene

una distribución gamma con α = 1.5 y β = 3.
a) Encuentre la probabilidad de que la planta use más de 4 toneladas en

un dia determinado.
b) ¾Cuánto del producto al granel debe haber en existencia para que la

probabilidad de que la planta agote el producto sea de sólo .05?
5.7 Distribución ji cuadrada

Denición. Sea ν un entero positivo. Se dice que una variable aleatoria Y
tiene una distribución ji cuadrada con ν grados libertad si y sólo si Y es una
variable aleatoria con distribución gamma con parámetros α = ν/2 y β = 2.
Una variable aletaoria con distribución ji cuadrada se denomina variable

aleatoria (χ2 ) ji cuadrada. Estas variables aleatorias se presentan con fre-
cuencia en teoría estadística.
67
Teorema) Si Y es una variable aleatoria ji cuadrada con ν grados liber-
tad, entonces
µ=ν α2 = 2ν
Ejemplo. Suponga que una variable aleatoria Y tiene una función de

densidad de probabilidad dada por
 3 −y/2
 ky e , si y > 0
f (y) =

0 si y asume otro valor
a) Encuentre el valor de k que haga de f (y) una función de densidad.
b) ¾Tiene Y una distribución χ2 ? Si es así, ¾de cuántos grados de liber-

tad?
c) ¾Cuáles son la media y la desviación estándar de Y ?
d) ¾Cuál es la probabilidad de que Y se encuentre a no más de dos desvia-

ciones estándar de su media?
68
5.8 Distribución Beta
La función de densidad beta es una función de densidad de dos parámet-
ros denida sobre el intervalo cerrado [0, 1]. Frecuentemente se usa como
modelo para proporciones, por ejemplo como la proporción de impurezas en
un producto químico o la proporción de tiempo que una máquina está en
reparación.
Denición. Se dice que una variable aleatoria Y tiene una distribución

de probabilidad beta con parámetros α > 0 y β > 0 si y sólo si la función de
densidad de Y es



(y α−1 )(1−y)β−1
, si 0 ≤ y ≤ 1
B(α,β)
f (y) =

 0 si y asume otro valor
∫1
donde B(α, β) = 0
y α−1 (1 − y)β−1 dy = Γ(α)Γ(β)
Γ(α+β)
Teorema. Si Y es una variable aleatoria con distribución beta α > 0 y β > 0, en-
tonces
α αβ
µ= α+β
σ2 = (α+β)2 (α+β+1)
.
Ejemplo. Una distribuidora mayorista de gasolina tiene tanques de almacenamiento

a granel que contienen suministros jos y se llenan cada lunes. De interés para la may-
orista es la proporción de este suministro que se vende durante la semana. Durante varias
69
semanas de observación, la distribuidora encontró que esta proporción podría ser mode-
lada por una distribución beta con α = 4 y β = 2. Encuentre la probabilidad de que la
mayorista venda al menos 90% de su existencia en una semana determinada.
6 Distribuciones de probabilidad multivariante
Denición. Sean Y1 y Y2 variables aleatorias discretas. La funcion de probabilidad con-

junta ( o bivariante) para Y1 y Y2 está dada por
p(y1 , y2 ) = P (Y1 = y1 ,Y2 = y2 ), −∞ < y1 < ∞, −∞ < y2 < ∞.
Teorema. Si Y1 y Y2 son variables aleatorias discretas con funcion de probabilidad

conjunta p(y1 , y2 ), entonces
1. p(y1 , y2 ) ≥ 0 para toda y1 ,y2

∑
2. y1 ,y2 p(y1 , y2 ) = 1,
donde la suma es para todos los valores (y1 , y2 ) a los que se le asignan probabil-
idades diferentes de cero.
Ejemplo. Consideremos el experimento de lanzar un par de dados. El espacio mues-

tral contiene 36 puntos muestrales correspondientes a los mn = (6)(6) = 36 formas en
las que pueden aparecer números en las caras de los dados. Consideremos las siguientes
variables:
Y1 : el número de puntos que aparece en el dado 1.
Y2 : el número de puntos que aparece en el dado 2.
Determine P (2 ≤ Y1 ≤ 3, 1 ≤ Y2 ≤ 2).
70
Ejemplo. Un supermercado local tiene tres cajas. Dos clientes llegan a las cajas en
momentos diferentes cuando las cajas no atienden a otros clientes. Cada cliente escoge
una caja de manera aleatoria, independientemente del otro. Denote con Y1 el número de
clientes que escogen la caja 1 y Y2 el número de clientes que escogen la caja 2. Encuentre
la función de probabilidad conjunta de Y1 y Y2 .
Solución.
Podríamos proceder en muchas formas. La más directa es considerar el espacio mues-
tral asociado con el experimento. Denotemos con el par {i, j} el evento sencillo de que el
primer cliente escogió la caja i y el segundo cliente escogió la caja j, donde i, j = 1, 2, 3.
Usando la regla mn, el espacio muestral está formado por 3 x3 = 9 puntos muestrales. De
acuerdo con las suposiciones dadas antes, cada punto muestral es igualmente probable y
tiene probabilidad 1/9. El espacio muestral asociado con el experimento es
S = [{1, 1}, {1, 2}, {1, 3}, {2, 1}, {2, 2}, {2, 3}, {3, 1}, {3, 2}, {3, 3}]
Observe que el punto muestral {1, 1} es el único correspondiente a (Y1 = 2, Y2 = 0)

y por tanto P (Y1 = 2, Y2 = 0) = 1/9. Del mismo modo, P (Y1 = 1, Y2 = 1) = P ({1, 2} ◦
{2, 1}) = 2/9. La Tabla siguiente contiene las probabilidades asociadas con cada posible
par de valores para Y1 y Y2 , es decir, la función de probabilidad conjunta para Y1 y Y2 .
y1
y2 0 1 2
0 1/9 2/9 1/9
1 2/9 2/9 0
2 1/9 0 0
Denición. Para cualesquiera variables aleatorias Y1 y Y2 , la función de distribución

acumulada conjunta F (y1 , y2 ) es
F (y1 , y2 ) = P (Y1 ≤ y1 , Y2 ≤ y2 ), −∞ < y1 < ∞, −∞ < y2 < ∞.
71
Para dos variables discretas Y1 y Y2 , F (y1 , y2 ) está dada por
∑ ∑
F (y1 , y2 ) = p(t1 , t2 )
t1 ≤y1 t2 ≤y2
Para el experimento de lanzar un dado, F (2, 3) =
Ejemplo. Considere las variables aleatorias Y1 y Y2 del ejemplo del supermercado.

Encuentre F (−1, 2), F (1.5, 2) y F (5, 7)
Denición. Sean Y1 y Y2 variables aleatorias continuas con función de distribución

conjunta acumulada F (y1 , y2 ). Si existe una función no negativa f (y1 , y2 ), tal que
∫ y1 ∫ y2
F (y1 , y2 ) = f (t1 , t2 )dt2 dt1 ,
−∞ −∞
para toda −∞ < y1 < ∞ , −∞ < y2 < ∞, entonces se dice que Y1 y Y2 son variables
aleatorias continuas conjuntas. la función f (y1 , y2 ) recibe el nombre de función de densi-
dad de probabilidad conjunta.
Teorema. Si Y1 y Y2 son variables aleatorias continuas con función de densidad con-

junta dada por f (y1 , y2 ), entonces
1. f (y1 , y2 ) ≥ 0 para toda (y1 , y2 ).
∫∞ ∫∞
2. −∞ −∞
f (y1 , y2 )dy1 dy2 = 1
Para el caso continuo univariante, las áreas bajo la densidad de probabilidad para
un intervalo corresponden a probabilidades. De igual manera, la función de densidad de
probabilidad bivariante f (y1 , y2 ) traza una supercie de densidad de probabilidad sobre
el plano (y1 , y2 ). Los volúmenes bajo esta supercie representan probabilidades. Así,
72
P (a1 ≤ Y1 ≤ a2 , b1 ≤ Y2 ≤ b2 ) es el volúmen bajo la supercie determinada por f (y1 , y2 )
sobre la región
a1 ≤ Y1 ≤ a2 , b1 ≤ Y2 ≤ b2 y que está dada por la integral
∫ b2 ∫ a2
f (y1 , y2 )dy1 dy2 .
b1 a1
Ejemplo. Suponga que una partícula radiactiva se localiza aleatoriamente en un

cuadrado con lados de longitud unitaria. Si Y1 y Y2 denotan las coordenadas de la ubi-
cación de la partícula entonces un modelo análogo bivariante de la función de densidad
uniforme univariante es
{
1, 0 ≤ y1 ≤ 1, 0 ≤ y2 ≤ 1
f (y1 , y2 ) =
0, en otro, punto
a) Trace la supercie de densidad de probabilidad.
b) Encuentre F (.2, .4)
c) Encuentre P (.1 ≤ Y1 ≤ .3, 0 ≤ Y2 ≤ .5)
Solución.
b)
∫ .4 ∫ .2
F (.2, .4) = f (y1 , y2 ) dy1 dy2
−∞ −∞
∫ .4 ∫ .2
= (1)dy1 dy2
∫ .4 0
) 0
∫ 4
.2
= (y1 ]0 dy2 = .2dy2 = .08
0 0
c)
∫ .5 ∫ .3
P (.1 ≤ Y1 ≤ .3, 0 ≤ Y2 ≤ .5) = f (y1 , y2 ) dy1 dy2
0 .1
73
∫ .5 ∫ .3
= 1dy1 dy2 = .10
0 .1
Esta probabilidad corresponde al volumen bajo la función de densidad f (y1 , y2 ) = 1

que está arriba de la región .1 ≤ y1 ≤ .3, 0 ≤ y2 ≤ .5. Al igual que la solución del inciso
b, la solución actual se puede obtener con el uso de conceptos de geometría elemental.
La densidad o altura de la supercie es igual a 1 y por tanto la probabilidad deseada
(volumen) es
P (.1 ≤ Y1 ≤ .3, 0 ≤ Y2 ≤ .5) = (.2)(.5)(1) = .10
6.1.jpg 6.1.jpg
Ejemplo. Se ha de almacenar gasolina en un enorme tanque una vez al principio de

cada semana y luego se vende a clientes individuales. Denote con Y1 el nivel de gasolina
(proporción) que alcanza el tanque después de surtirlo. Debido a suministros limitados,
Y1 varía de una semana a otra. Denote con Y2 la proporción de la capacidad del tanque
que se vende durante la semana. Como Y1 y Y2 son proporciones, estas dos variables
74
toman valores entre 0 y 1. Además, la cantidad de gasolina vendida, y2 , no puede ser
mayor que la cantidad disponible, y1 . Suponga que la función de densidad conjunta para
Y1 y Y2 está dada por
{
3y1 , 0 ≤ y2 ≤ y1 ≤ 1
f (y1 , y2 ) =
0, en otro, punto
Encuentre la probabilidad de que menos de la mitad del tanque tenga gasolina y más
de un cuarto del tanque se venda.
Solución. Estamos interesados sólo en valores de y1 y y2 tales que 0 ≤ y1 ≤ .5 y

y2 > .25. La intersección de esta región y la región donde la función de densidad es posi-
tiva está dada por el pequeño triángulo (sombreado) de la Figura 6.3 En consecuencia, la
probabilidad que deseamos es el volumen bajo la función de densidad de la Figura 6.2 ar-
riba de la región sombreada del plano (y1 , y2 ) que se ve en la Figura 6.3. Entonces, tenemos
∫ 1/2 ∫ y1
P (0 ≤ Y1 ≤ .5, .25 ≤ Y2 ) = 3y1 dy2 dy1
1/4 1/4
∫ )
1/2
= 3y1 (y2 ]y1/4
1
dy1
1/4
∫ 1/2
= 3y1 (y1 − 1/4) dy1
1/4
[ ]]1/2
= y13 − (3/8)y12 1/4
= [(1/8) − (3/8)(1/4)] − [(1/64) − (3/8)(1/16)]
= 5/128
75
Gráca funcion de distribución
6.2.jpg 6.2.jpg
6.3.jpg 6.3.jpg
76
6.1 Distribuciones de probabilidad marginal y condicional
Denición.
a) Sean Y1 y Y2 variables aleatorias discretas conjuntas con función de probabilidad

p(y1 , y2 ). Entonces las funciones de probabilidad marginal de Y1 y Y2 , respectivamente,
están dadas por
∑ ∑
p1 (y1 ) = p(y1 , y2 ) y p2 (y2 ) = p(y1 , y2 ).
y2 y1
b) Sean Y1 y Y2 variables aleatorias continuas conjuntas con función de probabilidad

p(y1 , y2 ). Entonces las funciones de probabilidad marginal de Y1 y Y2 , respectivamente,
están dadas por
∫ ∞ ∫ ∞
f1 (y1 ) = f (y1 , y2 )dy2 y f2 (y2 ) = f (y1 , y2 )dy1
−∞ −∞
Ejemplo. Considere la siguiente tabla de probabilidad conjunta para Y1 y Y2 .
y2 \ y1 0 1 T
0 .38 .17 .55
1 .14 .02 .16
2 .24 .05 .29
T .76 .24 1
Determine las funciones de probabilidad marginal para Y1 y Y2
Ejemplo.Sea
{
2y1 , 0 ≤ y2 ≤ y1 ≤ 1
f (y1 , y2 ) =
0, en otro, punto
77
Encuentre las funciones de densidad marginal para Y1 y Y2 .
Solución.
∫ ∞ ∫ 1 )
f1 (y1 ) = f (y1 , y2 ) dy2 = 2y1 dy2 = 2y1 (y2 ]10
−∞ 0
y si y1 < 0 o y1 > 1
∫∞ ∫1
f1 (y1 ) = −∞
f (y1 , y2 ) dy2 = 0
0dy2 = 0
Entonces,
{
2y1 , 0 ≤ y1 ≤ 1
f1 (y1 ) =
0, en cualquier otro punto.
Del mismo modo, si 0 ≤ y2 ≤ 1,
∫∞ ∫1 ]1
f2 (y2 ) = −∞
f (y1 , y2 ) dy1 = 0
2y1 dy1 = y12 =1
0
y si y2 < 0 o y2 > 1
∫∞ ∫1
f2 (y2 ) = −∞
f (y1 , y2 ) dy1 = 0
0dy1 = 0
Resumiendo, {
1, 0 ≤ y2 ≤ 1
f2 (y2 ) =
0, en cualquier otro punto.
Denición. Sean Y1 y Y2 variables aleatorias discretas conjuntas con función de

probabilidad conjunta p(y1 , y2 ) y funciones de probabilidad marginal p1 (y1 ) y p2 (y2 ), re-
spectivamente, entonces la función de probabilidad discreta condicional de Y1 dada Y2
es
78
p(y1 , y2 )
p(y1 /y2 ) = ,
p2 (y2 )
siempre que p2 (y2 ) > 0
Ejemplo. Considere el ejemplo anterior y encuentre la distribución condicional de Y1

dado Y2 = 1.
Denición. Sean Y1 y Y2 variables aleatorias continuas conjuntas con densidad con-

junta f (y1 , y2 ) y densidades marginales f1 (y1 ) y f2 (y2 ), respectivamente. Para cualquier
y2 , tal que f2 (y2 ) > 0, la densidad condicional de Y1 dada Y2 = y2 , está dada por
f (y1 , y2
f (y1 /y2 ) = .
f2 (y2 )
Ejemplo. Una máquina automática expendedora de bebidas tiene una cantidad

aleatoria Y2 de bebida en existencia al principio de un día determinado y dosica una
cantidad Y1 durante el día ( con cantidades expresadas en galones). La máquina no se
reabastece durante el día y, en consecuencia, Y1 ≤ Y2 . Se ha observado que Y1 y Y2 tiene
una densidad conjunta dada por
{
1/2, 0 ≤ y1 ≤ y2 ≤ 2
f (y1 , y2 ) =
0, en otro, punto
Esto es, los puntos (y1 , y2 ) están uniformemente distribuidos en el triángulo con las
fronteras dadas. Encuentre la densidad condicional de Y1 dada Y2 = y2 . Evalúe la prob-
abilidad de que se venda menos de 1/2 galón, dado que la máquina contiene 1.5 galones
al empezar el día.
79
6.2 Variables aleatorias independientes
Denición. Si Y1 y Y2 son variables aleatorias discretas con función de probabilidad
conjunta p(y1 , y2 ) y funciones de probabilidad marginal p1 (y1 ) y p2 (y2 ), respectivamente,
entonces Y1 y Y2 son independientes si y sólo si
p(y1 , y2 ) = p1 (y1 )p2 (y2 )

Si Y1 y Y2 son variables aleatorias continuas con función de densidad conjunta f (y1 , y2 )
y densidades marginales f1 (y1 ) y f2 (y2 ), respectivamente, entonces Y1 y Y2 son indepen-
dientes si y sólo si
f (y1 , y2 ) = f1 (y1 )f2 (y2 )
Ejemplo. Para el ejemplo de tirar un par de dados, demuestre que Y1 y Y2

son independientes.
Ejemplo. Sea
{
y1 y22 , 0 ≤ y1 ≤ 1, 0 ≤ y2 ≤ 1
f (y1 , y2 ) = 6
0, en otro, punto
Demuestre que Y1 y Y2 son independientes.
Teorema. Sean Y1 y Y2 variables aleatorias con densidad conjunta f (y1 , y2 ) y positiva

si y sólo si a ≤ y1 ≤ b y c ≤ y2 ≤ d para constantes a, b, c y d; y f (y1 , y2 ) = 0 en otro
caso. Entonces Y1 y Y2 son variables aleatorias independientes si y sólo si
f (y1 , y2 ) = g(y1 )h(y2 )
donde g(y1 ) es una función no negativa de y1 solamente y h(y2 ) es una función no

negativa de y2 solamente.
80
Ejemplo. Sea
{
2y1 , 0 ≤ y1 ≤ 1, 0 ≤ y2 ≤ 1
f (y1 , y2 ) =
0, en otro, punto
Demuestre que Y1 y Y2 son dependientes.
6.3 Valor esperado de una función de variables aleatorias

Denición. Sea g(Y1 , Y2 , ..., Yk ) una función de las variables aleatorias discretas, Y1 , Y2 , ..., Yk
que tiene una función de probabilidad p(y1 , y2 , ..., yk ). Entonces el valor esperado de
g(Y1 , Y2 , ..., Yk ) es
∑ ∑∑
E[g(Y1 , Y2 , ..., Yk )] = ... g(Y1 , Y2 , ..., Yk )p(y1 , y2 , ..., yk )
yk y2 y1
.
Si Y1 , Y2 , ..., Yk son variables aleatorias continuas con función de densidad conjunta

f (y1 , y2 , ..., yk ), entonces
∫ ∞ ∫ ∞ ∫ ∞
E[g(Y1 , Y2 , ..., Yk )] = ... g(Y1 , Y2 , ..., Yk )f (y1 , y2 , ..., yk )dy1 dy2 ...dyk .
−∞ −∞ −∞
Ejemplo. Sea
{
2y1 , 0 ≤ y1 ≤ 1, 0 ≤ y2 ≤ 1
f (y1 , y2 ) =
0, en otro, punto
Encuentre E(Y1 Y2 ) y E(Y1 )
Ejemplo. Del proceso para producir una sustancia química industrial se obtiene un
producto que contiene dos tipos de impurezas. Para una muestra especíca proveniente
de este proceso, denotemos con Y1 la proporción de impurezas en la muestra y con Y2
la proporción de impurezas tipo I entre todas las impurezas halladas. Suponga que la
distribución conjunta de Y1 y Y2 puede ser modelada con la siguiente función de densidad
81
de probabilidad:
{
2(1 − y1 ), 0 ≤ y1 ≤ 1, 0 ≤ y2 ≤ 1
f (y1 , y2 ) =
0, en otro, punto
Encuentre el valor esperado de la proporción de impurezas tipo I de la muestra.
6.4 Teorema especiales

Teorema. Sea c una constante. Entonces E(c) = c.
Teorema. Sea g(Y1 , Y2 ) una función de las variables aleatorias Y1 y Y2 y sea c una
constante. Entonces
E[cg(Y1 , Y2 )] = cE[g(Y1 , Y2 )].
Teorema. Sean Y1 y Y2 variables aleatorias y g1 (Y1 , Y2 ), g2 (Y1 , Y2 ), . . . , gk (Y1 , Y2 )

funciones de Y1 y Y2 . Entonces
E[g1 (Y1 , Y2 )+g2 (Y1 , Y2 )+· · ·+gk (Y1 , Y2 )] = E[g1 (Y1 , Y2 )]+E[g2 (Y1 , Y2 )]+· · ·+E[gk (Y1 , Y2 )]
.
6.5 Covarianza de dos variables aleatorias.

Intuitivamente consideramos la dependencia de dos variables aleatorias Y1 y Y2 como un
proceso en el que una de las variables, por ejemplo Y1 , aumenta o disminuye cuando Y2
82
cambia. Esta relación de dependencia se mide a través de la covarianza y el coeciente
de correlación.
Denición. Si Y1 y Y2 son variables aleatorias con medias µ1 y µ2 , respectivamente,

la covarianza de Y1 y Y2 es
Cov(Y1 , Y2 ) = E[(Y1 − µ1 )(Y2 − µ2 )].

Cuanto mayor sea el valor absoluto de la covarianza de Y1 y Y2 , mayor será la de-
pendencia lineal entre Y1 y Y2 . Los valores positivos indican que Y1 aumenta cuando Y2
aumenta; los valores negativos indican que Y1 disminuye cuando Y2 aumenta. Una valor
cero de la covarianza indica que las variables son no correlacionadas y que no hay depen-
dencia lineal entre Y1 y Y2
El coeciente de correlación, ρ, se dene como
Cov(Y1 , Y2 )
ρ=
σ1 σ2
donde σ1 y σ2 son desviaciones estándar de Y1 y Y2 , respectivamente.
El coeciente de correlación ρ satisface la desigualdad −1 ≤ ρ ≤ 1
Teorema. Si Y1 y Y2 son variables aleatorias con medias µ1 y µ2 , respectivamente,

entonces
Cov(Y1 , Y2 ) = E(Y1 Y2 ) − E(Y1 )E(Y1 )

Ejemplo. Considere el ejemplo de almacenamiento de gasolina. Encuentre la covari-
anza entre la cantidad en existencia Y1 y la cantidad de venta Y2 .
Teorema. Si Y1 y Y2 son variables aleatorias independientes, entonces
Cov(Y1 , Y2 ) = 0
83
6.6 Valor esperado y varianza de funciones lineales de variables
aleatorias
frecuentemente encontraremos estimadores que son funciones lineales de las mediciones
en una muestra, Y1 , Y2 , . . . , Yn . Si a1 , a2 . . . , an son constantes, será necesario
calcular el valor esperado y varianza de una funcián lineal de las variables aleatorias Y1 ,
Y2 , . . . , Yn ; es decir, una función de la forma
U1 = a1 Y1 + a2 Y2 + · · · + an Yn = Σni=1 ai Yi .
También podemos estar interesados en la covarianza entre dos de estas combinaciones

lineales. Los resultados que simplican el cálculo de estas cantidades se resumen en el
teorema siguiente.
Teorema. Sean Y1 , Y2 , . . . , Yn y X1 , X2 , . . . , Xm variables aleatorias con

E[Yi ] = µi y E[Xj ] = ξj .
Denamos
U1 = Σni=1 ai Yi y U2 = Σm
j=1 bj Xj .
para las constantes a1 , a2 . . . , an , b1 , b2 . . . , bm . Entonces se cumple lo siguiente:
1. E[U1 ] = Σni=1 ai µi .
84
2. V (U1 ) = Σni=1 a2i V (Yi ) + 2ΣΣ1≤i<j≤n ai bj Cov(Yi , Yj ), donde la doble suma es para
todos los pares (i, j) tales que i < j .
3. Cov(U1 , U2 ) = Σni=1 Σm
j=1 ai bj Cov(Yi , Yj ).
Ejemplo. Sean Y1 , Y2 y Y3 variables aleatorias, donde E(Y1 ) = 1, E(Y2 ) = 2,

E(Y3 ) = −1, V (Y1 ) = 1, V (Y2 ) = 3,V (Y3 ) = 5, Cov(Y1 , Y2 ) = −0.4, Cov(Y1 , Y3 ) = 1/2
y Cov(Y2 , Y3 ) = 2. Encuentre el valor esperado y la varianza de U = Y1 − 2Y2 + Y3 . Si
W = 3Y1 + Y2 , encuentre Cov(U, W ).
Ejemplo. En el ejemplo de almacenamiento de combustible La variable aleatoria

Y1 − Y2 denota la cantidad proporcional de gasolina restante al nal de la semana. En-
cuentre la varianza de Y1 − Y2 .
Ejemplo. Sean Y1 , Y2 , . . . , Yn variables aleatorias independientes con E(Yi ) = µ y

V (Yi ) = σ . (Estas variables pueden denotar los resultados de n intentos independientes
2
de un experimento.) Dena
1 n
Y = Σ Yi
n i=1
σ2
y demuestre que E[Y ] = µ y V (Y ) = n
Ejemplo. El número de artículos defectuosos Y en una muestra de n = 10 artículos

seleccionados del proceso de fabricación tiene una distribución de probabilidad binomial.
Un estimador de la fracción defectuosa del lote es la variable pb = Y /n . Encuentre el valor
esperado y la varianza de pb.
85
7 Muestreo y distribuciones muestrales
Gran parte de los conocimientos que tenemos sobre las poblaciones se basan en la infor-
mación contenida en las muestras que se sacan de dicha poblaciones. Cuando una rma
encuestadora desea saber el nivel de simpatía que tiene un partido político en la población
de votantes, no entrevista a toda la población de votantes, sólo entrevista a una mues-
tra. Una investigación educativa puede estar interesada en el rendimiento académico de
la población estudiantil en un distrito educativo. Dado que la población de estudiante
puede resultar muy grande sólo se investiga una muestra.
Un conjunto de datos se puede describir por medio de distintas medidas descripti-

vas como la media, la varianza y la proporción. Tales medidas de carácter descriptivo,
calculadas a partir de los datos suministrados por una muestra se denomian estadísti-
cos. Cuando se calculan con datos poblacionales, se denominan parámetros. Una de las
principales preocupaciones de los investigadores y de las personas encargadas de tomar
decisiones, consiste en ser capaces de tomar decisiones sobre esos parámetros, que general-
mente no se conocen, tomando como fundamento información relacionada con estadísticos
calculados sobre muestras sacadas de las poblaciones. Esta clase de procedimiento recibe
el nombre de inferencia estadística.
Una distribución muestral es una distribución de probabilidad de un estadístico mues-

tral calculado a partir de todas las muestras posibles de tamaño n, elegidas al azar en una
población determinada.
7.1 Muestreo aleatorio simple

Para seleccionar una muestra de una población hay diversos mtodos; uno de los más co-
munes es el muestreo aleatorio simple. La denición de muestreo aleatorio simple y del
proceso de seleccionar una muestra aleatoria simple dependen de si la población es nita
o innita.
Muestreo de una población nita

Una muestra aleatoria simple de tamaño n de una población nita de tamaño N es una
86
muestra seleccionada de manera que cada posible muestra de tamaño n tenga la misma
probabilidad de ser seleccionada.
Un procedimiento para seleccionar una muestra aleatoria simple de una población

nita es elegir los elementos para la muestra de uno en uno, de manera que, en cada paso,
cada uno de los elementos que quedan en la población tenga la misma probabilidad de ser
seleccionado. Al seleccionar n elementos de esta manera, será satisfecha la denición de
muestra aleatoria simple seleccionada de una población nita.
Ejemplo. Suponga que tenemos uma población de tamaño 500 y vamos a elegir una
muestra de 10.
Tabla de números aleatorios
87
63271 59986 71744 51102 15141 80714 58683 93108 13554 79945
88547 09896 95436 79115 08303 01041 20030 63754 08459 28364
55957 57243 83865 09911 19761 66535 40102 26646 60147 15702
46276 87453 44790 67122 45573 84358 21625 16999 13385 22782
55363 07449 34835 15290 76616 67191 12777 21861 68689 03263
69393 92785 49902 58447 42048 30378 87618 26933 40640 16281
13186 9431 88190 04588 38733 81290 89541 70290 40113 08243
17726 28652 56836 78351 47327 18518 92222 55201 27340 10493
36520 64465 05550 30157 82242 29520 69753 72602 23756 54935
81628 36100 39254 56835 37636 02421 98063 89641 64953 99337
84649 48968 75215 75498 49539 74240 03466 49292 36401 45525
63291 11618 12613 75055 43915 26488 41116 64531 56827 30825
70502 53225 03655 05915 37140 57051 48393 91322 25653 06543
06426 24771 59935 49801 11082 66762 94477 02494 88215 27191
20711 55609 29430 70165 45406 78484 31639 52009 18873 96927
41990 70538 77191 25860 55204 73417 83920 69468 74972 38712
72452 36618 76298 26678 89334 33938 95567 29380 75906 91807
37042 40318 57099 10528 09925 89773 41335 96244 29002 46453
53766 52875 15987 46962 67342 77592 57651 95508 80033 69828
90585 58955 53122 16025 84299 53310 67380 84249 25348 04332
32001 96293 37203 64516 51530 37069 40261 61374 05815 06714
62606 64324 46354 72157 67248 20135 49804 09226 64419 29457
10078 28073 85389 50324 14500 15562 64165 06125 71353 77669
91561 46145 24177 15294 10061 98124 75732 00815 83452 97355
13091 98112 53959 79607 52244 63303 10413 63839 74762 50289
MUESTRA ALEATORIA SIMPLE (POBLACIÓN INFINITA)

Una muestra aleatoria simple de una población innita es una muestra seleccionada
de manera que se satisfagan las condiciones siguientes.
1. Cada uno de los elementos seleccionados proviene de la población.
2. Cada elemento se selecciona independientemente.
En algunas situaciones la población o bien es innita o tan grande que, para nes prác-
ticos, se considera innita. Por ejemplo, suponga que un restaurante de comida rápida
desea obtener el perl de su clientela seleccionando una muestra aleatoria de los mismos y
pidiéndole a cada cliente que llene un breve cuestionario. En tales situaciones, el proceso
88
continuo de clientes que visitan el restaurante puede verse como que los clientes provienen
de una población innita. En poblaciones innitas un procedimiento para la selección
de una muestra debe ser concebido especialmente para cada situación, de manera que
permita seleccionar los elementos de manera independiente y evitar así un sesgo en la
selección que dé mayores probabilidades de selección a ciertos tipos de elementos. En el
ejemplo de la selección de una muestra aleatoria simple entre los clientes de un restau-
rante de comida rápida, el primer requerimiento es satisfecho por cualquier cliente que
entra en el restaurante. El segundo requerimiento es satisfecho seleccionando a los clientes
de manera independiente. El objetivo del segundo requerimiento es evitar sesgos de se-
lección. Habría un sesgo de selección, por ejemplo, si cinco clientes consecutivos que se
seleccionaran fueran amigos. Es de esperar que estos clientes tengan perles semejantes.
Dichos sesgos se evitan haciendo que la selección de un cliente no inuya en la selección de
cualquier otro cliente. En otras palabras, los clientes deben ser seleccionados de manera
independiente.
Ejercicios
a) Dada una población nita que tiene cinco elementos A, B, C, D y E seleccione 10
muestras aleatorias simples de tamaño 2.
1. Enumere las 10 muestras empezando con AB, AC y así en lo sucesivo.

2. Usando el muestreo aleatorio simple, ¾cuál es la probabilidad que tiene cada muestra
de tamaño 2 de ser seleccionada?
3. Si el número aleatorio 1 corresponde a A, el número 2 corresponde a B y así en lo
sucesivo. Enliste la muestra aleatoria de tamaño 2 que será seleccionada al usar los
números aleatorios 8 0 5 7 5 3 2.
b) Suponga que una población nita tiene 350 elementos. A partir de los últimos tres
dígitos de cada uno de los siguientes números aleatorios de cinco dígitos (por ejemplo:
601, 022, 448,...), determine los primeros cuatro elementos que se seleccionarán para una
muestra aleatoria simple. 98601 73022 83448 02147 34229 27553 84147 93289 14209
Estimación puntual
Para estimar el valor de un parámetro poblacional, la característica correspondiente
se calcula con los datos de la muestra, a lo que se le conoce como estadistico muestral.
89
Por ejemplo, para estimar la media poblacional µ y la desviación estándar poblacional σ
se calculan los estadísticos muestrales correspondientes; media muestral X y desviación
estándar muestral s. El proceso que se lleva a cabo para realizar estos cáculos se llama
estimación puntual. A la media muestral X se le conoce como el estimador puntual de la
media poblacional µ, a la desviación estándar muestral s como el estimador puntual de la
desviación estándar poblacional σ y a la proporción muestral pb como el estimador puntual
de la proporción poblacional p. Al valor numérico obtenido de X , s, pb se les conoce como
estimaciones puntuales.
7.2 Distribución muestral de X

La distribución muestral de X es la distribución de probabilidad de todos los valores de
la media muestral X .
Valor esperado de X
Como la variable aleatoria X puede tener muchos valores diferentes, suele ser de in-
terés conocer la media de todos los valores de X que se obtienen con diferentes muestras
aleatorias simples. La media de la variable aleatoria X es el valor esperado de X . Sea
E(X) el valor esperado de X y µ la media de la población de la que se selecciona una
muestra aleatoria simple. Se puede demostrar que cuando se emplea el muestreo aleatorio
simple, E(X) y µ son iguales, es decir,
E(X) = µ
Cuando el valor esperado de un estimador puntual es igual al parámetro poblacional,

se dice que el estimador puntual es insesgado.Por tanto, X es un estimador insesgado
de la media poblacional µ.
Desviación estándar de X
90
Ahora se denirá la desviación estándar de la distribución muestral de X . Se empleará
la notación siguiente:
σx = desviación estándar de X
.
σ = desviación estándar de población.
n = al tamaño de la muestra.
N = al tamaño de la población.
Es posible demostrar que usando el muestreo aleatorio simple, la desviación estándar

de x depende de si la población es nita o innita. Las dos fórmulas para la desviación
estándar son las siguientes:
Población innita o n ≤ 0.05N

Población nita o n > 0.05N
√ σx = √σ
−n n
σx = √σn NN −1
,
Ejemplo. Supongamos que tenemos una población de n = 4 ingresos para 4 estu-

diantes universitarios. Estos son de 100, 200, 300, y 400 dólares. El ingreso promedio
puede calcularse como µ = 250 dólares. Sin embargo, para hacer las cosas aún más fácil,
se puede pensar que calcular la media de 4 observaciones requiere mucho esfuerzo. Como
alternativa se decide seleccionar una muestra de n = 2 observaciones para estimar el µ
desconocido.
a) Realice la distribución muestral de medias muestrales.
b) Calcule la media de las medias muestrales y la desviacion estándar de la distribu-

ción muestral de medias muestrales
Ejemplo.Considere una población de tamaño 2500 con una desviación estándar de

4000 y una muestra de 30. Determine el error estándar de la distribución muestral de
91
medias.
Forma de la distribución muestral de X

Los resultados anteriores respecto al valor esperado y a la desviación estándar en la
distribución muestral de X son aplicables a cualquier población. El paso nal en la iden-
ticación de las características de la distribución muestral de X es determinar la forma
de la distribución muestral. Se considerarán dos casos: 1. La población tiene distribución
normal, y 2. La población no tiene distribución normal.
La población tiene distribución normal. En muchas situaciones es razonable

suponer que la población de la que se seleccionó la muestra aleatoria simple tenga distribu-
ción normal o casi normal. Cuando la población tiene distribución normal, la distribución
muestral de X está distribuida normalmente sea cual sea el tamaño de la muestra.
La población no tiene distribución normal. Cuando la población de la que se

tomó la muestra aleatoria simple no tiene distribución normal, el teorema del límite
central ayuda a determinar la forma de la distribución muestral de X .El enunciado del
teorema del límite central aplicado a la distribución muestral de X dice lo siguiente.
TEOREMA DEL LIMITE CENTRAL Cuando se seleccionan muestras

aleatorias simples de tamaño n de una población, la distribución muestral de la
media muestral puede aproximarse mediante una distribución normal a medida que
el tamaño de la muestra se hace grande.
Nota: Por lo general, un valor de n mayor que 30 asegura que la distribución de X

se puede calcular en forma aproximada por medio de una distribución normal.
Ejemplo. Los puntajes de facilidad de lectura de los niño de un jardín de infancia

están normalmente distribuido con una media y una desviación típica de 75 y 10 respec-
92
tivamente. ¾Cuál es la probabilidad de que una muestra aleatoria de 25 niños arroje un
puntaje promedio entre 70 y 78?
Ejemplo. Si una lata de un galón de pintura cubre en promedio 513.3 pies cuadrados
con una desviación estándar de 31.5 pies cuadrados, ¾Cuál es la probabilidad de que el
área media cubierta por una muestra de 40 de estas latas de 1 galón se halle en un punto
entre 510 y 520 pies cuadrados?
Ejemplo. Una máquina embotelladora puede ser regulada para que descargue un
promedio de µ onzas por botella. Se ha observado que la cantidad de líquido dosicado
por la máquina está distribuida normalmente con σ = 1.0 onza. Una muestra de n = 9
botellas se selecciona aleatoriamente de la producción de la máquina en un día determi-
nado (todas embotelladas con el mismo ajuste de la máquina) y las onzas de contenido
líquido se miden para cada una. Determine la probabilidad de que la media muestral se
encuentre a no más de .3 onza de la verdadera media µ para el ajuste seleccionado de la
máquina.
Ejemplo. Una empresa emplea 1500 personas. La cantidad promedio gastada, du-
rante un año determinado, en servicios médicos personales por empleado fue de $25.75 y
una desviación típica de $5.25. ¾Cuál es la probabilidad de que una muestra aleatoria de
100 empleados arroje una media comprendida entre $25 y $27?
Teorema. Sea Y1 , Y2 , ... , Yn una muestra aleatoria de tamaño n de una distribución

normal con media µ y varianza σ2 . Entonces Zi = Yiσ−µ son variables aleatorias normales
estándar independientes, i = 1, . . . , n y
Yi − µ 2
Σni=1 Zi2 = Σni=1 ( )
σ
tiene una distribución χ2 con n grados de libertad.
93
Ejemplo. Si Z1 , Z2 , . . . , Z6 denota una muestra aleatoria proveniente de la dis-
tribución normal estándar, encuentre un número b tal que
P (Σ6i=1 Zi2 ≤ b) = 0.95
∑
Solución. Por el Teorema anterior, 6i=1 Zi2 tiene una distribución χ2 con 6 grados
de libertad. Si vemos la Tabla de la distribución χ2 , en la la con (encabezado
∑6 6 gl y la
)
columna con encabezado χ.05 , vemos el número 12.5916. Por tanto, P
2
Z 2
> 12.5916 =
(∑6 ) i=1 i
.05, o bien, lo que es equivalente, P i=1 Zi ≤ 12.5916 = .95 y b = 12.5916 es el cuantil
2
.95 ( o percentil 95) de la suma de los cuadrados de seis variables aleatorias normales
estándar e independientes.
La distribución χ2 desempeña una importante función en muchos procedimientos in-

ferenciales. Por ejemplo, suponga que deseamos hacer una inferencia acerca de la varianza
poblacional σ 2 basada en una muestra aleatoria Y1 , Y2 , ... , Yn de una población normal.
Como lo demostraremos más adelante, un buen estimador de σ 2 es la varianza muestral
1
S2 = Σn (Yi − Y )2
n − 1 i=1
El siguiente teorema proporciona la distribución de probabilidad para una función del

estadístico S 2 .
Teorema. Sea Y1 , Y2 , ... , Yn una muestra aleatoria de tamaño n de una distribución

normal con media µ y varianza σ 2 . Entonces
(n − 1)S 2 1
2
= 2 Σni=1 (Yi − Y )2
σ σ
94
tiene una distribución χ2 con n − 1 grados de libertad .También, Y y S 2 son variables
aleatorias independientes.
Ejemplo. En el ejemplo de la máquina embotelladora, se supone que las onzas de

líquido que vierte la máquina embotelladora tienen una distribución normal con σ 2 = 1.
Suponga que planeamos seleccionar una muestra aleatoria de diez botellas y medir la
cantidad de líquido en cada una. Si estas diez observaciones se usan para calcular S 2 ,
podría ser útil especicar un intervalo de valores que incluirán S 2 con una probabilidad
alta. Encuentre números b1 y b2 tales que
P (b1 ≤ S 2 ≤ b2 ) = 0.90
Solución. Observe que
[ ]
( ) (n − 1)b1 (n − 1)S 2 (n − 1)b2
P b1 ≤ S ≤ b2
2
=P ≤ ≤ .
σ2 σ2 σ2
Debido a que σ 2 = 1, se deduce que (n−1)S 2 /σ 2 = (n−1)S 2 tiene una distribución χ2

con (n − 1) grados de libertad. Por tanto, podemos usar la Tabla para hallar dos números
a1 y a2 tales que
[ ]
P a1 ≤ (n − 1)S 2 ≤ a2 = .90
Un método para hacer esto es encontrar el valor de a2 que delimite un área de .05 en la
cola superior y el valor de a1 que delimite .05 en la cola inferior (.95 en la cola superior).
Como hay n − 1 = 9 grados de libertad, la Tabla indica que a2 = 16.919 y a1 = 3.325. En
consecuencia, los valores para b1 y b2 que satisfacen nuestras condiciones están dados por
95
(n−1)b1
3.325 = a1 = σ2
= 9b1 o b1 = 3.325
9
= .369 y
(n−1)b2
16.919 = a2 = σ2
= 9b2 o b2 = 16.919
9
= 1.880.
Por tanto, si deseamos tener un intervalo que incluya S 2 con probabilidad .90, uno de
estos intervalos es (.369, 1.880). Observe que este intervalo es bastante amplio.
7.3 Distribución muestral de pb

La proporción muestral pb es el estimador puntual de la proporción poblacional p. La
fórmula para calcular la proporción muestral es
x
pb =
n
donde
x es el número de elementos en la muestra que poseen la característica de interés.
n es el tamaño de la muestra.
La distribución muestral de pb es la distribución de prob-

abilidad de todos los posibles valores de la proporción
muestral pb.
Para determinar qué tan cerca está la proporción muestral pb de la proporción pobla-
cional p, se necesita entender las propiedades de la distribución muestral de pb : el valor
esperado de pb , la desviación estándar de pb y la forma de la distribución muestral de pb.
96
El valor esperado de pb es E(b
p) = p. Esto signica que pb es un estimador insesgado de
p.
Desviación estándar de pb
la desviación estándar de obedece a si la población es nita o innita. Las dos fórmulas
para calcular la desviación estándar de se presentan a continuación.
Población innita o n ≤ 0.05N

Población nita o n > 0.05N √
√ √ σpb = p(1−p)
p(1−p) N −n n
σpb = n N −1
,
Forma de la distribución muestral de pb
Ahora que se conoce la media y la desviación estándar de la distribución muestral

de pb , el último paso es determinar la forma de la distribución muestral. La proporción
muestral es pb = nx . En una muestra aleatoria simple de una población grande, el valor de
x es una variable aleatoria binomial que indica el número de los elementos de la muestra
que tienen la característica de interés. Como n es una constante, la probabilidad de nx
es la misma que la probabilidad de x, lo cual signica que la distribución muestral de pb
también es una distribución de probabilidad discreta y que la probabilidad de cada nx es
la misma que la probabilidad de x.
En resultados anteriores se mostró que una distribución binomial se aproxima medi-

ante una distribución normal siempre que el tamaño de la muestra sea lo sucientemente
grande para satisfacer las dos condiciones siguientes:
np ≥ 5 y n(1 − p) ≥ 5
Suponiendo que se satisfagan estas dos condiciones, la distribución de probabilidad de
x en la proporción muestral, pb = nx , puede aproximarse por medio de una distribución
normal. Y como n es una constante, la distribución muestral de pb también se aproxima
mediante una distribución normal. Esta aproximación se formula como sigue:
97
La distribución muestral de pb se aproxima mediante una distribución normal
siempre que np ≥ 5 y n(1 − p) ≥ 5
En las aplicaciones prácticas, cuando se requiere una estimación de la proporción

poblacional, casi siempre se encuentra que el tamaño de la muestra es sucientemente
grande para poder usar la aproximación normal para la distribución muestral de pb.
Ejemplo. De los 1150 profesores que emplea un distrito escolar, el 30 % acreditan

una maestría. Se selecciona una muestra aleatoria simple de 150 profesores. ¾Cuál es la
probabilidad de que la proporción de profesores con grado de maestría esté entre 0.25 y
0.40?
7.4 Propiedades de los estimadores puntuales

Como hay distintos estadísticos muestrales que se usan como estimadores puntuales de
sus correspondientes parámetros poblacionales, usaremos la notación general siguiente:
θ = el parámetro poblacional de interés
θb = el estadístico muestral o estimador puntual de θ
98
Insesgadez
El estadistico muestral θb es un estimado insesgado del parámetro poblacional θ si
b =θ
E(θ)
Eciencia
Suponga que se usa una muestra aleatoria simple de n elementos para obtener dos
estimadores puntuales insesgados de un mismo parámetro poblacional. En estas circun-
stancias preferirá usar el estimador puntual que tenga el menor error estándar, ya que
dicho estimador tenderá a dar estimaciones más cercanas al parámetro poblacional. Se
dice que el estimador puntual con menor error estándar tiene mayor eciencia relativa
que los otros.
Consistencia
La tercera propiedad relacionada con un buen estimador puntual es la consistencia.
Dicho de manera sencilla, un estimador puntual es consistente si el valor del estimador
puntual tiende a estar más cerca del parámetro poblacional a medida que el tamaño de
la muestra aumenta. En otras palabras, una muestra grande tiende a proporcionar mejor
estimación puntual que una pequeña.
7.5 Otros métodos de muestreo

Muestreo aleatorio estraticado
En el muestreo aleatorio estraticado los elementos de la población primero se dividen
en grupos, a los que se les llama estratos, de manera que cada elemento pertenezca a uno
y sólo un estrato. La base para la formación de los estratos, que puede ser departamento,
edad, tipo de industria, etc., está a discreción de la persona que diseña la muestra. Sin
99
embargo, se obtienen mejores resultados cuando los elementos que forman un estrato son
lo más parecido posible.
Una vez formados los estratos, se toma una muestra aleatoria simple de cada estrato.
El valor del muestreo aleatorio estraticado depende de qué tan homogéneos sean los
elementos dentro de cada estrato. Si los elementos de un estrato son homogéneos, el es-
trato tendrá una varianza pequeña. Por tanto, con muestras relativamente pequeñas de
los estratos se obtienen buenas estimaciones de las características de los estratos. Si los
estratos son homogéneos, el muestreo aleatorio estraticado, proporciona resultados tan
precisos como los de un muestreo aleatorio simple, pero con una muestra de tamaño total
menor.
Muestreo por conglomerados
En el muestreo por conglomerados los elementos de la muestra primero se dividen en

grupos separados, llamados conglomerados. Cada elemento de la población pertenece a
uno y sólo un conglomerado. Se toma una muestra aleatoria simple de los conglomerados.
La muestra está formada por todos los elementos dentro de cada uno de los conglomerados
que forman la muestra. El muestreo por conglomerados tiende a proporcionar mejores
resultados cuando los elementos dentro de los conglomerados no son semejantes. Lo ideal
es que cada conglomerado sea una representación, a pequeña escala, de la población.
Si todos los conglomerados son semejantes en este aspecto, tomando en la muestra un
número pequeño de conglomerados se obtendrá una buena estimación de los parámetros
poblacionales.
Muestreo sistemático
Para ciertos muestreos, en especial en aquellos con poblaciones grandes, se necesita mu-
cho tiempo para tomar una muestra aleatoria simple . Una alternativa al muestreo aleato-
rio simple es el muestreo sistemático. Por ejemplo, si se quiere una muestra de tamaño
50 de una población que tiene 5000 elementos, se muestrea uno de cada 5000/50 = 100
elementos de la población. En este caso, un muestreo sistemático consiste en seleccionar
en forma aleatoria uno de los primeros elementos de la lista de la población. Los otros
elementos se identican contando a partir del primer elemento 100 elementos para tomar
100
el elemento que tenga la posición 100 en la lista de la población, a partir de este ele-
mento se cuentan otros 100 y así se continúa. Por lo general, de esta manera es más
fácil de identicar la muestra de 50 que si se usara el muestreo aleatorio simple. Como
el primer elemento que se selecciona es elegido en forma aleatoria, se supone que una
muestra sistemática tiene las propiedades de una muestra aleatoria simple. Esta suposi-
ción es aplicable, en especial, cuando la lista de los elementos de la población es un orden
aleatorio de los elementos.
Muestreo de conveniencia
Los métodos de muestreo hasta ahora vistos se conocen como técnicas probabilísticas
de muestreo. Los elementos seleccionados de una población tienen una probabilidad cono-
cida de ser incluidos en la muestra. La ventaja del muestreo probabilístico es que, por lo
general, se identica la distribución muestral del estadístico muestral correspondiente. La
distribución muestral permite hacer armaciones probabilísticas acerca del error al usar
los resultados muestrales para hacer inferencias acerca de la población.
El muestreo de conveniencia es una técnica de muestreo no probabilística. Como el

nombre lo indica, la muestra se determina por conveniencia. Los elementos se incluyen
en la muestra sin que haya una probabilidad previamente especicada o conocida de que
sean incluidos en la muestra. Por ejemplo, un profesor que realiza una investigación en
una universidad puede usar estudiantes voluntarios para que constituyan una muestra;
¾la razón para elegirlos? simple, los tiene al alcance y participarán como sujetos a un
costo bajo o sin costo.
Dichas muestras tienen la ventaja de que es relativamente fácil seleccionar la muestra

y recoger los datos; sin embargo, es imposible evaluar la bondad de la muestra en tér-
minos de su representatividad de la población. Una muestra de conveniencia puede o no
dar buenos resultados. Algunas veces los investigadores aplican los métodos estadísticos
propios de muestras probabilísticas a las muestras de conveniencia, con el argumento de
que la muestra de conveniencia se trata como si fuera una muestra probabilística. Sin
embargo, estos argumentos no tienen fundamento y se debe tener cuidado al interpretar
los resultados de muestreos de conveniencia que han sido usados para hacer inferencias
acerca de la población.
101
Muestreo subjetivo
Otra técnica de muestreo no probabilística es el muestreo subjetivo. En este método
la persona que más sabe sobre un asunto selecciona elementos de la población que consid-
era los más representativos de la población. Este método suele ser una manera relativa-
mente fácil de seleccionar una muestra. Por ejemplo, un reportero puede seleccionar dos
o tres senadores considerando que estos senadores reejan la opinión general de todos los
senadores. Sin embargo, la calidad de los resultados muestrales depende de la persona que
selecciona la muestra. Aquí también hay que tener mucho cuidado al hacer inferencias
acerca de las poblaciones a partir de muestreos subjetivos.
8 Estimación.
El propósito de la estadística es usar la información contenida en una muestra para hacer

inferencias acerca de la población de la cual se toma la muestra. Debido a que las pobla-
ciones están caracterizadas por medidas descriptivas numéricas llamadas paráámetros, el
objetivo de muchas investigaciones estadísticas es calcular el valor de uno o más parámet-
ros relevantes. Como veremos, las distribuciones muestrales desempeñan un importante
papel en el desarrollo de los procedimientos de estimación . La estimación tiene muchas
aplicaciones prácticas. Por ejemplo, un fabricante de máquinas lavadoras podría estar
interesado en estimar la proporción p de lavadoras que esperaría que fallen antes de la
expiración de la garantía de un año. Otros parámetros poblacionales importantes son la
media poblacional, la varianza y la desviación estándar. Por ejemplo, podríamos estimar
la media del tiempo de espera µ en una caja registradora del supermercado o la desviación
estándar del error de medición σ de un instrumento electrónico. Para simplicar nuestra
terminología, al parámetro de interés le llamaremos parámetro objetivo en el experimento.
Hay dos tipos de estimadores que se usan frecuentemente: un estimador puntual y un

estimador por intervalo. Un estimador puntual utiliza un sólo valor o punto para estimar
el parámetro. Un estimador por intervalo establece un rango dentro del cual se encuentra
el parámetro.
Un estimador es una regla, a menudo expresada como una fórmula, que indica cómo
calcular el valor de una estimación con base en las mediciones contenidas en una muestra.
102
Por ejemplo la media muestral
1∑
n
X= Xi
n i=1
es un posible estimador puntual de la media poblacional µ
Un investigador que necesite una estimación de intervalo de un parámetro debe usar

los datos muestrales para calcular dos valores, escogidos de tal modo que el intervalo que
formen incluya el parámetro objetivo con una probabilidad especíca.
8.1 Estimación de un intervalo de conanza de muestra grande

para µ , σ.
La estimación por intervalo de una media poblacional cuando se conoce σ es
σ
X ± zα/2 √
n
donde (1 − α) es el coeciente de conanza y zα/2 es el valor de z que proporciona un

área zα/2 en la cola superior de la distribución de probabilidad normal estándar.
Ejemplo. Una muestra aleatoria de tamaño n = 100 se toma de una población con
σ = 5.1. Dado que la media de la muestra es X = 21.6, elabore un intervalo de conanza
de 95% para la media poblacional.
8.2 Media poblacional: σ desconocida

Cuando se calcula un intervalo de conanza para la media poblacional, suele no contarse
con una buena estimación de la desviación estándar poblacional. En tales casos se usa
la misma muestra para estimar µ y σ . Esta situación es el caso que se conoce como σ
desconocida. Cuando se usa s para estimar σ , el margen de error y la estimación por
103
intervalo de la media poblacional se basan en una distribución de probabilidad conocida
como distribución t. Aunque la elaboración matemática de la distribución t parte de la
suposición de que la población de la que se muestrea tiene una distribución normal, las
investigaciones han demostrado que la distribución t se aplica en muchas situaciones en
que la población se desvía signicantemente de una población normal.
La distribución t es una familia de distribuciones de probabilidad similares; cada dis-

tribución t depende de un parámetro conocido como grados de libertad. La distribución t
para un grado de libertad es única, como lo es la distribución t para dos grados de libertad,
para tres grados de libertad, etc. A medida que el número de grados de libertad aumenta,
la diferencia entre la distribución t y la distribución normal estándar se va reduciendo.
El intervalo de conanza para la media poblacional cuando σ es desconocida es

s
X ± tα/2 √
n
donde s es la desviación estándar muestral, (1 − α) es el coeciente de conanza y tα/2
es el valor de t que proporciona un área de α/2 en la cola superior de la distribución t
para n − 1 grados de libertad.
Ejemplo. Los datos muestrales siguientes provienen de una población normal: 10, 8,
12, 15, 13, 11, 6, 5.
1. ¾Cuál es la estimación puntual de la media poblacional?
2. ¾Cuál es la estimación puntual de la desviación estándar poblacional?
3. Con 95% de conanza, ¾Cuál es el margen de error para la estimación de la media

poblacional?
4. ¾Cuál es el intervalo de conanza de 95% para la media poblacional?
104
TAMAÑO DE MUESTRA PARA UNA ESTIMACION POR INTER-
VALO DE LA MEDIA POBLACIONAL
zσ 2
n=( )
E
Si no se conoce el tamaño de la poblacón.
N z2σ2
n=
z 2 σ 2 + E 2 (N − 1)
Si se conoce el tamaño de la poblacón.
Ejemplo. Un investigador de un centro educativo que tiene 2500 alumnos, desea hacer
una estimación del tiempo promedio que gastan los estudiantes en el viaje entre la escuela
y la casa. El investigador desea un intervalo de conanza del 99% y una estimación que
esté comprendida entre un minuto y la media verdadera. Una pequeña muestra piloto
da una varianza de 25 minutos al cuadrado. ¾Qué tamaño debe tener la muestra que se
necesita?
Ejemplo. Suponga que deseamos estimar el promedio diario de producción µ de un

producto químico y deseamos que el error de estimación sea menor que 5 toneladas con
probabilidad de .95. Calcule el tamaño de la muestra que se necesita si la desviación
estándar poblacional es 21
8.3 Intervalo de conanza para la proporción poblacional

Con alguna frecuencia, se desea hacer una estimación de la proporción de sujetos que com-
ponen una población y poseen alguna característica de interés. Por ejemplo la proporción
de niños en un sistema escolar que están dando un rendimiento bajo, la proporción de
105
adolescente en una comunidad que tiene acceso al internet, etc. Generalmente, no es prác-
tico examinar una población entera para determinar la proporción verdadera que posee la
característica de interés. En lugar de esto se toma una muestra aleatoria de la población y
se utiliza la proporción muestral pb para hacer una estimación de la proporción poblacional
p.
Cuando el muestreo se hace en una población innita, el intervalo de conanza para

p está dado por
√
pb(1 − pb)
pb ± z
n
Si el muestreo se hace en una población nita, entonces el intervalo de conanza es
√ √
pb(1 − pb) N −n
pb ± z
n n−1
Ejemplo. En un estudio sobre las razones que dan los alumnos suspendidos en la
escuela, un investigador tomó una muestra de 200 estudiantes suspendidos que fueron en-
trevistados, 140 dijeron que habían fallado debido a dicultades económicas en su familia.
El investigador quería construir un intervalo de conanza del 95% para la verdadera pro-
porción de jóvenes que habían fallado por esta razón.
Ejemplo. En una muestra aleatoria de 400 accidentes industriales, se encontró que

231 se debieron a condiciones de trabajo inseguras. Construya un intervalo de conanza
de 99% para la proporción poblacional.
Tamaño de la muestra para estimar proporciones poblacionales
106
Cuando el muestreo se realiza en una población innita, el tamaño de la muestra está
dado por
z 2 pq
n=
E2
donde z está asociado al nivel de conanza , E es el margen de error, p es la proporción
de la población que tiene la caracter±tica de interés y q es la proporción de la población
que no tiene la característica de interés.
Cuando el muestreo se realiza en una población nita, entonces la fórmula para el

tamaño de la muestra es
N pqz 2
n=
(N − 1)E 2 + pqz 2
En ambas fórmulas, si no se conocen los valores de p y q , se recomienda usar 0.5 para

ambos.
Ejemplo. Un consejero escolar desea calcular la proporción de los 1000 alumnos de

último año de un sistema escolar que piensa seguir estudios en la universidad. ¾Qué
tamaño debe tener la muestra que necesita tomar el consejero si su estimación debe estar
a 0.05 del valor verdadero, con 99% de confianza?. En el año anterior, el 70% de los
alumnos encuestados dijeron que tenían planeado seguir estudios en la universidad.
Ejemplo. ¾Cuál sería el tamaño de la muestra requerida para estimar una proporción
desconocida con un error máximo de 0.06 y un 95 % de conanza?
107
8.4 Inferencia estadística acerca de medias y de proporciones con
dos poblaciones
Inferencias acerca de la diferencia entre dos medias poblacionales: σ1 y σ2
conocidas
Sean µ1 la media de la población 1 y µ2 la media de la población 2, lo que interesa

aquí son inferencias acerca de la diferencia entre las medias: µ1 y µ2 . Para hacer una
inferencia acerca de esta diferencia, se elige una muestra aleatoria simple de n1 unidades
de la población 1 y otra muestra aleatoria simple de n2 unidades de la poblacion 2. A estas
dos muestras que se toman separada e independientemente se les conoce como muestras
aleatorias simples independientes.
La estimación puntual de la diferencia entre las dos medias poblacionales es la difer-

encia entre las dos medias muestrales x¯1 − x¯2
El error estándar está dado por
√
σ12 σ22
σx¯1 −x¯2 = +
n1 n2
Si ambas poblaciones tienen distribucion normal o si los tamaños de las muestras son
sucientemente grandes para que el teorema del límite central permita concluir que las
distribuciones muestrales de x¯1 y x¯2 puedan ser aproximadas mediante una distribución
normal, la distribución muestral de x¯1 y x¯2 tendrá una distribución normal cuya media
es µ1 − µ2 .
ESTIMACION POR INTERVALO DE LA DIFERENCIA ENTRE DOS MEDIAS

POBLACIONALES: σ1 y σ2 CONOCIDAS
108
√
σ12 σ22
x¯1 − x¯2 ± zα/2 +
n1 n2
donde 1 − α es el nivel de conanza.
Ejemplo. Los resultados siguientes provienen de muestras aleatorias simples inde-

pendientes tomadas de dos poblaciones:
Muestra 1: n1 = 50, x¯1 = 13.6, σ1 = 2.2. Muestra 2: n2 = 35, x¯2 = 11.6, σ1 = 3.
a) ¾Cuál es la estimación puntual de la diferencia entre las dos medias poblacionales?
b) Dé un intervalo de conanza de 90% para la diferencia entre las dos medias pobla-
ciones.
c) Proporcione un intervalo de conanza de 95% para la diferencia entre las dos medias
poblaciones.
Ejemplo. Se llevó a cabo un experimento donde se compararon dos tipos de motores,

el A y el B . Se midio el rendimiento de combustible en millas por galón. Se realizaron
50 experimentos con el motor tipo A y 75 con el motor tipo B. La gasolina utilizada y
las demás condiciones se mantuvieron constantes. El rendimiento promedio de gasolina
para el motor A fue de 36 millas por galón y el promedio para el motor B fue de 42
millas por galón. Calcule un intervalo de conanza del 96% sobre µB − µA , donde µB y
µA corresponden a la media de la población del rendimiento de millas por galon para los
motores A y B , respectivamente. Suponga que las desviaciones estándar de la poblacion
son 6 y 8 para los motores A y B , respectivamente.
109
8.5 Inferencias acerca de la diferencia entre dos proporciones
poblacionales
Sea p1 una proporción de la población 1 y p2 una proporción de la población 2, a
continuación se considerarán inferencias acerca de la diferencia entre dos proporciones
poblacionales:p1 y p2 . Para las inferencias acerca de estas diferencias, se seleccionan dos
muestras aleatorias independientes, una de n1 unidades de la población 1 y otra de n2
unidades de la población 2.
Estimación por intervalo para p1 − p2
el estimador puntual de la diferencia entre dos proporciones poblaciones es la diferen-

cia entre las proporciones muestrales de dos muestras aleatorias simples independientes.
Como ocurre con otros estimadores puntuales, p¯1 − p¯2 tiene una distribución muestral que
reeja los valores que podría tomar p¯1 − p¯2 si se tomaran repetidas muestras aleatorias
simples independientes. La media de esta distribución muestral es p1 − p2 y el error es-
tándar de p¯1 − p¯2 es el siguiente:
√
p1 (1 − p1 ) p2 (1 − p2 )
σp¯1 −p¯2 = +
n1 n2
Si los tamaños de las muestras son sucientemente grandes para que n1 p1 , n1 (1 − p1 ),

n2 p2 y n2 (1 − p2 ) sean todos mayores o iguales que 5, la distribución muestral de p¯1 − p¯2
puede ser aproximada por una distribución normal.
Como ya se indicó antes, una estimación por intervalo está dada por una estimación
puntual ± un margen de error. En la estimación de la diferencia entre dos proporciones
poblacionales, una estimación por intervalo toma la forma siguiente:
110
√
p¯1 (1 − p¯1 ) p¯2 (1 − p¯2 )
p¯1 − p¯2 ± zα/2 +
n1 n2
donde 1 − α es el coeciente de conanza.
Ejemplo. Se considera hacer un cierto cambio en el proceso de fabricación de partes

componentes. Para determinar si el cambio en el proceso da como resultado una mejora,
se toman muestras de partes fabricadas con el proceso nuevo y con el actual. Si se en-
cuentra que 75 de 1500 artículos manufacturados con el proceso actual están defectuosos
y 80 de 2000 manufacturados con el proceso nuevo también lo están, calcule un intervalo
de conanza del 90% para la diferencia verdadera en la proporción de partes defectuosas
entre el proceso actual y el nuevo.
8.6 Intervalos de conanza para σ2
La varianza poblacional σ 2 cuantica la cantidad de variabilidad en la población.

Muchas veces el valor real de σ 2 es desconocido para un experimentador y debe calcularse.
Por ejemplo, si efectuamos un cuidadoso análisis químico de tabletas de un medicamento
en particular, estaríamos interesados en la cantidad promedio del ingrediente activo por
tableta y además en la cantidad de variabilidad de una tableta a otra, cuanticada por
σ 2 . Obviamente, para un medicamento es preferible que la variación de una tableta a otra
sea pequeña y por tanto un valor pequeño para σ 2 .
Supongamos que tenemos una muestra aleatoria Y1 , Y2 , . . . , Yn de una distribución

normal con media µ y varianza σ 2 , ambas desconocidas. Del resultados anteriores sabe-
mos que
111
Σni=1 (Yi − Ȳ )2 (n − 1)S 2
=
σ2 σ2
tiene una distribución χ2 con (n − 1) grados de libertad. Entonces debemos halla χ2L
yχ2U tales que
(n − 1)S 2
P [χ2L ≤ ≤ χ2U ] = 1 − α
σ2
para cualquier coeciente de conanza (1 − α). (Los subíndices L y U representan

bajo y alto, respectivamente.) La función de densidad χ2 no es simétrica, de modo que
tenemos alguna libertad para seleccionar χ2L y χ2U . Nos gustaría hallar el intervalo más
corto que incluya σ 2 con probabilidad (1 − α). Para tales nes elegiremos de manera
arbitraria puntos que limiten áreas iguales de cola. En consecuencia, obtenemos
(n − 1)S 2
P [χ21−α/2 ≤ ≤ χ2α/2 ] = 1 − α
σ2
y un reordenamiento de la desigualdad en el enunciado de probabilidad nos lleva a
(n − 1)S 2 (n − 1)S 2
P[ ≤ σ 2
≤ ]=1−α
χ2α/2 χ21−α/2
El intervalo de conanza para σ 2 es el siguiente:
112
(n − 1)S 2 (n − 1)S 2
( , )
χ2α/2 χ21−α/2
Ejemplo. Un experimentador desea comprobar la variabilidad de mediciones obtenidas

al usar equipo diseñado para medir el volumen de una fuente de audio. Tres mediciones
independientes registradas por este equipo para la misma fuente de sonido fueron 4.1, 5.2
y 10.2. Estime σ 2 con coeciente de conanza .90.
9 Prueba de Hipótesis
El propósito del análisis estadístico es reducir el nivel de incertidumbre en el proceso de

toma de decisiones. Los gerentes pueden tomar mejores decisiones sólo si tienen suciente
información a su disposición. La prueba de hipótesis es una herramienta analítica muy
efectiva para obtener esa valiosa información, bajo una gran variedad de circunstancias.
Existen muchos ejemplos comunes en los negocios:
• Un embotellador de bebidas suaves debe determinar si el peso promedio del con-

tenido de sus botellas es 16 onzas (µ = 16).
• Un productor de software de computador desea certicar que la proporción de sus

productos que son defectuosos es menor del 3%(p < 0 : 03).
• Un fabricante de equipos deportivos desea saber si existe evidencia de que un proceso

de producción ha reducido los costos promedios de producción por debajo de su nivel
actual de 5 dólares por unidad (µ < 5).
• Un educador, al no existir conocimiento previo sobre la efectividad de dos métodos

de enseñanza, puede proponer la hipótesis de que para la enseñanza de la lectura a
estudiantes de primer año, el el método A es superior al método B.
Para llegar a tomar decisiones, conviene hacer determinados supuestos o conjeturas a

cerca de las poblaciones que se estudian. Tales supuestos, que pueden ser o no ciertos, se
llaman hipótesis estadísticas y, en general, los son sobre las distribuciones de probabili-
dad de las poblaciones. En muchos casos se formulan las hipótesis estadísticas con el sólo
propósito de rechazarlas o invalidarlas. Por ejemplo, si se quiere decidir si una moneda
113
está cargada, se formula la hipótesis de que la moneda está bien, es decir, p = 0.5, donde
p es la probabilidad de cara. Análogamente, si se quiere decidir si un procedimiento es
mejor que otro, se formula la hipótesis de que no hay diferencia entre los procedimien-
tos, es decir, cualquier diferencia observada se debe a uctuaciones en el muestreo de la
misma población. Tales hipótesis se llaman hipótesis nula y se denotan por H0 . Cualquier
hipótesis que difera de una hipótesis dada, se llama hipótesis alternativa y se denota por
Ha . Por ejemplo, si una hipótesis es p = 0.5, las hipótesis alternativas son p ̸= 0.5,
p < 0.5, p > 0.5.
Los procedimientos que facilitan el decidir si una hipótesis se acepta o se rechaza o el

determinar si las muestras observadas diferen signicativamente de los resultados espera-
dos, se llaman ensayos de hipótesis, ensayos de signifcación o reglas de decisión.
Errores tipo I y tipo II
Si se rechaza una hipótesis cuando debería ser aceptada se dice que se comete un error
tipo I. Si, por el contrario, se acepta una hipótesis cuando debería ser rechazada, se dice
que se comete un error tipo II. En cualquiera de los dos casos se comete un error al tomar
una decisión equivocada.
Nivel de Signicancia
La probabilidad máxima con la que en el ensayo de una hipótesis se puede cometer

un error tipo I, se llama nivel de signicancia del ensayo. Esta probabilidad se denota
frecuentemente por α ;que generalmente se ja antes de la extracción de las muestras, de
modo que los resultados obtenidos no inuyan en la elección.
En la práctica se acostumbra a utilizar niveles de signicancia del 0.05 o 0.01, aunque

igualmente pueden emplearse otros valores. Si, por ejemplo, se elige un nivel de signi-
cancia del 0.05 o 5% al diseñar un ensayo de hipótesis, entonces hay aproximadamente 5
ocasiones en 100 en que se rechazaría la hipótesis cuando debería ser aceptada, es decir,
se está en un 95%de conanza de que se toma la decisión adecuada. En tal caso se dice
que la hipótesis ha sido rechazada al nivel de signi cación del 0.05; lo que signica que
se puede cometer error con una probabilidad de 0.05.
114
Media poblacional: σ conocida
El caso σ conocida se reere a aplicaciones en las que se cuenta con datos históri-
cos o con alguna información que permita obtener buenas estimaciones de la desviación
estándar poblacional antes de tomar la muestra. En tales casos, para propósitos prácti-
cos, se considera que se conoce la desviación estándar poblacional. Analizaremos cómo
realizar una prueba de hipótesis para la media poblacional en el caso en que σ es conocida.
Los métodos que se presentan en esta sección dan resultados exactos si la población
de la que se selecciona la muestra tiene distribución normal. En los casos en los que no
sea razonable suponer que la población tiene una distribución normal, se pueden aplicar
estos métodos siempre y cuando el tamaño de la muestra sea sucientemente grande.
Prueba de una cola
Una prueba de una cola para la media poblacional tiene una de las dos formas sigu-
ientes:
Prueba de la cola inferior

Prueba de la cola superior (o derecha)
(o izquierda)
H0 : µ ≤ µ0
H0 : µ ≥ µ0
Ha : µ > µ0
Ha : µ < µ0
Prueba de dos colas
En las pruebas de hipótesis la forma general de una prueba de dos colas es la siguiente:
H0 : µ = µ0
Ha : µ ̸= µ0
115
Hay 4 pasos involucrados en una prueba de hipótesis.
• Plantear la hipótesis
• Con base a los resultados de la muestra calcular el valor z del estad±tico de prueba.
• Determinar la regla de decisión.
• Interpretación y conclusiones.
Estadístico de prueba
En una prueba de hipótesis para la media poblacional en el caso σ

conocida, se emplea la variable aleatoria normal estandar z como
estadístico de prueba para determinar si x se desvía lo suciente del
valor hipotético de µ como para justicar el rechazo de la hipótesis
nula. Como σx = √σn el estadístico de prueba es el siguiente
x−µ
z=
√σ
n
Método del valor p.
En el método del valor-p se usa el valor del estadístico de

prueba z para calcular una probabilidad llamada valor-p.
Un valor-p es una probabilidad que aporta una medida de una

evidencia suministrada por la muestra contra la hipótesis nula.
Valores-p pequeños indican una evidencia mayor contra la hipótesis

nula.
El valor-p se usa para determinar si la hipótesis nula debe ser rec-

hazada.
116
Para calcular el valor-p se usa el valor del estadístico de prueba. El método a seguir
depende de si se trata de una prueba de la cola inferior, de la cola superior o de dos colas.
En una prueba de la cola inferior, el valor-p es la probabilidad de conseguir un valor del
estadístico de prueba tan pequeño o menor que el obtenido con la muestra. Por ende,
para calcular el valor-p en una prueba de la cola inferior, en el caso σ conocida, se halla
el área bajo la curva normal estándar a la izquierda del estadístico de prueba. Una vez
calculado el valor-p se decide si es lo sucientemente pequeño para rechazar la hipótesis
nula; como se vera más adelante, para esta decisión hay que comparar el valor-p con el
nivel de signicancia. Si la prueba es de cola superior, entonces el valor p es el área a la
derecha del estadístico de prueba.
CALCULO DEL VALOR-p EN UNA PRUEBA DE DOS COLAS.
• Calcule el valor del estadístico de prueba z .
• Si el valor del estadístico de prueba está en la cola superior

(z > 0), encuentre el área bajo la curva normal estándar a
la derecha de z . Si el valor del estadístico de prueba está en
la cola inferior (z < 0), localice el área bajo la curva normal
estándar a la izquierda de z .
• Duplique el área, o probabilidad, en la cola, obtenida en el

paso dos y obtenga el valor-p.
REGLA PARA EL RECHAZO USANDO EL VALOR-p.

Rechazar H0 sip < α
117
Método del valor crítico.
En el método del valor crítico primero se determina un valor para
el estadístico de prueba llamado valor crítico. En una prueba de
la cola inferior, el valor crítico sirve como punto de referencia para
determinar si el valor del estadístico de prueba es lo sucientemente
pequeño para rechazar la hipótesis nula. El valor crítico es el valor
del estadístico de prueba que corresponde a un área α (nivel de
signicancia) en la cola inferior de la distribución muestral del es-
tadístico de prueba. En otras palabras, el valor crítico es el mayor
valor del estadístico de prueba que haría que se rechace la hipótesis
nula.
REGLA PARA EL RECHAZO USANDO EL VALOR

CRITICO.
Rechazar H0 si z < −zα
donde −zα es el valor crítico; es decir, el valor z que proporciona

un área α en la cola inferior de la distribución normal estándar.
Ejemplo.
1.- Considere la siguiente prueba de hipótesis:
H0 : µ ≥ 20
Ha : µ < 20
En una muestra de 50, la media muestral fue 19.4. La desviación estándar poblacional
es 2.
(a) Calcule el valor del estadístico de prueba.
(b) ¾ Cuál es la regla de rechazo si se usa el método del valor crítico, con α = 0 : 05?.
(c) ¾ Cuál es su conclusión?
118
(d) ¾ Cuál es el valor p?
2.-Considere la siguiente prueba de hipótesis:
H0 : µ = 15
Ha : µ ̸= 15
En una muestra de 50, la media muestral fue 14.15. La desviación estándar pobla-
cional es 3.
(a) Calcule el valor del estadístico de prueba.

(b) ¾Cuál es la regla de rechazo si se usa el método del valor crítico, con α = 0 : 05?.
(c) ¾ Cuál es su conclusión?
(d) ¾Cuál es el valor p?
3.-Una empresa de camiones de carga sospecha de la armación de que el ciclo de vida

promedio de ciertos neumáticos es de almenos 28,000 millas. para vericar ese argumento,
la empresa instala 40 de esos neumáticos en sus camiones y obtiene un ciclo de vida medio
de 27,463 millas con una desviación estándar de 1348 millas. ¾Qué se puede concluir si la
probabilidad del error tipo I se ja en cuando más 0.01?
Media poblacional: σ desconocida

En esta sección se describe cómo realizar pruebas de hipótesis para la media pobla-
cional en el caso de σ desconocida. Como σ desconocida corresponde a la situación en
que no se tiene una estimación de la desviación estándar poblacional antes de tomar la
muestra, la muestra se usa para obtener una estimación tanto de σ como de µ. Por tanto,
para realizar una prueba para la media poblacional en el caso en que no se conoce σ , la
media muestral se usa como estimación de µ y la desviación estándar muestral s se usa
como estimación de σ . Los pasos a seguir para las pruebas de hipótesis en el caso en
que no se conoce σ son los mismos que en el caso en que se conoce σ , visto en la sección
anterior. Pero como no se conoceσ , los cálculos del estadístico de prueba y del valor-p son
ligeramente diferentes. Recuerde que en el caso de σ conocida, la distribución muestral
119
del estadístico de prueba tiene distribucion normal estándar. Sin embargo, en el caso de σ
desconocida la distribución muestral del estadístico de prueba sigue la distribucion t; tiene
ligeramente más variabilidad debido a que la muestra se usa para obtener estimaciones
tanto deµ como de σ .
ESTADISTICO DE PRUEBA EN LAS PRUEBAS DE

HIPOTESIS PARA LA MEDIA POBLACIONAL: σ DE-
SCONOCIDA
x−µ
t= √
s/ n
Ejemplo.
Las especicaciones para cierton tipo de listón imponen un resistencia a la ruptura
media de 180 libras. Si 5 piezas de listón (seleccionadas aleatoriamente de distintos rollos
) tienen una resistencia a la ruptura media de 169.5 libras ccon una desviación estándar de
5.7 libras, pruebe entonces la hipótesis nula µ = 180 libras contra la hipótesis alternativa
µ ̸= 180 libras con un nivel de signicancia de 0.01. Suponga que la distribución de la
población es normal.
Proporción poblacional
En esta sección se muestra cómo realizar una prueba de hipótesis para la proporción
poblacional p. Mediante p0 se denota la proporción poblacional, las tres formas de una
prueba de hipótesis para la proporción poblacional son las siguientes:
120
H0 : p ≥ p0 H0 : p ≤ p0 H0 : p = p0
Ha : p < p0 Ha : p > p0 Ha : p ̸= p0
La primera forma es una prueba de la cola inferior, la segunda es una prueba de la

cola superior y la tercera es una prueba de dos colas.
Las pruebas de hipótesis para la proporción poblacional se basan en la diferencia entre

la proporción muestral y la proporción poblacional hipotética p0 . Los métodos para re-
alizar la prueba de hipótesis son semejantes a los usados para las pruebas de hipótesis para
la media poblacional. La única diferencia es que para calcular el estadístico de prueba se
usa la proporción muestral y su error estándar. Después, para determinar si se rechaza la
hipótesis nula se usa el método del valor-p o el método del valor crítico.
Ejemplo. Se considera que un medicamento que se prescribe comúnmente para aliviar

la tensión nerviosa tiene una ecacia de tan sólo 60%. Los resultados experimentales de
un nuevo fármaco administrado a una muestra aleatoria de 100 adultos que padecían ten-
sión nerviosa revelaron que 70 de ellos sintieron alivio. ¾Esta evidencia es suciente para
concluir que el nuevo medicamento es mejor que el que se prescribe comúnmente? Utilice
un nivel de signicancia de 0.05.
10 Modelos lineales y estimación por mínimos cuadra-

dos
En la administración, las decisiones suelen basarse en la relación entre dos o más vari-
ables. Por ejemplo, observar la relación entre el gasto en publicidad y las ventas puede
121
permitir a un gerente de mercadotecnia tratar de predecir las ventas correspondientes a
un determinado gasto en publicidad. O, una empresa de servicios públicos puede em-
plear la relación entre la temperatura diaria y la demanda de electricidad para predecir
la demanda de electricidad considerando las temperaturas diarias que se esperan el mes
siguiente. Algunas veces los directivos se apoyan en la intuición para juzgar la relación
entre dos variables. Sin embargo, cuando es posible tener datos, puede emplearse un
procedimiento estadístico llamado análisis de regresión para obtener una ecuación que
indique cuál es la relación entre las variables.
En la terminología que se emplea en regresión, a la variable que se va a predecir se le

llama variable dependiente. A la variable o variables que se usan para predecir el valor de
la variable dependiente se les llama variables independientes. Por ejemplo, al analizar el
efecto de los gastos en publicidad sobre las ventas, como lo que busca el gerente de mer-
cadotecnia es predecir las ventas, esto indica que las ventas serán la variable dependiente.
El tipo más sencillo de análisis de regresión en el que interviene una variable independi-
ente y una variable dependiente y en el que la relación entre estas variables es aproximada
mediante una línea recta se le conoce como regresión lineal simple. Al análisis de regresión
en el que intervienen dos o más variables independientes se le llama análisis de regresión
múltiple.
10.1 Modelo de regresión lineal simple

Un Modelo de regresión lineal simple es de la forma
y = β0 + β1 x + ϵ
β0 y β1 se conocen como los parámetros del modelo, y ϵ (la letra griega épsilón) es una
variable aleatoria que se conoce como término del error. El término del error da cuenta
de la variabilidad de y que no puede ser explicada por la relación lineal entre x y y .
A la ecuación que describe la relación entre el valor esperado de y , que se denota E(y),
y x se le llama ecuación de regresión. La siguiente es la ecuación de regresión para la
regresión lineal simple.
122
E(y) = β0 + β1 x
La gráca de la ecuación de regresión lineal simple es una l«ea recta; β0 es la inter-
sección de la recta de regresión con el eje y , β1 es la pendiente y E(y) es la media o valor
esperado de y para un valor dado de x.
Ecuación de regresión estimada
Si se conocieran los valores de los parámetros poblacionales β0 y β1 , se podría emplear

la ecuación de regresión para calcular el valor medio de y para un valor dado de x. Sin
embargo, en la práctica no se conocen los valores de estos parámetros y es necesario
estimarlos usando datos muestrales. Se calculan estadíssticos muestrales (que se denotan
βb0 y βb1 ) como estimaciones de los parámetros poblacionales β0 y β1 . Sustituyendo en
la ecuación de regresión βb0 y βb1 por los valores de los estadísticos muestrales β0 y β1 ,
se obtiene la ecuación de regresión estimada. La ecuación de regresión estimada de la
regresión lineal simple es de la forma
y = βb0 + βb1 x
Observación:
El análisis de regresión no puede entenderse como un procedimiento para establecer
una relación de causa y efecto entre las variables. Este procedimiento sólo indica cómo o
en qué medida las variables están relacionadas una con otra.
10.2 Método de mínimos cuadrados

Un procedimiento para estimar los parámetros de cualquier modelo lineal,es el método de
mínimos cuadrados, se puede ilustrar con sólo ajustar una recta a un conjunto de puntos.
El procedimiento de mínimos cuadrados para ajustar una recta que pase por un con-
junto de n puntos es semejante al método que podríamos usar si ajustamos una recta a
simple vista; esto es, deseamos que las diferencias entre los valores observados y los puntos
123
correspondientes en la recta ajustada sean pequeñas en un sentido general. Una forma
cómoda de lograr esto y que proporciona estimadores con buenas propiedades, es mini-
mizar la suma de cuadrados de las desviaciones verticales a partir de la recta ajustada.
Entonces, si
yb = βb0 + βb1 x
es el valor pronosticado del i−ésimo valor y (cuando x = xi ), entonces la desviación

(a veces llamada error) del valor observado de yi a partir de ybi = βb0 + βb1 xi es la diferencia
yi − ybi y la suma de los cuadrados de las desviaciones a minimizar es
∑
n ∑
n
SSE = (yi − ybi )2 = [yi − (βb0 + βb1 xi ]2
i=1 i=1
La cantidad SSE también recibe el nombre de suma de cuadrados del error.
Si la cantidad SSE tiene un mínimo, ocurrirá para valores de β0 y β1 que satisfagan

las ecuaciones ∂ SSE/∂ βb0 = 0 y ∂ SSE/∂ βb1 = 0. Tomando las derivadas parciales de la
SSE respecto βb0 y βb1 y luego resolviendo el sistema resultante se obtiene:
∑n
(x − x)(yi − y)
βb1 = i=1∑n i
i=1 (xi − x)
2
βb0 = y − βb1 x
∑ ∑
Si denotamos por Sxy la expresión ni=1 (xi −x)(yi −y) y por Sxx la expresión ni=1 (xi −
x)2 , entonces el estimador de β1 se puede expresar como
Sxy
βb1 =
Sxx
124
Ejemplo. Use el método de mínimos cuadrados para ajustar una recta a los n = 5
puntos de datos dados en la Tabla.
x y
-2 0
-1 0
0 1
1 1
2 3
Coeciente de correlación
El Coeciente de correlación mide la intensidad de la relación lineal que existe entre X

y Y . El parámetro teórico usado para medir la relación lineal de X con Y es el coeciente
de correlación de Pearson, ρ. Dicho parámetro está dendo por
Cov(X, Y )
ρ=
σx σy
Este parámetro asume valores entre -1 y 1, inclusive. Estos valores indican relaciones
negativa o positiva perfecta. El valor cero reeja la ausencia de relación lineal.
Ejemplo. Los datos siguientes corresponden a la emisión de dióxido de carbono de

calderas alimentadas con carbón (en unidades de 1000 ton) durante los años 1965-1977.
La variable independiente (el año) se estandarizó para obtener la tabla siguiente:
Año (x) 0 5 8 9 10 11 12
Emisión de CO2 (y) 910 680 520 450 370 380 340
Determine el coeciente de correlación lineal.
125
10.3 Modelo de regresión lineal múltiple.
La forma más adecuado para menajar modelos de regresión lineal múltiple es por medio
de matrices.
Supongamos que tenemos el modelo lineal
Y = β0 + β1 x1 + β2 x2 + ... + βk xk + ϵ
y hacemos n observaciones independientes, y1 , y2 ,..., yn , en Y . Podemos escribir la
observación yi como
yi = β0 + β1 xi1 + β2 xi2 + ... + βk xik + ϵi ,

donde xij es el ajuste de la j−ésima variable independiente para la i−ésima obser-
vación, i = 1, 2, ..., n. Denamos las siguentes matrices, con x0 = 1 :
   
y1 x0 x11 x12 ... x1k
 y2   x0 x21 x22 ... x2k 
   
Y =  ..  , X =  .. .. .. ..  ,
 .   . . . ... . 
yn x0 xn1 xn2 ... xnk
   
β0 ϵ1
 β1   ϵ2 
   
β= .. , ϵ =  .. 
 .   . 
βk ϵn
Entonces, las n ecuaciones que representan yi como función de las x, las β y las ϵ se puede
escribir como
Y = Xβ + ϵ
Para n observaciones desde un modelo lineal simple de la forma
Y = β0 + β1 x + ϵ,
tenemos
     
y1 1 x1 ϵ1
   ( )
 y2   1 x2 

 ϵ2 
 β0
Y= .. , X= .. ..  , ϵ= .. , β=
 .   . .   .  β1
yn 1 xn ϵn
126
(Suprimimos el segundo subíndice en x porque sólo aparece una variable x.) Las
ecuaciones de mínimo cuadrados para β0 y β1 ya dadas son:
∑ ∑
nβb0 + βb1 xi = yi
∑ ∑ ∑
βb0 xi + βb1 x2i = xi yi .
Dado que
( ∑ ) ( ∑ )
∑n ∑ x2i , y
′
XX= XY = ∑
′ i
xi xi xi y i
si
( )
βb0
βb =
βb1
entonces las ecuaciones de mínimos cuadrados están dadas por
(X′ X)βb = (X′ Y)

por tanto
βb = (X′ X) (X′ Y)
−1
Ejemplo. Resolver el ejemplo anterior usando operacines matriciales.
Ejemplo. Ajuste una parábola a los datos del ejemplo anterior usando el modelo
Y = β 0 + β 1 x + β 2 x2 + ϵ
10.4 Propiedades de los estimadores de mínimos cuadrados: re-

gresión lineal simple
1. Los estimadores β̂0 y β̂1 son insesgados, es decir, E(β̂i ) = βi , para i = 0, 1.
2. V (β̂0 ) = c00 σ 2 , donde c00 = Σx2i /(nSxx ).
127
3. V (β̂1 ) = c01 σ 2 , donde c11 = 1
Sxx
.
−X̄
4. Cov(β̂0 , β̂1 ) = c11 σ 2 , donde c01 = Sxx
.
5. Un estimador insesgado de σ 2 es S 2 = SSE

n−2
.
Si, además, el ϵi , para i = 1, . . . , n está distribuido normalmente,
6. β̂0 y β̂1 están distribuidas normalmente.

(n−2)S 2
7. La variable aleatoria σ2
tiene una distribución χ2 con n − 2 grados de libertad.
8. El estadístico S 2 es independiente de β0 y β1
Ejemplo. Encuentre las varianzas de los estimadores β̂0 y β̂1 para el Ejemplo an-
terior.
Las expresiones anteriores dan las varianzas para los estimadores de mínimos cuadra-
dos en términos de σ 2 , la varianza del término de error ϵ. Por lo general el valor
de σ 2 es desconocido y necesitaremos hacer uso de observaciones muestrales para
estimar σ 2 . Se puede demostrar que:
1
S2 = SSE
n−2
proporciona un estimador insesgado para σ 2 . Observe que el 2 que se presenta en el
denominador de S 2 corresponde al número de parámetros β calculados en el modelo.
Ejemplo. Calcule σ 2 con los datos dados en el Ejemplo anterior.
128
10.5 Inferencias respecto a los parámetros βi
Suponga que un ingeniero ha ajustado el modelo
Y = β0 + β1 x + ϵ
,
donde Y es la resistencia del concreto después de 28 dias y x es la razón entre agua

y cemento empleada en el concreto. Si, en realidad, la resistencia del concreto no
cambia con la razón entre agua y cemento, entonces β1 = 0. Así, el ingeniero puede
probar H0 : β1 = 0 contra Ha : β1 ̸= 0 para evaluar si la variable independiente
tiene una inuencia en la variable dependiente. O bien, el ingeniero puede estimar
la tasa media de cambio β1 en E(Y ) para un cambio de 1 unidad en la proporcióon
x entre agua y cemento. En general, para cualquier modelo de regresión lineal, si
el error aleatorio ϵ esta distribuido normalmente, hemos establecido que β̂i es un
estimador de βi insesgado y distribuido normalmente con
V (β̂0 ) = c00 σ 2 , donde c00 = Σx2i /(nSxx ).

V (β̂1 ) = c01 σ 2 , donde c11 = S1xx .
Esto es, las varianzas de ambos estimadores son múltiplos constantes de σ 2 , la vari-
anza del término de error del modelo. Usando esta información, podemos construir
una prueba de la hipótesis H0 : βi = βi0 (βi0 es un valor especíco de βi ), usando el
estadístico de prueba
β̂i − βi0
Z= √
σ cii
11 Estimadores de máxima verosimilitud
La técnica, llamada método de máxima verosimilitud, selecciona como estimaciones

los valores de los parámetros que maximizan la verosimilitud (la función de proba-
bilidad conjunta o función de densidad conjunta) de la muestra observada, es decir,
129
si la función de densidad f de una variable aleatoria X está relacionada con un
parámetro θ y se tiene una muestra aleatoria x1 , x2 , ..., xn , entonces el método de
máxima verosimilitud selecciona en cierto sentido, de todos los posibles valores de
θ, el que tenga mayor probabilidad de haber producido esas observaciones.
Usamos un ejemplo para ilustrar la lógica en la que está basado el método de máxima
verosimilitud. Suponga que tenemos una caja que contiene tres pelotas. Sabemos
que cada una de las pelotas puede ser roja o blanca, pero no sabemos el número
total de cualquiera de los colores. No obstante, podemos muestrear aleatoriamente
dos de las pelotas sin restitución. Si nuestra muestra aleatoria contiene dos pelotas
rojas, ¾ cuál sería una buena estimación del número total de pelotas rojas en la caja?
Obviamente, el número de pelotas rojas en la caja debe ser dos o tres (si hubiera
cero o una pelota roja en la caja, sería imposible obtener dos pelotas rojas cuando
se hace muestreo sin restitución). Si hay dos pelotas rojas y una pelota blanca en
la caja, la probabilidad de seleccionar aleatoriamente dos pelotas rojas es
(22 )(10 ) 1
3
=
(2 ) 3
Por otra parte, si hay tres pelotas rojas en la caja, la probabilidad de seleccionar
aleatoriamente dos pelotas rojas es
(32 )(00 )
=1
(32 )
Parece razonable escoger el tres como la estimación del número de pelotas rojas
en la caja porque esta estimación maximiza la probabilidad de obtener la muestra
observada. Desde luego que es posible que la caja contenga sólo dos pelotas rojas,
pero el resultado observado conere más crédito a que haya tres pelotas rojas en la
caja.
Ejemplo. Se obtienen muestras de agua de volumen especicado de un río que pre-

suntamente está contaminado a causa del tratamiento inapropiado en una planta de
tratamiento de aguas residuales. Sea X el número de microorganismos coliformes
por muestras, y suponga que X es una variable aleatoria de Poisson con parámetro
λ. Sea también x1 , x2 , ..., xn una muestra aleatoria de la distribución de X . Se
130
pretende determinar el valor de λ con el que se tiene la máxima probabilidad de ob-
servación de esta muestra. Puesto que el muestreo aleatorio implica independencia,
se tiene:
P [X1 = x1 , X2 = x2 , ..., Xn = xn ]
=P ∏[X 1 = x1 ]P [X2 = x2 ]...P [Xn = xn ]
n
= i=1 P [Xi = xi ]
Por ser X una distribución de poisson su densidad está dada por
e−λ λx
P [X = x] = f (x) = x = 0, 1, 2
x!
Por lo tanto la probabilidad de obtener la muestra dada es:
∏
n ∏
n ∏
n
e−λ λxi
P [Xi = xi ] = f (xi ) =
i=1 i=1 i=1
xi !
Esta función de probabilidad es una función de λ y la denotamos por L(λ). Al usar
las leyes de los exponentes, se tiene:
∑
e−nλ λ xi
L(λ) = ∏
xi !
Esta función se llama función de verosimilitud. Esta permite calcular la probabilidad
de observar los valores x1 , x2 , ..., xn como función del parámetro λ. Se pretende
obtener el valor de λ que maximice esta probabilidad. En otras palabras de todos
los valores posibles de λ, interesa el que conere probabilidad máxima de observar
los valores realmente observados. A n de determinar ese valor de λ se usa el criterio
de la primera derivada para extremos relativos. Para simplicar el proceso se toma
primero el logaritmo natural de L(λ) y se usan las leyes de los logaritmos para
simplicar la expresión resultante:
∑ ∏
ln L(λ) = −nλ + xi ln λ − ln xi !
El valor de λ que maximiza ln L(λ) también maximiza L(λ). Derivando respecto a

(λ) e igualando a 0, se obtiene:
131
∑
n
λ= xi /n = x
i=1
Este procedimiento no aporta el valor exacto de λ, sino más bien un método lógico
para estimar λ, por lo tanto se escribe λb = x. Dicho de otra manera, lamedia
muestral es el estimador de máxima verosimilitud del parámetro λ de una variable
aleatoria de Poisson.
Suponga que una muestra aleatoria genera los datos siguientes:
x1 = 12, x2 = 15, x3 = 16, x4 = 17
determine el valor de λ que con mayor probabilidad produjo esta muestra.
Pasos del método de máxima verosimilitud para estimar θ

(a) Obtener una muestra aleatoria x1 , x2 , ..., xn de la distribución de una variable
aleatoria X con densidad f y parámetro θ.
(b) Denir una función L(θ) como:
∏
L(θ) = f (xi )
Esta fórmula se llama función de máxima verosimilitud de la muestra.
(c) Encontrar la expresión de θ que maximice la función de verisimilitud. Ello
puede hacerse directamente o al maximizar ln L(θ).
(d) sustituir θ por θb para obtener una expresión del estimador de máxima verosimil-
itud de θ.
(e) encontrar el valor observado de dicho estimador para una muestra dada.
Ejemplo. Sea x1 , x2 , ..., xn una muestra aleatoria de una distribución normal con
media µ y varianza σ . La densidad de X es
1
f (x) = √ e−(1/2)[(x−µ)/σ]
2
σ 2π
132
.
Determine la función de máxima verosimilitud de la muestra.
Ejemplo.Un experimento binomial consistente en n ensayos resultó en las observa-

ciones x1 , x2 , ..., xn , donde xi = 1 si el i−ésimo intento fue un éxito y xi = 0 en
cualquier otro punto. Encuentre la probabilidad de un éxito, es decir, el estimador
de máxima verosimilitud de p.
12 Estimación Bayesiana
12.1 Distribución Beta

La distribución beta se utiliza para modelar variables aleatorias que adopten valores
en el intervalo (0, 1). Si x es una variable aleatoria con distribución beta, entonces
{
Γ(α+β) α−1
Γ(α)Γ(β)
x (1 − x)β−1 , 0 < x < 1, α > 0, β > 0
f (x) =
0, en otro, punto
Donde ∫ ∞
Γ(α) = xα−1 e−x dx
0
La integración por parte muestra que
Γ(α) = (α − 1)Γ(α − 1)
y si α es un entero positivo entonces
Γ(α) = (α − 1)!
La media y la varianza de la distribución beta están dadas por
133
α αβ
µ= y σ2 =
α+β (α + β)2 (α + β + 1)
Ejemplo. En cierto distrito, la proporción de tramos de carretera que requieren

de reparación en un año dado es una variable aleatoria con la distribución beta con
α = 3 y β = 2. Determine:
a) Qué porcentaje, en promedio, de tramos de carretera requiere de reparaciones en
un año dado?
b) La probabilidad de que cuando más la mitad de los tramos de carretera requieran

de reparaciones en un año dado.
12.2 Bayesianos previos y posteriores

Si Y1 , Y2 , ..., Yn denotan las variables aleatorias asociadas con una muestra de
tamaño n, ya previamente usamos la notación L(y1 , y2 , ..., yn |θ) para denotar la
verosimilitud de la muestra. En el caso discreto, esta función está denida como la
probabilidad conjunta P (Y1 = y1 , Y2 = y2 , ..., Yn = yn ) y, en el caso continuo, es la
densidad conjunta de Y1 , Y2 , ..., Yn evaluada en y1 , y2 , ..., yn . El parámetro θ está
incluido entre los argumentos de L(y1 , y2 , ..., yn |θ) para denotar que esta función
depende explícitamente del valor de algún parámetro θ. En el método bayesiano,
el parámetro desconocido θ se ve como una variable aleatoria con una distribución
de probabilidad, llamada distribución previa de θ. Esta distribución previa se es-
pecica antes de recolectar cualquier información y da una descripción teórica de
la información acerca de θ de la que se disponía antes de obtener cualquier dato.
En nuestro análisis inicial supondremos que el parámetro θ tiene una distribución
continua con densidad g(θ) que no tiene parámetros desconocidos.
Usando la probabilidad de los datos y la previa sobre θ, se deduce que la probabilidad

conjunta de Y1 , Y2 , ..., Yn , θ es
134
f (y1 , y2 , ..., yn , θ) =
L(y1 , y2 , ..., yn |θ)Xg(θ)
y que la densidad marginal o función de masa de Y1 , Y2 , ..., Yn es
∫ ∞
m(y1 , y2 , ..., yn ) = L(y1 , y2 , ..., yn |θ)xg(θ)dθ
−∞
Finalmente, la densidad posterior de θ|y1 , y2 , ..., yn es
L(y1 , y2 , ..., yn |θ)xg(θ)

g ∗ (θ|y1 , y2 , ..., yn ) = ∫ ∞
−∞
L(y1 , y2 , ..., yn |θ)xg(θ)dθ
La densidad posterior resume toda la información pertinente acerca del parámetro θ al

hacer uso de la información contenida en la densidad previa para θ y la información de
los datos.
Ejemplo. Denotemos con Y1 , Y2 , ..., Yn una muestra aleatoria de una distribución de
Bernoulli donde P (Yi = 1) = p y P (Yi = 0) = 1 − p y supongamos que la distribución
previa para p es beta (α, β). Encuentre la distribución posterior para p.
Ejemplo. Suponga que estamos interesados en estimar la proporción de quienes respon-

den a una nueva terapia para tratar una enfermedad que es grave y difícil de curar (por
ejemplo una enfermedad que se dice es virulenta). Si p denota la probabilidad de que
cualquier persona con la enfermedad responda al tratamiento, el número Y de quienes
respondan en una muestra de tamaño n podría suponerse razonablemente que tiene una
distribución binomial con parámetro p. Supongamos también que antes de que recolecte-
mos dato alguno, nuestro conocimiento de que la enfermedad es virulenta podría llevarnos
a pensar que es probable que el valor de p sea relativamente pequeño, quizá en la prox-
imidad de .25.
a) Use el método de Bayes para determinar la distribucion previa y posterior para p.
135
b) Haciendo uso del resultado anterior determine la distribución posterior en cada caso.
∑
1. α = 1, β = 3, n = 5, yi = 2
∑
2. α = 1, β = 3, n = 25, yi = 10
∑
3. α = 10, β = 30, n = 5, yi = 2
c) Determine la media y la varianza previa y posterior en cada caso.
Ejemplo. Una persona que realiza una investigación para una importante compañía
petrolera supone que la proporción de personas que requieren de petróleo en una de las
estaciones de servicio de esa compañía petrolera, es una variable aleatoria con distribución
con α = 10, β = 400. En una muestra aleatoria de tamaño n = 800, encuentra que sólo
x = 3 personas requirieron de petróleo. Determine la media y la varianza de
a) la distribución anterior de p
b) la distribución posterior de p
136

Estadist y Prob

Cargado por

Copyright:

Formatos disponibles

Estadist y Prob

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadist y Prob

Cargado por

Copyright:

Formatos disponibles

1 Estadística Descriptiva

1.1 Conceptos Básicos

Estadistica Descriptiva: Es un conjunto de métodos y técnicas que

La Estadistica Descriptiva como su nombre lo indica, describe un grupo

• Cálculo de porcentaje y tasas

• Presentación tabular, (cuadros y tablas)

• Cálculo Medidas de Tendencia Central, (promedios)

• Cálculo de medidas de dispersión o variabilidad

• Cálculo de números indice

Estadística Inferencial. Se reere a un conjunto de métodos y técnicas

Población. Es un conjunto de elementos con características parecidas o

Muestra: Es un subconjunto de la población que se toma para nes de

Por su parte el concepto de signicación tiene que ver con la cantidad de

Parámetro: Es una medida de referencia la cual se calcula a partir de

Estimador o Estadígrafo: Es una medida calculada a partir de los

1.2 Variables y su clasicación

Variables cualitativas: son aquellas variables que describen una cual-

Variables cuantitativas: son aquellas variables que describen una can-

Las variables cuantitativas se dividen en dos categorías: Continuas y

Variables cuantitativas discontinuas o discretas: son aquellas vari-

Para el desarrollo de este curso entendemos por Medicion al proceso medi-

En cada una de estas variables tendremos una medición en cada uno de

Lo que se quiere señalar es que hay diferente forma en como podemos

Escala de Medición: Es la forma en como se mide una variable, es

Existen cuatro tipos de escala de medición: nominal, ordinal, de intervalo

Escala Ordinal: Es aquella escala en la cual los numerales se asignan a

Tanto la escala ordinal como la nominal se usan en la medición de vari-

Escala de intervalo. Es una escala cuantitativa cuya característica prin-

Escala de Razón o Proporción: Es una escala cuantitativa cuya car-

Los elementos de una distribución de frecuencias son:

5. la anchura de clase es la diferencia entre dos límites de clases inferiores

Procedimientos para construir una Distribución de Frecuencias

Para construir una distribución de frecuencias se dan los siguientes pasos:

3. Punto de partida: Comience por elegir un número para el límte infe-

4. Usando el límite inferior de la primera clase y la anchura de clase, pro-

5. Determine la frecuencia de cada clase.

Distribución de Frecuencias relativas

Una Distribución de Frecuencias relativas se determina dividiendo la fre-

Distribución de Frecuencias acumuladas

Otra variante de la distribución de frecuencias estándar se utiliza cuando

Un histograma es una gráca de barras donde la escala horizontal repre-

Un polígono de frecuencias es un gráco de línea trazado sobre las marcas

Ejemplo. Los datos siguientes corresponden a las puntuaciones del co-

102 135 105 82 114 126 93 107 128 123

1. Contruya una distribución de frecuencias.

2. Contruya una distribución de frecuencias relativas.

3. Contruya una distribución de frecuencias porcentual.

4. Contruya una distribución de frecuencias acumuladas.

5. Contruya una distribución de frecuencias acumuladas porcentual.

6. Interprete la frecuencia simple de la 3ra. clase.

8. Interprete la frecuencia acumulada porcentual de la 5ta. clase.

9. Construya un histograma y un pol'gono de frecuencias.

Distribucion del coeciente de inteligencia de una poblacion de 70

Las principales medidas de tendencia central son:

• Promedio o media aritmética

Para una variable X , se denota por X en el caso de una muestra y por µ

Propiedades matemáticas de la media aritmética

es decir, una media aritmética ponderada de todas las medias.

Estadística Inferencial. Se reere a un conjunto de métodos y técnicas

Muestra: Es un subconjunto de la población que se toma para nes de

Por su parte el concepto de signicación tiene que ver con la cantidad de

1.2 Variables y su clasicación

Un histograma es una gráca de barras donde la escala horizontal repre-

Un polígono de frecuencias es un gráco de línea trazado sobre las marcas

9. Construya un histograma y un pol'gono de frecuencias.

Distribucion del coeciente de inteligencia de una poblacion de 70

Ejemplo. Los siguientes datos corresponden a las calicaciones de 15 es-

El rango. Se dene como la diferencia entre el valor mayor y el valor

Ejemplos. Las calicaciones de un grupo de estudiantes en un examen

2. Espacio muestral innito numerable, si tienen un número innito nu-

3. Espacio muestral continuo, si tienen un número innito no numeable

4. Si A1 ,A2 ,..., An es cualquier colección nita de eventos , entonces ∪ni=1 Ai

5. Si A1 ,A2 ,..., An es cualquier colección nita de eventos , entonces ∩ni=1 Ai

Denición. Dos eventos A y B, son mutuamente excluyentes si no pueden

2.3.2 Objeciones a la denición Clásica

1. El espacio muestral ha de ser nito.