0% encontró este documento útil (0 votos)
492 vistas163 páginas

MANUAL

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1/ 163

MANUAL PARA EL CURSO DE LA CLASE DE PROBABILIDAD Y

ESTADÍSTICA.

CÓMO ESTUDIAR EL CURSO DE PROB. Y EST. Y ACREDITARLO

Los siguientes principios son útiles para tener éxito en este curso y en otros cursos:

1.- Para aprovechar este curso al máximo es necesario que te comprometas contigo mismo y con
el curso. Es necesario que le inviertas tiempo, energía y esfuerzo creativo. Debes pensar y actuar
como un científico, ingeniero o maestro que se preparan para ejercer en el mundo real.

2. Tu participación en clase y las preguntas que hagas te ayudarán a entenderte a ti mismo, a que
el profesor pueda identificar áreas donde necesitas ayuda y tus áreas de fortalezas. El uso de la
razón al analizar las diversas situaciones permitirá entender mejor el material del curso. No se
trata de aplicar una formula para obtener una contestación numérica. Es necesario cuestionarlo y
justificarlo todo, inclusive a ti mismo.

3. El curso se enseñara en una forma constructivista, por lo cual debes de participar activamente
en la construcción, derivación y explicación concreta de los conceptos. Es conveniente que recrees
las construcciones hechas previamente en clase.

4. Se llevarán notas del curso y las cuales formarán parte de tu libreta del curso, llevaras un
avance diario del curso y lo entregaras en un disquete al final de los temas de cada parcial, lo
complementaras con aportaciones tuyas ya sean teóricas o ejercicios y problemas.

5. Al analizar el material, no deberás de mirar y memorizar formulas, sino deberás de construirlas,


explicarlas y aplicarlas. Será de gran ayuda reproducir el proceso llevado a cabo en el salón de
clases, prestando atención al significado de los conceptos y al por qué de las derivaciones.

6. Los problemas asignados sólo se discuten en clase, se hacen en el salón cuando existan
preguntas específicas al respecto. Debes de resolver los problemas asignados y no dejarlos para
última hora, esto facilitará el entender y aplicar los conceptos. Los exámenes y pruebas cortas
anteriores pueden ser de gran ayuda para estudiar.

7. Lee los materiales, en especial los problemas en forma cuidadosa y cabal, pero nunca en forma
mecánica. No asumas que sabes lo que se pide en el problema, interpreta lo que lees y asegúrate
que entiendes todo lo leído. El mismo proceso debe de ser seguido cuando escribes. Asegúrate
de leer críticamente lo que escribes, recuerda que escribes para que otra persona te entienda.

8. Debes de reproducir los ejemplos y problemas hechos y discutidos en clase y debes de


completar las asignaciones y preguntas específicas que se hacen en clase.

9.- Los textos son elementos complementarios al curso, no constituyen una guía para el mismo. No
se sigue el orden de ningún libro, sin embargo, debes de leer las secciones apropiadas según el
tema, debes de resolver los ejercicios y sus problemas.

10. Usa las horas de estancia del profesor, plantea preguntas en el salón y después de clase,
presenta tus puntos de vista sobre los asuntos del curso, usa el correo electrónico para enviar tus
preguntas y dudas en cualquier momento al profesor y a tus compañeros de clase, usándolo en
forma ética y profesional.

11.- Integra los conceptos aprendidos a otras áreas de la carrera de ingeniería civil ó integrada a
tus experiencias que hayas tenido antes.

12. Debes de asegurarte de que:

ͻ No llegarás tarde a clases

ͻ De que no faltarás

ͻ Trabajaras todos los días

- Redescubriendo el material en los textos

- Haciendo ejercicios y problemas


- Explorando en el Internet

- Reproduciendo las notas, etc.

13. Formaras un grupo de estudio, ya sea presencial o virtual.

14. Trabaja en la computadora ya que es un instrumento valioso como estudiante y luego en tu


vida profesional. Conéctate al Internet y obtén información valiosa.

15. SOBRE TODO, SÉ ACTIVO, COMPROMETIDO Y DESPIERTO CON EL CURSO DE PROBABILIDAD Y


ESTADÍSTICA.

Programa de clase.

Asignatura: Probabilidad y estadística.

Profesor: Ing. Oscar Manuel Robles Sánchez.

Introducción:

Actualmente el estudio de la Probabilidad y Estadística esta dirigido tanto a los campos


especializados en la Investigación, como a la Ingeniería, a los negocios, a la Biología, la Educación,
etc.

Para fines didácticos el curso se ha dividido en 4 unidades en las cuales el estudiante conocerá
y aplicará los principales conceptos de la probabilidad y deberá de desarrollar una habilidad para
aplicar un razonamiento lógico matemático a la interpretación y solución de los fenómenos
aleatorios. En la siguiente unidad aplicará todos sus conocimientos a la generación y aplicación de
una serie de modelos matemáticos. En la tercera unidad comprenderá la necesidad de agrupar
datos para darles un tratamiento estadístico y representarlos por una serie de graficas y por sus
valores medios y de dispersión. Finalmente, entenderá y aplicará el objetivo fundamental de la
estadística que es el de al Inferencia.

Las 4 unidades consideran el comprender el significado y las implicaciones de las ideas básicas,
mas que el memorizar una lista de fórmulas.

Este curso es importante en la formación del Ingeniero Civil, ya que el quehacer de las obras de
Ingeniería, depende de las características de los datos y de cómo estos acontecen, lo que te
permitirá diseñarlas de una manera funcional (caminos, presas, viviendas, estructuras, agua
potable, alcantarillado, etc.).

Este curso requiere de un conocimiento de las matemáticas y computación básicas, además,


hay que saber razonar las técnicas donde el calculo matemático es solo un proceso mecánico.

Objetivo General del curso:

El alumno desarrollara una capacidad para reconocer los modelos matemáticos que describen
los fenómenos aleatorios, a través de reconocer a la Estadística como la ciencia que se relaciona
con los datos y su tratamiento, y a la probabilidad como la ciencia que aporta los elementos o
modelos para la validación, ambas juntas a través de la Inferencia Estadística.

Contenido Temático.

Unidad 1.- La Probabilidad

a) Introducción (como estudiar el curso, descripción programa).

b) Investigación, diseño experimental y su teoría

c) Teoría de los conjuntos

d) Las leyes de la Probabilidad.

e) El Teorema de Bayes.

f) Las técnicas de conteo o combinatoria.

g) Las variables aleatorias.

h) La esperanza matemática o valor esperado.

i) La función generatriz de momentos.

j) Las distribuciones de probabilidad. Total 22 hrs.

Unidad 2.- Los modelos de las distribuciones de probabilidad.

a) Los modelos de variables aleatorias discretas:

a. La distribución Hipergeométrica
b. La distribución Binomial

c. La distribución Geométrica

d. La distribución de Poisson

e. La distribución Multinomial

f. La distribución Binomial Negativa

b) Los modelos de las variables aleatorias continuas:

a. El teorema de Tshebyshef

b. La distribución uniforme

c. La distribución Gamma

d. La distribución Exponencial

e. La distribución normal o curva de Gauss

f. Ajuste del caso continúo al caso discreto. Total 22 hrs.

Unidad 3.- La Estadística

a) El tratamiento de los datos

b) Los parámetros de tendencia central

c) Los parámetros de dispersión

d) La regresión y la correlación. Total 10 hrs.

Unidad 4.- La inferencia Estadística

a) El diseño de experimentos

b) La teoría del muestreo

c) Las distribuciones muéstrales del promedio

d) La teoría de la estimación estadística

e) Las pruebas de hipótesis estadísticas


f) La teoría exacta del muestreo. Total 12 hs.

Algunos libros de referencia:

ͻ Introducción a la probabilidad y estadística.

William Mendenhall

ͻ Estadística elemental.

John Freund ʹ Gary Simon

ͻ Introducción a la probabilidad y estadística / guía programada

Beaver y Mendenhall

ͻ Estadística

Murray spiegel

ͻ Elementos de probabilidad y estadística

Elmer Mode.

UNIDAD 1

Introducción a la Probabilidad y Estadística.

En la Ingeniería civil se aceptan una serie de hipótesis simplificatorias (las cargas son axiales, los
materiales son homogéneos, los cuerpos son rígidos, etc.) con el fin de llegar a formulaciones
simples de un problema, llamado modelo matemático, el cual facilita el calculo pero a la vez es
suficientemente representativo. Es un modelo determinado que funciona al sustituir las variables
independientes y definir las dependientes. Pero en la Ingeniería también existen fenómenos que
están sujetos a leyes azarosas o del azar, es decir existe incertidumbre en su ocurrencia y una
hipótesis no es suficiente, ( volúmenes de tránsito, velocidades del viento, volúmenes de agua
escurridos por lluvia, diseños de sistemas de agua potable y alcantarillado, programas de obra,
distribución de transito en la red vial, etc.).
Lo anterior indica contar con una base de datos para interpretar el fenómeno y una forma de
actuar ante un fenómeno con incertidumbre, lo que constituye la esencia de la Probabilidad y
Estadística.

La probabilidad plantea leyes del azar y las cuales se utilizaran como base para guiarnos a
predecir los resultados de ciertos experimentos o fenómenos teniendo así una base para la toma
de decisión, en la Estadística observaremos los resultados de acciones repetitivas y que nos
representan la realidad de los datos recolectados de una muestra asociada a una población,
finalmente con la ayuda de probabilidades estimadas realizaremos inferencias que es el fin último
del análisis del fenómeno y que nos permite definir la población de la cual se obtuvo la muestra.

La probabilidad razona de la población a la muestra y la estadística de la muestra a al


población.

Todo Ingeniero requiere de tener conocimientos de la Probabilidad y Estadística, ya que para


incrementar los conocimientos que se tienen acerca del mundo es necesario el empleo de las
inferencias estadísticas. En un problema de probabilidad las propiedades de la población se
suponen conocidas y se formulan y responden preguntas en relación con una muestra tomada de
la población. En un problema estadístico, las características de la muestra están disponibles para
el experimentador y esta información nos permite sacar conclusiones respecto a la población. Es
decir, la probabilidad razona de la población a la muestra (razonamiento deductivo), y la
Estadística razona de la muestra a la población (razonamiento inductivo o inferencia estadística).
Lo anterior indica que antes de comprender lo que nos puede decir una muestra en particular
acerca de una población, primero deberemos de entender la incertidumbre asociada con el hecho
de tomar una muestra de una población, de donde, es preferible primero estudiar la probabilidad
y después de la Estadística.

En los fenómenos con los cuales trabaja el ingeniero Civil, generalmente existe un grado de
incertidumbre, por ejemplo: en las demandas de tráfico, en las precipitaciones pluviales, en la
resistencia del acero, en las cargas sobre un edificio, en la calidad del agua, en la resistencia del
suelo, en la resistencia del concreto, en la demanda de agua, en al intensidad de un sismo, en la
velocidad del viento, etc., los cuales son fenómenos que no tendrán exactamente los mismos
valores observados, aún bajo condiciones aparentemente idénticas. Lo anterior nos lleva a que un
Ingeniero Civil debe de reconocer y tratar la incertidumbre de manera realista y sobre todo de
manera económica.

Si la Incertidumbre es pequeña, será posible despreciarla, pero si la Incertidumbre es


considerable se deberán de seleccionar estimadores prudentes que la consideren.

El tomar decisiones y el transmitir información cuando hay incertidumbre, son necesidades


que requieren de métodos especiales de análisis y los cuales son estudiados por la Probabilidad y
la Estadística, a través de modelos de la probabilidad, a través del tratamiento de los datos y el
cálculo de parámetros y a través del campo de la Inferencia estadística.
En el plan de estudios de nuestra facultad, existen materias tales como, Materiales de
construcción, Tecnología del Concreto, Mecánica de Suelos, Geotecnia, Pavimentos, Ingeniería de
tránsito, Ingeniería ambiental y de Salud Pública, Administración de obras, Costos de construcción,
Ingeniería del Transporte, Alcantarillado, Hidrología, Geología, las cuales requieren de la toma de
muestras, de su análisis y de ahí llevar a cabo una inferencia al total del universo que se pretende
analizar, apoyándose en el tratamiento de los datos, en el calculo de parámetros y en la regresión
y correlación.

En materias como la de Planeación del Desarrollo, la Estadística es fundamental para la


definición de los diagnósticos que son base para la toma de decisión. El diseño estructural esta en
base a los resultados obtenidos de las muestras analizadas de materiales, concreto, suelos.

Se puede considerar que todo el campo de la Ingeniería aplicada, requiere de la aplicación de


alguna parte del campo de la Probabilidad y Estadística.

LA NECESIDAD DE LA EXPERIMENTACIÓN:

Un experimento es un procedimiento que da origen a los datos, desde el punto de vista


estadístico de un experimento se dirá que se sabe exactamente que hacer para realizarlo, es
repetible bajo condiciones esenciales equivalentes, da un resultado pero no es conocido para un
caso particular. La Investigación cuantitativa tiene como finalidad el análisis o experimentación de
situaciones para el descubrimiento de nuevos hechos, la revisión o establecimiento de teorías y las
aplicaciones prácticas de las mismas, se basa en los principios de observación y razonamiento y
necesita en su carácter científico el análisis técnico de datos para obtener de ellos información
confiable y oportuna, por lo que se requiere de la Estadística como herramienta, por lo que el
investigador debe de manejar los conceptos, técnicas y procedimientos estadísticos.

Dos conceptos básicos en la Estadística son población y muestra, la población es sobre la cual
queremos hacer afirmaciones a través de un subconjunto extraído de ella y que se denomina
muestra, las conclusiones tendrán validez estadística.

El problema de la Estadística de estudiar una muestra y estimar el parámetro desconocido para


tomar una decisión se resuelve con el diseño experimental.

PROBABILIDAD

Teoría de los Experimentos.-


ͻ LA PROBABILIDAD Y LA ESTADISTICA:

Son herramientas usadas en al mayoría de las ciencias para poder efectuar mejores tomas de
decisiones.

ͻ EXPERIMENTO:

Proceso para obtener una observación de un fenómeno o proceso cualquiera, involucra tres
etapas; ACCION, RESULTADO Y OBSERVACION.

ͻ VARIABLES EXPERIMENTALES:

Son las que tienen un efecto sobre el experimento, pueden ser cuantitativas o cualitativas.

ͻ TIPOS DE EXPERIMENTOS:

Se consideran de dos tipos; los aleatorios y los experimentos determinísticos.

ͻ EXPERIMENTO ALEATORIO:

Los datos y resultados están libres de determinación, se define por la distribución teórica de una
variable y de su estudio se encarga la probabilidad.

ͻ EXPERIMENTO DETERMINISTICO:

Son aquellos en que datos y resultados se conocen en forma absoluta. En su estudio se encarga de
las distribuciones empíricas de una variable a través de la estadística.

ͻ PUNTOS MUÉSTRALES:

Un experimento produce uno y solo uno de los sucesos, si a cada suceso se le asigna un punto se
tendrá un punto muestral. Un experimento tendrá tantos puntos muéstrales como sucesos
puedan acontecer.

ͻ ESPACIO DE EVENTOS (S):

Es la totalidad de resultados posibles de un experimento, también se le llama universo o población


o censo. Es el conjunto de todos los puntos muéstrales.

ͻ EVENTO SIMPLE:

Es cada uno de los resultados del espacio de eventos (cada punto muestral es un evento simple).

ͻ EVENTO MULTIPLE:

Es un conjunto de eventos simples, se representa con mayúsculas.

ͻ EVENTO IMPOSIBLE:( Ɍ )
Es el que no se define en el espacio de eventos.

ͻ NOTACION CONSTRUCTIVA DE EVENTO UN MULTIPLE:

A = {x x es algo}, A es el conjunto de eventos simples x, tal que x es algo del experimento.

ͻ VERIFICACION DE UN EVENTO:

Si A se verifica de nA maneras distintas y B de nB maneras distintas, ambos se verifican de


nA*nB maneras distintas, se generaliza para más de dos eventos.

EJEMPLO:

Un experimento consiste en tirar un par de dados y observar las caras que caen hacia arriba.
Determine los eventos múltiples:

A = {x | x es par} (espacio de eventos) nx * ny = 6*6 = 36 = ns

B = {x | x es non}

C = {x | x es 12}

D = {x | x es < 2}

Espacio de eventos cualitativo

S = 36

A = {(1, 1); (3, 1); (2, 2); (1, 3); ... (4, 6); (6, 6)} nA = 18

B = {(2, 1); (1, 2); (4, 1); (3, 2); ... (6, 5); (5, 6)} nB = 18

C = {(6, 6)} nC = 1
D = {Ɍ} vacío o imposible

Teoría de los conjuntos.-

ͻ CONJUNTO:

Es una lista bien definida de objetos, por lo que un evento será un conjunto.

ͻ INCLUSION O IGUALDAD:

Si todos los eventos simples de A son también eventos de B se dirá que A(B, o sea que A esta
contenida en B, en caso contrario se dice que A(B.

ͻ COMPLEMENTO (A͛):

Si tenemos un evento A de un experimento cuyo espacio es S se llamara complemento de A y se


representa por A͛, al conjunto de eventos que están en S pero no están en A.

ͻ OPERACIÓN ENTRE CONJUNTOS:

Sirve para obtener nuevos conjuntos básicamente se consideran de dos tipos Unión (() e
Intersección (().

ͻ UNION:

Dados los eventos A y B la expresión: A(B = C, indica el conjunto de eventos que están en A o en
B pudiendo estar en ambos.

A(B = {x | x ( A y/o x ( B}

Se generaliza para mas de dos eventos: A(B(C(D.......

ͻ INTERSECCION:

Dados los eventos A y B la expresión A(B = C, indica el conjunto de eventos que están en A y en
B, es decir {x | x ( A y x ( B}

Se generaliza para n eventos.

ͻ TIPOS DE CONJUNTOS SEGÚN SUS EVENTOS:

DISCRETOS O CONTINUOS:

Pueden ser discretos, cuando toman el campo de los números enteros.

Serán continuos cuando puedan tomar toda la gama de valores entre dos enteros consecutivos
o en el intervalo de (a, b).
FINITOS E INIFINITOS:

Finito si es contable el campo del espacio de eventos.

Infinito si no puede ser contable el espacio de eventos.

ͻ PROPIEDADES DE LOS CONJUNTOS:

CONJUNTO VACIO

A(Ø=A

A(Ø=Ø

CONJUNTO UNIVERSAL

A(S=S

A(S=A

CONJUNTO COMPLEMENTARIO

A ( A' = S

A ( A' = Ø

PROPIEDAD DE COMPLEMENTO

(A ( B)' = A' ( B'

(A ( B)' = A' ( B'

ASOCIATIVA

A ( (B ( C) = (A ( B) ( C

A( (B ( C) = (A ( B) ( C

CONMUTATIVA

A(B=B(A Y A(B=B(A

DISTRIBUTIVA

A ( (B ( C) = (A ( B) ( (A ( C)

A ( (B ( C) = (A ( B) ( (A ( C)
ͻ ASPECTOS CUALITATIVOS Y CUANTITATIVOS DE LOS CONJUNTOS:

Un conjunto tiene estas dos propiedades, a la probabilidad y estadísticas solo les interesa el
aspecto cuantitativo, es decir, interesa cuantos son pero no quienes son.

EJEMPLO:

Un experimento consiste en tirar un dado, dados los siguientes conjuntos múltiples A, B, C, D.:

A = {x | x es par}

B = {x | x es non}

C = {x | x es > 4}

D = {x | x = 3}

Y DONDE S = {1, 2, 3, 4, 5, 6} (conjunto finito y discreto)

-11-

DETERMINAR:

A(B, A(B, A(B(C, B(C(D Y (A(C) ( (B(D)

RESPUESTA:

 A = {2, 4, 6}

 B = {1, 3, 5}

 C = {5, 6}

 D = {3}
 A(B = {2, 4, 6, 1, 3, 5} = {S} n A(B = 6

 A(B = {Ø} n A(B = 0

 A(B(C = {2, 4, 6, 1, 3, 5} = {S} n A(B(C = 6

 B(C(D = {1, 3, 5, 6} n B(C(D = 4

 (A(C) ( (B(D) = {(2, 4, 6, 5) ( (1, 3, 5)} = {5} n(A(C) ( (B(D) = 1

ͻ DIAGRAMAS DE VENN-EULER

Las operaciones con los conjuntos se pueden representar gráficamente, considerando que el
experimento es un conjunto de puntos de un plano y cada punto del espacio es un evento, como
se muestra:

A(B(C

EJEMPLO:

Un coche puede requerir reparación general, reparar la transmisión o llantas nuevas, un coche
requiere las tres reparaciones, ocho no requieren reparación alguna, dos requieren transmisión y
llantas pero no-reparación, tres reparación general y llantas pero no-transmisión, cuatro
reparación y transmisión pero no llantas, cinco transmisión pero no llantas ni reparación general,
seis llantas pero no-reparación general ni transmisión y siete reparación general pero no
transmisión y llantas.

A) Represente en notación de conjuntos

B) Elabore el diagrama de Venn-Euler

RESPUESTA

A)

R = reparación general
T = transmisión

L = llantas

a) R, T Y L: n(R(T(L) = 1

b) SIN REPARACION n(R(T(L)͛ = 8

c) T Y L NO R n(T(L(R͛) = 2

d) R Y L NO T n(R(L(T͛) = 3

e) R Y T NO L n(R(T(L͛) = 4

f) T PERO NO R Y L n(T(L͛(R͛) = 5

g) L PERO NO R NI T n(L(R͛(T͛) = 6

h) R PERO NO T Y L n(R(L͛(T͛) = 7

i) S = 36

j) n(R(T(L) = 28

k) nR = 15

l) nT = 12

m) nL = 12

B)

EJEMPLO:

En un grupo de 20 alumnos hay 16 aprobados en matemáticas y 12 en física pero existen 2


reprobados en ambas. ¿Cuántos alumnos aprobaron las dos materias?

RESPUESTA:

nM = 16

nF = 12
nS = 20

M(F =?

M(F

Entonces:

n (M(F) = ns ʹ (M(F)͛ = 20 ʹ 2 = 18

n (M(F) = nM + nF ʹ n(M(F)

18 = 16 + 12 ʹ n (M(F)

n (M(F) = 16 + 12 ʹ 18 = 10

n(M(F) = 10

M(F = 18

EJEMPLO

Al interrogar a 500 alumnos inscritos a uno o más cursos semestrales de álgebra, física y
estadística se encontró que tomaron álgebra 329, física 186, estadística 295, álgebra y física 83,
álgebra y estadística 217, física y estadística 63. Calcule él número de estudiantes que cursaron las
tres materias.

RESPUESTA

Datos:

S = 500 n(A(E(F) = 500

nf = 186

nA = 329 A F

nE = 295
n(A(F) = 83 (a + b)

n(A(E) = 217 (a + d)

n(F(E) = 63 (a + c) E

n(A(F(E) =?

nF + nA + nE = (a + b + c + e) + (a + b + d +f) + (a + c + d + g)

nF + nA + nE = 186 + 329 + 295

nF + nA + nE = 810

500 + (a + b) + (a + d) + (a + c) ʹ a = 810

500 + 83 + 217 + 63 ʹ a = 810

a = 53 = n(A(F(E) que tomaron las tres materias

A F

Determine además:

 tomaron álgebra pero no estadística.

 tomaron física pero no álgebra.

 tomaron estadística pero no física.

 tomaron álgebra o estadística pero no física.


 tomaron álgebra pero no física ni estadística

Conceptos de probabilidad

Existen tres maneras básicas de definir la probabilidad, surgen de planteamientos conceptuales


diferentes, pero implican lo mismo, ͞La aleatoriedad͟.

a) Concepto frecuentista de probabilidad, también se denomina de frecuencia relativa, surge en el


siglo XIX cuando inversionistas tuvieron la necesidad de valuar el riesgo de perdidas en pólizas de
seguros, tomaron como base datos de nacimientos y muertes, definieron la frecuencia relativa de
ocurrencia y tomaron una decisión. Es un hecho empírico que la frecuencia relativa tienda a
estabilizarse cuando aumenta la frecuencia total.

La Frecuencia Relativa es una cifra pasada para predecir lo que sucederá en el futuro.

El problema radica en cuantas veces repetir el experimento. El fenómeno para que sea aplicable
debe tener una situación estable de frecuencia.

Las condiciones para la frecuencia relativa son, de que deben de realizarse un gran número de
intentos y el fenómeno debe de tener una consistencia estable en su frecuencia.

b) Concepto subjetivo, es una probabilidad asignada por individuos o personas en base a su juicio y
experiencia, puede considerar una frecuencia relativa o creencias vividas. Los expertos que toman
decisiones, hace un uso elevado de esta subjetividad. Al formalizarse la subjetividad se puede
llegar a formalizar un concepto de probabilidad para los sucesos.

c) Concepto clásico, es el que considera que todos los resultados son igualmente verosímiles, y no
existe fundamento para preferir una de entre varias posibilidades, todas serán equiprobables,
situación real, pero a la vez situación que quizás no puede existir.

LaPlace considero esta idea y formulo la regla clásica de probabilidad, del cociente de eventos
favorables al de caso posible, todos verosímiles, esta probabilidad también se llama a priori y
parte de una simetría en el mundo. Kolmogoroff planteo una fundamentación axiomática de la
probabilidad y es como se aplica actualmente pero basado en el concepto de LaPlace.

El problema surge cuando se tiene que comprobar lo verosímil que es lo mismo al concepto de
que es igualmente probable, es decir, si se justifica la premisa con el resultado. Entonces que
ocurre cuando un experimento no presenta dicha simetría o que hacer cuando el número de
resultados del experimento es infinito.

Teoría de la probabilidad

ͻ PROBABILIDAD

Este concepto es importante cuando se operan procesos que generan observaciones que no se
pueden predecir, pero su FRECUENCIA RELATIVA con la cual ocurre en una gran serie de
observaciones, generalmente es estable, estos eventos se denominan ALEATORIOS O
ESTOCASTICOS. La frecuencia relativa da una medida intuitiva de la posibilidad de ocurrencia de
un evento aleatorio en observaciones futuras.

El concepto clásico de probabilidad considera que es finito él numero de eventos simples


asociados a un experimento aleatorio y donde todos y cada uno de ellos SON IGUALMENTE
POSIBLES en su ocurrencia, la probabilidad de un evento A contenida en S y formado por nA
eventos, se obtiene por la relación que existe entre los eventos favorables respecto al espacio de
eventos a decir:

PA = nA/nS

Siempre y cuando el experimento se repita muchas veces.

ͻ LIMITES DE LA PROBABILIDAD

La probabilidad es un número comprendido entre cero y uno

P (A) = nA/nS

Sí nA = nS

P (A) = nA/nS = 1
P (Ø) = 0

0 < P (A) < 1

ͻ PROBABILIDAD POR COMPLEMENTO

nA͛ = nS - nA

Si todos están en el mismo espacio de eventos se puede dividir todo entre el espacio de
eventos

nA͛/nS = nS ʹ nA/nS

P (A͛) = 1 ʹ P (A)

P (A) = 1 ʹ P (A͛)

P(A) + P(A͛) = 1

Kolmogorov al dar la definición axiomática de probabilidad, le permite desarrollar una teoría


sólida sobre el concepto definido:

Axioma 1: para todo suceso A de S P (A) > 0

Axioma 2: para todo suceso S de S P(S) = 1

Axioma 3: para toda colección de sucesos incompatibles Ai ( Aj = ( para i(j

Debe de ser para ai igual a la sumatoria de ai ( p (Ai)

Lo anterior indica que cualquier asignación que hagamos debe de verificar estos tres axiomas
para que se pueda llamar probabilidad.
ͻ LEY DE ADICION DE PROBABILIDAD

AUB

n (A(B) = nA + nB ʹ n(A(B) si todo se divide entre nS tendremos...

n (A(B)/nS = nA/nS + nB/nS ʹ n(A(B)/nS

P(A(B) = PA + PB ʹ P(A(B)

Si no hay intersección de A y B si n (A(B) = ( los eventos son mutuamente excluyentes

nS

AUB

N(A(B) = nA + nB si dividimos todo entre nS tendremos

N(A(B)/nS = nA/nS + nB/nS

P(A(B) = PA + PB

Se generaliza la ley de adición de probabilidad tanto para conjuntos que tengan eventos
comunes, como para aquellos que sean mutuamente excluyentes, es decir:

P (A ( B ( C ( D ( ................) = PA + PB + PC + PD +..................

EJEMPLO 1
Una urna tiene 6 bolas rojas, 4 blancas y 5 azules. El experimento aleatorio consiste en extraer
una bola de la urna y observar su color. Encuentre la probabilidad de que la bola extraída.

a) sea roja nR = 6

b) sea blanca nB = 4

c) sea azul nA = 5

d) no sea roja

e) sea azul o roja

Son eventos mutuamente excluyentes

a) P (R) = n(R)/n(S) = 6/15 = 40%

b) P (B) = nB/nS = 4/15 = 26.67%

c) P (A) = nA/nS = 5/15 = 33.33%

d) P (R͛) = 1 ʹ P (R) = 1 ʹ 0.4 = 0.6 = 60% ó P ( AUB )=PA +PB = 60%

e) P (B͛) = 1 ʹ P (B) = 1 ʹ 0.2667 = 0.7333 = 73.33% ó P(AUR)=PA+PR = 73.33%

ͻ PROBABILIDAD CONDICIONADA O LEY DE LOS PRODUCTOS

Si consideramos un espacio S y donde B es un evento posible de S, será posible considerar a B


como un nuevo espacio de eventos. Si A es otro evento posible de S con un numero de eventos
comunes a B, la probabilidad de A en el nuevo espacio de eventos de B se denomina probabilidad
condicional, es decir :

A(B

P(A/B)

Probabilidad condicionada

P(A/B) = N(A(B)/N (B) todo entre N(S)


P (A/B) = [N (A(B) / N(S)] / [N (B) / N (S)]

P (A/B) = P (A(B) / P (B)

P (A(B) = P (B) * P (A / B)

Se generaliza

En forma para A

P (B/A) = N (A(B) / N (A) = P (A ( B) / P (A)

P (A ( B) = P (A) * P (B / A)

De ésta manera

P (B) * P(A/B) = P (A) * P (B / A)

Si se quita la condición se tendrá la independencia de eventos, la cual es diferente de los


eventos mutuamente excluyentes.

Para B:

P (A ( B) = P (B) * P(A / B) se quita la condición

P (A ( B) = P (B) * P(A)

Para A:

P(A ( B) = P(A) * P (B/A) se quita la condición

P(A ( B) = P(A) * P (B)

EJEMPLO

El experimento extraer 3 bolas de una urna con seis bolas rojas, cuatro blancas y cinco azules.

SIN REEMPLAZO: probabilidad condicionada


CON REEMPLAZO: independencia de eventos

a) P en el orden R, B, A:

C.R. P (R ( B ( A) = PR * PB * PA

= 6/15 * 4/15 * 5/15 = 8/225 = 3.5%

S.R. P (R ( B ( A) = PR * P (B / R) * P(A / R ( B)

= (6/15 * 4/14 * 5/13) = 4/91 = 4.4%

b) 1 de cada color

S.R. P (R ( B ( A) = P (R ( A ( B) ( P (A ( R ( B) ( P(A ( B ( R) ( P(B(A(R) ( P(B(R(A) = 6(6/15 * 4/14 *


5/13) = 26.37%

C.R. P1 DE CADA COLOR = 6(6/15 * 4/15 * 5/15) = 21.33%

c) 2R, 1B

P2R Y 1B = 3P(R(R(B) = 3(6/15 * 5/14 * 4/13) = 13.19%

d) 3A

P3A = P(A(A(A) = (5/15 * 4/14 * 3/13) = 2.2%

e) al menos 2R

P(2R = P2R(P3R = 3P (R(R(R͛) + P(R(R(R) = 3(6/15 * 5/14 * 9/13) + (6/15 * 5/14 * 4/13) = 4.69%

f) cuando mucho 1 azul

P1Aч = P0A ( P1A


P1Aч = 1P (A͛(A͛(A͛) + 3P (A(A͛(A͛) = (10/15 * 9/14 * 8/13) +3(5/15 * 10/14 * 9/13) = 75.0%

EJEMPLO

Una urna contiene 2 bolas blancas y 1 negra, una segunda urna contiene 1 bola blanca, el
experimento consiste en pasar una bola de la primera urna a la segunda urna, encuentre la
probabilidad de que al extraer una bola de la urna dos, esta sea blanca.

ALTERNATIVAS PROBABILIDAD FAVORABLE

B1(B1 1/3 * 1/2 = 1/6 si

B1(B3 1/3 * 1/2 = 1/6 si

B2(B2 1/3 * 1/2 = 1/6 si

B2(B3 1/3 * 1/2 = 1/6 si

N(B3 1/3 * 1/2 = 1/6 si

N(N 1/3 * 1/2 = 1/6 no P(B) = 5/6

Entonces la suma de estas probabilidades nos da un 83.3% de sacar una bola blanca.

Ejemplo:

Encuentre la probabilidad de tener una cara en el lanzamiento de dos monedas homogéneas.

CASOS PROBABILIDAD FAVORABLE

C x ½ ½ = ¼ SI

X c ½ ½ = ¼ SI
C c ½ ½ = ¼ no solicitada

X x ½ ½ = ¼ no solicitada

Por lo que la probabilidad de una cara en el lanzamiento de dos monedas será:

C x ¼ y x c ¼ es decir ¼ + ¼ = ½ o el 50 %.

ͻ PROBABILIDAD FRECUENTISTA

Existen experimentos en los que la probabilidad de la ocurrencia para cada uno de los eventos
del espacio se mantiene como ocurrencia de frecuencia relativa, por lo que se les ponga condición
o no, o se trate con independencia de eventos, su valor no cambiará. Ejemplos: parámetros de
calidad, tirar una moneda, tirar un dado, hijos en familias, etc.

EJEMPLO:

La probabilidad de que un huevo puesto por un insecto encube es un parámetro estadístico


igual a 0.4 encuentre la probabilidad; de que en cuatro huevos puestos por el insecto encuben
tres, por lo menos tres, cuando mucho uno.

RESPUESTA:

P = 0.4, n = 4, P(E) + P(E͛) = 1 entonces P(E͛) = 0.6

a) PX=3 = 4P(E(E(E(E͛) = 4(0.4*0.4*0.4*0.6) = 0.1536

b) PX(3 = P3(P4 = [4*(0.4)3*0.6] + (0.4*0.4*0.4*0.4) = 0.1792

c) PXч1 = PO(P1 = P(E͛(E͛(E͛(E͛) + 4P(E(E͛(E͛(E͛) = (0.6*0.6*0.6*0.6) + 4(0.4*0.6*0.6*0.6) =


0.4752

ͻ TEOREMA O REGLA DE BAYES


Una aplicación interesante de la probabilidad condicional se encuentra en la regla de Bayes.
Considera tener k poblaciones mutuamente excluyentes y si al realizar el experimento ocurre un
evento A entonces podemos desear hacer inferencias referentes a cual población dio origen al
evento A.

A este teorema también se le denomina de PROBABILIDAD INVERSA o Probabilidad de


Hipótesis. Si un evento A se verifica cuando se verifica alguno de los eventos Hi los cuales serán
mutuamente excluyentes, se podrá definir la probabilidad de A en cada uno de los eventos Hi y se
denomina probabilidad A Priori, se representa como una condición

P(A/Hi) a priori

Bayes considera conocido P(A/Hi), se deberá de calcular la probabilidad de que verificado A se


verifique Hi

P(Hi/A) a posteriori

El teorema de Bayes se demuestra así:

Sabemos que: P (Hi/A) = P (A m Hi) / P(A) (1)

P(A) = P(AmH1) + P(AmH2) + ........... = є P (A m Hi) (2)

Pero P (A/Hi) = P (A m Hi) / P( Hi) desp. P(AmHi)=P(A/Hi) P (Hi) (3)

Para toda la Hi se tendrá є P (A m Hi) = є P (A / Hi) P (Hi) (4)

Pero (2) = (4), es decir: P (A) = є P (A / Hi) P (Hi) (5)

Sustituyendo en (1) se tendrá (3) / (5) y la formula de Bayes será:

P(Hi/A) = P(Hi)*P(A/Hi) / [(PHi * P(A/Hi)]

Ejemplo:

Dos urnas idénticas contienen respectivamente la primera 9 bolas blancas y 1 negra y la


segunda 5 blancas y 20 negras se elige al azar una de las urnas y se extrae una bola que resulto
blanca, ¿cuál es la probabilidad de que la urna elegida haya sido la primera?

RESPUESTA:

A = sale evento blanca, Hi = urnas


P(Hi/A) =?

Datos:

P(H1) = ½

P(H2) = ½

A PRIORI P(A/H1) = 9/10

P(A/H2) = 5/25

CON LA FORMULA:

P(Hi/A) = P(H1)*P(A/H1) / ( Phi * P(A/Hi)

P(Hi/A) = (1/2 * 9/10) / (1/2*9/10 + ½*5/25) = 9/11 = 0.81 = 81.81%

EJEMPLO:

Si el experimento fue extraer 2 bolas sin reemplazo, y el resultado fue de una de cada color,
¿cuál es la probabilidad de que haya salido de la urna 2?

RESPUESTA:

P(H1) = ½

P(H2) = ½

SIN REEMPLAZO:

P(B(N) = 2(9/10*1/9) = 1/5 = P(A/H1)

P(A/H2) = 2(5/25*20/24) = 1/3

Aplicando la formula

P(Hi/A) = [2(5/25*20/24)(1/2)] / [1/2(9/10*1/9)2 +1/2( 5/25*20/24)2]=


P(Hi/A) = 5/8 = 62%

EJEMPLO:

Una empresa emplea 3 ingenieros (1, 2, 3), estiman respectivamente los costos del 30, 20 y
50% de los costos de dicha empresa, se sabe que cada ingeniero comete 1 error grave al estimar
sus costos con probabilidad respectiva del 1, 3 y 2%. Si una licitación se incurre en un error grave
de estimación de costos, ¿qué ingeniero tiene mas probabilidad de cometer dicho error?

RESPUESTA:

Datos:

P(H1) = 0.3 P(A/H1) = 0.01

P(H2) = 0.2 P(A/H2) = 0.03

P(H3) = 0.5 P(A/H3) = 0.02

Aplicando la formula

P(H1/A) = (0.3*0.01) / (0.3*0.01 + 0.2*0.03 +0.5*0.02) = 0.003/0.019 = 0.157

P(H2/A) = (0.2*0.03) / 0.019 = 0.316

P(H3/A) = (0.5*0.02) / 0.019 = 0.526

Por lo tanto el tercer ingeniero es el que tiene más probabilidad de cometer el error.

ANALISIS COMBINATORIO:

Consiste en determinar él número de resultados posibles de un experimento sin necesidad de


llevar a cabo una enumeración directa.

ͻ CONTEO

Si un evento se verifica de n1 maneras y otro evento de n2 maneras ambas se verifican de


n1*n2 maneras distintas. Se generaliza para mas de dos eventos
EJEMPLO:

Encuentre él número de placas que se puede obtener con tres letras y cuatro números.

n1 = 3 letras _ 27(n1, n2, n3)

n2 = 4 números _10 (n4, n5, n6, n7)

Entonces

273*104 = 196 830 000 será él numero de placas que se pueden obtener.

NOTACION FACTORIAL (n!)

Es el producto de los enteros positivos de 1 hasta n, se acepta que factorial de 0! = 1.

ͻ ORDENACIONES (nOk)

Se llama ordenación de clase k de n objetos diferentes a los diferentes grupos ordenados que
se pueden obtener tomando k objetos de entre los n, interesa su ocurrencia y su orden.

nOk = n! / (n-k)!

EJEMPLO:

Obtenga las ordenaciones de las letras a, b, c, d, e tomando 2 a la vez, donde:

n=5 y k=2

Entonces nOk = 5! / (5-2)! = 20

ͻ PERMUTACIONES

Son ordenaciones de clase n, sí k = n

Entonces nOk = nOn = n! / (n-k)! = n! / (n-n)! = n!

Pn = n!

ͻ PERMUTACIONES CON OBJETOS IGUALES

Sí n1 + n2 + n3 + ... = n
n1, n2, n3..... Pn = n! / n1!n2!n3!.......

ͻ COMBINACIONES (nCk)

Son los grupos que se pueden formar tomando k objetos de entre los n interesa su ocurrencia
pero no el orden, por lo que deben permutarse k veces las ordenaciones.

Entonces:

nCk = nOk / k! = n! / k!(n-k)!

ͻ PROBABILIDAD POR ANALISIS COMBINATORIO (SOLO SIN REEMPLAZO)

Aplicando el concepto de probabilidad por las técnicas combinatorias se podrá calcular la


probabilidad de un evento.

P = eventos favorables / eventos totales

P = No. De formas de tomar ki objetos de entre ni objetos / numero total de formas de tomar k de
entre Ns. Donde k1+k2+...=k y n1+n2+.....=Ns

EJEMPLO:

Experimento: extraer 3 bolas sin reemplazo de una urna con 6R, 4B y 5A

Determine la probabilidad de extraer:

a) 1 de cada color

b) 2 rojas y 1 blanca

c) 3 azules sin reemplazo para todos

RESPUESTAS:

a) P1 de cada color = P3(R(B(A) = 6(6/15*4/14*5/13) = 0.2637

P1 de cada color = 6[P(R(B(A)] = 6(6/15*4/14*5/13) = 0.2637


P1 de cada color = 6C1*4C1*5C1 / 15C3 = 0.2637

b) 2R Y 1B

P(R(R(B) = 6C2*4C1*5C0 / 15C3 = 0.1318

P(R(R(B) = 3(6/15*5/14*4/13) = 0.1318

P(R(R(B) = 2,1P3[P(R(R(B)] = (3!/2!1!)(6/15*5/14*4/13)= 0.1318

c) 3A

P(A(A(A) = 0.022

P(AÉAÉA ) = 5C3 * 6C0 * 4C0 / 15C3 =0.022

VARIABLES ALEATORIAS (V.A.)

Una variable aleatoria es la que no puede predecirse antes de realizar el experimento, la VA


en el experimento puede tomar una serie de valores x y a los cuales se le puede asignar una
probabilidad de ocurrencia, es decir la V.A esta definida en S y toma una serie de valores x con
probabilidad definida.

ͻ TIPOS DE VARIABLES ALEATORIAS

Una V.A. será discreta (VAD) si toma valores enteros, será continua (VAC) sí su dominio esta en
el rango de (a , b ).

ͻ DISTRIBUCION DE PROBABILIDAD DE UNA VAD (DPVAD)

Una variable aleatoria (VA) queda perfectamente descrito al conocer su comportamiento y el


cual se define por su DP. Si a cada valor de una VAD se le asocia con su probabilidad, al conjunto
de pares de puntos obtenidos se le denomina DPVAD x y se representa por la tabulación de Xi vs Pi
y como se analiza él todo la sumatoria de ocurrencias debe ser igual a 1. El comportamiento de
variable se visualiza a través de su diagrama Xi vs Pi.
EJEMPLO:

Un experimento aleatorio consiste en tirar un par de dados y observar las caras que caen hacia
arriba. Si X es una VAD que designa las caras que caen hacia arriba encuentre su DP.

D.P.V.A.D. x

Xi Pi

2. 1/36

3. 2/36

4. 3/36

5. 4/36

6. 5/36

7. 6/36

8. 5/36

9. 4/36

10. 3/36

11. 2/36

12. 1/36

ѝ1

DISTRIBUCIÓN SIMÉTRICA

ESPERANZA MATEMATICA (VALOR ESPERADO)

Si X es VAD cuya DP es conocida, su esperanza matemática estará definida por el valor que
tiende a presentarse con más frecuencia si el experimento se repite muchas veces.
La esperanza matemática se define de la siguiente manera:

E = {h(x)} = ( hxi * Pxi

Habrá tantos valores esperados como variables aleatorias se definan.

EJEMPLO:

En una lotería para beneficencia se venden 8000 boletos a $1 cada uno. El premio es un
automóvil de $3000, si Juan compra 2 boletos. Calcule la esperanza matemática o valor esperado
de su ganancia.

RESULTADO:

|V.A |hxi |P |

|Ganar |$2998 |2/8000 |

|Perder |$-2 |7998/8000 |

| |SUMA |1 |

E = {h(x)} = ( hxi * Pxi = 2998(2/800) ʹ 2(7998/8000)

E = -1.25 POR LO TANTO ES UNA PERDIDA

EJEMPLO:

La experiencia ha mostrado que una enfermedad causa incapacidad parcial en el 60% de los
casos e incapacidad completa en el 30% de los casos. Solo 1 persona de cada 10000 será afectada
por esta enfermedad en un año dado. Una póliza de seguros paga $20000 por incapacidad parcial
y $50000 por incapacidad total. ¿Qué prima de seguros debe de cobrar una compañía para que la
ganancia esperada sea igual a cero?

|V.A. |hxi |Pi |


|Parcial |$20000 |0.6 |

|Total |$50000 |0.3 |

|Nada |$ 0 |0.1 |

| |Sumas |1 |

E = 0.6 * 20000 + 0.3 * 50000 + 0.1 * 0

E = $27000 / PERSONA / AÑO

P = 1/10000

$/ persona = 27000 * 0.0001

$/ persona = $2.7/persona / año

ͻ MOMENTOS DE PRIMER ORDEN, CON RESPECTO AL ORIGEN, O LA MEDIA ( (x).

La media representa el centro de gravedad de la DP de valores X es una medida de posición y


corresponde a los momentos tomados con respecto al origen o de primer orden.

En forma general la media es:

E = {hx} = ( hxi * Pi = (x valor esperado.

FUNCION GENERATRIZ DE MOMENTOS (fgm)

El tema de fgm será desarrollado por el alumno y entregado en clase.

ͻ MOMENTO DE SEGUNDO ORDEN, CON RESPECTO A LA MEDIA, LA VARIANZA O DESVIACION


ESTANDAR.

La varianza es una medida de dispersión o variabilidad que define que tan cierta es la media, al
establecer un rango de ocurrencia de la media. La raíz de la varianza es la desviación estándar.
E = {hx2} = ( hxi2 * Pi = ( (xi - (x)2 * Pxi = (x2

(x = [pic]

Concentración = (x ( (x

EJEMPLO:

Encuentre la (x, (x, (2x del experimento tirar un par de dados.

Xi Pi

2. 1/36 (x = ( Xi * Pi)

3. 2/36 (x = 2 (1/36) + 3 (2/36) +...

4. 3/36 (x = 7

5. 4/36

6. 5/36

7. 6/36

8. 5/36

9. 4/36

10. 3/36

11. 2/36

12. 1/36

( 1

E = {hx2} = ((xi - (x)2 * Pxi = (x2

(x2 = (2-7)2 * 1/36 +...

(x2 = 5.83

(x = 2.41
CONCENTRACION = 7 ( 2.41,

RANGO DE 4.59 A 9.41

ͻ VARIABLES ALEATORIAS CONTINUAS (VAC)

Estas variables al tomar toda la gama de valores entre (a, b) se deberán de solucionar por
medio de integrales bajo los principios ya establecidos.

Definida una función de probabilidad f(x) que es multiplicada por una constante k que obliga al
área bajo la función ser igual a 1.

P(a ( x ( b) = (ab P(x) dx donde Px = kf(x)

P(x > a) = (a( Px dx (-(( P(x) dx = 1

P(x ( a) = (a( Px dx

P(x ( b) = (((b Px dx

(x = (-(( xPx dx

( x2 = (-(( (x-(x)2 Px dx

EJEMPLO:

Según datos estadístico una VAC toma valores entre 0 y 4 y su función de probabilidad esta
definida por f(x) = ½ - kx. Determine:

a) el valor de k

b) la probabilidad de que P(0 < x < 1)

c) parámetros

d) polígono y concentración

a. (04 (1/2-kx)dx

(x/2 ʹ kx2/2 (0 4 = 1
(2 ʹ 8k( - 0 = 1

k = 1/8

Px = ½ - x/8

b. (01 (1/2 ʹ x/8)dx

(x/2 ʹ x2/16 (01

(1/2 ʹ 1/16 (- 0 = 7/16

c. (x = (04 x(1/2 ʹ x/8)dx = (x2/4 ʹ x3/24(04

(x = a ʹ 8/3 = 4/3 = 1.33

(x2= (04 [(x-4/3)2 (1/2 ʹ x/8)]dx = 0.81

(x = (0.81 = 0.9

d. concentración (x ( (x

1.33 ( 0.9

de 0.43 a 2.23

Px

x Px ½

0. ½

4 0 x

Ejemplo1. Se ha encontrado por experiencias, que la duración de cierto producto es una v.a.c. que
se distribuye según la siguiente función

Fx = e-2x/k para x>0, determine la probabilidad de que el producto tenga una vida de menos de
dos unidades de tiempo y determine la media de la duración.

LOS MODELOS DE LAS DISTRIBUCIONES DE PROBABILIDAD.


DISTRIBUCIONES TEORICAS DE UNA VARIABLE

Muchos fenómenos aleatorios tienden a mantener una continuidad en su ocurrencia ya sea en


forma consistente o en forma de frecuencia relativa, lo que permite elaborar o deducir una
formula que se ajuste al comportamiento, y que se denomina MODELO. Atendiendo al tipo de
variable por analizar, es decir, discreta o continua, las distribuciones o modelos mas frecuentes
son los siguientes:

CASO DISCRETO

A) Distribución Hipergeométrica (H)

B) Distribución Binomial (B)

C) Distribución Geométrica (G)

D) Distribución de Poisson (P)

E) Distribución Multinomial (M)

F) Distribución Binomial Negativa ( B-1 )

CASO CONTINUO

Teorema de Tchebyshef

A) Distribución Uniforme o Rectangular

B) Distribución Gamma

C) Distribución Exponencial

D) Distribución Normal o Curva de Gauss

E) Ajustes del caso continúo al discreto.

CASO DISCRETO:

ͻ DISTRIBUCION HIPERGEOMETRICA ( H )

Si tenemos un universo finito de N objetos del cual extraemos n objetos sin reemplazo de dicho
universo y si existe a objetos de cierta característica, la HIPERGEOMETRICA se define al calcular la
probabilidad de que al sacar n objetos x sean de la característica de a y el resto no lo sea.
H =[a C x * (N-a) C (n-x) ]/ N C n

Los parámetros para esta distribución aplicando la fgm son:

p = a/N

(2x = [(N-n)/(N-1)] * npq

(x = np

p+q=1

q=1ʹp

EJEMPLO:

Un club esta constituido por 12 hombres y 8 mujeres. Se va a formar un comité de 5 personas.

a) Encuentre la probabilidad de que el comité este formado por 3M y 2H.

b) Si x es una VAD que designa a las mujeres encuentre su DPVAD, polígono, concentración, (2x, (x
y (x.

RESPUESTA:

N= 20, n= 5, a= 8

a) p(3M, 2H), x= 3

H = [8C3][(20-8) C (5-3)]/20C5

H = 0.238

b) VAD _ mujeres

(x= np p=a/N = 8/20 = 2/5

(x=5*(2/5) = 2
(2x= [(20-5)/(20-1)] * 5 * 2/5 * 3/5 = 0.947

(x= 0.973

concentración (x ( (x = 2 ( 0.97

rango de 1.03 a 2.97 DPVAD x

px x Px

0.4 0 0.051

1 0.255

2 0.398

3 0.238

x 4 0.054

0 1 2 3 4 5 5 0.004

є 1

ͻ DISTRIBUCION BINOMIAL

PRUEBA DE BERNOULLI

Si un experimento esta compuesto por una serie de sucesos con una probabilidad p de ocurrir
o éxito y una probabilidad q de no ocurrir o falla y si el experimento se repite muchas veces y en
cada intento se mantienen los valores de p y q, se dirá que se tendrá la probabilidad de un éxito en
un intento o PRUEBA DE BERNOULLI por ejemplo: tirar una moneda, parámetros de calidad,
frecuencia relativa, etc.

La distribución binomial considera una sucesión de pruebas de Bernoulli, con una p de éxito y
una q de falla, si el experimento se repite n veces la probabilidad de x éxitos y (n-x) fallas será
pxq(n-x). La binomial se define al encontrar todas las posibles ocurrencias de lo anterior, es decir:

B = [nCx][pxq(n-x)]

Los parámetros según la fgm son:

(x = np (2x = npq (x = (npq

En clase, aplicando la fgm se demostrará, en forma matemática, las formulas de la media y de


la distribución estándar.
EJEMPLO:

El 20% (base de datos) de los remaches producidos por una maquina son defectuosos, encuentre
la probabilidad de que en una muestra de 4 remaches tomados al azar.

a) se tengan 3 defectuosos

b) por lo menos 2 defectuosos

c) parámetros: (x, (2x, (x, concentración y polígono.

p= 0.2

q= 0.8 (( Binomial

n= 4

x=3

a. B= [4C3] [(0.2)3(0.8)4-3] = 0.0256

b. Bx ( 2 = B2 ( B3 ( B4

Bx ( 2 = 4C2(0.2)2(0.8)2 + 4C3(0.2)3(0.8)1 + 4C4(0.2)4(0.8)0

Bx ( 2 = 0.1808

c. (x= np= 4(0.2)= 0.8

(2x= npq = 4(0.2)(0.8) = 0.64

(x= (npq = (0.64 = 0.8

concentración (x ( (x = 0.8 ( 0.8

rango de 0 a 1.6

d. Se deja a que el alumno determine la D.P.V.A.D. x y su pol. De prob.

EJEMPLO:
Se lanza una moneda homogénea al aire 6 veces, si x es una VAD que designa las caras que
caen hacia arriba. Determine la probabilidad de tener dos caras. Determine su DPVAD, pol. Y
concentración para las caras

p = 0.5

q = 0.5

n=6 ((( Binomial

x=2

B = [6C2][(0.5)2(0.5)6-2] = 0.234

(x = np = 6(0.5) = 3

(2x = npq = 6(0.5)(0.5) = 1.5

(x = 1.22

concentración (x ( (x = 3 ( 1.22

rango de 1.78 a 4.22

El alumno determinará la DPVAD x, el polígono y la concentración.

EJEMPLO:

En una intersección en Y que sirve como de libramiento en un camino para no entrar a una
ciudad, según datos estadísticos permiten asegurar que 2/3 partes del transito van a la ciudad. Si
se aproximan 8 vehículos a la intersección determine la probabilidad de que ningún vehículo use el
libramiento.

VAD = vehículos que usan el libramiento.

p= 1/3

q= 2/3

n= 8

x= 0
B=[8C0][(1/3)0(2/3)8-0] = 0.000304

(x= 8(1/3)= 2.667

(2x= 8(1/3)(2/3)= 1.778

(x= 1.333

concentración (x ( (x = 2.667 ( 1.333

rango de 1.334 a 4

. Se deja que el alumno determine la DPVAD x y su polígono.

ͻ DISTRIBUCION GEOMETRICA

Esta distribución se basa en la teoría binomial, se refiere a la ocurrencia de una sucesión de


pruebas de Bernoulli con probabilidades p y q. La variable aleatoria geométrica considera la
ocurrencia de una serie de fallas antes de que ocurra el primer éxito o una serie de éxitos antes de
la primera falla. Si en el experimento Binomial la ocurrencia simétrica ocurre cuando p= ½ y q= ½,
en el caso geométrico la situación perfecta será cuando p= ½ obteniéndose un comportamiento de
tipo exponencial. La G se define por:

G= px-1 * q

Parámetros: (= 1/q

(2= p/q2

o bien

G= qx-1 * p

Parámetros: (= 1/p

(2= q/p2

EJEMPLO:
Un dado se lanza varias veces, encuentre la probabilidad de que el primer seis caiga en el
quinto lanzamiento.

x= 5

q= 1/6

p= 5/6

G= px-1q

G=(5/6)4(1/6) = 0.0803

(= 1/q = 1/(1/6) = 6

(2= p/q2 = (5/6)/(1/6)2= 30

(= 5.47

concentración (x ( (x = 6 ( 5.47

rango de 0.53 a 11.47.

Ejemplo :

Un proceso productivo involucra que un elemento se procese en dos máquinas, la A y la B, en


ese orden.

El elemento se puede romper en cada máquina y cuando esto ocurre la máquina queda
temporalmente fuera de servicio y el proceso se interrumpe.

Si la probabilidad de que el elemento se rompa en la maquina A es p1 y de que se rompa en la


máquina B es p2, encuentre una expresión que determine el total esperado de elementos que se
procesarán antes de que ocurra la primera ruptura.

Aplique para el caso de que p1 = 0.0000124 y p2 = .00000275

ͻ AJUSTE DE LA DISTRIBUCION HIPERGEOMETRICA POR LA BINOMIAL

La Hipergeométrica puede ser tratada como Binomial aunque el experimento sea sin
reemplazo. Ya que si n es suficientemente grande, el error que se puede tener al considerar una
probabilidad constante tiende a cero, por lo que el ajuste puede ser válido. Se acepta que el ajuste
es suficientemente apropiado cuando n es menor que el 5% de N

0.05N ( n
En este caso los parámetros para la Binomial n, x, p, y q se consideran de la siguiente manera:

n y x con el mismo criterio pero

P = a/N es constante (sin variación) q = 1-p

EJEMPLO:

En una prisión 120 de los 300 internos purgan condenas por delitos contra la salud, si se
selecciona una muestra de 8 internos. Encuentre la probabilidad de que 3 de los ocho purguen
condena por delitos por la salud.

RESPUESTA:

N= 300, a=120, n= 8, x=3 condiciones de una H, pero como N es muy grande entonces se
revisará un ajuste por la binomial:

0.05N ( n, 15 ( 8 cumple la condición y el ajuste será correcto.

B= nCx pxq(n-x) con n=8, x=3, p=120/300= 0.4 y q=180/300= 0.6

B= 8C3 * (0.4)3(0.6)5

B= 0.2787

Se observa que el ajuste funciona ya que el valor de p y q no varían mucho al hacerlo sin
reemplazo 120/300=0.4 119/299=0.398 etc.

ͻ DISTRIBUCION MULTINOMIAL

Considere un experimento en los que se verifican los eventos E1, E2, E3,... Ek todos
mutuamente excluyentes y en el que cada uno tiene una probabilidad de verificación P1, P2, P3, ...
Pk, si consideramos que el experimento se repite n veces, donde cada evento se puede verificar
n1, n2, n3, ... nk, donde n1 + n2 + n3 + ... + nk = n (con reemplazo).

La multinomial se define al calcular la probabilidad de ocurrencia de cada evento pero en todos


sus casos posibles, es decir:
M= [n!/(n1! n2! n3! ... nk!)] (P1)n1.......... (Pk)nk

k variables aleatorias.

Se deberá de calcular los parámetros ( y ( para cada variable aleatoria.

EJEMPLO:

De un estudio de Ingeniería de Transito se estableció que él numero total de viajes de la zona A


a la B se distribuye por propósito de la manera siguiente (ver tabla en la siguiente hoja). Considere
un viaje específico en un autobús del servicio público y en el cual se encontró que iban 15
personas. Determine la probabilidad de que iban con los siguientes propósitos.

RESPUESTA

|Propósito |% de viajes |No. de pasajeros | |

|TRABAJO |0,433 |6 | |

|NEGOCIOS |0,08 |2 | |

|COMPRAS |0,081 |1 |VA = 6 |

|RECREO |0,076 |0 | |

|ESCUELA |0,304 |5 | |

|OTROS |0,026 |1 | |

E= propósito P= probabilidad n= numero de pasajeros

M= [15!/6! 2! 1! 0! 5! 1!] * (0.433)6(0.080)2(0.081)1(0.076)0(0.304)5(0.026)1

M= 0.0016

ͻ DISTRIBUCION BINOMIAL NEGATIVA (B-1)


Esta distribución se relaciona con definir él número de intentos necesarios para que ocurra el
k-esimo éxito.

Una VA con esta distribución considera los valores de p y q binomiales, trata de definir que es
lo que sucederá cuando interesa él numero de la prueba en la cual ocurre el 2º, 3º, 4º, etc., éxito,
cuando se define en que prueba ocurre esto se tendrá la Binomial Negativa.

Una VA x tiene una Distribución Binonial Negativa si cumple que:

B-1 = (x-1) C (r-1) prq(x-r)

Donde r es el intento para que ocurra el k eismo éxito.

Según fgm:

(x = r/p (2x = r(1-p)/p2

Sí r= 1

(x = r/p = 1/p

(2x = 1(1-p)/p2 = q/p2

r= 1 B-1 G

EJEMPLO:

Un estudio geológico indica que un pozo mana petróleo con una probabilidad de 0.2. ¿Cuál es
la probabilidad de que el 3er. encuentro de petróleo haya manado del 5to pozo que se perforo?

RESPUESTA:

p= 0.2 q= 0.8 x= 5 r= 3

B-1 = [4C2](0.2)3(0.8)2
B-1 = 0.03072

(x= 3/0.2 = 15 (2x= 3(1-0.2)/(0.22) = 60 (x= 7.75

Rango = de 7 a 23

Tercer encuentro en el 15avo. Pozo.

x= 15

r= 3

B-1 = [14C2](0.2)3(0.8)12

B-1 = 0.0500

Se deja al alumno que calcule para r = 5 en el séptimo y décimo pozo.

EJEMPLO:

Se lanzan 2 monedas al aire, encuentre la probabilidad de que en las 2 monedas caiga ͞águila͟
por tercera vez en el sexto intento.

RESPUESTA:

x= 6 r= 3 p= 1[½ ( ½] = ¼

q= 1 ʹ ¼ = ¾

B-1= [5C2](1/4)3(3/4)3

B-1= 0.066

(x= r/p = 3/(1/4) = 12 (2x= r(1-p)/p2 = 36 (x= 6

concentración = 12 ( 6 Rango = de 6 a 18

El alumno calculará el caso de 3 monedas.

DISTRIBUCION DE POISSON (P)


Esta distribución se aplica básicamente como un ajuste al caso Binomial, ya que cuando se
incrementa el tamaño de la muestra, él calculo de operaciones binomiales resulta ser muy
laborioso. Poisson recomienda que se aplique en lugar de la Binomial cuando se satisfacen las
siguientes condiciones:

n (

p 0

x 0

Siendo suficientemente apropiado

n ( 100

p ( 0.05

x < 10

Se observa que el comportamiento de Poisson es exponencial ya que concentra la mayor


cantidad de superficie (probabilidad) hacia el origen.

Binomial y Poisson no son recomendables cuando x (, pero también con cualquier valor de
p, q, x,n y se solicitan probabilidades acumuladas. En este caso se prefiere un ajuste del caso
continuo al caso discreto.

Atendiendo a la variabilidad de la media ( la curva de Poisson podrá tomar varias formas,


desde la exponencial hasta las de forma acampanada.

MODELO DE POISSON

Considere un experimento en el que se tiene una probabilidad de un éxito en un intento igual a p=


1/v donde v ( ( p 0

Bajo estas condiciones Binomial se transforma de la siguiente manera:

P= [( x e-(] / x(

(x = np = (

(2x = np = (

(x = ( (
La demostración se efectuará en clase.

EJEMPLO:

El 2% de los fusibles producidos por una maquina son defectuosos. Encuentre la probabilidad
de que en una muestra de 200 fusibles tomados al azar.

se tengan 4 defectuosos

cuando mucho 6 defectuosos

entre 15 y 180 defectuosos

Si la VA son defectuosos encuentre su DPVA y parámetros.

RESPUESTA:

n= 200 p= 0.02 q= 0.98 es una binomial

pero como p < 0.05 y n > 100 entonces es adecuado Poisson.

P=[e-((x] /x!

a. ( = np = (200)(0.02)= 4

Px=4 =( e-4 44 ) /4!

Px=4 = 0.195

Px(6= p0 + p1 + p2 + p3 + p4 + p5 + p6

= e-4[40/0! + 41/1! + 42/2! + 43/3! + 44/4! + 45/5! + 46/6!] = 0.88

P ( 15 ч x ч 180 ) = P15 + P16 + .......... + P 179 + P180

Según la respuesta b. Se puede aceptar que tiende a 0, o efectuar un ajuste continuo por la
prueba normal si satisface las condiciones.

DPVAD
(x = np = 4

varianza = 4

desviación estándar = 2

rango de 2 a 6

|X |Px |

|0 |0,0183 |

|1 |0,0733 |

|2 |0,1464 |

|3 |0,1952 |

|4 |0,1952 |

|5 |0,1561 |

|6 |0,104 |

|7 |0,0595 |

|8 |0,0297 |

|9 |0,0132 |

| | |

|[pic]|0,9909 |

CASO PARTICULAR DE POISSON

En Ingeniería de Transito es conveniente la aplicación de Poisson. Ya que si se considera que el


flujo de transito es casual, entonces con esta consideración y aceptando que en un periodo de
tiempo se podrá presentar un flujo de transito, pero como el tiempo es variable continua, es decir,
se podrá aceptar un año, un mes, una semana, un día, una hora, un segundo. Al ir reduciendo el
intervalo de tiempo la probabilidad de ocurrencia del fenómeno tendera a cero y como él numero
de intervalos en que se divide el tiempo tiende a infinito entonces se aceptaran las condiciones de
Poisson, deduciendo solo el valor de la variable aleatoria bajo estudio.
EJEMPLO: Considere un camino con un transito promedio diario de 2400 vehículos.

a) Encuentre la probabilidad de que en un intervalo de 1 minuto se tengan exactamente 9


vehículos.

b) se tenga exactamente 1 vehículo

c) c) se tenga por lo menos 5 vehículos.

RESPUESTA:

a) Px= 9 en un periodo de 1 minuto

2400/1440 =1.6 veh/min = (

Px= 9 = e-((x/x!= e-1.6 * 1.69/9! = 3.82 * 10-5

b) Px= 1 e-1.6 * 1.61 / 1! = 0.323

c) se deja al alumno resolverlo

EJEMPLO:

En una intersección con semáforo en tiempo fijo de ciclo de 60 segundos. 200 vehículos/ hora
dan vuelta a la izquierda, cada ciclo puede acomodar tres vueltas izquierda.

a) En que porcentaje de los ciclos es de esperarse que ocurran demoras.

b) Si se proporciona una fase especial para darle vueltas izquierdas, en que porcentaje de los ciclos
no será necesario esta fase.

RESPUESTA:

Vuelta a la izquierda = 200 veh/hr, 3 vueltas por cada ciclo de 60 seg.

200/60 = 3.3 = (

a) Px(4 = 1-[p0 + p1 + p2 + p3]

Px(4 = 1 ʹ e-3.3[3.30/0! + 3.31/1! + 3.32/2! + 3.33/3!]


Px(4 = 0.4197 de probabilidades de que haya demoras

b) x = 0

Px=0 = e-((x/x!= e-3.3 * 3.30/0!

Px=0 = 3.7% no será necesario la fase del semáforo.

LAS DISTRIBUCIONES CONTINUAS

( TEOREMA DE CHEBYSHEV (TCH)

Este teorema es aplicable a cualquier conjunto de observaciones de una variable aleatoria


continua o discreta, por esta razón sus resultados son débiles o conservadores. Se puede referir
tanto a poblaciones como a muestras. El TCH es un hecho científico ya que esta demostrado
matemáticamente, es muy conservador, ya que considera que la fracción de observaciones que
caen en un cierto intervalo tienda a tomar el concepto al menos, situación que permite que
muchos fenómenos lo satisfagan. El TCH es aplicable cuando se desconoce la distribución y su
forma, pero conocidas estas se podrán calcular probabilidades exactas. La condición más
apropiada

Para aplicar el TCH es cuando las distribuciones presentan una forma del tipo monticular o tipo
joroba, pero aún con distribución desconocida podrá ser aplicado, al ser solo para valores
aproximados al TCH también se le conoce como de distribución libre, el TCH descubrió que la
fracción del área entre dos valores simétricos alrededor de la media esta relacionado con la
desviación estándar tanto para el caso discreto como para el continuo.

El TCH también es la aplicación para definir la tendencia de una DP ya que una distribución
acampanada debe satisfacer sus condiciones.

El TCH considera una VA x con parámetros ((x, (x) y demuestra para todo valor de k(+) desv std de
la media toma los siguientes valores :

P( (-k((x((+k( ) ( 1 ʹ (1/k2) para k(1

Esto indica que por lo menos 1 ʹ 1/k2 de las observaciones se encuentran dentro de k
desviaciones estándar de la media. Geométricamente representa lo siguiente:

F(x)
x

(x (x (x

k( k(

es decir

k( ( 1 ʹ 1/k2

( 0 se suele aceptar > 2/3

( ¾

( 8/9

( 15/16

( 24/25

EJEMPLO:

Un producto tiene un peso promedio de 16 onzas ((x = 16), con (x= 0.02 onzas. ¿Qué
porcentaje de los productos como mínimo deberán de tener su peso entre 15.8 ( x ( 16.2 onzas? Si
su distribución continua es desconocida

RESPUESTA: Al desconocer su función se podrá aplicar el TCH

VA : pesos del producto en onzas.

(x = 16

(x = 0.02 según (x ( (x

16 ( k * (x

k * (x = 0.2

k = 10

se satisface 1 ʹ 1/k2 = 1 ʹ 1/102 = 0.99


por lo que el 99% de los productos tendrán su peso en este rango.

EJEMPLO:

Él numero de clientes a los que un restaurante sirve una noche de viernes es una VA con una (x
= 160, (x = 7.5, si la distribución es del tipo monticular encuentre

a) la probabilidad de que se sirvan entre 145 y 175 clientes en una noche de viernes

b) Con que frecuencia se atenderán hasta 200 clientes.

c) Él numero de clientes que serán atendidos con una probabilidad del 85%.

RESPUESTA:

Al ser monticular la distribución pero desconocida la función se aplicará TCH.

(x = 160, (x = 7.5

a) P(145 ( x ( 175) = 1 ʹ ¼ = 3/4 = 0.75 es la probabilidad solicitada.

(x ( k * (x k * (x = 15

160 ( 15 k = 15/7.5

k=2

b) Px ( 200 = 1- 1/5.332 = 0.965 se atenderá hasta 200 clientes

(x ( k * (x k * (x = 40

160 ( 40 k = 40/7.5

k = 5.33

c) 1ʹ1/k2 = 0.85

k2 = 6.66

k = 2.58 por lo que el intervalo será de P(141 ( x ( 179) = 0.85

ya que 160 ± ( 2.58 ) ( 7.5 )


ʅ ± k ʍ

DISTRIBUCION UNIFORME O RECTANGULAR

Si se selecciona al azar un número representado por un punto en el intervalo de a ( x ( b, y su


ocurrencia permanece constante, la función de densidad de probabilidad de la variable aleatoria X
estará representada por medio de un rectángulo como muestra en la gráfica.

F(x)

A=b*h

A = (b-a)(1/b-a)

A =1 1/(b-a) a b

Para asegurar el principio probabilistico de que el área bajo la curva es igual a 1, la altura del
rectángulo debe ser 1/b-a .

Una variable de este tipo se denomina uniforme y se representa con la siguiente función:

F(x) [1/(b-a)] para a ( x ( b

cero para cualquier otro punto

Según la fgm los parámetros serán:

(x = (a + b) / 2

(2x = (b ʹ a)2 / 12

Esta distribución representa la idea fundamental de la probabilidad de que todo elemento


tiene la misma probabilidad de ser elegido, por lo que es una distribución empleada para la
generación de números aleatorios.

EJEMPLO:

En la llegada de clientes a una caja registradora de un supermercado, se sabe, que en un


periodo de 30 minutos llega un cliente, determine la probabilidad de que el cliente haya llegado
en los últimos 5 minutos del periodo, si sabemos que puede llegar en cualquier instante del
intervalo.

RESPUESTA:

En un período de 30 min. Llega un cliente

Intervalo (a , b) = (0 , 30)

distribución uniforme f(x) = 1/(b-a) = 1/(30-0) = 1/30

P(25 ( x ( 30) = (3025 (1/30)dx = (1/30)( x(3025= (1/30) [30-25] = 5/30 = 1/6

( = (b + a)/2 = (30 + 0)/2 = 15

(2 = (30 ʹ 0)2/12 = 75

( = 8.66

concentración = 15 ( 8.7 Se generaliza a cualquier periodo de cinco minutos.

DISTRIBUCION TIPO GAMMA

Esta distribución se relaciona con variables aleatorias a las que solo se les puede asociar valores
no negativos, esto indica que su distribución es asimétrica o sesgada a la derecha, lo que implica
que la mayor cantidad de área se concentra alrededor del origen, como se muestra en la gráfica.

F(x)

La tipo gamma se define por la siguiente función.

(( = función de alfa

f(x) = (x(-1e-x/()/((((

(( = (( (x(-1 e-x)dx función básica gamma, demostrándose que para ( entero


(( es igual a ( (-1 ) (, si no es entero se empleará la Gamma incompleta.

f(x) = (x(-1 e-x/()/(((( (x(-1e-x)dx

0(x((

( = 0 y ( = 0, para cualquier otro punto

( = parámetro de forma (simétrica)

( = parámetro de escala (según ()

( = ((

(2 = ((2

( variará según la curva sea mas sesgada o menos sesgada y ( según sea mas o menos apuntalada.
Para la solución de esta distribución, el alumno NO podrá optar por el T.CH, para tener una
solución aproximada al problema. Pero se puede llegar a una solución exacta empleando una
técnica programada; por ejemplo, a través del Mathcad con la limitativa de no dar solución para
valores grandes de ( y (. Aunque también se podrá dar solución empleando una transformación de
la Gamma std a través de la Gamma incompleta.

Los valores de ( y ( pueden ser determinados si son conocidos los parámetros ( y (, ya que con
una relación algebraica se podrán determinar los parámetros de forma y el de escala, siendo esto
lo común.

Cuando en la función Gamma general se tiene que ( = 1, entonces se denomina distribución


Gamma estándar de probabilidad, es decir :

F (x;() = [ x(-1 e ʹx ] / (( para x ( 0 ; 0 para otro modo.

Pero si tenemos definidos los parámetros ( y (, entonces será conveniente transformar a la


Gamma estándar en la llamada Gamma incompleta de la siguiente manera X = x / ( de donde para
el calculo de una probabilidad:

P ( X< x ) = F ( x ; (,( ) = F (x/( ; ( ) = F ( X , ( )


Lo anterior implica que se resuelve la probabilidad únicamente con el valor de ( y el valor de X,
para lo cual se ha diseñado una tabla que permite calcularla en forma exacta la probabilidad

EJEMPLO:

El tiempo para efectuar un mantenimiento de un equipo sigue una ley gamma con ( = 3 y ( = 2. Un
mecánico nuevo emplea 20 minutos para llevar a cabo dicho mantenimiento, concuerda este
tiempo con las experiencias anteriores de mantenimiento.

RESPUESTA:

( = (( = 6

(2 = ((2 = 12, ( = 3.46 Concentración ((( 6(3.46, en este rango se tendrá la mayor concentración
de probabilidad, por lo que casi se puede aceptar que 20( es demasiado tiempo y no concordará
con las experiencias anteriores. Se compararán estos valores teniendo como función de ajuste el
empleo del T.CH. :

k( = 14, k = 4.05

Px ( 20 = 1 ʹ 1/k2

= 0.94,

o sea que solo en el 6% de los casos se emplearán mas de 20 minutos, por lo que no concuerda
con los tiempos de mantenimiento. Empleando mathcad da una probabilidad exacta de = 0.997
considerando la función [ x2 e-x/2 ] / 16, se observa la diferencia que existe entre el valor
estimado y el real. Para el caso de un valor máximo de 10͛ la probabilidad exacta es 0.875 pero por
T. CH. Da 0.25 donde se observa la gran diferencia en la aproximación. En la hoja final de anexos se
muestra la hoja de cálculo del Mathcad.

Empleando la gamma incompleta, se hará la siguiente transformación:

X = x/( = x/2, el calculo de la probabilidad será P ( X< x ) = P ( X < 20´)

P ( X < 20´ ) = F ( x/(, ( )

F ( 20/2, 3 ) = F ( 10,3 ) = F ( X , ( )
Entrando a la tabla de la gamma incompleta y la cual se adjunta en el anexo de la pagina final, se
tendrá que P ( x < 20´) = 0.997 que coincide con el valor calculado por mathcad, para el caso de P
( x 5 para p > 0.5

Los parámetros que se tomaran son:

( = np

(( = (npq

EJEMPLO:

Un dado se lanza al aire 1000 veces. Encuentre la probabilidad de que la cara 3 caiga...

a) Entre 150 y 180 veces.

b) Por lo menos 175

c) Cuando mucho 120

El alumno empleará la tabla normal y elaborará la gráfica:

RESPUESTA:

Binomial : p = 1/6, q = 5/6, n = 1000

Pero como a),b),c) son probabilidades acumuladas muy laboriosas, entonces se revisará un ajuste
normal: np=167>>5 y p=1/6< 0.5, ok ajuste normal.

a) P(150( x ( 180)

( = np = 1000*1/6 = 167

(( = (npq = 11.8

z1 = 150 ʹ167/11.8 = -1.44

z2 = 180 ʹ 167/11.8 = 1.10

P(150( x ( 180) = 0.4251 + 0.3643 = 0.7894


b) P(x ( 175)

Z = 175 ʹ 167/11.8 = 0.68

P(x ( 175) = 0.5 ʹ 0.2517 = 0.2483

c) P(x ( 120) tiende a 0%

Z = 120 ʹ 167/11.8 = -3.98

Los valores mayores a z=3 cubren un área acumulada de .4999 por lo que se podrá aceptar
tendencias al 0% o al 100%, según la prueba solicitada.

LA ESTADÍSTICA (Parte 3).

Introducción

Actualmente las técnicas estadísticas son utilizadas en casi todas las ramas de las ciencias,
desde las exactas hasta las sociales pasando por las astronómicas, médicas y biológicas entre
otras. Las técnicas utilizadas van desde los simples promedios y desviaciones estándar hasta
modelos de pronósticos de series de tiempos. Algunas veces dichas técnicas son utilizadas sin
darse cuenta, como es el caso en la evaluación de jugadores de Base Ball (promedio de bateo por
jugador, promedio de carreras limpias por juego para un pitcher, etc.).

La razón fundamental por la cual se utilizan las técnicas estadísticas es para toma de
decisiones cuando no se tiene información completa de los hechos, o cuando se desea efectuar un
pronóstico sobre la base de datos históricos, es decir cuando existe un grado de incertidumbre.

Mientras más información se tenga al momento de efectuar una decisión, es más posible
que dicha decisión sea mejor para la persona que la toma. De cualquier manera aun teniendo una
información perfecta se corre el riesgo aunque en menor grado de tomar una decisión incorrecta.

La Estadística trata con:


Colección, resumen y presentación de datos.

Inferencia estadística de universos a partir de muestras.

Análisis de relación de dos o más variables.

Pronósticos y tendencias.

Diseño de Experimentos.

Aunque las técnicas de la estadística son utilizadas en diferentes ramas de las ciencias, la mayoría
de estas técnicas son simples y comunes a todas las ramas de aplicación.

CASOS.

En este punto se describen algunos problemas que pueden ser resueltos usando técnicas
estadísticas.

Un grupo de Investigadores de la Universidad Autónoma de Nuevo León (UANL), está


efectuando un estudio de transporte y se desea encontrar el número promedio de ocupantes por
automóvil en la ciudad de Monterrey en los viajes que se efectúan entre las 7:30 a.m. y las 18:00
p.m.

Un grupo de Investigadores médicos en la Ciudad de Guadalajara, ha desarrollado una fórmula


para evitar las caries dentales en los niños y desean probar dicha fórmula. La Dependencia de
Desarrollo Integral de la Familia (DIF) de la ciudad, ha aceptado colaborar con los investigadores
para llevar a cabo dicha prueba y se ha aceptado aplicar la medicina con la fórmula especial a un
número de niños de diferentes edades, de diferentes escuelas. Se requiere saber el número de
niños a los que se les aplicará la medicina así como la forma en que serán seleccionados.

Se requiere pronosticar la población del área metropolitana del Distrito Federal de México para
el año de 2005, con el fin de calcular los requerimientos de infraestructura, víveres y servicios para
dicho año.

En la Facultad de Agronomía de la UANL, se va a experimentar con diferentes raciones


alimenticias para aves y determinar el efecto sobre la ganancia de peso obtenida usando las
diferentes raciones alimenticias. Se requiere saber el número de pruebas que se van a efectuar
con cada tipo de ración alimenticia.

Un instructor en el curso de matemáticas avanzadas, desea saber qué método ha dado mejor
resultado en la partición de dicha materia en la Universidad de Guadalajara. Los métodos son:
impartir la clase; Muy estricto, regularmente estricto, o poco estricto. Tales métodos han sido
llevados a cabo por el instructor y se cuenta con las calificaciones obtenidas por alumno en cada
uno de los grupos.
En la empresa Compañía Nacional de Subsistencias Populares (CONASUPO) se ha desarrollado
un nuevo envase de leche y se desea saber si dicho envase tendrá aceptación de los clientes.

VARIABLES DISCRETAS Y CONTINUAS.

Una variable es aquella que puede tomar algún valor en un determinado rango de valores
tales como peso, velocidad, número de integrantes de familia, etc. Las variables pueden ser
continuas o discretas. Las continuas son aquellas que pueden tomar cualquier valor entero o
fraccionario en un intervalo, por ejemplo: altura, peso, presión, etc. Por otro lado, algunas
variables pueden tomar sólo valores enteros como número de ocupantes por carro, boletos
vendidos de cine, etc., a dichas variables se les conoce como variables discretas.

RECOLECCION DE LA INFORMACION.

Cuando se requiere información de tipo estadístico, lo más probable es que se tenga que
recolectar de diferentes fuentes. Las informaciones pueden ser recabadas ya sea de fuentes
privadas o públicas. De hecho existen ciertas entidades gubernamentales y organizaciones
internacionales que se encargan de recolectar, clasificar y presentar información al público, tal es
el caso de los censos que en la mayoría de los países son efectuados por el gobierno
correspondiente y en algunos casos el mismo es asesorado por organizaciones como la
Organización de Naciones Unidad (ONU) o la Organización de Estados Americanos (OEA) y por el
INTERNET.

Puede suceder que la información que se requiere no se encuentre disponible y en tal caso
se tenga que recolectar por medio de observaciones, encuestas u otro método.

ABUSOS DE LA ESTADISTICA.

Existen situaciones en que se puede llegar a conclusiones incorrectas debido a información


estadística incompleta o mal generada, o a una falta de habilidad en el manejo de las herramientas
estadísticas, o a una mala voluntad para manejar y presentar la información de tal manera que
represente una situación diferente a la real, por ejemplo:

A) Suponga que existen dos regiones A y B. La región A es de clima extremoso con


temperaturas de 0 a 3 grados centígrados en tiempo de frío y de 40 a 45 grados en tiempo de
calor. Por otra parte la región B es de clima templado durante todo el año y su temperatura vería
de 15 a 25 grados centígrados durante todo el año. Si se obtiene el promedio de temperatura
diaria durante todo el año lo más probable es que las dos regiones A y B tengan un promedio de
alrededor de 20 grados centígrados, con lo cual se podría creer si no se conocen bien dichas
regiones que tienen climas similares.
B) Suponga que existe una empresa con veinte trabajadores y cuatro empleados. Cada
trabajador gana $500.00 diarios y cada empleado gana $3000.00 diarios. Si se obtiene el total de
salario diario del personal de la empresa, será (20 x 500.00 / 4 x 3000.00) = $22,000.00 si se
obtiene el salario diario promedio por persona será $916.66. Dicha cantidad es casi dos veces de lo
que en realidad gana la mayoría de los trabajadores.

C) La empresa ASTRALPO produjo 50,000 bolsas de medio kilo de arroz en el mes de enero y
47,800 en el mes de febrero. En primera instancia se puede creer que durante el mes de febrero
se trabajó con mayor ineficiencia que en enero, sin embargo sucedió lo contrario ya que la
producción diaria promedio durante enero fue de (50,000/31) = 1,612.9 bolsas, mientras que en
febrero fue de (47,600/28) = 1,700 bolsas.

Así como los casos antes indicados se podrían agregar muchos otros, un gran número de
ejemplos de uso incorrecto de datos estadísticos ha sido publicado, pero para entender lo que
está incorrecto se debe de conocer el método preciso de efectuar el análisis estadístico.

DISTRIBUCIONES EMPÍRICAS DE UNA VARIABLE O ESTADÍSTICA.

La noción de estadística se deriva originalmente del vocablo estado ͞estadística͟ ya que ha


sido tradicional que los gobiernos lleven a cabo registros de población, nacimientos, muertes,
cosechas, impuestos, etc., y de contar y medir estos hechos, genera mucha clase de datos
numéricos. La persona común percibe la estadística como una columna de cifras o gráficas (en
libros, revistas, periódicos, boletines, etc.) este concepto se aproxima mucho al concepto
tradicional de la estadística.

Desde los comienzos de la civilización han existido formas sencillas de realizar estadísticas
utilizando símbolos en pieles, rocas, palos de madera y paredes de cuevas y así contar personas,
animales o ciertas cosas. Los romanos fueron los primeros que recopilaron gran cantidad de datos.

Con la generalización del método científico en el siglo XIX, los investigadores aceptaron la
necesidad de reducir a valores numéricos para evitar la ambigüedad de las descripciones verbales.

La función principal de las estadísticas es la de plantear principios que nos ayuden en las
tomas de decisiones frente a las incertidumbres. La estadística ha llegado a ser un instrumento
cotidiano para todo tipo de profesionales que están en contacto con datos cuantitativos ó que se
extraen conclusiones de ellos. La probabilidad es la base sobre la cual descansa la basta estructura
de la estadística moderna.

CONCEPTOS DE ESTADÍSTICA

Consiste en la recopilación, organización, análisis, resumen y presentación de datos


numéricos, los cuales se pueden obtener de muy diversas fuentes (boletines, INEGI, BAN-MEX, IND
Y COM. y otros, encuestas, entrevistas, etc.). Al recabar la información debe tenerse un objetivo
de estudio por lo que deberá consultarse a un profesional de la estadística antes de llevar a cabo
la recolección, ya que ha pesar de tener una gran masa de informaciones quizás estas no nos
proporcionen ninguna información útil.

CLASIFICACIÓN DE LA ESTADÍSTICA

Cuando la estadística tiene como objetivo la de efectuar únicamente el tratamiento de los


datos, pero sin llegar a generalizaciones se le denominara estadística descriptiva. La estadística
que pretende obtener conducciones del tratamiento de los datos después de haber estudiado una
muestra representativa del conjunto total de datos posibles llamado población, es decir obtener
conclusiones por el estudio de muestras basándose en una cierta confianza, se le denominara
inferencia o inductiva.

TRATAMIENTO DE DATOS estadística descriptiva

Al conjunto de los datos observados en el experimento se le conoce como muestra. Los


datos se clasifican como de sección transversal, cuando se reúnen en un instante dado para un
problema dado, y datos en serie de tiempo cuando se colectan en un periodo de tiempo
determinado.

Los datos pueden ser cualitativos o cuantitativos, ya sea que la variable del experimento
asuma valores numéricos que posean un orden inherente por ejemplo: pesos, diámetros,
velocidades, etc., se llaman cuantitativos. Cuando los datos indican que la variable pueda tomar
valores que asignen a uno u otro conjunto de clases, se llaman cualitativos.

Por ejemplo: (buenos ʹ malos)(defecto ʹ no defecto)(llueve ʹ no llueve), los datos también


pueden ser: univariables y Bivariables. multivariables, según él numero de variables que se
manejan simultáneamente.

LA ESTADÍSTICA DESCRIPTIVA. univariables

El tratamiento de datos estadísticos se lleva a cabo según los siguientes pasos:

--Toma de datos: es la obtención de una colección de los mismos, los cuales no han sido
ordenados numéricamente. La colección debe llevarse a cabo con un objetivo definido y con una
técnica apropiada.

Se basa fundamentalmente en el Diseño Experimental.

--Ordenación: colocar los datos en orden creciente o decreciente.


--Rango o amplitud (A).

Diferencia entre el mayor y el menor de los valores.

--Numero de grupos ó clases (n): es el número de paquete en los cuales deberán de estar incluidos
todos los datos, los estadísticos recomiendan trabajar entre 8 y 20 clases, se recomienda emplear
la tabla en base a la formula de H.A. Sturges.

(Análisis en series de frecuencias)

(Como mínimo se recomienda 5 datos por clase).

--Determinación del intervalo de clase o anchura del intervalo (c = A/n) se refiere a los limites que
se deberán de dar para mantener el mejor agrupamiento, se recomienda cerrarlos a números
enteros, por tanteos se determina el intervalo o anchura mas apropiado.

--Límites de clase: definido el intervalo asignar numéricamente los límites de intervalo, de tal
manera que los datos tiendan a concentrarse hacia la parte central. Se recomienda dar los límites
de manera que todo dato quede comprendido en un intervalo, por lo que los límites se
propondrán a la siguiente unidad inferior. Se recomienda que el primer dato quede a la mitad del
primer intervalo y así definir el primer limite, pero según las necesidades de concentración esta
recomendación se podrá modificar.

Marca de clase (Mci): es el punto medio del intervalo, este valor se supone es el que
representa a todos los datos del intervalo.

Frecuencia de clase (fi): es él número de datos comprendidos en el intervalo, debe


considerarse que las colas tendrán pocos datos. Para evitar errores de dispersión se recomienda
tener por lo menos cinco datos en cada frecuencia.

( Histograma: es un gráfico de barras de limites Vs frecuencia.

Frecuencia relativa: es el porcentaje de frecuencia parcial (fi/No. de datos) * 100 ó ( fi/( fi ) *


100.
Polígono de frecuencias relativas: se obtiene sobre el histograma al unir todas las marcas de
clase. En este paso se acepta o se rechaza el tratamiento, atendiendo a las irregularidades del
polígono con respecto a lo normal. En caso se rechazo se volverá a los pasos iniciales para hacer
las nuevas propuestas de clases, limites, intervalos.

Frecuencias acumuladas: es la suma de frecuencias relativas con respecto al límite superior de


cada clase.

% Frec. Acum., es el % de (Fi / ( fi) * 100

Polígono de frecuencias acumuladas (ojiva): es el gráfico de límites inferiores Vs % Frecuencias


acumuladas. La ojiva permite definir tratamientos normales al tener forma de una integral
suavizada, también nos permite el cálculo de probabilidad asociado a las muestras.

Cálculos de los parámetros de tendencia central y de dispersión representativas de la muestra


o población y del tratamiento aceptado a las propuestas hechas en el tratamiento de los datos.

Los pasos anteriores cubren la estadística descriptiva a la cual se le aplicara la estadística


inferencia.

El tratamiento representativo será consecuencia de varios tanteos, donde el estadístico


impondrá las condiciones a los datos, en beneficio de la mejor concentración y comportamiento
deseado a la campana.

TABLA 1: Número de clases para usar en la construcción de una distribución de frecuencias.

Una de las técnicas más comúnmente usadas para organizar y resumir los datos es agrupar
los datos en forma de una distribución de frecuencias. Uno de los primeros puntos a considerar,
cuando se van a agrupar ciertos datos, es cuántos intervalos van a incluirse. Muy pocos no son
convenientes, debido a que hay pérdida de información. Por otra parte, si se usan demasiados
intervalos no se logra el objetivo de la síntesis. La mejor guía en relación con lo anterior, así como
para otras decisiones que deben tomarse al agrupar los datos, es el conocimiento que se tenga de
ellos. La tabla 1 provee una guía para el número de intervalos (o clases) para usar en construir una
distribución de frecuencias.

Los resultados son en base a una fórmula dada por H.A. Sturges y según esta fórmula el número de
intervalos esta dado por :

K = 1 + 3.322 log10 n

De la anterior fórmula se genera la siguiente tabla:

Ejemplo:

Dados los siguientes datos sobre precipitaciones pluviales media anual en el D.F. y según el
observatorio metereológico de Tacubaya efectué el tratamiento estadístico de los datos, de modo
que se aproxime lo más posible a una Distribución Normal y que permita calcular sus parámetros
representativos y así poder efectuar inferencias y tomar decisiones.

Toma de datos:

Año precip. ½mm. Año precip. ½mm. Año precip. ½mm.

1890 711 1910 451 1930 813

1891 726 1911 561 1931 829

1892 538 1912 646 1932 762

1893 659 1913 706 1933 679

1894 473 1914 810 1934 737

1895 650 1915 397 1935 764

1896 566 1916 580 1936 704

1897 721 1917 552 1937 856

1898 674 1918 702 1938 760

1899 667 1919 750 1939 739

1900 670 1920 725 1940 646


1901 583 1921 692 1941 882

1902 555 1922 802 1942 637

1903 617 1923 639 1943 615

1904 860 1924 714 1944 731

1905 513 1925 958 1945 460

1906 654 1926 856 1946 675

1907 738 1927 744 1947 604

1908 591 1928 784 1948 743

1909 504 1929 734 1949 520

2) Ordenación de datos.

958 882 860 856 856 829 813 810 802 784

764 762 760 750 744 743 739 738 737 734

731 726 725 721 714 711 706 704 702 692

679 675 674 670 667 659 654 650 646 646

639 637 617 615 604 591 583 580 566 555

552 538 520 513 504 473 464 460 451 397

3) Rango o Amplitud

A = Mayor - Menor = 958 ʹ 397 = 561

4) n = 10 se dispersan y se propone n = 8

5) Intervalo de clase c = A/n = 561/8= 70.125 se propone c = 80

De acuerdo a la propuesta de n=8 y c= 80, se define el primer limite de la primera clase de


manera que quede lo mas centrado posible al primer intervalo: limite inferior de la primera clase
349.5.
Tabla de análisis

Limites marca de frecuencia frecuencia frecuencia

Inf ʹ sup clase Mci de clase fi relativa %fi acum. Fi % Fi

349.5-429.5 389.5 1 1.7 1 1.7

429.5-509.5 469.5 5 8.3 6 10.0

509.5-589.5 549.5 8 13.3 14 23.3

589.5-669.5 629.5 12 20.0 26 43.3

669.5-749.5 709.5 20 33.3 46 76.6

749.5-829.5 789.5 9 15.0 55 91.6

829.5-909.5 869.5 4 6.7 59 98.3

909.5-989.5 949.5 1 1.7 60 100.0

SUMAS 60 100

Con la anterior información se grafican:

. Histograma, gráfico de límites ʹvs- frecuencia de clase fi


. Polígono de frecuencias relativas, se grafica sobre el histograma.

. Ojiva, gráfica de límite inferior ʹvs- frecuencia acumulada Fi

De la forma que presente los anteriores gráficos se podrá ir aceptando una tendencia a una
distribución normal: histograma y polígono de frecuencia de formas acampanadas simétricas, ojiva
de forma semejante al símbolo de integral pero de forma suavizada.

Histograma

Limites - vs - Frecuencia de clase fi

Limite inferior ʹ vs - % Fi

[pic]

PARÁMETROS DE TENDENCIA CENTRAL:

En la mayor cantidad de los fenómenos estadísticos los datos tienden a acumularse o a


concentrarse hacia la parte central de las frecuencias respectivas. Los parámetros de tendencia
central tienen como finalidad representar a la masa de dato en el punto donde hay más
concentración.

Los parámetros que se utilizan con más frecuencia son los siguientes:

La media aritmética (x).

La mediana (Md)

La moda ó el modo (Mo)

Medias:

Cuadrática ( Q)
Geométrica (G)

Armónica (H).

LA MEDIA ARITMÉTICA:

La media aritmética (x): es la más común y útil medida de tendencia central y corresponde al 1er
momento con respecto al origen. La media es representativa cuando los polígonos de frecuencia
sean de forma acampanada y se identifica con el punto de mayor concentración. Para
comportamientos donde la media no corresponde al punto de mayor concentración, es decir
comportamiento no acampanado, la media quizás ya no puede ser buen parámetro por lo que se
emplean otros que pueden sustituirle, tal como la mediana y la moda.

Para una serie de datos la media es un valor que multiplicado por él numero de términos
de la sumatoria de todos los términos de la serie:

nx = ( xi

para datos aislados:

x = ( xi

Para datos agrupados en serie de frecuencias, se considera que la Mci representa a todos
los datos del intervalo es decir, se repite (fi) veces, por la formula se transforma en la siguiente:

X = (fi * Mci

(fi

Para datos agrupados en series de frecuencias.

Formula corta para la media

Si c = cte (ancho de intervalo), se deduce la siguiente formula corta: para la media aritmética:
fi

cdi c x

Mci

Z = Mc cualquiera elegida de partida. di = Nº de intervalos

-Z + Mci = cdi Mult. Por (fi

-(fiz + (fi Mci = ( fi cdi dividido por ( fi

-(fiz + (fi Mci = ( fi cdi

( fi (fi (fi

simplificando

-Z + (fi Mci = ( fi cdi despejando (x

(fi (fi

((x (

x = c ( fi * di + Z

(fi

CARACTERÍSTICAS DE LA MEDIA

Tiene su mayor aplicación para comportamiento acampanados simétricos.

Es un valor calculado.
Todos los valores intervienen en su cálculo.

Es muy afectada por valores extremos disparados.

La suma de las desviaciones con respecto a dicho valor ( 0.

( (xi ʹ x) ( 0

La suma de los cuadrados de las desviaciones es un mínimo

( (xi ʹ x)2 ( mínimo

LA MEDIANA:

La mediana (Md): es valor del termino colocado a la mitad de la serie cuando los datos han sido
ordenados de acuerdo a su magnitud, por lo que el 50% de los datos será mayor ó igual que la
mediana y el 50% menor o igual que la mediana.

La posición de la mediana (T), para datos nones se obtiene por la formula T = (n + 1)/2 pero
cuando son muchos datos será: T = n/2.

Ejemplo: 1, 2, 3, 4, 5 Md = 3 1, 2, 2, 4, 5 Md = 2

X = 15/5 = 3 X = 14/5 = 2.8

Para datos agrupados en serie de frecuencias se puede considerar que la mediana se calcula
partiendo de la tabla de frecuencias acumuladas.

Md

T-Fi

T Fs

Fi
Li x

Fi , Fs ( Frecuencias Acumuladas a la clase Md.

Li , Ls ( limites de la clase Md.

Md = Li + x

[pic] [pic]

T( posición [pic]

CARACTERISTICAS DE LA MEDIANA

Se utiliza en lugar de la media cuando los comportamientos no son acampanados o simétricos.

Es un valor de posición, es decir, es un valor geométrico.

Es afectado por él número de términos de la serie, pero no por valores extremos.

Cualquier término seleccionado al azar tiene la misma probabilidad de caer arriba o debajo de
la mediana.

CUARTILES, DECILES, PERCENTILES

(Medidas de posición no central).

La media divide a la serie de frecuencias en dos partes iguales, los cuartiles en 4 partes, los
deciles en 10 partes y los percentiles en 100 partes, se calcula usando la misma formula de la
mediana y donde únicamente varia ͞T͟.Son valores que se aplican a diferentes casos estadísticos.

LA MODA:

La moda, es el valor que más se presenta en forma frecuente en una serie de datos.
Ejemplo: 1, 2, 3, 4, 5 (x = 3 Md = 3 Mo = multimodal

1, 2, 2, 4, 5 (x = 14/5 = 2.8. Mo = 2 Md = 2

Para datos en serie de frecuencias la moda se localiza en el pico del Histograma, por lo que
al hacer el tratamiento de datos deberá de evitarse varios picos que haga multimodal la gráfica, es
decir es deseable que sea unimodal.

La moda coincidirá con la marca de clase, siempre y cuando las frecuencias parciales
anterior y superior sean iguales, en caso de que no sea así; el punto se localiza hacia donde exista
mayor frecuencia.

fi = fs

fs > fi

fi fs fi fs

Mo = Mci Mo

fi > fs

fi fs

Mo

DEMOSTRACION:

c Mo = li + x

Mo
x c-x

fi x fs fi c fs

li (

fi(x) = fs (c ʹ x)

x(fi + fs) = c fs

x = [pic] Mo = li + [pic]

CARACTERISTICAS DE LA MODA

Se utiliza en lugar de la media cuando el comportamiento no es suficientemente


acampanado.

Es la medida más típica y descriptiva.

CONCLUSIONES: si la curva de frecuencias es normal (aproximada).

X ( Md ( Mo, pero si hay sesgo entonces:

Mo Md x x Md Mo

Sesgo o cola a la derecha sesgo o cola a la izquierda

Junto a los parámetros media, mediana y moda, se acostumbra calcular otros parámetros de
tendencia central, aunque son poco usuales, y son la media cuadrática , la media geométrica y la
media armónica y que básicamente se obtienen como una variante de la media aritmética.

La media cuadrática ( Q ) :
Se obtiene como la raíz cuadrada del promedio de los cuadrados de los términos de la serie, o es
el resultado de elevar al cuadrado todos los valores observados de la variable, obtener su media
aritmética y obtener la raíz cuadrada de dicha media.

Q = [( x2 / n] ½

Para datos agrupados en serie de frecuencias será:

Q = [(( fi MCi 2) / ( fi] ½

Q se utiliza cuando la variable toma valores positivos y negativos y se emplea para calcular el
promedio sin efectos de signo p.ej. errores de medidas y aplicaciones físicas (RSM). En su cálculo
intervienen todos los valores, es un valor calculado, es única para cada distribución y se define por
una expresión algebraica. Es poca representativa ante la presencia de valores extremos.

La media Geométrica (G):

La G se obtiene como la raíz enésima del producto de los n términos de una serie, términos
positivos y no nulos:

G = (X1 . X2 . X3 .............. Xn) 1/n ó log G = [log X1 + ......... + log Xn]/n

Para datos agrupados en serie de frecuencias:

Log G = [ ( fi log MCi ] / ( fi

La G es aplicable para promediar razones, tasas de variación e índices económicos (interés


anual, inflación) donde el valor de cada año tiene un efecto multiplicativo de años anteriores. Para
promediar tasas de crecimiento de una población estadística, en general e los casos donde la
variable presenta variaciones acumulativas.

La ventaja de la G es que en su cálculo intervienen todos los datos, es única, es menos sensible
a valores extremos que la media aritmética, se define por una expresión. La desventaja es que su
valor es menos intuitivo que la media aritmética.

La media armónica H:

La H es el inverso del promedio de los inversos de los términos:

1/H =[ ( 1/xi] / n 1/H = [ ( fi ( 1/ MCi ) ] / ( fi

La H tiene su aplicación cuando los datos se expresan según una relación con alguna unidad p.ej.
km/hr, lts/seg, etc. Puede ser mejor que la media aritmética, es influenciada por valores
pequeños, no acepta datos nulos.

Relación entre medias H ( G ( (X ( Q .


PARÁMETROS DE DISPERSIÓN

Un parámetro de tendencia central es de escaso valor, si no se conoce el grado en que los


datos se dispersan en dicho valor medio.

Existen una serie de parámetros que representan la dispersión de las series de frecuencia
tomando como base el parámetro de tendencia central elegido, dichos parámetros son lo
siguientes:

Amplitud (A)

Desviación media (D.M)

Variancia o Desviación estándar (S2, S)

Coeficiente de variación (C.V.)

AMPLITUD:

La amplitud es la más simple de las medidas de dispersión, se obtiene por la diferencia del
valor mayor menos el valor menor, no es un parámetro muy efectivo ya que dos series con
diferente dispersión puede tener la misma amplitud. Básicamente se toma como una medida de
referencia.

Por ejemplo: Dados los siguientes datos de temperatura,

18, 21, 23, 23, 24, 24, 24, 25, 25, 27, 29, 30. Amplitud = 30 ʹ 18 = 12

18, 18, 18, 19, 19, 19, 19, 24, 27, 30, 30. Amplitud = 30 ʹ 18 = 12

Aunque tienen la misma amplitud, las series tienen diferente dispersión y no corresponden a
una situación semejante.

DESVIACIÓN MEDIA:

La desviación media, se obtiene como el promedio de los valores absolutos de las desviaciones
de los términos con respecto al parámetro central elegido. Para datos aislados se define de la
siguiente manera:

DM = ( (xi - x(
n

Para datos agrupados en serie de frecuencias será :

DM = ( fi (x ʹ Mci (

( fi

El análisis puede ser con respecto a la x, Md o Mo.

Siempre se obtendrá que la desv.std. es mayor a la desv. Media, por lo cual se considera a la desv.
Std. Como un parámetro mas crítico para medir la dispersión por eso es preferible a las desv.
Media.

LA VARIANCIA O DESVIACIÓN ESTÁNDAR:

La variancia o desviación estándar, es la medida fundamental de dispersión y se obtiene como


la media cuadrática de las desviaciones de los términos de una serie con respecto al parámetro
central elegido que generalmente es la media aritmética.

S2 = (fi (x ʹ Mci)2

( fi

Empleando el mismo criterio que para la media aritmética, se pude deducir en forma
matemática una formula corta de la siguiente manera:

[pic]

UNA MEDIDA DE NORMALIDAD:


La desviación estándar tiene su sentido práctico para medir la normalidad de una serie de
frecuencias en función de un teorema y de una regla empírica, que permite definir la
concentración del comportamiento del tipo acampanado.

El teorema de Tchebysheff: indica que dado un numero ͞K͟ ( 1 y un conjunto de ͞n͟


observaciones, por lo menos (1 ʹ 1/k2) de las observaciones se encuentre dentro de ͞K͟
desviaciones Standard de la media. El teorema se aplica a cualquier conjunto de observaciones y
se puede referir tanto a la muestra como a la población. Este teorema se puede ilustrar en forma
gráfica en de la siguiente manera:

Al

(1-1/k2)

k k

Si se toman algunos valores de ͞K͟ se obtendrá la siguiente tabla:

|K |1-1/k2 |[pic] ( ks |

|1 |0 |[pic] ( S |

|2 | 3/4 | [pic] ( 2S |

|3 | 8/9 | [pic] (3S |

Para el caso de K=1 se puede considerar una concentración de al menos 2/3.

Este teorema es muy conservador ya que contempla el concepto al menos, ya que


generalmente la fracción de las observaciones que caen en el intervalo (1-1/k2) excede dichos
valores por lo que se acostumbra complementar este teorema con regla empírica, la cual describe
con cierta precisión la variabilidad de una distribución en forma acampanada con los siguientes
intervalos:

x(S ( 68.26% de las observaciones.

x ( 2S ( 95.44% de las observaciones.

x ( 3S ( 99.74% de las observaciones.

El teorema de Tchebysheff es un hecho demostrado matemáticamente, la regla empírica


es una afirmación arbitraria, ya que solo contempla que las distribuciones a ser monticulares.

Pero la consideración de ambos conceptos nos permite definir si una masa de datos agrupados
en series de frecuencia, tienden hacia un comportamiento de tendencia normal, aunque la
aceptación matemática del hecho solo es posible mediante un análisis de variancia a través de la
prueba chi cuadrada.

COEFICIENTE DE VARIACION

Es una medida de dispersión relativa que permite comparar las dispersiones de distintas
series de frecuencias, es una medida adimensional, se calcula por la siguiente expresión:

CV = (s / x) * 100

Es decir indica él % que representa la desviación standard respecto a la media.

9 10 11

CV 10%

7 10 13

30%
Mientras más pequeño sea el CV, sé tendrá más concentración y será más representativo.

El CV algunas veces carece de significación, por ejemplo:

x = 10ºC

S = 1ºC

CV = 1/10 * 100 = 10% si se transforma a grados farenheit

<F = 1.8ºC + 32

x = 50ºF

S = 33.8ºF

CV = 33.8/50 * 100 = 67%

Se observa como varia el C.V. para el mismo problema.

COMPROBACION DE LA NORMALIDAD

Hay varias maneras en que podemos probar si una distribución observada tiene
aproximadamente la forma de una distribución normal. La manera que aquí presentaremos es
cruda y en gran medida subjetiva, pero definitivamente tiene la ventaja de que es muy fácil de
llevarse a cabo.

Para ilustrar esta técnica, nos referiremos a un ejemplo de datos de emisión de óxido de
azufre. Primero convertimos las frecuencias acumulativas en porcentajes acumulativos dividendo
cada una entre 80 la frecuencia total, y multiplicando después por 100. Esto nos da:

Toneladas de porcentaje

Óxidos de azufre acumulativo

Menos de 4.95 0.00


Menos de 5.95 3.75

Menos de 12.95 16.25

Menos de 16.95 33.75

Menos de 20.95 65.00

Menos de 24.95 86.25

Menos de 28.95 97.50

Menos de 32.95 100.00

Antes de trazar esta distribución porcentual acumulativa en el papel gráfico especial de la


anterior figura, examinemos brevemente sus escalas. Cuando se compra dicho papel de gráfica en
forma comercial, la escala porcentual acumulativa ya está impresa en la manera especial que la
hace ideal para nuestros propósitos. La otra escala consiste en subdivisiones iguales. Esta clase de
gráfica se conoce como papel de probabilidad normal o papel de probabilidad aritmética.

Una vez que hemos trazado los porcentajes acumulativos de ͞menos de͟ como en la figura
anterior, usamos el criterio siguiente:

Si los puntos siguen en gran medida el patrón de una línea recta, consideramos que ésta es una
evidencia positiva de que la distribución tiene aproximadamente la forma de una distribución
normal.

Es evidente que ͞en gran medida͟ y ͞aproximadamente͟ no son términos muy precisos
pero al principio señalan que ésta es una técnica cruda y en gran medida subjetiva, aunque fácil de
realizarse. El patrón más común en que la distribución se consideraría como ͞anormal͟ es él
patrón en que los puntos de la extrema derecha caen por debajo de la línea recta determinada por
el equilibrio de los puntos.

Para fines de este curso se aceptara una tendencia a la normalidad de una serie de datos
agrupados en serie de frecuencias, cuando se cumplan las siguientes condiciones:

. Forma acampanada y suavizada del Histograma y del polígono de frecuencias.

. Forma de integral suavizada de la gráfica de la Ojiva.

. Poca variabilidad en los valores de los parámetros de tendencia central

X ( Md ( Mo ( Q ( G ( H

. Poca variabilidad del C.V. y en función de la curtosis.


. Que cumpla con el Teorema de Tshebysheff

. Que cumpla con la regla empírica.

. Que cumpla con la gráfica de normalidad.

TABLA GENERAL DE ANÁLISIS

LIMITE

INF-SUP Mci fi %fi Fi %Fi Mci(fi) di fidi

349.5-429.5 389.5 1 1.7 1 1.7 389.5 -4 -4

429.5-509.5 69.5 5 8.3 6 10.0 2347.5 -3 -15

509.5-589.5 549.5 8 13.3 14 23.3 4396.0 -2 -16

589.5-669.5 629.5 12 20.0 26 43.3 7554.0 -1 -12

669.5-749.5 709.5 20 33.3 46 76.6 14190.0 0 0

749.5-829.5 789.5 9 15.0 55 91.6 7105.5 1 9

829.5-909.5 869.5 4 6.7 59 98.3 3478.0 2 8

909.5-989.5 949.5 1 1.7 60 100.0 949.5 3 3

( 60 100.0 40410 -27

Q G H Des. Media Desv.Std. D.S.corta

Md Mo fi(Mci)2 fi(logMci) fi(1/Mci) /X-Mci/fi (X-Mci)2fi fi(di)2

151710.25 2.591 0.0026 284 80656 16

1102151.25 13.358 0.0106 1020 208080 45

2415602.0 21.92 0.0146 992 123008 32

Fi26 fi12 4755243.0 33.59 0.0191 528 23232 12

Fs46 Mo 10067805.0 57.02 0.0282 720 25920 0

fs9 5609792.25 26.08 0.0114 1044 127104 9


3024121.0 11.76 0.0046 784 153664 16

901550.25 2.98 0.0011 276 76176 9

( 28027974.75 169.3 .0922 5648 811840 139

-80-

Hoja de cálculos de los parámetros de tendencia central, de los parámetros de dispersión y de


la aceptación de normalidad.

Media aritmética:

(X = ( [Mci(fi)] / (fi = 40410/60 = 673.5 mm de agua.

Fórmula corta para la media aritmética:

(X = z + c[((fi di)/(fi = 709.5 + 80 (-27/60 ) = 673.5 mm de agua.

La media aritmética igual a 673.5 mm de agua se elige para este caso.

La mediana:

Md = Li + c [(T ʹ Fi) / (Fs ʹ Fi)] = 669.5 + 80[(30 - 26) / (46-26)] = 685.5mm

La moda:

Mo = li + c[ fs / ( fi + fs ) ] = 669.5 + 80 [ 9 / ( 12 + 9 ) ] = 703.78 mm.

La media cuadrática:

Q = [ ( ( fi (Mci)2 ] / ( fi = (28027974.75/60 = 683.47 mm.

La media geométrica:

Log.G = [( fi (log Mci)] / ( fi = 169.3 / 60 = 2.822


G = antilog. 2.822 = 663.74 mm.

La media armónica:

1/H = [(fi ( 1 / Mci )] / ( fi = .0922 / 60 = 0.00154 H= 650.76 mm.

La desviación media:

D.M. = ( fi ( (X ʹ Mci ( / ( fi = 5648 / 60 = 94.13 mm.

La desviación estandard:

S = ( [ ( fi (X ʹ Mci)2 ] / ( fi = ( 811840/60 = 116.32 mm.

Fórmula corta para la desv std.

S = c ([(( fi di2) / ( fi] - [( ( (fi di)/ (fi)2] =

S = 80 ( (139/60) - (-27/60)2 = 116.32 mm.

Se observa que la D.M. es menor que la S: 94.13 < 116.32

El coeficiente de variación:

C.V. = (S / (X) 100 = 116.32 / 673.5 = 17.27%.

T. de Shebysheff y regla empírica:

(X ( 1 S 673.5 ( 116.32 de 557.18 a 789.82 40 datos 66.7%.

(X ( 2S 673.5 ( 2(116.32) de 440.86 a 906.14 58 datos 96.7%.

(X ( 3S 673.5 ( 3(116.32) de 324.54 a 1022.46 100 datos 100%.


Para cada caso T. Schebysheff exige al menos 67%, 75% y 88.9% y lo cual de ve cumplido la
función será de montículo y con tendencia normal.

Par la regla empírica se exige respectivamente el 68.26%, 95.44% y 99.74% que también lo
cumple nuestro análisis y será con tendencia normal.

CONCLUSIÓN:

El tratamiento de los datos da como resultado lo siguiente:

(X = 673.5 mm de agua.

S = 116.32 mm de agua.

Tendencia normal.

Tendencia normal ya que:

. Polígono de frecuencias e histograma de forma acampanada.

. Ojiva de forma integral suavizada.

. Similitud de medias.

. C.V. pequeño.

. Cumple con T de Schebysheff y regla empírica.

. La grafica en papel normal tiende a una recta.

Cabe destacar que la aceptación formal matemática la dará el análisis de variancia a través de la
prueba chi cuadrada.

Papel normal aritmético

[pic]
|2) Ordenación |

|K |% (1-1k2) |

|1 |0 ~ 66% |

|2 |3/4 ~ 75% |

|3 |8/9 ~ 88% |

|Regla Empírica |

|[pic] | |68.26 % |

|[pic] | |95.54 % |

|[pic] | |100 % |

|[pic] | |

|X |y |

|1 |9 |

|1 |11 |

|1 |10 |

|2 |22 |

|2 |17 |

|2 |18,75 |

|3 |30 |

|3 |32,5 |

|3 |25 |

|4 |37,5 |

|4 |42,5 |

|4 |45 |
Finalmente, debe decirse que, dependiendo de la forma en que se obtengan los valores
muéstrales de la variable independiente, se pueden definir dos tipos de problemas. El problema
de regresión es del Tipo I si los efectos en la variable dependiente Y se miden para ciertos valores
del factor X escogidos previamente por el experimentador.

El problema es del Tipo II cuando los valores de X y Y son escogidos al azar en la forma en que
ellos se presentan.

DIAGRAMA DE DISPERSIÓN

Una incógnita importante que debe despejarse en el análisis de regresión es la forma


general de la expresión matemática que se piensa puede explicar el comportamiento del
fenómeno en base a los indicativos seleccionados; La forma puede deducirse del conocimiento del
propio fenómeno, o por consideraciones gráficas al representar en una gráfica el conjunto de
puntos muéstrales.

Si no se tiene un conocimiento sólido del fenómeno en estudio que permita conocer a


priori la forma de la expresión matemática buscada, un procedimiento gráfico puede resolver el
problema. En efecto, dibujando los valores observados de la variable independiente X con sus
correspondientes valores observados de la variable dependiente Y en un sistema de coordenadas
rectangulares, se obtiene un conjunto de puntos conocidos como diagrama de dispersión.

En caso de que el diagrama de dispersión muestre una tendencia de los puntos a


aproximarse a una línea recta, como en el caso a) de la figura 2, se dice que existe una relación
lineal entre las variables. En el caso b) de la figura 2, aunque se aprecia la existencia de una
relación entre las variables, ésta no es lineal y así se llama, relación no lineal.

En la figura 3 aparece el diagrama de dispersión de los puntos muéstrales de la tabla 1. En


ella se aprecia la tendencia de los puntos a aproximarse o ajustarse a una línea recta.

Y y y

. . .........

. . . ..........

.. ...........

. ............
x x x

a) Relación lineal b) Relación no lineal c) No hay relación

Figura 2. Diagramas de dispersión típicos a),b) y c).

Y (fuerza, Kg) Y( = a0 + a1 x

40

30 ( xi ,yi )

desv. inexp. ( xi,y(i ) desv. total de la var. dep. respecto a la


media

20 desv. expl. media

10

0 1 2 3 4 x (deformación, cm)

Figura 3. Diagrama de dispersión del problema del resorte.

CURVA DE REGRESIÓN

La curva de regresión es aquella a la cual tienden a aproximarse los puntos del diagrama
de dispersión. En particular, la curva de regresión es una recta de regresión cuando la relación
funcional entre las dos variables es lineal. La ecuación de la curva de regresión se llama ecuación
de regresión.

En el análisis de regresión es importante indicar explícitamente cuál es la variable


independiente y cuál la dependiente, expresando que la curva de regresión o su ecuación de
regresión es de ͞y sobre x͟ cuando sirva para predecir valores de la variable dependiente Y dados
los valores de la variable independiente X.
Para obtener la ecuación de regresión de un fenómeno en estudio, después de haber
determinado la forma general de ésta del diagrama de dispersión, considerando que la curva de
regresión tenga la curvatura adecuada para eliminar los errores inherentes al procedimiento de
medición de valores y contenga la información relevante al fenómeno mismo, deben determinarse
los valores de los parámetros desconocidos que afectan a los valores de los indicadores que
inciden en el problema.

En el caso de la regresión lineal, que será el único que aquí se estudie, se tiene una
ecuación de regresión de la forma:

Y = a0 + a1 x

Con dos parámetros por determinarse, que son la ordenada (a0) al origen de la recta y su
pendiente (a1). Existen diferentes métodos para determinar estos parámetros; El que aquí se
estudiará es el de los mínimos cuadrados.

MÉTODO DE LOS MÍNIMOS CUADRADOS

Considérese un cierto experimento del que se han obtenido los puntos muéstrales de la
tabla 2 y graficados en un diagrama de dispersión.

Tabla 2. Puntos muéstrales.

X Y

x1 y1

x2 y2

x3 y3

... ...

... ...

xn yn
Se llama desviación, error o residuo a la diferencia de ordenadas de un punto muestral Y
de la recta de regresión correspondiente a una misma abscisa. Así, el residuo d1 entre el punto
muestral (x1, y1) y la recta de regresión de ecuación Y = a0 + a1 x vale:

d1 = y1 ʹ y͛1

en donde

y͛1 = a0 + a1 x1

Agrupando otras ecuaciones, se obtiene un sistema de dos ecuaciones con dos incógnitas
cuya solución proporciona, tal vez, un punto extremo para la suma de los residuos al cuadrado.
Este sistema, que se describe a continuación eliminando los índices de las variables independiente
y dependiente y los límites de las sumatorias por comodidad, reciben el nombre de sistema de
ecuaciones normales.

a0n + a1 ( x = ( y

a0 ( x + a1 ( x2 = ( xy

Aplicando la condición suficiente para que el punto extremo proporcione un valor mínimo
a la función objetivo considerado, se demuestra que efectivamente la solución del sistema de
ecuaciones normales define el mínimo de la suma de los residuos al cuadrado del método de los
mínimos cuadrados. No se hace la demostración de esto última por no tener mayor importancia
en la exposición de este tema, pero puede dejarse como tarea al lector interesado.

Resolviendo el sistema de ecuaciones normales, se obtienen los valores de los parámetros a0 y


a1 de la recta de regresión que mejor se ajusta al conjunto de puntos muéstrales de la tabla 2 de
acuerdo con el criterio de los mínimos cuadrados. Estos son:

a0 = ((y)((x2) ʹ ((x)((xy)

n (x2 ʹ ((x)2
a1 = n (xy ʹ ((x)((y)

n (x2 ʹ ((x)2

donde n indica el número de pares de puntos que son datos.

Estos valores, sustituidos en la recta de regresión, proporcionan la ecuación de la recta de


regresión de Y sobre X. Por medio de ella se pueden estimar o predecir valores de Y dados valores
de X.

EJEMPLO:

Obtener las rectas de regresión de Y sobre X y de X sobre Y para el problema siguiente:

Para la regresión de Y sobre X se tiene la tabulación indicada en la tabla 3.

Se deja al alumno elaborar la gráfica x ʹy correspondiente a los datos.

Tabla 3.

x y x2 xy y2

1 9.00 1 9.00 81.0000

1 11.00 1 11.00 121.0000

1 10.00 1 10.00 100.0000

2 22.00 4 44.00 484.0000

2 17.00 4 34.00 289.0000

2 18.75 4 37.50 351.5625

3 30.00 9 90.00 900.0000

3 32.50 9 97.50 1056.2500

3 25.00 9 75.00 625.0000

4 37.50 16 150.00 1406.2500


4 42.50 16 170.00 1806.2500

4 45.00 16 180.00 2025.0000

( 30 300.25 90 908.00 9245.3125

n = 12

a0 = (300.25)(90) ʹ (30)(908.00) = -217.50 = -1.21

(12)(90) ʹ (30)2 180

a1 = (12)(908.00) ʹ (30)(300.25) = 1888.50 = 10.49

(12)(90) ʹ (30)2 180

Luego la recta de regresión de Y sobre X es:

Y = -1.21 + 10.49 x

Para obtener la ecuación de la regresión de X sobre Y se deben intercambiar X y Y en las


ecuaciones anteriores obteniéndose:

a0 = ((x)((y2) ʹ ((y)((yx)

n (y2 ʹ ((y)2

a1 = n (yx ʹ ((y)((x)

n (y2 ʹ ((y)2

Sustituyendo en ellas los valores de las sumas ya calculadas, se tiene:


a0 = (30)(9245.3125) ʹ (300.25)(908.00) = 4732.3750 = 0.23

(12)(9245.3125) ʹ (300.25)2 20793.6875

a1 = (12)(908.00) ʹ (300.25)(30) = -1888.50 = 0.09

(12)(9245.3125) ʹ (300.25)2 20793.6875

y la recta de regresión de X sobre Y es:

x = 0.23 + 0.09y

Se deja al alumno elaborar la gráfica correspondiente.

Despejando Y de esta ecuación se obtiene y = -2.51 + 11.01x, lo que muestra que las
ecuaciones de regresión de Y sobre X y de X sobre Y no son iguales.

Si se grafican ambas ecuaciones se podrá encontrar que no coinciden exactamente pero se


podrá observar que son muy coincidentes, esto indica que las rectas de ajuste tienen los pares de
puntos muy semejantes a la línea recta, en caso de que fueran coincidentes entonces todos los
pares de puntos estarían sobre la recta. Se deja que el alumno lleve a cabo la anterior
demostración.

Si la variable independiente x representa al tiempo, a la recta de regresión se le denomina de


tendencia y se utiliza para estimar, predecir o pronosticar. Los datos muéstrales ordenados según
la variable tiempo se llaman series cronológicas o de tiempo.

COEFICIENTE DE CORRELACIÓN

Hasta este momento se ha aceptado el error estándar de la estimación como un buen


indicador de qué tan bien se ajusta una recta de regresión al conjunto de puntos muéstrales que la
producen. Sin embargo, este error estándar de la estimación tiene unidades, lo que dificulta decir
en un momento dado si un error estándar es o no pequeño.

A fin de poder hacer comparaciones entre los errores estándar de la estimación de


diferentes problemas, convendría que estos errores fueran adimensionales y variaran dentro de
un rango único. Para obtener este indicador que se llamará coeficiente de determinación y se
expresa por r2 y corresponde al cociente de la desviación explicada de los datos entre la
desviación total de los datos, es decir:
r2 = [ є ( y͛ - Y )2] / [ є ( y ʹ Y )2 ]

La raíz cuadrada de r2 da el coeficiente de correlación.

Donde y corresponde a los pares de puntos, y" se refiere al valor estimado en la ecuación de
ajuste y y se refiere al promedio de los valores de las y.

A continuación se establece otra forma de la expresión que proporciona directamente el signo


del coeficiente de correlación lineal.

Después de sustituir las ecuaciones en otras expresiones y sustituyendo a0 y a1 por sus valores
dados en las expresiones, finalmente la ecuación a utilizar seria:

n (xy ʹ ((x)((y)

r=

[n(x2 ʹ ((x)2][n(y2 ʹ ((y)2]

Si aplicamos para el problema del resorte se tendrá:

(12) (908) - (30) (300.25)

r=

я [ (12) (90) -(30)2] [(12) (9245.3125) ʹ (300.25)2 ]

r = 0.976 -> 1 las dos variables están linealmente correlacionadas.

Se cabría preguntar si el valor 0.976 y el cual fue obtenido de un muestreo, puede ser inducido
a la población completa y en realidad pueda aproximarse a dicho valor de 0.976, por lo que el
estudio debe de complementarse con un análisis de confiabilidad de la medida de correlación.

El coeficiente de correlación también se podrá obtener aplicando la expresión del coeficiente


de determinación y que corresponde a la relación de la desviación explicada con respecto a la
desviación total, por lo que se deberá de calcular las siguientes columnas adicionales en la tabla:

X Y YC ( YC - (Y )2 ( Y - (Y )2

1 9 9.28 247.7 256.6

1 11 9.28 247.7 196.6

1 10 9.28 247.7 225.6

2 22 19.77 27.6 9.12

2 17 19.77 27.6 64.3

2 18.75 19.77 27.6 39.3

3 30 30.26 27.5 24.8

3 32.5 30.26 27.5 56

3 25 30.26 27.5 0.0004

4 37.5 40.75 247.4 155.8

4 42.5 40.75 247.4 305.6

4 45 40.75 247.4 399.2

( 1650.6 1732.9

Para x = 1

Y = -1.21 + 10.49 x = -1.21 + 10.49 (1) = 9.28 así para todo valor de x

Ecuación de regresión yc = -1.21 + 10.49x

(Y = 300.25 / 12 = 25.02
r2 = 1650.6 / 1732.9 = 0.9525

r = ( 0.9525 = 0.976 una alta correlación.

REGRESIÓN Y CORRELACIÓN NO LINEAL:

En un análisis de dos variables se puede presentar que el diagrama de dispersión muestre un


camino trazado de forma no lineal, de la forma Lineal

y = a0 + a1 x, con parámetros a0 y a1,

Pero cuando sea no lineal, p.e. cuadrática

y = a0 + a1 x + a2 x2 parámetros a0, a1, a2

Cúbica y = a0 + a1 x + a2 x2 + a3 x3 etc. Hasta de orden n.

Pero también puede ser de la forma exponencial, logarítmica o trigonométrica.

La solución del problema se vuelve básicamente algebraica, por lo que el empleo de un


programa de computación sería lo más apropiado.

Las formulas de correlación se dan en el ejemplo respectivo mas adelante.

EJEMPLO:

De diferentes observaciones acerca del consumo de combustible en vehículos circulando


en terreno plano y a diferentes velocidades se obtuvieron los siguientes valores promedio.

Efectué un análisis de regresión y correlación, mediante un ajuste del tipo polinomial, para los
siguientes puntos muéstrales:

|x velocidad | y |

|M / hr. |Gal. / milla |

|20 |4,04 |

|25 |4 |

|30 |4,18 |
|35 |4,35 |

|40 |4,2 |

|45 |4,75 |

|50 |5,2 |

|55 |5,52 |

|60 |6,15 |

Parábola mínimo cuadrado. (Ajuste de curva polinomial).

(y = a0n + a1(x + a2(x2

(yx = a0(x + a1(x2 + a2(x3

(x2y = a0(x2 + a1(x3 + a2(x4

| |x | y |x2 |x3 |x4 |x*y |x2y |

| |20 |4,04 |400 |8000 |160000 |80,8 |1616 |

| |25 |4 |625 |15625 |390625 |100 |2500 |

| |30 |4,18 |900 |27000 |810000 |125,4 |3762 |

| |35 |4,35 |1225 |42875 |1500625 |152,25 |5328,75 |

| |40 |4,2 |1600 |64000 |2560000 |168 |6720 |

| |45 |4,75 |2025 |91125 |4100625 |213,75 |9618,75 |

| |50 |5,2 |2500 |125000 |6250000 |260 |13000 |

| |55 |5,52 |3025 |166375 |9150625 |303,6 |16698 |

| |60 |6,15 |3600 |216000 |12960000 |369 |22140 |

|[pic] |360 |42,4 |15900 |756000 |37882500 |1772,8 |81383,5


|

42.38 = 9 a0 + 360 a1 + 15900 a2


1772.35 = 360 a0 + 15900 a1 + 756000 a2

81363.25 = 15900 a0 + 756000 a1 + 37882500 a2

Solucionando por un método matricial se tendrá:

a2 = 0.00166

a1 = - 0.0814

a0 = 5.0322

y = 5.0322 - 0.0814x + 0.00166x2

Ecuación de regresión de mejor ajuste, o parábola de mínimos cuadrados un ajuste no lineal o


polinomial.

Para calcular el coeficiente de correlación no lineal se aplicará la idea general del concepto
enunciado en páginas atrás:

r2 = [ є ( y" - (y )2 ] / [ є ( y ʹ (y )2 ]

(Y =[ є y ] / n = 42.38 / 9 = 4.71

Para los valores de x se define el valor de y como se muestra:

x = 20

y"1 = 5.0322 ʹ 0.0814 (20) + 0.00166 (20)2

y"1 = 4.066
x = 25

y"2 = 5.0322 ʹ 0.0814 (25) + 0.00166 (25)2

y"2 = 4.033

Y así con todos los valores de x. (Y

| |x | y |y' |(y'-(Y )2 |(y -(Y )2 |y2 |(y-y´)2 |

| |20 |4,04 |4,0682 |0,412 |0,4489 |16,322 |0,00080 |

| |25 |4 |4,0347 |0,456 |0,5041 |16,000 |0,00120 |

| |30 |4,18 |4,0842 |0,392 |0,2809 |17,472 |0,00918 |

| |35 |4,35 |4,2167 |0,243 |0,1296 |18,923 |0,01777 |

| |40 |4,2 |4,4322 |0,077 |0,2601 |17,640 |0,05392 |

| |45 |4,75 |4,7307 |0,000 |0,0016 |22,563 |0,00037 |

| |50 |5,2 |5,1122 |0,162 |0,2401 |27,040 |0,00771 |

| |55 |5,52 |5,5767 |0,751 |0,6561 |30,470 |0,00321 |

| |60 |6,15 |6,1242 |2,000 |2,0736 |37,823 |0,00067 |

|[pic] |360 |42,4 |42,380 |4,493 |4,595 |204,252 |0,095


|

Calculo de la correlación:

y = ( y / n = 42.38 / 9 = 4.71

Coeficiente de determinación:

r2 = desv. Explicada / desv. Total = [( (y(- (y)2] / [( (y - (y)2] =

r2 = 4.489 / 4.595 = 0.977

El coeficiente de correlación será:


r = ( 0.977 = 0.988 indica que las variables están altamente correlacionadas en un análisis
no lineal ó polinomial ó parabólico.

Aplicando la fórmula reducida se calculara el coeficiente de correlación:

r = ( 1 - [S2y/x / S2y]

S2y/x = ( ( y ʹ yc )2 / ( n ʹ 3 ) = .0945 / ( 9 ʹ 3 ) = 0.01575

S2y = n[ n ( y2 ʹ ( ( y )2] / [ n2 ( n-1 ) ] = 9[9(204.158)-(42.38)2] / 81(8) = 0.5744

r2 = 1 - [ 0.01575 / 0.5744 ] = 0.973

r = ( 0.973 = 0.987 alta correlación.

Se deja al alumno que efectúe un análisis de regresión y correlación lineal para los datos
anteriores, los compare con la curva de regresión obtenida y con el coeficiente de correlación no
lineal y obtenga unas conclusiones de la comparación anterior.

Regresión y correlación no lineal.

Para cierto tipo de datos es conveniente compararlos con diferentes tipos de


comportamientos gráficos en diferentes clases de papel, con el fin de buscar la simplicidad en los
cálculos y observar que si al ir variando el tipo de papel la relación entre variables tiende a ser del
tipo lineal.

Se podrá iniciar con un papel del tipo aritmético vs aritmético, se podrá variar a un papel
aritmético vs logarítmico llamado también semilogaritmico ó se podrá trabajar con un papel
logarítmico ó logarítmico vs logarítmico. Se grafican los datos y se observa si hay tendencia lineal y
si así se convierten las ecuaciones dadas a formas relacionadas con los logaritmos.

Por ejemplo un comportamiento de la forma:

Y = a bx
Se puede transformar a uno de la forma:

Log. Y = log a + x log b

Que es una función de la forma lineal:

Y = mx + b ó y = a0 + a1 x donde:

Y = log. Y b = log a m = log b

Se observa que x no se altera, por lo que tiene una variación aritmética, en cambio Y si se ve
afectada por el logaritmo y habrá que efectuar la transformación correspondiente. El análisis
corresponde a una variación semilogaritmica y el papel de gráfica será en el eje x aritmético y en
el eje y logarítmico.

Para una variación logarítmica se tendrá una función de la siguiente forma:

Y = a xb

La transformación logarítmica será:

Log. Y = log a + b log x

Como las variables x-y están afectadas por el logaritmo entonces se tendrá una variación
logarítmica, el papel de gráfica en ambos ejes será logarítmico.

Si en ambos casos se grafica y la tendencia es una recta, el ajuste se efectuara empleando las
formas de la línea recta y el análisis será mas simple. Para el ajuste final solo se deberá de efectuar
las transformaciones correspondientes.

Ejemplo:
En la siguiente tabla aparecen los beneficios netos de una compañía durante sus primeros seis
años de operación:

. Elabore la gráfica de regresión y busque un ajuste semi-logarítmico si la gráfica del tipo


aritmético presenta una tendencia del tipo no lineal.

. Determine la ecuación de regresión.

. Determine el coeficiente de correlación.

*Datos: *Gráfica aritmética:

|Años |Beneficio |

| |neto $ |

|1 |112 |

|2 |149 |

|3 |238 |

|4 |354 |

|5 |580 |

|6 |867 |

Como se observa que la gráfica en papel aritmético sigue una tendencia no lineal, se pasarán
los datos a una gráfica en papel semi ʹ logarítmico y se observa que la tendencia es a una recta,
por lo que se efectuarán las transformaciones necesarias para llevar a cabo un ajuste lineal.

[pic]

La ecuación de ajuste que se buscará será de la forma:

Y = a0 + a1 x

Determinación de la recta de regresión:

Los ajustes de la ecuación lineal serán:


Y = log y a0 = log a a1 = log b, es decir:

Log y = log a + x log b, por lo que la ecuación de ajuste será de la forma: y = a bx

Tabla de cálculos:

X Y Y=logy X2 XY

1 112 2.0492 1 2.0492

2 149 2.1732 4 4.3464

3 238 2.3766 9 7.1298

4 354 2.5490 16 10.1960 n = 6

5 580 2.7634 25 13.8170

6 867 2.9380 36 17.6280

Sumas 21 14.8494 91 55.1664

Aplicando las ecuaciones básicas de la regresión lineal se tendrá:

a0 = [(14.894) (91) - (21) (55.1664)] / [(6) (91) ʹ (21)2] =

= (1351.3 - 1158.5) / (546 - 441) = 192.8 / 105 = 1.84

a1 = [(6) (55.1664) - (21) (14.8494)] / [(6) (91) ʹ (21)2] =

= (331 - 311.8) / (105) = 0.183

Y = a0 + a1 x = 1.84 + 0.183 x de donde:

Y = log y log a = 1.84 log b = 0.183 ( log y = 1.84 + 0.183 x

a = antilog 1.84 = 69.18 b = antilog 0.183 = 1.52

La ecuación de regresión será: Y = 69.18 (1.52) x


Se deja al alumno a que efectúe el cálculo del coeficiente de correlación.

Se deja al alumno a que estudie los casos de regresión y correlación con más de dos variables.

LA INVESTIGACION Y LA ESTADÍSTICA

La investigación tiene como objetivo la búsqueda del conocimiento y el entendimiento. Trata


de descifrar de las cosas, y las consecuencias de un conjunto particular de las cosas.

La investigación esta compuesta esencialmente de dos elementos, la observación y el


razonamiento. La observación es el medio por el cual se obtiene el conocimiento de los hechos, y
se realiza a través de las percepciones de los sentidos. El razonamiento, la lleva a determinar las
posibles causas de los hechos, relacionados con los conocimientos existentes.

La investigación requiere del uso de ciertas herramientas que son proporcionadas por la
estadística.

La estadística puede ofrecer a la investigación en planeación la manera de analizar e


interpretar los resultados, comprendiendo dos funciones:

Descripción, resultado de la información de tal modo que pueda emplearse mejor.

Inducción, consiste en formular generalizaciones a una población determinada sobre una


muestra extraída de la misma.

ETAPAS GENERALES DE UNA INVESTIGACION

Determinar que se pretende investigar y su finalidad.

Estadística, la primera etapa es la de formular el problema o pregunta lo más precisamente


posible, es decir como son los datos más relevantes del problema.

Formular, plantear y delimitar el problema.

Identificar las variables.


Formular las hipótesis.

Determinación de la población que va a ser hecha un muestreo.

La población o el universo se definen como el total de las unidades elementales tales como
personas, empresas, etc.

Delimitación del trabajo de investigación.

Recolectar únicamente los datos que se utilizaran posteriormente.

Selección de métodos y técnicas.

Deberá definirse si es por variables y por atributos. Muestreo de aceptación de variables y por
atributos: Si a partir de una muestra deseamos estimar una cierta característica cuantitativa, se
dice que se trata de un muestreo de variables, si en cambio nos interesa estimar una característica
cualitativa, se dice que se trata de un muestreo de atributos.

Tamaño de la muestra: se requiere una muestra mayor para muestreo de atributos que para el
caso muestreo de variables, además los elementos de la muestra pueden ser más costosos y la
inspección más destructiva.

Costos: las medidas reales y los cálculos requeridos pueden ser más costosos por variables.

Normalidad: los planes de variables dependen de la exactitud en la consideración de la


normalidad de la distribución de la variable medida.

Operación: el muestreo de atributos es más ampliamente conocido que el muestreo de variables,


es decir se requiere menos entrenamiento.

Preparación de la comunidad, el grupo o los objetos. La población debe dividirse en unidades


de muestreo.

Determinación y elección de la muestra.

En la toma de la muestra de una población cualquier persona puede tomar dicha muestra, pero
puede tomar propensión a seleccionar determinadas unidades, por lo tanto no le puede asignar
una cierta posibilidad de selección a cada elemento. Para evitar estos problemas se tiene los
siguientes métodos de selección al azar, es decir, un procedimiento para seleccionar a cada una de
las muestras una igual posibilidad de selección evitando en lo menos posible el sesgo.
METODOS ALEATORIOS

Números aleatorios.

Método del residuo.

Método del coeficiente.

Organización del trabajo: deberá darse supervisión e instrucción al efectuar el muestreo y si es


posible darles un instructivo de procedimientos.

Análisis de los resultados: una vez obtenidos los datos son necesario e importante analizarlos
para efectuar una estimulación de la población investigada.

MUESTREO Y RAZONES PARA EL MISMO

Muestreo es simplemente el proceso de aprender algo acerca de la población sobre la base de


una muestra extraída. Al efectuarse un muestreo deberán contestarse la siguiente pregunta:

BCuáles son las razones para el muestreo?

Hoy casi todas las encuestas estadísticas, que se hacen para la toma de decisiones en los
negocios, la formulación política, desarrollo de las teorías sociales, son de muestreos. Además
pueden obtenerse resultados fidedignos de procedimientos de muestreo correctos ya que las
poblaciones pueden ser infinitas y en tales casos el muestreo es el único procedimiento práctico y
posible. Este puede ser aún el procedimiento más eficiente. Los resultados obtenidos por el
estudio de la muestra pueden ser iguales o más precisos que los hallazgos de una cuenta completa
de conjunto.

BASE TEORICA DEL MUESTREO

En el muestreo encontramos un poderoso instrumento para predecir el comportamiento de los


fenómenos masivos. Esto es generalizar lógica y precisamente acerca de miles de valores que no
hemos visto, sencillamente por la confianza proporcionada por ciertos valores. La población tiene
propiedades características, variaciones limitadas en sus elementos que son reflejados en una
muestra pequeña y tomada al azar. La población y las partidas individuales de una población
tienden a variar entre sí, esto es que tienden a generar iguales valores arriba y debajo de cierto
valor central es por ello, tenemos diversidad y uniformidad de los datos. Los promedios son más
estables que los valores individuales. A demás los promedios resultan más estables cuantas más
observaciones haya en la muestra. Como pueden estar seguros entonces sobres el grado de
confianza de nuestras conclusiones, la respuesta sería ͞ALEATORIEDAD͟. La medición objetiva de
los errores por muestreo requiere que la muestra sea al azar.

COMO DEBERAN SER LAS MUESTRAS

Se deberá comprender algunos términos:

Marco de población muestreada: identificar las unidades elementales que deben ser definidas
antes de poder observarlas, esto es si la población es accesible, en caso contrario cuando presenta
dificultades se prepara cierta clase de lista con las cuales identificar las unidades muéstrales
llamándosele a este marco de población.

Muestras: las unidades que forman una población se les llaman unidades de muestreo que son
de dos tipos; las unidades de muestreo elementales que son todas las contenidas en la población
cuyas características han de ser medidas o contadas, mientras que las unidades de muestreo
primarias son las unidades elementales mismas o los grupos de las unidades elementales. Una
muestra es un conjunto de unidades de muestreo primario del que pueden hacerse inferencia
sobre la población de esta se espera que sea representativa en la población original. En la teoría
del muestreo es importante distinguir las muestras por juicio.

Errores estadísticos: Diferencia entre el valor de una estadística y el del parámetro


correspondiente. El error de muestreo es el resultado de la muestra y del censo cuando se
obtienen ambos resultados usando los mismos procedimientos.

Eficiencia de los modelos de los muestreos: un modelo se dice que es suficiente si los
resultados deseados son obtenidos al costo más bajo posible. Un modelo de muestreo se dice que
es más eficiente que otro si el primero da la misma precisión a costos más bajos, o mayor precisión
a los mismos costos.
METODO DE MUESTREO

El muestreo o sondeo es una técnica para seleccionar de una población, unidades o grupos más
pequeños de este universo considerado, llamados muestra, que tengan las mismas características
del universo que representan. Los procedimientos generales para la extracción de muestras:

Definir el universo con el que se tratará de trabajar.

Elaborar una lista completa y precisa de las unidades y agrupaciones que componen esta
población o universo.

Determinar el tamaño de la muestra.

ELECCION DEL TAMAÑO DE LA MUESTRA

El diseño de un experimento es esencialmente un plan para comparar una cantidad de


información que, como cualquier otro producto, puede adquirirse a distintos precios dependiendo
de la forma que se obtienen los datos. Puesto que el único producto de la investigación es la
información, es deseable compararla a costo mínimo.

EL MUESTREO ALEATORIO: que consiste en darle a todas las muestras posibles de una
población la misma probabilidad de ser seleccionados, tiene dos propósitos:

Evita la posibilidad de sesgos producidos por una selección no aleatoria de elementos


muéstrales.

Proporciona una base probabilística para la selección de la muestra.

Puesto que las distribuciones de probabilidad son modelos teóricos para las distribuciones de
frecuencia relativas de poblaciones, las muestras seleccionadas en poblaciones se pueden
considerar como observaciones de variables aleatorias.

EL MUESTREO ALEATORIO AL AZAR: es donde se tiene una lista del universo, y de ella se extrae
una muestra mediante métodos probabilísticas.
EL MUESTREO ESTRATIFICADO: se divide al universo en diferentes estratos, según algunas
características y se toman muestras al azar, de cada una de esas clases. El muestreo puede ser;
proporcional, que es cuando se extraen unidades de acuerdo a un por ciento convenido. Y el no
proporcional donde se extrae el número igual a cada una de las clases.

EL MUESTREO SISTEMATICO: se divide las listas en unidades o nombres de personas por el


tamaño deseado de la muestra. Se escoge al azar el primer número de la muestra y se suma
sucesivamente a este número la cantidad anterior encontrada, hasta extraer la cantidad de
personas deseadas.

EL MUESTREO NO ALEATORIO: el muestreo por juicio, seleccionado por expertos o


intencionado, es aquí donde el grupo de expertos elige la muestra según a ellos les parece bueno,
este muestreo si bien depende de que tan expertos sean los expertos, indudablemente que habrá
un error en la muestra.

EL MUESTREO CON REMPLAZAMIENTO: se utiliza una lista y a cada integrante se le asigna un


número que será inscrito en un boleto, que será incluido en un recipiente para ser extraído al azar.
Al extraer los números sucesivos, puede darse el resultado que se regrese al recipiente él número
extraído. Para seleccionar el tipo de muestreo se deben tener en cuenta los siguientes criterios.

Grado de precisión requerido.

Error de precisión aceptable.

Tiempo.

Costo.

Posibilidades en el terreno.

DISEÑO DE EXPERIMENTOS

El diseño de un experimento es esencialmente un proyecto para obtener una cantidad de


información que, como cualquier otro servicio, se puede adquirir a diferentes precios que
depende de la manera en que se obtuvieron los datos.
El proceso de muestreo o Diseño de Experimentos como se le llama normalmente, afecta la
cantidad de información por medición. Esto conjunto con el tamaño n de la muestra, controla la
cantidad total de información relevante a una muestra.

Mendenhall, wackerly

Teoría Elemental Del Muestreo

Para que las conclusiones de la teoría del muestreo e inferencia estadística sean válidas, las
muestras deben elegirse de forma que sean representativas de la población. Un estudio sobre
métodos de muestreo y los problemas de tales métodos implican, se conoce como Diseño de
Experimentos.

El proceso por medio del cual se extrae de una población, una muestra representativa de la
misma se conoce como muestra al azar, de acuerdo con ello cada miembro de la población tiene la
misma posibilidad de ser incluidos en la muestra. Una técnica para obtener una muestra al azar es
asignar números a cada miembro de la población para después extraer los números en un sorteo.
Esto puede ser sustituido por una tabla de Números Aleatorios construida especialmente para
tales propósitos.

S.
Schaum

CONCEPTOS BASICOS:

Experimento.- es un proceso por medio del cual se obtiene una observación o medición. La
experimentación se usa para someter a prueba hipótesis y establecer nuevas relaciones entre
variables.

La experimentación frecuentemente proporciona conclusiones erróneas que pueden ser


resultado de los siguientes hechos:

Interpretación defectuosa del experimento

Suposiciones originales inadecuadas

El experimento fue pobremente diseñado o mal ejecutado.


El Diseño Experimental es el plan usado en un experimento. Implica la asignación de
tratamientos a las unidades experimentales y un amplio entendimiento de los análisis por
verificar, asegurando que los datos se obtendrán de modo tal que permitan un análisis objetivo
que conduzca a deducciones validas con respecto al problema establecido.

Debe hacerse todo esfuerzo para ahorrar tiempo, dinero, personal y material experimental, es
decir, que el diseño de experimentos es una materia que se requiere tanto a la metodología
estadística como al análisis económico.

PLANEAMIENTO DE EXPERIMENTOS

La clave del éxito en el trabajo experimental consiste en preguntarse continuamente:

BQué busco?

BPor qué mido esto?

BQué me significa la medición?

Y más particularmente, sobre todo en las fases iniciales del planteamiento del experimento son,
entre otras:

BCuáles serán las variables primarias para investigar?

BQue tipo de control se deberá tener en el experimento?

BQue rango de las variables primarias será necesario para poder describir el fenómeno bajo
estudio?

BExisten comercialmente los instrumentos o deben construirse especialmente para el


experimento?

BCuales son los aspectos de seguridad preventiva necesarios, si dentro del experimento existe
alguna operación peligrosa?

BDe que fuentes financieras se dispone para llevar a cabo el experimento? Y ¿qué tanto se apega
las características de los aparatos al presupuesto asignado?

BQue mediadas se han tomado para registrar los datos?

BCómo se comporta el fenómeno para saber que medir y como comprobarlo?


PROCEDIMIENTO GENERAL PARA REALIZAR UN EXPERIMENTO

A. Establecer la necesidad para realizar el experimento.

B. establecer las condiciones óptimas de: Presupuesto. Personal. Tiempo, Incluyendo las
programaciones o secuenciación en tiempo del proyecto.

C. Modificar el alcance del experimento de acuerdo a las condiciones reales de: presupuesto,
personal y tiempo.

Comenzar la planificación del experimento a detalle, establecer claramente los objetivos del
experimento (verificar el comportamiento de un prototipo o modelo para su producción; verificar
el análisis teórico de un fenómeno físico en particular, etc.)

Si el experimento es similar a aquellos que han realizado investigadores previos, asegurarse de


utilizar su experiencia.

Nunca pasar por alto la posibilidad de que el trabajo pudo haber sido echo anteriormente y
estar consignado en la literatura.

Continuar la planificación llevando a cabo los siguientes pasos:

Establecer las variables primarias que deben medirse (Fuerza, deformación, gasto, presión,
temperatura, volumen, etc.)

Determinar, lo mejor posible, la exactitud que puede requerirse en las mediciones primarias y
él número de tales mediciones que serán necesarios para el adecuado análisis de datos.

Establecer los procedimientos de cálculo para sintetizar los datos antes de llevar a cabo el
experimento para estar seguro de que se van a recoger los datos necesarios para alcanzar el
objetivo del experimento.

Estimar los errores posibles en los resultados antes de que se lleve a cabo el experimento, para
que, si resulta necesario, pueda cambiarse los requisitos de exactitud de los instrumentos.

Seleccionar los instrumentos para las diversas mediciones que igualen los requisitos de
exactitud anticipados.

Modificar la instrumentación, si es necesario, de acuerdo a las limitaciones presupuestadas.


Recopilar unos pocos datos y efectuar un análisis preliminar de ellos, para estar en él
experimento esta resultando como se había planeado.

Modificar el arreglo y/o el procedimiento experimental, de acuerdo con los resultados del punto 5.

Recopilar el cúmulo de datos experimentales y analizar los resultados.

Organizar, discutir y publicar los descubrimientos y resultados del experimento, asegurándose


de incluir la información concerniente a todos los puntos anteriores.

PLANIFICACION DEL PROGRAMA EXPERIMENTAL

Etapa Preliminar:

Etapa Intermedia:

C) Etapa Final:

CAPITULO IV.

LA INFERENCIA ESTADÍSTICA (I.E)

La I.E. es la parte de la estadística que proporciona las reglas para inferir características de una
población a partir de muestras extraídas de ellas, junto con las indicaciones probabilísticas de la
veracidad de tales inferencias, en general se le denomina inferencia estadística.

La I.E estudia las relaciones que existen en una población, las muestras extraídas de ella y las
técnicas para estimar parámetros.

Los parámetros dependen del objetivo del problema y se pueden referir a la MEDIA, VARIANZA,
DESVIACIÓN ESTANDAR, MEDIANA, MODA, a la POBLACION, etc. ya sea en forma individual o en
relación a 2 poblaciones.
Los métodos para hacer inferencias estadísticas pueden ser de 2 categorías:

ͻ La 1era consiste en tomar decisiones respecto al valor del parámetro.

ͻ La 2da se basa en predecir el valor del parámetro.

Una presentación del objetivo y de los tipos de inferencia queda incompleta si no tenemos una
referencia respecto a la bondad de los métodos de inferencia.

La I.E tiene como base la teoría del muestreo, donde el diseño de experimentos trata los temas
de los métodos de muestreo donde se pretende reducir las variaciones experimentales que sea
representativo y que tenga un mínimo costo.

Para asegurar que los parámetros asociados a la muestra se siguen manteniendo como
representativos en el tiempo, estos deberían de realizarse continuamente por medio del estudio
de muestras representativas.

g LAS TÉCNICAS DE MUESTREO.

Básicamente un muestreo se basa en un muestreo aleatorio o en un semialeatorio. En el


primero todas las muestras tendrán la misma probabilidad de ser elegidas en donde el sesgo es
eliminado, en el semialeatorio se permite cierto tipo de sesgo.

1. EL MUESTREO ALEATORIO SIMPLE.

Consiste en tomar muestras de tamaño n de entre una población N, de manera que todas tengan
la misma probabilidad de ser elegidas, se emplean técnicas como la de los números aleatorios.

2. EL MUESTREO ALEATORIO PROPORCIONAL.


En forma continua se presentan fenómenos con tendencia binomial y que la técnica de
muestreo se busca estimar el porcentaje de unidades que tengan esas características obteniendo
un muestreo proporcional.

3. MUETREO ALEATORIO ESTRATIFICADO.

Cuando los elementos se pueden agrupar en estratos de acuerdo a ciertas características de


cada estrato, se podrá llevar acabo un muestreo aleatorio simple de tamaño proporcional al
estrato, donde la muestra representativa será la total que se obtuvo del muestreo estratificado.

Estrato Tamaño del Tamaño de la

Estrato muestra

1 N1 n1

2 N2 n2

3 N3 n3

4 N4 n4

5 N5 n5

6 N6 n6

ɇ N (población) n (tamaño de muestra)

El muestreo aleatorio se puede efectuar sobre 2 tipos de poblaciones, la finita ó sin reemplazo
y la infinita o con reemplazo.

Para una población finita el número de muestras que se pueden obtener se define por la
siguiente expresión:
Número de muestras = N C n

N ї Tamaño de la población.

n ї Tamaño de la muestra.

Y como el muestreo es aleatorio se plantea la siguiente definición:

Una muestra de tamaño n de una población finita de tamaño N es una variable aleatoria si se
selecciona de tal manera que cada una de las N C n muestras posibles tiene la misma probabilidad
1 de ser seleccionada

N C n.

EJEMPLO # 1

Obtenga el número de muestras para las siguientes condiciones.

a) n = 2 y N = 12

b) n = 3 y N = 100

SOLUCIÓN:

a) Numero de muestras = N C n

Numero de muestras = 12C 2 = 12! = 11*12 = 66

2! 10! 2

Probabilidad = 1 .
NCn

= 1

66

= 1.5 %

b) Numero de muestras = N C n

Numero de muestras = 100 C 3

= 100!

3!97!

= 161,700

Probabilidad = 1 .

NCn

= 1 .

161,700

= 0.0006%

Para el muestreo aleatorio proporcional estratificado se parte de la siguiente idea.

n1 = n2 ͙͙. nk ї Parámetro Binomial.


N1 N2 NK

El cálculo del tamaño muestral proporcional se define por la siguiente expresión:

ni = Ni (n)

Para i = 1, 2,3͙..k.

EJEMPLO # 2.

Se debe de obtener una muestra de tamaño 60 de una población finita de 4000 y la cual cuenta de
3 estratos de tamaño N1 = 2000 N2 = 1200 N3 = 800. ¿Qué tan grandes deben de ser las muestras
de cada estrato?

SOLUCIÓN:

n = 60

N = 4000

N1= 2000

N2= 1200

N3= 800

n1 = ?

n2 = ?

n3 = ?
n1 = N1 (n) = 2000 (60) = 30

N 4000

n2 = N2 (n) = 1200 (60) = 18

N 4000

n3 = N3 (n) = 800 (60) = 12

N 4000

El muestreo estratificado nos permite definir una muestra representativa, ya que se tomara
una muestra más grande del estrato más grande. Pero para tener una mejor muestra, junto al
muestreo estratificado se podrá considerar la variabilidad donde seria lógico tomar una muestra
mayor del estrato de más variabilidad.

Si consideramos ʍ1, ʍ2,.......ʍk. Son las desviaciones de los estratos E1, E2,͙͙EK.

La proporcionalidad se definirá de la siguiente forma:

n1 = n2 = nk

N1 ʍ1 N2 ʍ2 Nk ʍk

Donde los tamaños muestrales se definen de la siguiente manera:

ni = n * N1 ʍ1

N1ʍ1 + N2ʍ2 +͙.NKʍK

N1 + N2 +͙. NK = N (Población)
nї Muestra.

EJEMPLO # 3.

Se debe de tomar una muestra de tamaño 84 de una población de 10.000, agrupadas en 3 estratos
de tamaño 5.000, 2.000, y 3.000 y con desviaciones respectivas de 15, 18, y 5.

BQué tan grandes deben de ser las muestras que se deben de obtener para lograr un muestreo
óptimo?

SOLUCIÒN:

n = 84

N =10.000

N1 = 5.000

N2 = 2.000

N3 = 3.000

1 = 15

2 = 18

3= 5

n1 = 84 (5.000) (15)

(5.000)(15)+ (2.000) (18)+ (3.000) (5)

n1 = 6300000
75000 + 36000 + 150000

n1 = 6300000

126000

n1 = 50

n2 = 84 (2.000) (18)

(5.000)(15)+ (2.000) (18)+ (3.000) (5)

n2 = 3024000

75000 + 36000 + 150000

n2 = 3024000

126000

n2 = 24

n3 = 84 (3.000) (5)

(5,000)(15)+ (2,000) (18)+ (3,000) (5)

n3 = 1260000

75000 + 36000 + 150000

n1 = 1260000

126000
n3 = 10

SIN CONSIDERAR ʍ

ni = Ni (n)

n1 = N1 (n) = 5,000 (84) = 42

N 10,000

n2 = N2 (n) = 2,000 (84) = 17

N 10,000

n3 = N3 (n) = 3,000 (84) = 25

N 10,000

g DISTRIBUCIONES MUESTRALES.

Si consideramos todas las muestras posibles de tamaño n que se pueden extraer de una
población de tamaño N y para cada una de ellas se calcula el promedio aritmético, seguramente
este variara de muestra a muestra.

Por lo tanto el promedio es una variable aleatoria como lo pueden ser el rango, la variancia, la
desviación estándar͟S͟, la mediana, el modo, etc.
A todo elemento que es función de los valores de los datos de una muestra se denomina
estadístico, entonces todo estadístico tiene una distribución de probabilidad que se le denomina
distribución muestral.

g DISTRIBUCION MUESTRAL DEL PROMEDIO ARITMETICO

Si extraemos sin reemplazo todas las muestras posibles de tamaño n de una población de
tamaño N, se podrá demostrar empíricamente que los parámetros de la distribución muestral del
promedio aritmético se podrá representar por y que los parámetros poblacionales
serán ʅ y ʍ, definiéndose las siguientes expresiones para su calculo.

X = ʅ

Lo anterior solo será aceptado si el tamaño de la muestra es grande, aceptándose como


suficiente que n>30, cuando n 30 (Muestra grande) ї Distribución muestral del

Promedio aritmético (Normal)

Por lo que la estimación se hará.

a).- Peso total entre 496 y 500

Peso por cada varilla

GRAFICA:

= 0.4778 ʹ 0.2486
= 0.2292.

22.92% de probabilidad de que el peso total este entre 496 y 500kg en la muestra.

b).- De más de 510kg

Peso por cada varilla

GRAFICA.

P = (0.5 ʹ 0.4963

P = 0.0037.

g DISTRIBUCION MUESTRAL DE DIFERENCIAS DE PROMEDIOS

En la practica es frecuente que se pueda presentar el caso de tener datos de dos poblaciones
con variables aleatorias asociadas x, y, surgiendo la pregunta de que si estas pueden ser
consideradas como una sola, es decir x = y o sea que no hay diferencia significativa y que las
poblaciones se pueden considerar iguales.

Para probar estadísticamente estas hipótesis es necesario conocer los parámetros de la


distribución muestral de la diferencia de promedios.

Si son los promedios obtenidos de muestras aleatorias de tamaño nx, ny de 2


poblaciones con variables aleatorias x, y, y si los parámetros poblacionales son ʅx, ʍx y ʅy, ʍy se
podrá demostrar las siguientes expresiones para la diferencia de los promedios.

[pic] [pic] [pic] [pic]


[pic] [pic]

EJEMPLO # 6.

Considere una población x que tiene 3 muestras posibles y cuyos promedios son 3, 7,8.

Una población y formada por 2 muestras posibles de promedio 2 y 4. Obtenga los parámetros
de la distribución muestral de la diferencia de los promedios.

SOLUCION:

X ї 3 Muestras ї ї 3, 7, 8.

Y ї 2 Muestras ї ї 2, 4.

1ER PROCEDIMIENTO.

En función de todas las muestras

3 - 2 = 1

3 - 4 = -1

7 - 2 = 5

7 - 4 = 3

8 - 2 = 6

8 - 4 = 4

[pic]

[pic]
[pic]

= (1-3)2 + (-1-3)2+ (5-3)2+ (3-3)2+ (6-3)2+ (4-3)2

[pic]

2DO PROCEDIMIENTO.

Se acepta que

En función de todo

[pic] [pic] [pic]

[pic]

= (3 - 6)2 + (7 ʹ 6)2 + (8 ʹ 6)2 = 14

3 3

= (2 ʹ 3)2 + (4 ʹ 3)2 = 2 = 1

2 2

[pic]

g TEORIA ESTADISTICA DE LA ESTIMACIÓN.


La diferencia estadística, es decir, sacar conclusiones poblacionales a partir del estudio de
muestras, se puede llevar acabo de 2 maneras:

A).- Por medio de la teoría de la estimación, ya sea puntual o por intervalo de confianza.

B).- Por medio de las pruebas de hipótesis.

g TEORIA DE LA ESTIMACIÓN

Es la inferencia estadística que consiste en estimar los valores de los parámetros de la


población a partir de estadísticos de la muestra. Un estimador es una regla que nos dice como
calcular la estimación basada en la información contenida en la muestra y expresada mediante
una formula.

g ESTIMADORES PUNTUALES.

Se denomina así ya que se estima el parámetro de la población basado en un solo valor de una
estadística.

Cuando la media de la distribución muestral de un estadístico es igual al parámetro que se esta


estimando de la población, el estadístico será un estimador insesgado del parámetro, en caso
contrario será sesgado.

Si el estadístico de la muestra tiende a ser igual al parámetro de la población a medida que


aumenta el parámetro de la muestra, se tendrá un estimador consistente del parámetro por
ejemplo: El promedio es un estimador insesgado y consistente de la media, en cambio la variancia
es un estimador sesgado y consistente de la variancia poblacional.
Si la distribución muestral de varios estadísticos tienen el mismo valor que la media, el
estadístico con menor variancia es un estimador eficiente de dicha media, caso contrario será
ineficiente.

Por ejemplo el promedio es un estimador eficiente de la media de población, pero la mediana


es un estimador ineficiente de dicho parámetro, ya que las distribuciones muestrales del promedio
y la mediana cuentan con medias iguales, sin embargo la varianza en su distribución muestral es
mayor en la mediana que en el promedio.

g ESTIMACION PUNTUAL DE LA MEDIA DE UNA POBLACIÓN.

En la práctica la estimación nos puede conducir a estimar la media ʅ de una población, por lo
que la estimación de ʅ es una aplicación práctica de la inferencia estadística. Hemos aceptado que
el valor esperado del promedio aritmético es igual a la media ʅ de la población con un error
estándar.

Siendo un estimador insesgado, consistente y eficiente.

Si seleccionamos muestras de tamaño n de una población, y calculamos su promedio , e


inducimos la estimación a la media poblacional, tendremos una estimación puntual del estadístico
pero dicha estimación puntual presenta un error de estimación que es la diferencia particular
entre la estimación efectuada y el parámetro que se esta estimando y que se llama cota del error,
es decir

Estimador puntual.

Estimador:

Cota del error

Esto es aplicable para muestras grandes.


EJEMPLO # 7.

Se desea estimar la producción diaria de un producto elaborado en una planta. Para un periodo
de 50 días la producción diaria tuvo una media y desviación estándar de 871 toneladas y 21
toneladas.

Estime la producción diaria ʅ =?

n = 50 > 30 por lo tanto es una muestra grande.

S = 21 toneladas

Estimar ʅ =?

La estimación puntual sería:

Se aceptaría por la siguiente cota.

Estimando Npїь

Se acepta la estimación.

En el rango

871 ± 5.94
865 a 877

g ESTIMACIÓN POR INTERVALOS DE CONFIANZA PARA LOS PARAMETROS DE UNA POBLACIÓN.

La estimación de un parámetro de una población mediante un par de números entre los cuales
se encuentra, con una cierta probabilidad, al valor de dicho parámetro se le llama estimación del
intervalo del mismo.

Si S es un estadístico obtenido de una muestra de tamaño n para estimar el valor del


parámetro ɽ donde ʍS es la desviación estándar, conocida o estimada, de su distribución muestral,
la probabilidad 1 ʹ ɲ de que el valor de ɽ se encuentre en el intervalo de S ʹ ZC ʍS a S + ZC ʍS
donde:

ZC = a una constante la cual se podrá escribir de la siguiente manera.

P [S ʹ ZC ʍS ч ɽ чS + ZC ʍS] = 1- ɲ

Si se fija el valor de 1 ʹ ɲ se podrá obtener el valor de ZC necesario para satisfacer dicha


ecuación, con lo cual se podrá definir el intervalo de confianza del parámetro ɽ a un nivel de
confianza de 1 ʹ ɲ.

La constante ZC que fija el intervalo de confianza se le conoce como valor critico y si el


comportamiento del estadístico S es normal debido a que se maneja una muestra de tamaño
grande mayor que 30, entonces ZC se deduce de las tablas de la curva normal en una prueba de 2
colas ya que se trata de un intervalo de confianza.

Valor de Zc para diferentes 1 ʹ ɲ.

GRAFICA.
TABLA.

|1 ʹ ɲ. |ZC |

| 99.73 | 3.0 |

| 99 | 2.58 |

| 98 | 2.33 |

| 96 | 2.05 |

| 95.45 | 2 |

| 95 | 1.96 |

| 90 | 1.64 |

| 80 | 1.28 |

| 68.27 | 1 |

| 50 | 0.674 |

g ESTIMACIÓN DE INTERVALOS DE CONFIANZA PARA EL PROMEDIO.

Los límites del intervalo de confianza para la media de una población con variable aleatoria X
asociada estarán definidos por la expresión

Si tiene distribución normal los valores de ZC se obtendrás de la tabla anterior para


diferentes niveles de confianza.

Por ejemplo

1 ʹ ɲ = 0.95
1 ʹ ɲ = 0.99

Es decir los límites de confianza para la media poblacional se definen de la siguiente manera

Población Finita

EJEMPLO # 8.

Las mediciones de los diámetros de una muestra aleatoria de 100 tubos de albañal mostraron
una media de 32 cm. con desviación estándar de 2 cm. obtenga los intervalos de confianza del 95 y
97 % para diámetros medios de todos los tubos producidos.

SOLUCION:

N = 100 > 30 ї normal.

S = 2 cm.

a).- (1 ʹɲ) = 0.95

 =?

No conocemos Np

Se estima Np ї ь
Trabajando con la formula infinita

1 ʹ ɲ = 0.95

1 - ɲ = 0.95 ї ZC = 1.96

Desconocemos ʍ, se estima

= S =2

32 ʹ 1.96 (2/я100) ч ʅ ч 32 + 1.96 (2 / я100)

31.608 ч ʅ ч 32.408

Intervalo de confianza a un nivel del 95%

b).- (1 ʹɲ) = 0.97

Para el 97% hay que ir a la tabla (se deja a el alumno que lo realice).

EJEMPLO # 9.

En una muestra aleatoria de 50 calificaciones de un examen de admisión se obtuvo un promedio


aritmético de 72 puntos con desviación de 10 puntos. Si el examen se aplico a 1018 personas
determine:
A).- El intervalo de confianza del 95% para la media del total de calificaciones.

B).-El tamaño de la muestra n necesario para que el error de la estimación de la media poblacional
no exceda de 2 puntos a un nivel de confianza del 95%.

C).- El nivel de confianza 1 ʹ ɲ para el cual la media de la población se encuentren en 72±1 puntos,
con una muestra de n =50

SOLUCION:

n = 50 > 30 ї normal de su distribución muestral.

S = 10

Np = 1018 ї Población finita

a).- Intervalo de confianza del 95%

Estimación sí ї S = ʍ =10

ZC = ± 1.96 ї Para [(1 - ɲ) = 0.95]

= 69.3 ч ʅ ч 74.7
b).- ͞n͟ error ч 2 puntos, (1 - ɲ) = 95%

Se busca que no exceda de 2 puntos

(1.96 / яn (я1018 ʹ n / 1017))2 < (2)2

384.16 (1018 ʹ n) < 4

n 1017

n ш 87.84

Tamaño de la muestra mínimo n > 88

Habrá una confianza del 95% para que 70 ч ʅ ч 74.

c).- (1-ɲ) =?, ʅ ї 72 ± 1

n = 50

71 ч ʅ ч 73

72 ± 1.379 ZC

1.379 ZC = 1

ZC = 1 = 0.72

1.379
GRAFICA.

(1 ʹ ɲ) = 2 (0.2642)

(1 ʹ ɲ) = 0.5284

Por lo tanto habrá una confianza del 52.84%

g PRUEBAS DE HIPÓTESIS ESTADÍSTICA.

Supóngase que una empresa de transporte urbano esta en la disyuntiva de emplear un


nuevo gobernador de velocidades en sus unidades a los que regularmente utiliza, y que su
departamento de control de calidad debe decidir, con base en la información de las muestras de
las dos marcas distintas. Las decisiones de este tipo, es decir, que se basa en estudios estadísticos,
reciben el nombre de decisiones estadísticas, y a los procedimientos que permiten decidir si se
acepta o rechaza una hipótesis se les llama pruebas de hipótesis, pruebas de significancia o reglas
de decisión.

Al tomar decisiones estadísticas, es necesario postular las diversas alternativas o cursos de


acción que pueden adoptarse.

En el caso particular de una prueba de hipótesis solamente se tienen dos cursos de acción
posibles, los que se denotarán como H0 y H1. A la acción H0 se le llama hipótesis nula, y a la H1,
hipótesis alternativa. Por ejemplo, si la hipótesis nula establece que ʅ1 = ʅ2, la hipótesis
alternativa puede ser una de las siguientes:

1 > ʅ2, ʅ1 ͤ ʅ2 o ʅ1 т ʅ2

Al realizar una prueba de hipótesis, se prueba siempre la verdad de la hipótesis nula H0, aun
cuando de antemano se desee rechazarla.

g ERRORES DE LOS TIPOS I y II. NIVEL DE SIGNIFICANCIA.


En muchas ocasiones se presenta el caso de que se rechaza una hipótesis nula cuando en
realidad debería ser aceptada; cuando esto sucede se dice que se ha cometido un error de tipo I.

En otras ocasiones se acepta una hipótesis nula siendo en realidad falsa; en este caso se dice que
se ha cometido un error de tipo II.

Al probar una hipótesis nula, a la máxima probabilidad con la que se está dispuesto a cometer
un error del tipo I se le llama nivel de significancia, ɲ, de la prueba, el cual dentro de la práctica se
acostumbra establecer de 5 por ciento (0.05) o 10 por ciento (0.1). El complemento del nivel de
significancia, 1- ɲ, se conoce como nivel de confianza.

Si, por ejemplo, al realizar una prueba de hipótesis se escoge un nivel de significancia de 10 por
ciento, significa que existen 10 posibilidades en 100 de que se rechace ésta cuando debería ser
aceptada; es decir, que se rechaza a un nivel de significancia del 10 por ciento, y que la
probabilidad de que la decisión haya sido errónea es de 0.1.

g COMPORTAMIENTO DE LOS ERRORES TIPO I Y II.

Supóngase que se trata de probar la hipótesis nula de que la media, ʅS, de la distribución
muestral de la estadística S es ʅ1, en contra de la hipótesis alternativa que establece que ʅS = ʅ2,
donde ʅ2>ʅ1, es decir

H0 : ʅS = ʅ1

H1 : ʅS = ʅ2

En la figura 13.1 se muestra en forma grafica la relación entre los errores tipo I y II en el caso en
el que la regla de decisión para aceptar o rechazar H0 es la siguiente:
Si el valor de la estadística S obtenido de una muestra excede de cierto valor critico S1,
rechácese H0; en caso contrario acéptese.

Es evidente que si H0 es verdadera, entonces ɲ (área con rayado doble) es la probabilidad de


que S > S1, o sea la de rechazar a H0 siendo verdadera (error tipo I). Por otro lado, si H1 es
verdadera, entonces ɴ (área con rayado sencillo) es la probabilidad de que S < S1, o sea la de
aceptar H0 siendo falsa (error tipo II).

Obsérvese que si se aumenta el valor de S1 se reduce la probabilidad ɲ, pero se incrementa la


ɴ; lo contrario sucede si se disminuye el valor de S1.

P[S>S1] = ɲ (error tipo I)

P[S 2.58 Y Z < -2.58.

Figura. 14.1 Región de significancia.

En la tabla 14.1 se presentan los valores de la variable estandarizada, Z, que limitan las
regiones de aceptación y de rechazo para el caso en el que la estadística involucrada en la prueba
tenga distribución muestral normal. Cuando en alguna prueba de hipótesis se consideren niveles
de significancia diferentes a los que aparecen en la tabla mencionada, resulta necesario emplear la
de área bajo la curva normal estándar.

TABLA 14.1 VALORES CRITICOS DE Z

|Niveles de significancia,ɲ |Valores de z para pruebas de una cola. |Valores de z para


pruebas de dos colas. |

|0.1 |-1.284 o 1.284 |-1.645 y 1.645 |

|0.05 |-1.645 o 1.645 |-1.960 y 1.960 |

|0.01 |-2.326 o 2.326 |-2.575 y 2.575 |


|0.005 |-2.575 o 2.575 |-2.810 y 2.810 |

g PRUEBAS DE UNA Y DE DOS COLAS.

En la prueba de hipótesis del ejemplo anterior, la región de rechazo de la hipótesis nula quedó
en ambos extremos (colas) de la distribución muestral de la estadística involucrada en la prueba; a
las pruebas de este tipo se les denomina pruebas de dos colas. Cuando la región de rechazo se
encuentra solamente en un extremo de la distribución muestral en cuestión, se les llama pruebas
de una cola.

Las pruebas de dos colas se presentan cuando en la hipótesis alternativa aparece el signo т
(diferente de), como en el siguiente caso.

H0 : ʅS = ʅ1

H1 : ʅS т ʅ2

En donde ʅS es la media de la estadística S, y ʅ1 es un valor fijo.

En los casos

H0 : ʅS = ʅ1

H1 : ʅS < ʅ1

H0 : ʅS = ʅ1

H1 : ʅS > ʅ1
Las pruebas resultan de una cola.

g PRUEBAS DE HIPÓTESIS PARA LA MEDIA.

Para el caso de una población infinita (o finita en que se muestre con reemplazo), cuya
desviación estándar ʍ se conoce o se puede estimar adecuadamente, si se tiene que la estadística
S obtenida de la muestra es el promedio aritmético, entonces la media de su distribución muestral
es ʅS = ʅX = ʅ, y su desviación estándar es ʍS = ʍX = ʍ / яn, en donde ʅ y ʍ son, respectivamente,
la media y la desviación estándar de la variable aleatoria X asociada a la población, y n es el
tamaño de la muestra. En tal caso, si tiene distribución normal, la variable estandarizada
correspondiente será

Para el caso de muestreo sin reemplazo de población finita, se tiene

que , en donde N P es el tamaño de la

Población, por lo que la variable estandarizada será

En los dos casos anteriores, el valor de Z correspondiente al de de la muestra es el que se


debe comparar con el valor crítico correspondiente al nivel de significancia fijado, para así aceptar
o no la hipótesis nula (prueba de una cola). Si se trata de una prueba de dos colas, el valor de Z se
debe comparar con los dos valores críticos que corresponden al valor de ɲ seleccionado.

En cualquiera de los casos anteriores, el valor o valores críticos se pueden obtener de la tabla
14.1, para valores comunes de ɲ.

EJEMPLO:
Se sabe que el promedio de calificaciones de una muestra aleatoria de tamaño 100 de los
estudiantes de tercer año de ingeniería civil es de 7.6, con desviación estándar de 0.2.

Si ʅ denota la media de la población de esas calificaciones, X, Y si se supone que tiene


distribución normal, probar la hipótesis ʅ = 7.65 en contra de la hipótesis alternativa ʅт7.65,
usando un nivel de significancia de

a. 0.05

b. 0.01

Para la solución se deben considerar las hipótesis

H0 : ʅ = 7.65

H1 : ʅ т 7.65

Puesto que ʅ т 7.65 incluye valores menores y mayores de 7.65, se trata de una prueba de dos
colas.

La estadística bajo consideración es el promedio aritmético, , de la muestra, que se supone


extraída de una población infinita. La distribución muestral de tiene media ,y
desviación estándar ,

en donde ʅ y ʍ denotan, respectivamente, la media y la desviación estándar de la población de


calificaciones.

Bajo la hipótesis H0 (considerándola verdadera), se tiene que

ʅ = 7.65 = ʅ

Y utilizando la desviación estándar de la muestra como una estimación de ʍ, lo cual se supone


razonable por tratarse de una muestra grande,
X = ʍ / яn = 0.2 / я100 = 0.2 /10 = 0.02

a).- Para la prueba de dos colas a un nivel de significancia de 0.05 se establece la siguiente regla
de decisión

Aceptar H0 si el valor Z correspondiente al valor del promedio de la muestra se encuentra dentro


del intervalo de -1.96 a 1.96 (tabla 14.1). En caso contrario, rechazar H0.

Puesto que

Se encuentra fuera del rango de -1.96 a 1.96, se rechaza la hipótesis H0 a un nivel de significancia
de 0.05.

b).-Si el nivel de significancia es 0.01, el intervalo de -1.96 a 1.96 de la regla de decisión del inciso ɲ
se remplaza por el de -2.58 a 2.58 tabla (14.1). Entonces, puesto que el valor muestral Z = -2.5 se
encuentra dentro de este intervalo, se acepta la hipótesis H0 a un nivel de significancia de 0.01.

EJEMPLO:

La resistencia media a la ruptura de cables de acero fabricados por la empresa x es de 905 Kg.
Una empresa consultora sugiere a x que cambie su proceso de manufactura, con lo cual
incrementará la resistencia de sus cables. Se prueba el nuevo proceso, y se extrae una muestra
aleatoria de 50 cables, obteniéndose para ellos una resistencia promedio de 926 kg, con
desviación estándar igual a 42 kg. ¿Se puede considerar que el nuevo proceso realmente
incrementa la resistencia, con un nivel de confianza del 99%?

En este caso, se debe plantear una prueba de hipótesis de una cola, para la cual

H0 : ʅ = 905 Kg.
H1 : ʅ > 905 Kg.

Puesto que el tamaño de la muestra es suficientemente grande, se puede aproximar la


distribución muestral de la resistencia promedio mediante una normal, y estimar el valor de ʍ de
la población mediante SX de la muestra.

Considerando a la población infinita, y suponiendo como verdadera a H0, se tiene que

Para la prueba de una cola a un nivel de significancia de ɲ = 1 (1 ʹ ɲ) = 1 ʹ 0.99 = 0.01, la regla


de decisión es

Aceptar H0 si el valor estandarizado de x de la muestra es menor o igual a Zc = 2.326 (tabla


14.1); en caso contrario, rechazar H0.

En virtud de que

Es mayor de 2.326, se rechaza H0 a un nivel de significancia de 1 %, concluyéndose que en realidad


el nuevo proceso sí incrementa la resistencia de los cables.

g PRUEBAS DE DIFERENCIAS DE MEDIAS

Sean y los promedios aritméticos obtenidos de dos muestras de tamaños nX Y nY,


extraídas respectivamente de dos poblaciones con medias ʅX y ʅY, y desviaciones estándar ʍX y
ʍY.

Se trata de probar la hipótesis nula, H0, de que no existe diferencia entre las medias, es decir,
que ʅX = ʅY. Si nX y nY son suficientemente grandes (>30), la distribución muestral de las
diferencias de los promedios es aproximadamente normal. Dicha distribución muestral es
rigurosamente normal si las variables aleatorias x y y asociadas a la población tienen distribución
normal, aunque nX y nY sean menores de 30. Para esta distribución muestral, la variable
estandarizada Z, que se compara con los valores críticos correspondientes, se encuentra dada por
Con la cual se puede probar la hipótesis nula H0 en contra de otras hipótesis alternativas, H1, a
un nivel apropiado de significancia.

EJEMPLO:

En el laboratorio de pruebas de una empresa fabricante de aparatos electrónicos se ensayaron


dos marcas de transistores, A y B, de características similares, con objetos de comprobar su
ganancia de voltaje. Se tomaron muestras aleatorias de 100 transistores de cada marca, arrojando
una ganancia promedio de 31 decibeles, con desviación estándar de 0.3 decibeles para la marca A,
y 30.9 decibeles de ganancia promedio, con desviación estándar de 0.4 decibeles para la otra.
¿Existe una diferencia significativa entre las ganancias en voltaje de los transistores a un nivel de
significancia de a. 0.05 y b. 0.01?

Si ʅA y ʅB son las medias respectivas de las dos poblaciones infinitas a las que corresponden
las muestras, la prueba de hipótesis adopta la forma siguiente:

H0: ʅ A = ʅB

H1: ʅ A т ʅB

a. puesto que se trata de una prueba de dos colas a un nivel de significancia del 0.05, la
diferencia es significativa si el valor de z se encuentra fuera del intervalo de -1.96 a 1.96. Como
este es el caso, puede concluirse que efectivamente existe diferencia significativa en ganancia en
voltaje de los transistores.

b. Si la prueba es a un nivel de significancia del 0.01, la diferencia es significativa si z se encuentra


fuera del rango de -2.58 a 2.58, partiendo del hecho de que z = 2, la diferencia entre las ganancias
es producto del azar, y se acepta la hipótesis de que ambos tipos de transistores tienen igual
ganancia media en voltaje a un nivel de confianza del 99%.

Ejemplo.
La estatura promedio de 50 estudiantes varones tomados al azar que participan en actividades
deportivas es de 173 cms, con desviación estándar de 6.3 cms. Otra muestra aleatoria de 50
estudiantes varones que no participan en este tipo de actividades tiene promedio de estatura
igual a 171 cms, con desviación estándar igual a 7. cms. Para probar la hipótesis de que los
estudiantes varones que practican deportes son más altos que los que no lo hacen, a un nivel de
significancia de 0.05.

Se debe decidir entre las hipótesis:

Ho : µ x = µ y

H1 : µ x > µ y

Siendo x la variable aleatoria asociada a la población infinita de estaturas de alumnos que


practican deportes, y Y la asociada a la de estudiantes que no lo hacen, que también es infinita.

Bajo la hipótesis H o, se tiene:

µ x-ŷ = 0

x-ŷ = я(ʍ²x / nx) + (ʍ²Y / ny) = я(6.3²/50+7.1²/50)

= 1.3424

z = (173 - 171) / 1.3424 = 1.489

Se trata de una prueba de una cola y puesto que Z < Zc se concluye que la diferencia de
estaturas se debe únicamente al azar.[pic]

-----------------------

(1,1) (1,2) (1,3) (1,4) (1,5) (1,6)

(2,1) (2,2) (2,3) (2,4) (2,5) (2,6)


(3,1) (3,2) (3,3) (3,4) (3,5) (3,6)

(4,1) (4,2) (4,3) (4,4) (4,5) (4,6)

(5,1) (5,2) (5,3) (5,4) (5,5) (5,6)

(6,1) (6,2) (6,3) (6,4) (6,5) (6,6)

A B

(A((B)͛

A B

(A(B)͛

A(B͛

A(B

B(A͛

A B

C
(A(B(C)͛

A(B(C͛

B(A͛(C͛

A(B͛(C͛

A(C(B͛

A(B(C

C(A͛(B͛

B(C(A͛

R T

(A(B(C)͛ = 8

S= 36

3
2

A(B(C=28

M(F͛

M F

n(M(F)͛ = 2

M(F

F(M͛

M(F͛ = 6
M F

n(M(F)͛ = 2

M(F = 10

F(M͛ = 2

A(F(E

A(F͛(E͛=82
F(A͛(E͛=93

A(F(E͛ = 30

A(E(F͛ = 164

A(F(E = 53

E(F͛(A͛=68

E(F(A͛ = 10

A B

A(B

A B

B A

(A(B)͛

A(B

[pic]
Número de casos Número aproximado de a tabular Clases que se
deben

utilizar

15 - 29 5

30 - 59 6

60 - 99 7

100 - 199 8

200 - 499 9

500 - 999 10

1000 - 1999 11

2000 - 3999 12

4000 - 7999 13

8000 - 14999 14

15000 - 34999 15

35000 - 69999 16

70000 - 149999 17

150000 - 299999 18

300000 - 499999 19

500000 en adelante 20

Reunir la totalidad de los datos

Continuar el análisis incluyendo posible procesamiento de datos por computadora.

99
98

95

90

80

70

60

50

40

30

20

10

Correlacionar con la necesidad original del experimento

1
Contrastar la teoría con el experimento, Correlacionar los datos, Crear nuevas teorías para explicar
los datos, etc.

Discutir y Publicar los resultados del experimento.

Comprar instrumentos

Modificar el acuerdo con las limitaciones del presupuesto.

Comparar los datos preliminares con las teorías disponibles

Avanzar con el trabajo analítico.

Especificar los instrumentos necesarios.

Si la comparación no es favorable, modificar si es posible, el experimento y/o el análisis.

Determinar los rangos de las variables y las exactitudes necesarias.

Efectuar planes para el Diseño y Construcción de equipo especial.

Juntar algunos datos preliminares.

Analizar la incertidumbre de los datos

Comenzar el trabajo analítico preliminar para:


Establecer l a

Necesidad de realizar el experimento.

Establecer el Tiempo y las Limitaciones financieras.

Posible modificación de noción original de necesidades.

Si no es factible, requerirá.

. modificar el presupuesto y/o

. distribución de tiempo o

. suspender el proyecto.

Estimar el alcance del trabajo analítico.

Revisar cuidadosamente el trabajo previo en el campo.

Posible modificación al alcance del trabajo analítico.

Establecer la factibilidad en el tiempo y con los costos previstos.

[pic] = [pic] fiMci / [pic] fi

[pic] = 4158 / 100

[pic] = 41.58
[pic] = z + c ( [pic]fiMci / [pic]fi)

[pic] = 46 + 13 (-34 / 100)

[pic] = 41.58

Md = Li + c (T ʹ FI / FS ʹ FI) T = [pic]fi / 2

Md = 26.5 + 13.0 ((50-20) / (55-20)) T = 50

Md = 37.96

Mo = li + c (fs / fi + fs)

Mo = 26.5 + 13 ((28)/ (15+28))

Mo = 34.96

Q = [pic]

log G = [pic]/[pic]

log G =155.63-100

log G =1.556317381

G = antilog 1.56

G = 36.0012339

1 / H = ( [pic]fi 1 / Mci ) / [pic]fi

1 / H = 3.35872541181298 / 100

H = 1 / 0.03359

H = 29.77319898
[pic]( [pic] + Md + Mo + Q + G + H ) / 6

[pic] 37.48

Rango de A = 125.4 -11.4 = 114

D.M. = [pic]fi[pic]

D.M. = 1593.8 / 100

D.M. = 15.938

S = [pic]

S = [pic]

[pic]

0 20 40 60 80 100 120 140

10

15

20
25

30

35

40

10

20

30

40

50

60

70

80
90

100

110

120

130

140

Lim

fi

10

15

20
25

429,5

509,5

589,5

669,5

749,5

829,5

909,5

Frecuencia de Clase (fi)

También podría gustarte