Probabilidad y Estadística

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 109

Probabilidad y Estadstica

Docente: Gonzlez Vsquez Francisco Javier Electromecnica 2 Semestre Equipo: Cceres Martnez Moiss Melanie Anah Pecina Valdez Luis Erick Vargas Snchez

Reynosa Tamaulipas Mxico

Mayo 2013

Unidad I
Estadstica Descriptiva

1.1 Poblacin y muestra aleatoria 1.2 Obtencin de datos Estadsticos 1.3 Medidas de Tendencia Central 1.4 Medidas de Dispersin 1.5 Tabla de distribucin de frecuencias 1.6 Cuantiles 1.7 Grficos 1.8 Cajas Y alambres 1.9 Diagrama de Pareto 1.10 Uso de software

1.1Poblacin y Muestra Aleatoria


Poblacin es el conjunto de todos los elementos que son objeto del estudio estadstico. Muestra es un subconjunto, extrado de la poblacin (mediante tcnicas de muestreo), cuyo estudio sirve para inferir caractersticas de toda la poblacin.

Muestreo
Muestreo es la tcnica utilizada en la seleccin de una muestra a partir de una poblacin. De estos podemos distinguir dos tipos fundamentales de muestreo:

Muestreo no probabilstico: En este tipo de muestreo, puede haber clara influencia de la persona o personas que seleccionan la muestra o simplemente se realiza atendiendo a razones de comodidad. Salvo en situaciones muy concretas, en la que los errores cometidos no son grandes, debido a la homogeneidad de la poblacin, en general no es un tipo de muestreo riguroso y cientfico, dado que no todos los elementos de la poblacin pueden formar parte de la muestra. Por ejemplo, si hacemos una encuesta telefnica por la maana, las personas que no tienen telfono o que estn trabajando, no podrn formar parte de la muestra. Muestreo probabilstico: En este tipo de muestreo, todos los individuos de la poblacin pueden formar parte de la muestra, tienen probabilidad positiva de formar parte de la muestra. Por lo tanto es el tipo de muestreo que deberemos utilizar en nuestras investigaciones, por ser el riguroso y cientfico.

Muestreo Probabilstico En el contexto de muestreo probabilstico, existen varias posibilidades de obtencin de una muestra:

Muestreo aleatorio simple Muestreo aleatorio estratificado.

Muestreo aleatorio simple

En un muestreo aleatorio simple todos los individuos tienen la misma probabilidad de ser seleccionados. La seleccin de la muestra puede realizarse a travs de cualquier mecanismo probabilstico en el que todos los elementos tengan las mismas opciones de salir. Por ejemplo uno de estos mecanismos es utilizar una tabla de nmeros aleatorios, o tambin con un ordenador generar nmeros aleatorios, comprendidos entre cero y uno, y multiplicarlos por el tamao de la poblacin. Este es el que vamos a utilizar.

Muestreo aleatorio estratificado


Es frecuente que cuando se realiza un estudio interese estudiar una serie de subpoblaciones (estratos) en la poblacin, siendo importante que en la muestra haya representacin de todos y cada uno de los estratos considerados. El muestreo aleatorio simple no nos garantiza que tal cosa ocurra. Para evitar esto, se saca una muestra de cada uno.

1.1.1Ejemplos
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Equipos Cruz Azul Monterrey Santos Laguna Amrica San Luis Jaguares Pachuca Pumas Tigres Chivas Toluca Morelia Puebla Gallos Blancos Necaxa Atlante Estudiantes U.A.G Atlas JG 12 9 9 7 8 6 7 7 6 4 5 5 5 5 4 4 4 3 JE 3 5 3 6 2 7 4 4 6 10 7 6 4 4 4 4 3 4 JP 2 3 5 4 7 4 6 6 5 3 5 6 8 8 9 9 10 10 JJ 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 Puntos 39 32 30 27 26 25 25 25 24 22 22 21 19 19 16 16 15 13

Los ejemplos dados a continuacin se realizaran basados en la tabla de resultados obtenidos en la clausura 2010 1.- Cules equipos estn localizados en el distrito federal?
5

R= Amrica, Cruz Azul y pumas

2.- Cuntos y cules equipos lograron ms de 25 puntos? R=Cruz Azul, Monterrey, Santos Laguna, Amrica, San Luis, Jaguares, Pachuca y Pumas. 3.- De cuntos y de cuales equipos su nombre consta de dos vocablos? Cruz Azul, Santos Laguna, San Luis, Gallos Blancos.

1.2 Obtencin de Datos Estadsticos


De nuevo con la teora en esta entrada veremos algunos Mtodos de obtencin de datos para un estudio. La estadstica estudia los mtodos cientficos para recoger, organizar, resumir y analizar datos, as como para sacar conclusiones vlidas y tomar decisiones razonables basadas en tal anlisis, algunos van desde la elaboracin de encuestas, entrevistas, censos.

Ejemplos:
Si queremos realizar un estudio estadstico sobre la cantidad de alumnos que reprueban el primer semestre en el Tec y las causas del porque reprueban. Qu es lo que tenemos que hacer? Por dnde empezamos? Primero que nada tenemos que buscar en los registros las calificaciones de cada uno de los alumnos, y sin darnos cuenta ya tenemos nuestra poblacin, que sera todos los alumnos del primer semestre, ahora clasificamos a cada uno de los alumnos como aprobado o reprobado segn su calificacin. Ya que dividimos los alumnos aprobados de los reprobados, ahora el paso siguiente es hacer una encuesta y entrevistar a los alumnos reprobados para
6

que nos den los motivos del por qu la reprobacin, pero como sabemos que la cantidad de alumnos en el tecnolgico es muy grande pues obviamente no podemos ir a preguntarles a cada uno pues tardaramos demasiado tiempo, lo que se hace en estos casos es de que seleccionamos a unos cuantos ya sean dos o tres alumnos de cada especialidad que hallan reprobado para encuestarlos o entrevistarlos y sin darnos cuenta de la poblacin de todos los alumnos reprobados ya estamos haciendo nuestra muestra aleatoria seleccionando a dos o tres alumnos al azar de cada carrera.

Despus de realizar las encuestas se analizan y se grafican, una grfica correspondiente a las calificaciones y otra a los motivos de reprobacin lo cuales pueden ser

- por que el alumno trabaja

-porque llega tarde

-porque los profesores faltan

Entre otros motivos.

2.-Nos interesa saber acerca de los gustos por los jvenes en cuanto a equipos deportivos y cuales son aquellos que ms siguen. Entre otras respuestas encontramos: Futbol soccer Futbol Americano Basquetbol Beisbol Tenis Entre otros
7

3.- Nos adentramos a una preparatoria apegada a la sep. Para conocer acerca de los alumnos prximos a egresar de la institucin y saber las carreras futuras universitarias con las que ellos quisieran seguir adelante. Esta encuesta solo fue hecha para los alumnos ubicados en turno matutino. -Ingenieras - Licenciaturas -Medicina -Artes - No estudiaran una carrera

1.3 Medidas de Tendencia Central

1.3.1

Media Aritmtica
Esta consiste prcticamente en el clculo de un promedio tradicional, por lo que tambin es conocida como promedia o solo media. Cuando la muestra tenga pocos datos la consideraremos como una muestra con datos no agrupados, y su clculo se realizara por medio de la siguiente formula.

= Donde n= Nmero de Datos


PG 9 9 6 4 4 4 PE 5 3 6 10 4 3 PP 3 5 5 3 9 10 PJ 17 17 17 17 17 17

= Dato Particular

Grupo A 1 Monterrey 2 Santos Laguna 3 Tigres 4 Chivas 5 Necaxa 6 Estudiantes U.A.G

Puntos 32 30 24 22 16 15

1.-Determina la media del Grupo A en Partidos Ganados Grupo B PG PE PP PJ Puntos Amrica 7 6 4 17 27 San Luis 8 2 7 17 26 Pachuca 7 4 6 17 25 Toluca 5 7 5 17 22 Atlante 4 4 9 17 16 Atlas 3 4 10 17 13 2.-Determine la media del grupo b en partidos ganados

1 2 3 4 5 6

Grupo C PG PE PP PJ Puntos 1 Cruz Azul 12 3 2 17 39 2 Jaguares 6 7 4 17 25 3 Pumas 7 4 6 17 25 4 Morelia 5 6 6 17 21 5 Puebla 5 4 8 17 19 6 Gallos Blancos 5 4 8 17 19 3.-Establece La media Aritmtica en cuanto a la columna correspondiente de la tabla de partidos ganados

1.3.2

Mediana

Es otro de los promedios que se ve en este apartado. Para obtener la mediana de una muestra (ascendente o descendentemente), Luego aplicar una frmula que nos proporcionara la posicin del dato cuya solucin puede ser o no ser parte de la muestra, dependiendo del nmero de datos, la mediana ser uno de los datos de la muestra localizado en la parte central, pero si la muestra tiene un total par de datos, la mediana ser la media de los dos datos centrales y este valor no forma parte de la muestra; Con la excepcin de que ambos datos centrales sean un mismo valor: Posicin del lugar mediano= Donde n= Nmero

Mediana= Dato localizado en el lugar mediano Ejemplos: Grupo A PG PE PP PJ Puntos 1 Monterrey 9 5 3 17 32 2 Santos Laguna 9 3 5 17 30 3 Tigres 6 6 5 17 24 4 Chivas 4 10 3 17 22 5 Necaxa 4 4 9 17 16 6 Estudiantes U.A.G 4 3 10 17 15 1.- De la siguiente tabla Obtener la mediana de la columna partidos perdidos

10

Grupo B PG PE PP PJ Puntos 1 Amrica 7 6 4 17 27 2 San Luis 8 2 7 17 26 3 Pachuca 7 4 6 17 25 4 Toluca 5 7 5 17 22 5 Atlante 4 4 9 17 16 6 Atlas 3 4 10 17 13 2.- De la siguiente Tabla Obtener la mediana de la tabla de partidos Jugados Grupo C Cruz Azul Jaguares Pumas Morelia Puebla Gallos Blancos PG 12 6 7 5 5 5 PE 3 7 4 6 4 4 PP 2 4 6 6 8 8 PJ 17 17 17 17 17 17 Puntos 39 25 25 21 19 19

1 2 3 4 5 6

3.- De la siguiente Tabla obtener la mediana de la tabla de la columna partidos empatados

11

1.3.3

Moda

La moda es otro de los promedios que estimaremos en esta unidad. Para calcular la moda de una muestra determinada, debemos analizar lo que significa moda. El concepto ms cercano que tenemos acerca de la moda es el que usamos como uso o costumbre de algo que es aceptado, durante algn tiempo, por la mayora de las personas. Por lo tanto la moda ser el valor que ms se repite en una muestra. Moda= = Dato dentro de la muestra que ms se repite Grupo A Monterrey Santos Laguna Tigres Chivas Necaxa Estudiantes U.A.G PG 9 9 6 4 4 4 PE 5 3 6 10 4 3 PP 3 5 5 3 9 10 PJ 17 17 17 17 17 17 Puntos 32 30 24 22 16 15

1 2 3 4 5 6

1.- Cul es la moda en cuanto a los partidos ganados? R= 4

1 2 3 4 5 6 2.

Grupo B PG PE PP PJ Amrica 7 6 4 17 San Luis 8 2 7 17 Pachuca 7 4 6 17 Toluca 5 7 5 17 Atlante 4 4 9 17 Atlas 3 4 10 17 Cul es La moda en cuando a los Partidos empatados? R=4 Grupo C Cruz Azul Jaguares Pumas Morelia Puebla Gallos Blancos PG 12 6 7 5 5 5 PE 3 7 4 6 4 4 PP 2 4 6 6 8 8 PJ 17 17 17 17 17 17

Puntos 27 26 25 22 16 13

1 2 3 4 5 6

Puntos 39 25 25 21 19 19
12

3.- Cul es la moda en cuanto a partidos Ganados? R= 5

1.4 Medidas de Dispersin

1.4.1

Rango

Sirve para tener una idea de lo extenso de la muestra. Se calcula restndole el dato menor al dato mayor, con lo que nos damos una idea general de lo aproximados o distantes que estn los datos de la muestra. Rango= R= Donde= =Dato Mayor = Dato menor

Grupo A PG PE PP PJ Puntos 1 Monterrey 9 5 3 17 32 2 Santos Laguna 9 3 5 17 30 3 Tigres 6 6 5 17 24 4 Chivas 4 10 3 17 22 5 Necaxa 4 4 9 17 16 6 Estudiantes U.A.G 4 3 10 17 15 1.- Cual es el rango segn la tabla respecto a los partidos ganados? R= (9-4)= 5 Grupo B Amrica San Luis Pachuca Toluca Atlante Atlas PG 7 8 7 5 4 3 PE 6 2 4 7 4 4 PP 4 7 6 5 9 10 PJ 17 17 17 17 17 17 Puntos 27 26 25 22 16 13

1 2 3 4 5 6

2.- Cul Es el rango segn la tabla respecto a Partidos Perdidos? R= 10-4= 6 Grupo A Monterrey Santos Laguna Tigres Chivas PG 9 9 6 4 PE 5 3 6 10 PP 3 5 5 3 PJ 17 17 17 17 Puntos 32 30 24 22
13

1 2 3 4

5 Necaxa 6 Estudiantes U.A.G

4 4

4 3

9 10

17 17

16 15

3.- Cul es el Rango Con respecto a la columna de Partidos Perdidos? R= 10-3=7

14

1.4.2

Desviacin Media

Es un primer intento por buscar una medida de dispersin ms eficiente que el rango.

Desviacin media=

| |

| |

1 2 3 4 5 6

Grupo A Monterrey Santos Laguna Tigres Chivas Necaxa Estudiantes U.A.G | | |

PG 9 9 6 4 4 4 | |

PE 5 3 6 10 4 3 | |

PP 3 5 5 3 9 10 | |

PJ 17 17 17 17 17 17 |

Puntos 32 30 24 22 16 15 | |

1.- Encuentra la desviacin media con respecto a la columna de partidos ganados

R=2
Grupo A 1 Monterrey 2 Santos Laguna 3 Tigres 4 Chivas 5 Necaxa 6 Estudiantes U.A.G PG 9 9 6 4 4 4 PE 5 3 6 10 4 3 PP 3 5 5 3 9 10 PJ 17 17 17 17 17 17 Puntos 32 30 24 22 16 15

2.- Encuentra la desviacin media de la columna Partidos Perdidos (PP) R= 2.43


1 2 3 4 5 6 Grupo B Amrica San Luis Pachuca Toluca Atlante Atlas PG 7 8 7 5 4 3 PE 6 2 4 7 4 4 PP 4 7 6 5 9 10 PJ 17 17 17 17 17 17 Puntos 27 26 25 22 16 13

3.-encuntra la desviacin media del grupo b en la columna correspondiente a partidos ganados R=1.6
15

1.4.3 Varianza
Esta pretende darnos un grado de dispersin ms preciso que los dos anteriores. Recordemos la dificultad de sumar las diferencias entre cada dato de la muestra y su media; por lo que otra manera de hacer positivas las diferencias es elevando cada diferencia al cuadrado, de tal manera que cada cantidad encontrada ser positiva.

Varianza =

Grupo B PG PE PP PJ Puntos 1 Amrica 7 6 4 17 27 2 San Luis 8 2 7 17 26 3 Pachuca 7 4 6 17 25 4 Toluca 5 7 5 17 22 5 Atlante 4 4 9 17 16 6 Atlas 3 4 10 17 13 1.-Determina la varianza en la columna correspondiente a Partidos Ganados R= 4

Grupo A PG PE PP PJ Puntos 1 Monterrey 9 5 3 17 32 2 Santos Laguna 9 3 5 17 30 3 Tigres 6 6 5 17 24 4 Chivas 4 10 3 17 22 5 Necaxa 4 4 9 17 16 6 Estudiantes U.A.G 4 3 10 17 15 2.- Determine la varianza Correspondiente a partidos perdidos R= 8.968 Grupo B PG PE PP PJ Puntos 1 Amrica 7 6 4 17 27 2 San Luis 8 2 7 17 26 3 Pachuca 7 4 6 17 25 4 Toluca 5 7 5 17 22 5 Atlante 4 4 9 17 16 6 Atlas 3 4 10 17 13 3.- Determine la varianza correspondiente a partidos perdidos R=5.368
16

1.5 Tabla de Distribucin de frecuencias


Esta es la forma en la que acomodamos o repartimos las frecuencias. Tabla de Valores: Tabla donde se registran los datos de la muestra que se desea observar y las frecuencias correspondientes de cada dato enumerado en dicha muestra Diagrama de puntos de Frecuencia: Primera aproximacin a las grficas que nos ilustraran mejor la informacin proveniente de muestra de inters. Se registrarn en la parte horizontal los datos de la muestra y se acumularan tantos puntos verticalmente como nos lo indique cada frecuencia de cada dato de la muestra. Equipos JG JE JP JJ 1 Cruz Azul 12 3 2 17 2 Monterrey 9 5 3 17 3 Santos Laguna 9 3 5 17 4 Amrica 7 6 4 17 5 San Luis 8 2 7 17 6 Jaguares 6 7 4 17 7 Pachuca 7 4 6 17 8 Pumas 7 4 6 17 9 Tigres 6 6 5 17 10 Chivas 4 10 3 17 11 Toluca 5 7 5 17 12 Morelia 5 6 6 17 13 Puebla 5 4 8 17 14 Gallos Blancos 5 4 8 17 15 Necaxa 4 4 9 17 16 Atlante 4 4 9 17 17 Estudiantes U.A.G 4 3 10 17 18 Atlas 3 4 10 17 1. De aquellos equipos que lograron ms de 25 puntos Equipos Frecuencias San Luis 26 Cruz Azul 39 Monterrey 32 Puntos 39 32 30 27 26 25 25 25 24 22 22 21 19 19 16 16 15 13 Santos Laguna 30

Amrica 27

17

Frecuencias
45 40 35 30 25 20 15 10 5 0 0 1 2 3 Axis Title 4 5 6

Equipos

Axis Title

Atlante

Tigres 24

Frecuencias 16

Gallos Bco. 19

Morelia 21

Toluca 22

Chiva 22

Frecuencias
30 25 20 15 10 5 0 0 1 2 3 4 5 6 7 Frecuencias

Equipos Frecuencia

Puebla 19

Gallos Blancos 19

Necaxa 16

Atlante 16

Estudiante 15

Atlas 13

18

Frecuencia
20 18 16 14 12 10 8 6 4 2 0 0 1 2 3 4 5 6 7

Frecuencia

19

1.6 Cuantiles
En probabilidad la funcin cuantil de una distribucin de probabilidad es la inversa de la funcin de distribucin.1 Dada una funcin de distribucin continua y estrictamente montona, , la funcin cuantil, F 1, devuelve un valor x tal que

Si la distribucin de probabilidad es discreta, en lugar de continua, entonces puede haber saltos entre los valores en el dominio de su funcin de distribucin, mientras que si la funcin de distribucin es montona no estricta, puede haber "zonas llanas" (intervalos en los que el valor de la funcin se mantiene constante) en su rango.

Ejemplo
La funcin cuantil para la Exponencial () es

para 0 p < 1. Los cuartiles son, por consiguiente: Primer cuartil:

Mediana:

Tercer cuartil:

20

1.7 Grficos
Histograma: Grfico de barras verticales, donde cada barra nos da el valor de cada frecuencia de los datos ms relevantes y de inters. Cada barra tiene un color, textura o imagen diferente y es caracterstica con respecto a las dems. Curva de Frecuencias: Grfico de lneas donde se puede observar con colores el comportamiento de las frecuencias; es una modificacin del polgono de frecuencias tradicional. Ojiva: Grfica de lneas que nos representa las frecuencias acumuladas de los datos: este grfico es creciente y siempre nos seala en cada punto las frecuencias acumuladas

Ejemplos:
Equipos 1 Cruz Azul 2 Monterrey 3 Santos Laguna 4 Amrica 5 San Luis 6 Jaguares 7 Pachuca 8 Pumas 9 Tigres 10 Chivas 11 Toluca 12 Morelia 13 Puebla 14 Gallos Blancos 15 Necaxa 16 Atlante 17 Estudiantes U.A.G 18 Atlas JG 12 9 9 7 8 6 7 7 6 4 5 5 5 5 4 4 4 3 JE 3 5 3 6 2 7 4 4 6 10 7 6 4 4 4 4 3 4 JP 2 3 5 4 7 4 6 6 5 3 5 6 8 8 9 9 10 10 JJ 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 Puntos 39 32 30 27 26 25 25 25 24 22 22 21 19 19 16 16 15 13

1.Los 8 mejores equipos segn los puntos logrados. Equipos Puntos: Frecuencias Acumuladas:
Cruz Azul Mty Santos Laguna Amrica San Luis Jaguares Pachuca Pumas

39 39

32 71

30 101

27 128

26 154

25 179

25 204

25 229

21

Histograma:

40 35 30 25 20 15 10 5 0

Curva de Frecuencias:
45 40 35 30 25 20 15 10 5 0 Cruz Azul Mty Santos Amrica San Luis Jaguares Pachuca Laguna Pumas

22

Ojiva:
250 229 200 179 150 128 100 71 50 0 Cruz Azul Mty Santos Amrica San Luis Jaguares Pachuca Pumas Laguna 39 101 154 204

2.-Los 6 equipos que sacaron la ms baja puntuacin Equipos Puntos Frecuencia Acumulada Histograma Atlas 13 13 Estudiantes 15 28 Atlante 16 44 Necaxa 16 60 Gallos blancos 19 79 Puebla 19 98

23

Puntos
20 15 10 5 0

Curva de frecuencias

Puntos
20 18 16 14 12 10 8 6 4 2 0 19 15 13 16 16 19

Atlas

Estudiantes

Atlante

Necaxa

Gallos blancos

Puebla

Ojiva

24

Frecuencia Acumulada
120 100 80 60 40 20 0 Equipos Atlas Estudiantes Atlante Necaxa Gallos blancos

3.- Los 7 Equipos que Ganaron mas Juegos Equipos Puntos Frecuencia acumulada Histograma Cruz Azul 12 12 Monterrey 9 21 Santos Laguna 9 30 San Luis 8 38 Amrica Pachuca 7 45 7 52 Pumas 7 59 Jaguares 6 65

Puntos
12 10 8 6 4 2 0

25

Curva de frecuencias

Puntos
14 12 10 8 6 4 2 0

Ojiva

Frecuencia acumulada
70 60 50 40 30 20 10 0

26

1.8 Cajas Y Alambres


1.8.1 Grficos de Caja
Un Diagrama de caja es un grfico, basado en cuartiles, mediante el cual se visualiza un conjunto de datos. Est compuesto por un rectngulo, la "caja", y dos brazos, los "bigotes". Es un grfico que suministra informacin sobre los valores mnimo y mximo, los cuartiles Q1, Q2 o mediana y Q3, y sobre la existencia de valores atpicos y la simetra de la distribucin. Primero es necesario encontrar la mediana para luego encontrar los 2 cuartiles restantes

27

20 41

23 45

24

24

24

25

29

31

31

33

34

36

36

37

39

39

40

40

1.9 Diagrama de Pareto


El diagrama de Pareto, tambin llamado curva cerrada o Distribucin A-B-C, es una grfica para organizar datos de forma que estos queden en orden descendente, de izquierda a derecha y separados por barras. Permite, pues, asignar un orden de prioridades.

28

El diagrama permite mostrar grficamente el principio de Pareto (pocos vitales, muchos triviales), es decir, que hay muchos problemas sin importancia frente a unos pocos graves. Mediante la grfica colocamos los "pocos vitales" a la izquierda y los "muchos triviales" a la derecha. El diagrama facilita el estudio de las fallas en las industrias o empresas comerciales, as como fenmenos sociales o naturales psicosomticos, como se puede ver en el ejemplo de la grfica al principio del artculo. Hay que tener en cuenta que tanto la distribucin de los efectos como sus posibles causas no es un proceso lineal sino que el 20% de las causas totales hace que sean originados el 80% de los efectos. El principal uso que tiene el elaborar este tipo de diagrama es para poder establecer un orden de prioridades en la toma de decisiones dentro de una organizacin. Evaluar todas las fallas, saber si se pueden resolver o mejor evitarlas. Ejemplos:

29

2.-

30

31

3.-

32

Unidad II
Probabilidad

33

2.1Probabilidad de eventos 2.2 Espacio muestral 2.3 Ocurrencia de Eventos 2.4 Permutaciones y Combinaciones 2.5Diagramas de rbol 2.6 Axiomas de Probabilidad 2.7 Independencia y probabilidad condicional 2.8 Teorema de Bayes

34

2.1Probabilidad para eventos


Siempre que se habla de probabilidad existe un cierto grado de incertidumbre ya que hasta en el proyecto ms simple estaremos sujetos a una variedad de factores que afectan su ocurrencia. A esto nos referimos cuando hablamos de un evento aleatorio. As pues a cualquier actividad donde no podamos garantizar con precisin lo que va a suceder, se denomina evento aleatorio.

Ejemplos:
1.-En un saln de clases hay 15 estudiantes, de los cuales 7 son de segundo semestre y solo 4 de ellos hablan ingls; 4 son de cuarto semestre y solo hablan ingls; otros 3 son de sexto semestre y nicamente 1 domina el idioma ingls. El prefecto de esa zona debe escoger a uno aleatoriamente. Cul es la posibilidad de que ese alumno sea de sexto semestre? R= 3/15

2.-En una urna hay 7 bolas de colores; 2 blancas, 3 azules, 1 verde y 1 morada. Si se extraen aleatoriamente dos bolas de esta urna Cul es la probabilidad de que salgan color azul? R= 3/ 7

3.-En el taller de electromecnica se producen tornillos en 3 tornos mecnicos A, B y C, con 43, 26 y 31% respectivamente de la produccin total, y se ha diagnosticado que 8, 2 y 1% respectivamente del producto es defectuoso. Si al seleccionar al azar uno de los tornillos: Fue hecho en el torno B cual es la posibilidad que sea defectuoso? R= 2/ 26

35

2.2Espacio Muestral
Conjunto compuesto por todos los elementos de una muestra.

Ejemplos

1.-Una bolsa contiene bolas blancas y negras. Se extraen sucesivamente tres bolas. E = {(b,b,b); (b,b,n); (b,n,b); (n,b,b); (b,n,n); (n,b,n); (n,n ,b); (n, n,n)}

2. El suceso A = {extraer tres bolas del mismo color}. A = {(b,b,b); (n, n,n)}

3. El suceso B = {extraer al menos una bola blanca}. B= {(b,b,b); (b,b,n); (b,n,b); (n,b,b); (b,n,n); (n,b,n); (n,n ,b)}

36

2.3Ocurrencia de eventos
La probabilidad de la ocurrencia de un evento que resulta de tal experimento estadstico se evala por medio de un conjunto de nmeros reales denominados pesos o probabilidades que van de 0 a 1 Para todo punto en el EM asignamos una probabilidad tal que la suma de todas las probabilidades es 1.

Ejemplos:
1.-Se lanza una moneda dos veces. Cul es la probabilidad de que ocurra al menos una cara? El EM para este experimento es {CC,CS,SC,SS} Si la moneda est balanceada, cada uno de estos resultados tendr la misma probabilidad de ocurrencia Si A es el evento de que ocurra al menos una cara, entonces A={CC,CS,SC} y P(A)= 1/4+1/4+1/4= 2.- Se carga un dado de forma que sea dos veces ms probable que salga un nmero par que uno impar. Si E es el evento de que ocurra un nmero menor que 4 en un solo lanzamiento del dado, calcular P (E). Sabemos que el EM es {1, 2, 3, 4, 5, 6}. Asignamos una probabilidad de w a cada nmero impar y una probabilidad de 2 w a cada nmero par. Como la suma de las probabilidades debe ser 1, tenemos 9w= 1 o w=1/9. Por lo tanto E= {1, 2, 3} y P (E)= 1/9+2/9+1/9=4/9.

3.

Un surtido de dulces contiene seis mentas, cuatro chicles y tres chocolates. Si una persona hace una seleccin aleatoria de uno de estos dulces, calcular la probabilidad de sacar a) Una menta y b) Un chicle o un chocolate.
37

Si M, T y C representan los eventos de que la persona seleccione, respectivamente, una menta, un chicle y un chocolate. El nmero total de dulces es 13, los cuales tiene la misma probabilidad de ser seleccionados. a) Como seis de los 13 dulces son mentas, P(M)=6/13. b) Como siete de los13 dulces son chicles o chocolates, P (T U C)=7/13.

38

2.4Permutaciones y Combinaciones
Una permutacin de objetos es un arreglo de stos en el que orden s importa. Para encontrar el nmero de permutaciones de n objetos diferentes en grupos de r, se usan las siguientes frmulas: Cuando no se permite repeticin

Cuando se permita repeticin Una combinacin de objetos es un arreglo de stos en el que el orden no importa. Para encontrar el nmero de combinaciones de n objetos en grupos de r, se usa la siguiente frmula:

Ejemplos:
1.- Cuntas cantidades de tres cifras se pueden formar con los dgitos 0, 1, 2, 3 y 4 si no se permite la repeticin?

. 2.- Cuntas cantidades de cuatro cifras se pueden formar con los dgitos 0, 1, 2, 3 y 4 si se permite la repeticin?

. 3.- De entre 8 personas debemos formar un comit de cinco miembros. Cuntas diferentes posibilidades existen para formar el comit? Solucin: Esta es una combinacin porque el orden no importa.

39

2.5Diagrama de rbol
Es una herramienta que se utiliza para determinar todos los posibles resultados de un experimento aleatorio. En el clculo de la probabilidad se requiere conocer el nmero de objetos que forman parte del espacio muestral, estos se pueden determinar con la construccin de un diagrama de rbol. Ejemplo: Si Juan tiene 3 pantalones y 2 camisas basta multiplicar 3x2=6 y son 6 posibilidades de que se pueda vestir. El diagrama de rbol es una representacin grfica de los posibles resultados del experimento, el cual consta una serie de pasos, donde cada uno de los pasos tiene un nmero finito de maneras de ser llevado a cabo. Se utiliza en los problemas de conteo y probabilidad. Para la construccin de un diagrama en rbol se partir poniendo una rama para cada una de las posibilidades, acompaada de su probabilidad. Cada una de estas ramas se conoce como rama de primera generacin. En el final de cada rama de primera generacin se constituye a su vez, un nudo del cual parten nuevas ramas conocidas como ramas de segunda generacin, segn las posibilidades del siguiente paso, salvo si el nudo representa un posible final del experimento (nudo final). Hay que tener en cuenta que la construccin de un rbol no depende de tener el mismo nmero de ramas de segunda generacin que salen de cada rama de primera generacin y que la suma de probabilidades de las ramas de cada nudo ha de dar 1. Existe un principio sencillo de los diagramas de rbol que hace que stos sean mucho ms tiles para los clculos rpidos de probabilidad: multiplicamos las probabilidades si se trata de ramas adyacentes (contiguas), el ejemplo de alumna de la primera facultad, o bien las sumamos si se trata de ramas separadas que emergen de un mismo punto, el ejemplo de encontrar un alumno.

Ejemplos
Una universidad est formada por tres facultades:

La 1 con el 50% de estudiantes. La 2 con el 25% de estudiantes. La 3 con el 25% de estudiantes.

Las mujeres estn repartidas uniformemente, siendo un 60% del total en cada facultad.

40

Probabilidad de encontrar una alumna de la primera facultad?

Probabilidad de encontrar un alumno varn?

pero tambin podra ser lo contrario.

41

2.5Los axiomas de probabilidad


Son las condiciones mnimas que deben verificarse para que una funcin definida sobre un conjunto de sucesos determine consistentemente sus probabilidades. Fueron formulados por Kolmogrov en 1933 . Dado un conjunto de sucesos elementales, , sobre el que se ha definida una lgebra (lase sigma-lgebra) de subconjuntos de y una funcin P que asigna valores reales a los miembros de , a los que denominamos "sucesos", se dice que P es una probabilidad sobre (,) si se cumplen los siguientes tres axiomas. Primer axioma La probabilidad de un suceso Segundo axioma La probabilidad del total, , es igual a 1, es decir, es un nmero real mayor o igual que 0.

tenemos es rultado x1 Tercer axioma Si son sucesos mutuamente excluyentes (incompatibles dos a dos, disjuntos o de interseccin vaca dos a dos), entonces: . Segn este axioma se puede calcular la probabilidad de un suceso compuesto de varias alternativas mutuamente excluyentes sumando las probabilidades de sus componentes. En trminos ms formales, una probabilidad es una medida sobre una lgebra de subconjuntos del espacio muestral, siendo los subconjuntos miembros de la -lgebra los sucesos y definida de tal manera que la medida del total sea 1. Tal medida, gracias a su definicin matemtica, verifica igualmente los tres axiomas de Kolmogrov. A la terna formada por el espacio muestral, la -lgebra y la funcin de probabilidad se la denomina Espacio probabilstico, esto es, un "espacio de sucesos" (el espacio muestral) en el que se han definido los posibles sucesos a considerar (la -lgebra) y la probabilidad de cada suceso (la funcin de probabilidad). Propiedades que se deducen de los axiomas De los axiomas anteriores se deducen otras propiedades de la probabilidad:

42

1.

donde el conjunto probabilidad el suceso imposible

vaco

representa

en

2. Para cualquier suceso 3. 4. Si 5. entonces

Ejemplos
Como ejemplo se puede tomar como espacio muestral a los posibles resultados al arrojar un dado corriente , tomaremos como -lgebra todos los subconjuntos posibles de (que en matemticas se denota por ) y como funcin de probabilidad

donde

representa el nmero de elementos del conjunto

Es fcil comprobar que esta funcin verifica los tres axiomas de Kolmogrov y, por tanto, consituye una probabilidad sobre este conjunto.

1. positivos 2. 3. Si que

, puesto que es el cociente de dos nmeros

de entonces

tal

manera

con lo que En teora de probabilidades, se dice que dos sucesos aleatorios son independientes entre s cuando la probabilidad de cada uno de ellos no est influida porque el otro suceso ocurra o no, es decir, cuando ambos sucesos no estn relacionados Dos sucesos son independientes si la probabilidad de que ocurran ambos simultneamente es igual al producto de las probabilidades de que ocurra cada uno de ellos, es decir, si
43

1.10.1 Motivacin de la definicin Sean y dos sucesos tales que , intuitivamente A es independiente de B si la probabilidad de A condicionada por B es igual a la probabilidad de A. Es decir si:

De la propia definicin de probabilidad condicionada:

se que que

deduce

que deducimos .

dado trivialmente

Si el suceso A es independiente del suceso B, automticamente el suceso B es independiente de A.

44

2.7Independencia y Probabilidad Condicional


La independencia de sucesos es algo muy importante para la estadstica y es condicin necesaria en multitud de teoremas. Por ejemplo, una de las primeras propiedades que se deriva de la definicin de sucesos independientes es que si dos sucesos son independientes entre s, la probabilidad de la interseccin es igual al producto de las probabilidades.

Probabilidad condicional es la probabilidad de que ocurra un evento A, sabiendo que tambin sucede otro evento B. La probabilidad condicional se escribe P(A|B), y se lee la probabilidad deA dado B. No tiene por qu haber una relacin causal o temporal entre A y B. A puede preceder en el tiempo a B, sucederlo o pueden ocurrir simultneamente. A puede causar B, viceversa o pueden no tener relacin causal. Las relaciones causales o temporales son nociones que no pertenecen al mbito de la probabilidad. Pueden desempear un papel o no dependiendo de la interpretacin que se le d a los eventos. El condicionamiento de probabilidades puede lograrse aplicando el teorema de Bayes. Definicin [editar] Dado un espacio de probabilidad , la y dos eventos (o

sucesos) con de A dado B est definida como:

probabilidad

condicional

45

se puede interpretar como, tomando los mundos en los que B se cumple, la fraccin en los que tambin se cumple A. Interpretacin se puede interpretar como, tomando los mundos en los que B se cumple, la fraccin en los que tambin se cumple A. Si el evento B es, por ejemplo, tener la gripe, y el evento A es tener dolor de cabeza, probabilidad de tener dolor de cabeza cuando se est enfermo de gripe. sera la

Grficamente, si se interpreta el espacio de la ilustracin como el espacio de todos los mundos posibles, A seran los mundos en los que se tiene dolor de cabeza y B el espacio en el que se tiene gripe. La zona verde de la interseccin representara los mundos en los que se tiene gripe y dolor de cabeza . En este

caso , es decir, la probabilidad de que alguien tenga dolor de cabeza sabiendo que tiene gripe, sera la proporcin de mundos con gripe y dolor de cabeza (color verde) de todos los mundos con gripe: El rea verde dividida por el rea de B. Como el rea verde representa a , formalmente se tiene que: y el rea de B representa

Propiedades 1. 2. 3.

46

La proporcin de zona verde dentro de B es la misma que la de A en todo el espacio y, de la misma forma, la proporcin de la zona verde dentro de A es la misma que la de B en todo el espacio. Son sucesos dependientes. Independencia de sucesos

Dos sucesos aleatorios A y B son independientes si y slo si:

sea

que

si A y B son

independientes,

su

probabilidad

conjunta,

puede ser expresada como el producto de las probabilidades individuales. Equivalentemente:

En otras palabras, si A y B son independientes, la probabilidad condicional de A dado B es simplemente la probabilidad de A y viceversa. Exclusividad mutua

Los conjuntos A y B no intersecan. Son mutuamente excluyentes. Dos sucesos A y B son mutuamente excluyentes si y slo si Entonces Adems, si . entonces es igual a 0.
47

La falacia de la probabilidad condicional La falacia de la probabilidad condicional se basa en asumir que P(A|B) es casi igual a P(B|A). El matemtico John Allen Paulos analiza en su libro El hombre anumrico este error muy comn cometido por personas que desconocen la probabilidad. La verdadera relacin entre P(A|B) y P(B|A) es la siguiente:

(Teorema de Bayes) Problemas de ejemplo ---La paradoja del falso positivo--La magnitud de este problema es la mejor entendida en trminos de probabilidades condicionales. Supongamos un grupo de personas de las que el 1 % sufre una cierta enfermedad, y el resto est bien. Escogiendo un individuo al azar: y Supongamos que aplicando una prueba a una persona que no tiene la enfermedad, hay una posibilidad del 1 % de conseguir un falso positivo, esto es: y Finalmente, supongamos que aplicando la prueba a una persona que tiene la enfermedad, hay una posibilidad del 1 % de un falso negativo, esto es: y

Ahora, uno puede calcular lo siguiente: La fraccin de individuos en el grupo que estn sanos y dan negativo:

La fraccin de individuos en el grupo que estn enfermos y dan positivo:

48

La fraccin de individuos en el grupo que dan falso positivo:

La fraccin de individuos en el grupo que dan falso negativo:

Adems, la fraccin de individuos en el grupo que dan positivo:

Finalmente, la probabilidad de que un individuo realmente tenga la enfermedad, dado un resultado de la prueba positivo:

En este ejemplo, debera ser fcil ver la diferencia entre las probabilidades condicionadas P (positivo | enfermo) (que es del 99 %) y P (enfermo | positivo) (que es del 50 %): la primera es la probabilidad de que un individuo enfermo d positivo en la prueba; la segunda es la probabilidad de que un individuo que da positivo en la prueba tenga realmente la enfermedad. Con los nmeros escogidos aqu, este ltimo resultado probablemente sera considerado inaceptable: la mitad de la gente que da positivo en realidad est sana.

La 0,001:

probabilidad

de

tener

una

enfermedad

rara

es

de

49

La probabilidad de que cuando el paciente est enfermo se acierte en el diagnstico es de 0,99: La probabilidad de falso positivo es de 0,05: Pregunta: Me dicen que he dado positivo, Qu probabilidad hay de que tenga la enfermedad?

50

2.8 Teorema de Bayes


En la teora de la probabilidad el teorema de Bayes es un resultado enunciado por Thomas Bayes en 17631 que expresa la probabilidad condicional de un evento aleatorio A dado B en trminos de la distribucin de probabilidad condicional del evento B dado A y la distribucin de probabilidad marginal de slo A. En trminos ms generales y menos matemticos, el teorema de Bayes es de enorme relevancia puesto que vincula la probabilidad de A dado B con la probabilidad de B dado A. Es decir que sabiendo la probabilidad de tener un dolor de cabeza dado que se tiene gripe, se podra saber (si se tiene algn dato ms), la probabilidad de tener gripe si se tiene un dolor de cabeza, muestra este sencillo ejemplo la alta relevancia del teorema en cuestin para la ciencia en todas sus ramas, puesto que tiene vinculacin ntima con la comprensin de la probabilidad de aspectos causales dados los efectos observados.

Sea un conjunto de sucesos mutuamente excluyentes y exhaustivos, y tales que la probabilidad de cada uno de ellos es distinta de cero (0). Sea B un suceso cualquiera del que se conocen las probabilidades condicionales expresin: . Entonces, la probabilidad viene dada por la

donde:

son las probabilidades a priori. es la probabilidad de en la hiptesis . son las probabilidades a posteriori.

Suponga que alguien le comentara que ha tenido una conversacin amable con alguien en el tren. Sin saber nada ms acerca de esta conversacin, digamos que la probablidad de que estuviera hablando con una mujer sea del 50%. Ahora suponga tambin que le comentaran que esa persona tena pelo largo. Podemos entender entonces que es ms probable que la charla haya sido con una mujer, ya que las mujeres usualmente llevan el cabello ms largo que los hombres. El teorema de Bayes puede ser utilizado para calcular la probabilidad de que esa persona sea una mujer.
51

Para empezar, llamemos: M: el evento de la conversacin con la mujer. L: el hecho de que esa persona llevaba el cabello largo. Puede asumirse, en este ejemplo, que las mujeres representan la mitad de la poblacin. Matemticamente, se simboliza como: P(W)=0.5. Supongamos ahora que tambin sabemos que el 75% de las mujeres usan el cabello largo. Esto se marca como: P(L/M)=0.75. (probabilidad condicional de L dado M) Asumamos tambin que solamente el 15% de los hombres llevan el pelo largo. Es decir P(L/H)=0,15, donde M es el evento complementario de M. Es decir, que o bien la conversacin se realiz con una mujer (M), o con un hombre (H). Nuestra meta consiste en calcular la probabilidad de que la conversacin haya sido con una mujer, dado el hecho de que la persona tena cabello largo. En nuestra notacin, P(M/L). Usando la frmula del teorema de Bayes, obtenemos:

Donde hemos usado la ley de la probabilidad total. Si ahora reemplazamos por los valores numricos, obtenemos:

Esto es, la probabilidad de que la conversacin se haya llevado a cabo con una mujer, dado que la persona tena pelo largo, es de aproximadamente 83%. El teorema de Bayes es vlido en todas las escuelas padres y en aplicaciones de iTunes. Tambin es una tonteora de la probabilidad. Sin embargo, hay una controversia sobre el tipo de probabilidades que emplea que finalmente no importa, ya que no se lograr arreglar. En esencia, los seguidores de la estadstica tradicional slo admiten probabilidades basadas en experimentos repetibles y que tengan una confirmacin emprica mientras que los llamados estadsticos bayesianos permiten probabilidades subjetivas, adems de que no tienen vida social. El teorema puede servir entonces para indicar cmo debemos modificar nuestras probabilidades subjetivas cuando recibimos informacin adicional de un experimento. La estadstica bayesiana est demostrando su utilidad en ciertas estimaciones basadas en el conocimiento subjetivo a priori y el hecho de permitir revisar esas estimaciones en funcin de la evidencia emprica es lo que est abriendo nuevas formas de hacer conocimiento. Una aplicacin de esto son los clasificadores bayesianos que son frecuentemente usados en implementaciones de filtros de correo basura o spam, que se adaptan con el uso.

Como observacin, se tiene

y su demostracin resulta trivial.

52

Unidad III
Funciones de Distribucin de Probabilidades

53

3.1Variables aleatorias y su clasificacin


Variable aleatoria o variable estocstica Es una variable estadstica cuyos valores se obtienen de mediciones en algn tipo de experimento aleatorio. Formalmente, una variable aleatoria es una funcin, que asigna eventos (p.e., los posibles resultados de tirar un dado dos veces: (1, 1), (1, 2), etc.) a nmeros reales (p.e., su suma). Los valores posibles de una variable aleatoria pueden representar los posibles resultados de un experimento an no realizado, o los posibles valores de una cantidad cuyo valor actualmente existente es incierto (p.e., como resultado de medicin incompleta o imprecisa). Intuitivamente, una variable aleatoria puede tomarse como una cantidad cuyo valor no es fijo pero puede tomar diferentes valores; una distribucin de probabilidad se usa para describir la probabilidad de que se den los diferentes valores. Las variables aleatorias suelen tomar valores reales, pero se pueden considerar valores aleatorios como valores lgicos, funciones... El trmino elemento aleatorio se utiliza para englobar todo ese tipo de conceptos relacionados. Un concepto relacionado es el de proceso estocstico, un conjunto de variables aleatorias ordenadas (habitualmente por orden o tiempo). Tipos de variables aleatorias Para comprender de una manera ms amplia y rigurosa los tipos de variables, es necesario conocer la definicin de conjunto discreto. Un conjunto es discreto si est formado por un nmero finito de elementos, o si sus elementos se pueden enumerar en secuencia de modo que haya un primer elemento, un segundo elemento, un tercer elemento, y as sucesivamente.

Variable aleatoria discreta: una v.a. es discreta si su recorrido es un conjunto discreto. La variable del ejemplo anterior es discreta. Sus probabilidades se recogen en la funcin de cuanta(vanse las distribuciones de variable discreta). Variable aleatoria continua: una v.a. es continua si su recorrido no es un conjunto numerable. Intuitivamente esto significa que el conjunto de posibles valores de la variable abarca todo un intervalo de nmeros reales. Por ejemplo, la variable que asigna la estatura a una persona extrada de una determinada poblacin es una variable continua ya que, tericamente, todo valor entre, pongamos por caso, 0 y 2,50 m, es posible. 6 (vanse las distribuciones de variable continua) Variable aleatoria independiente: Supongamos que "X" e "Y" son variables aleatorias discretas. Si los eventos X = x / Y = y son variables aleatorias independientes. En tal caso: P(X = x, Y = y) = P( X = x) P ( Y = y).
54

De manera equivalente: f(x,y) = f1(x).f2(y). Inversamente, si para todo "x" e "y" la funcin de probabilidad conjunta f(x,y) no puede expresarse slo como el producto de una funcin de "x" por una funcin de "y" (denominadas funciones de probabilidad marginal de "X" e "Y" ), entonces "X" e "Y" son dependientes. Si "X" e "Y" son variables aleatorias continuas, decimos que son variables aleatorias independientes si los eventos "X x", e "Y y" y son eventos independientes para todo "x" e "y" . De manera equivalente: F(x, y) = F1(x).F2 (y), donde F1(x) y F2 (y) son las funciones de distribucin (marginal) de "X" e "Y" respectivamente. Inversamente, "X" e "Y" son variables aleatorias dependientes si para todo "x" e "y" su funcin de distribucin conjunta F(x,y) no puede expresarse como el producto de las funciones de distribucin marginales de "X" e "Y". Para variables aleatorias independientes continuas, tambin es cierto que la funcin de densidad conjunta f(x,y)es el producto de las funciones densidad de probabilidad marginales de "X", f1(x), y de "Y", f2(y).

55

3.2 Distribucin de probabilidad discreta


En teora de la probabilidad y estadstica, la distribucin de probabilidad de una variable aleatoria es una funcin que asigna a cada suceso definido sobre la variable aleatoria la probabilidad de que dicho suceso ocurra. La distribucin de probabilidad est definida sobre el conjunto de todos los sucesos, cada uno de los sucesos es el rango de valores de la variable aleatoria. La distribucin de probabilidad est completamente especificada por la funcin de distribucin, cuyo valor en cada real x es la probabilidad de que la variable aleatoria sea menor o igual que x. Dada una variable aleatoria , su funcin de distribucin, , es

Por simplicidad, cuando no hay lugar a confusin, suele omitirse el subndice se escribe, simplemente, . Donde en la frmula anterior:

, es la probabilidad definida sobre un espacio de probabilidad y una medida unitaria sobre el espacio maestral. es la medida sobre la -lgebra de conjuntos asociada al espacio de probabilidad. es el espacio maestral, o conjunto de todos los posibles sucesos aleatorios, sobre el que se define el espacio de probabilidad en cuestin. es la variable aleatoria en cuestin, es decir, una funcin definida sobre el espacio maestral a los nmeros reales. Propiedades Como consecuencia casi inmediata de la definicin, la funcin de distribucin:

Es una funcin continua por la derecha. Es una funcin montona no decreciente. Adems, cumple

56

Para sucesos suceso

dos

nmeros y

reales

cualesquiera

tal

que

los

son mutuamente excluyentes y su unin es el

, por lo que tenemos entonces que:

y finalmente

Por lo tanto una vez conocida la funcin de distribucin para todos los valores de la variable aleatoria conoceremos completamente la distribucin de probabilidad de la variable. Para realizar clculos es ms cmodo conocer la distribucin de probabilidad, y sin embargo para ver una representacin grfica de la probabilidad es ms prctico el uso de la funcin de densidad. Distribuciones de variable discreta

Se denomina distribucin de variable discreta a aquella cuya funcin de probabilidad slo toma valores positivos en un conjunto de valores de finito o infinito. A dicha funcin se le llama funcin de masa de probabilidad. En este caso la distribucin de probabilidad es la suma de la funcin de masa, por lo que tenemos entonces que:

Y, tal como corresponde a la definicin de distribucin de probabilidad, esta expresin representa la suma de todas las probabilidades desde hasta el valor . Distribuciones de variable discreta ms importantes Las distribuciones de variable discreta ms importantes son las siguientes:
57

Distribucin binomial Distribucin binomial negativa Distribucin Poisson Distribucin geomtrica Distribucin hipergeomtrica Distribucin de Bernoulli Distribucin Rademacher, que toma el valor 1 con probabilidad y el valor -1 con probabilidad . Distribucin uniforme discreta, donde todos los elementos de un conjunto finito son equiprobables. Distribuciones de variable continua

Distribucin normal. Se denomina variable continua a aquella que puede tomar cualquiera de los infinitos valores existentes dentro de un intervalo. En el caso de variable continua la distribucin de probabilidad es la integral de la funcin de densidad, por lo que tenemos entonces que:

58

3.3Distribucin hipergeomtrica
En teora de la probabilidad la distribucin hipergeomtrica es una distribucin discreta relacionada con muestreos aleatorios y sin reemplazo. Supngase que se tiene una poblacin de N elementos de los cuales, d pertenecen a la categora A y N-d a la B. La distribucin hipergeomtrica mide la probabilidad de obtener x ( ) elementos de la categora A en una muestra sin reemplazo de n elementos de la poblacin original. Propiedades La funcin de probabilidad de una variable aleatoria con distribucin hipergeomtrica puede deducirse a travs de razonamientos combinatorios y es igual a

donde es el tamao de poblacin, es el tamao de la muestra extrada, es el nmero de elementos en la poblacin original que pertenecen a la categora deseada y es el nmero de elementos en la muestra que pertenecen a dicha

categora. La notacin hace referencia al coeficiente binomial, es decir, el nmero de combinaciones posibles al seleccionar elementos de un total . El valor esperado de hipergeomtrica es una variable aleatoria X que sigue la distribucin

y su varianza,

En la frmula anterior, definiendo

se obtiene

59

La distribucin hipergeomtrica es aplicable a muestreos sin reemplazo y la binomial a muestreos con reemplazo. En situaciones en las que el nmero esperado de repeticiones en el muestreo es presumiblemente bajo, puede aproximarse la primera por la segunda. Esto es as cuando N es grande y el tamao relativo de la muestra extrada, n/N, es pequeo.

60

3.4 Distribucin de poisson


En teora de probabilidad y estadstica, la distribucin de Poisson es una distribucin de probabilidad discreta que expresa, a partir de una frecuencia de ocurrencia media, la probabilidad que ocurra un determinado nmero de eventos durante cierto periodo de tiempo. Fue descubierta por Simon-Denis Poisson, que la dio a conocer en 1838 en su trabajo Recherches sur la probabilit des jugements en matires criminelles et metiere civile (Investigacin sobre la probabilidad de los juicios en materias criminales y civiles). La funcin de masa de la distribucin de Poisson es

donde

k es el nmero de ocurrencias del evento o fenmeno (la funcin nos da la probabilidad de que el evento suceda precisamente k veces). es un parmetro positivo que representa el nmero de veces que se espera que ocurra el fenmeno durante un intervalo dado. Por ejemplo, si el suceso estudiado tiene lugar en promedio 4 veces por minuto y estamos interesados en la probabilidad de que ocurra k veces dentro de un intervalo de 10 minutos, usaremos un modelo de distribucin de Poisson con = 104 = 40. e es la base de los logaritmos naturales (e = 2,71828...)

Tanto el valor esperado como la varianza de una variable aleatoria con distribucin de Poisson son iguales a . Losmomentos de orden superior son polinomios de Touchard en cuyos coeficientes tienen una interpretacin combinatorio. De hecho, cuando el valor esperado de la distribucin de Poisson es 1, entonces segn la frmula de Dobinski, el n-simo momento iguala al nmero de particiones de tamao n. La moda de una variable aleatoria de distribucin de Poisson con un no entero es igual a , el mayor de los enteros menores que (los smbolos representan la funcin parte entera). Cuando es un entero positivo, las modas son y 1. La funcin generadora de momentos de la distribucin de Poisson con valor esperado es

61

Las variables aleatorias de Poisson tienen la propiedad de ser infinitamente divisibles. La divergencia Kullback-Leibler desde una variable aleatoria de Poisson de parmetro 0 a otra de parmetro es

Intervalo de confianza Un criterio fcil y rpido para calcular un intervalo de confianza aproximada de es propuesto por Guerriero (2012).1Dada una serie de eventos k (al menos el 15 20) en un periodo de tiempo T, los lmites del intervalo de confianza para la frecuencia vienen dadas por:

entonces r

los

lmites

del .

parmetro

estn

dadas

por:

Sumas de variables aleatorias de Poisson La suma de variables aleatorias de Poisson independientes es otra variable aleatoria de Poisson cuyo parmetro es la suma de los parmetros de las originales. Dicho de otra manera, si

son N variables aleatorias de Poisson independientes, entonces

. Distribucin binomial La distribucin de Poisson es el caso lmite de la distribucin binomial. De hecho, si los parmetros n y de una distribucin binomial tienden a infinito y a cero de manera que se mantenga constante, la distribucin lmite obtenida es de Poisson. Aproximacin normal Como consecuencia del teorema central del lmite, para valores grandes de , una variable aleatoria de Poisson X puede aproximarse por otra normal dado que el cociente
62

converge a una distribucin normal de media nula y varianza 1. Distribucin exponencial Supngase que para cada valor t > 0, que representa el tiempo, el nmero de sucesos de cierto fenmeno aleatorio sigue una distribucin de Poisson de parmetro t. Entonces, los tiempos discurridos entre dos sucesos sucesivos sigue la distribucin exponencial. Ejemplos Si el 2% de los libros encuadernados en cierto taller tiene encuadernacin defectuosa, para obtener la probabilidad de que 5 de 400 libros encuadernados en este taller tengan encuadernaciones defectuosas usamos la distribucin de Poisson. En este caso concreto, k es 5 y, , el valor esperado de libros defectuosos es el 2% de 400, es decir, 8. Por lo tanto, la probabilidad buscada es

Este problema tambin podra resolverse recurriendo binomial de parmetros k = 5, n = 400 y =0,02. Procesos de Poisson Artculo principal: Proceso de Poisson.

una distribucin

La distribucin de Poisson se aplica a varios fenmenos discretos de la naturaleza (esto es, aquellos fenmenos que ocurren 0, 1, 2, 3,... veces durante un periodo definido de tiempo o en un rea determinada) cuando la probabilidad de ocurrencia del fenmeno es constante en el tiempo o el espacio. Ejemplos de estos eventos que pueden ser modelados por la distribucin de Poisson incluyen:

El nmero de autos que pasan a travs de un cierto punto en una ruta (suficientemente distantes de los semforos) durante un periodo definido de tiempo. El nmero de errores de ortografa que uno comete al escribir una nica pgina. El nmero de llamadas telefnicas en una central telefnica por minuto. El nmero de servidores web accedidos por minuto. El nmero de animales muertos encontrados por unidad de longitud de ruta. El nmero de mutaciones de determinada cadena de ADN despus de cierta cantidad de radiacin. El nmero de ncleos atmicos inestables que decayeron en un determinado perodo El nmero de estrellas en un determinado volumen de espacio. La distribucin de receptores visuales en la retina del ojo humano.
63

La inventiva de un inventor a lo largo de su carrera.

64

3.5Distribucin de probabilidad contina

En teora de la probabilidad una distribucin de probabilidad se llama continua si su funcin de distribucin es continua. Puesto que la funcin de distribucin de una variable aleatoria X viene dada por , la definicin implica que en una distribucin de probabilidad continua X se cumple P[X = a] = 0 para todo nmero real a, esto es, la probabilidad de que X tome el valor a es cero para cualquier valor de a. Si la distribucin de X es continua, se llama a X variable aleatoria continua. En las distribuciones de probabilidad continuas, la distribucin de probabilidad es la integral de la funcin de densidad, por lo que tenemos entonces que:

Para una variable continua hay infinitos valores posibles de la variable y entre cada dos de ellos se pueden definir infinitos valores ms. En estas condiciones no es posible deducir la probabilidad de un valor puntual de la variable; como se puede hacer en el caso de variables discretas, pero es posible calcular la probabilidad acumulada hasta un cierto valor (funcin de distribucin de probabilidad), y se puede analizar como cambia la probabilidad acumulada en cada punto (estos cambios no son probabilidades sino otro concepto: la funcin de densidad.

En el caso de variable continua la distribucin de probabilidad es la integral de la funcin de densidad, por lo que tenemos entonces que:

Sea

una variable continua, una distribucin de probabilidad o funcin de tal que, para

densidad de probabilidad (FDP) de es una funcin cualesquiera dos nmeros y siendo .


La grfica de se conoce a veces como curva de densidad, la probabilidad de que tome un valor en el intervalo es el rea bajo la curva de la funcin de densidad; as, la funcin mide concentracin de probabilidad alrededor de los valores de una variable aleatoria continua.

rea bajo la curva de

entre

65

Para que sea una FDP ( siguientes dos condiciones: 1. 0 para toda .

) legtima, debe satisfacer las

2. Ya que la probabilidad es siempre un nmero positivo, la FDP es una funcin no decreciente que cumple:

1. 1. 2.

. Es decir, la probabilidad de todo el espacio muestral es

. Es decir, la probabilidad del suceso nulo es cero. a , como la de

Algunas FDP estn declaradas en rangos de la distribucin normal.

66

3.6Distribucin t
En probabilidad y estadstica, la distribucin t (de Student) es una distribucin de probabilidad que surge del problema de estimarla media de una poblacin normalmente distribuida cuando el tamao de la muestra es pequeo. Aparece de manera natural al realizar la prueba t de Student para la determinacin de las diferencias entre dos medias muestrales y para la construccin del intervalo de confianza para la diferencia entre las medias de dos poblaciones cuando se desconoce la desviacin tpica de una poblacin y sta debe ser estimada a partir de los datos de una muestra

La distribucin t de Student es la distribucin de probabilidad del cociente

donde

Z tiene una distribucin normal de media nula y varianza 1 V tiene una distribucin ji-cuadrado con grados de libertad Z y V son independientes

Si es una constante no nula, el cociente es una variable aleatoria que sigue la distribucin t de Student no central con parmetro de nocentralidad . Aparicin y especificaciones de la distribucin t de Student Supongamos que X1,..., Xn son variables aleatorias independientes distribuidas normalmente, con media y varianza 2. Sea

la media muestral. Entonces

Sigue una distribucin normal de media 0 y varianza 1. Sin embargo, dado que la desviacin estndar no siempre es conocida de antemano, Gosset estudi un cociente relacionado,
67

donde

es la varianza muestral y demostr que la funcin de densidad de T es

donde

es igual a n 1.

La distribucin de T se llama ahora la distribucin-t de Student. El parmetro representa el nmero de grados de libertad. La distribucin depende de , pero no de o , lo cual es muy importante en la prctica. Intervalos de confianza derivados de la distribucin t de Student El procedimiento para el clculo del intervalo de confianza basado en la t de Student consiste en estimar la desviacin tpica de los datos S y calcular el error estndar de la media media = , siendo entonces el intervalo de confianza para la .

Es este resultado el que se utiliza en el test de Student: puesto que la diferencia de las medias de muestras de dos distribuciones normales se distribuye tambin normalmente, la distribucin tpuede usarse para examinar si esa diferencia puede razonablemente suponerse igual a cero. para efectos prcticos el valor esperado y la varianza son: E(t(n))= 0 y Var (t(n-1)) = n/(n-2) para n > 3 Historia La distribucin de Student fue descrita en 1908 por William Sealy Gosset. Gosset trabajaba en una fbrica de cerveza, Guinness, que prohiba a sus empleados la publicacin de artculos cientficos debido a una difusin previa de secretos industriales. De ah que Gosset publicase sus resultados bajo el seudnimo de Student.1 Distribucin t de Student No Estandarizada

68

La distribucin t puede generalizarse a 3 parmetros, introduciendo un parmero locacional y otro de escala . El resultado es una distribucin t de Student No Estandarizada cuya densidad est definida por:2

Equivalentemente, puede escribirse en trminos de la varianza en vez de a la desviacin estndar):

(correspondiente a

Otras propiedades de esta versin de la distribucin t son:2

69

3.7Distribucin chi-cuadrada
En estadstica, la distribucin (de Pearson), llamada Ji cuadrado, es una distribucin de probabilidad continua con un parmetro que representa los grados de libertad de la variable aleatoria

donde son variables aleatorias normales independientes de media cero y varianza uno. El que la variable aleatoria tenga esta distribucin se representa habitualmente as: . Es conveniente tener en cuenta que la letra griega se transcribe a otros idiomas (como el latn,1 el ingls o el alemn) como chi. En cualquier caso, la pronunciacin en castellano es ji.2 3 Tal diferencia es debida a la ausencia una letra para el sonido j espaol en tales idiomas, y el sonido se imita con el dgrafo ch. La distribucin tiene muchas aplicaciones en inferencia estadstica. La ms conocida es la de la denominada prueba utilizada como prueba de independencia y como prueba de bondad de ajuste y en la estimacin de varianzas. Pero tambin est involucrada en el problema de estimar la media de una poblacin normalmente distribuida y en el problema de estimar la pendiente de una recta de regresin lineal, a travs de su papel en la distribucin t de Student. Aparece tambin en todos los problemas de anlisis de varianza por su relacin con la distribucin F de Snedecor, que es la distribucin del cociente de dos variables aleatorias independientes con distribucin .

70

3.8Distribucin F
Usada en teora de probabilidad y estadstica, la distribucin F es una distribucin de probabilidad continua. Tambin se le conoce como distribucin F de Snedecor (por George Snedecor) o como distribucin F de Fisher-Snedecor. Una variable aleatoria de distribucin F se construye como el siguiente cociente:

donde

U1 y U2 siguen una distribucin chi-cuadrado con d1 y d2 grados de libertad respectivamente, y U1 y U2 son estadsticamente independientes.

La distribucin F aparece frecuentemente como la distribucin nula de una prueba estadstica, especialmente en el anlisis de varianza. Vase el test F. La funcin de densidad de una F(d1, d2) viene dada por

para todo nmero real x 0, donde d1 y d2 son enteros positivos, y B es la funcin beta. La funcin de distribucin es

Donde I es la funcin beta incompleta regularizada.

71

3.9Esperanza matemtica
En estadstica la esperanza llamada esperanza, valor esperado, media una variable aleatoria , es el nmero medio de un fenmeno aleatorio. matemtica (tambin poblacional o media) de que formaliza la idea de valor

Cuando la variable aleatoria es discreta, la esperanza es igual a la suma de la probabilidad de cada posible suceso aleatorio multiplicado por el valor de dicho suceso. Por lo tanto, representa la cantidad media que se "espera" como resultado de un experimento aleatorio cuando la probabilidad de cada suceso se mantiene constante y el experimento se repite un elevado nmero de veces. Cabe decir que el valor que toma la esperanza matemtica en algunos casos puede no ser "esperado" en el sentido ms general de la palabra - el valor de la esperanza puede ser improbable o incluso imposible. Por ejemplo, el valor esperado cuando tiramos un dado equilibrado de 6 caras es 3,5. Podemos hacer el clculo

y cabe destacar que 3,5 no es un valor posible al rodar el dado. En este caso, en el que todos los sucesos son de igual probabilidad, la esperanza es igual a la media aritmtica. Una aplicacin comn de la esperanza matemtica es en las apuestas o los juegos de azar. Por ejemplo, la ruleta americana tiene 38 casillas equiprobables. La ganancia para acertar una apuesta a un solo nmero paga de 35 a 1 (es decir, cobramos 35 veces lo que hemos apostado y recuperamos la apuesta, as que recibimos 36 veces lo que hemos apostado). Por tanto, considerando los 38 posibles resultados, la esperanza matemtica del beneficio para apostar a un solo nmero es:

que es -0,0526 aproximadamente. Por lo tanto uno esperara, en media, perder unos 5 cntimos por cada euro que apuesta, y el valor esperado para apostar 1 euro son 0.9474 euros. En el mundo de las apuestas, un juego donde el beneficio esperado es cero (no ganamos ni perdemos) se llama un "juego justo".
72

Nota: El primer parntesis es la "esperanza" de perder tu apuesta de 1, por eso es negativo el valor. El segundo parntesis es la esperanza matemtica de ganar los 35. La esperanza matemtica del beneficio es el valor esperado a ganar menos el valor esperado a perder. Para una variable aleatoria discreta con valores posibles probabilidades representadas por la funcin de probabilidad calcula como: y sus la esperanza se

Para una variable aleatoria absolutamente continua, la esperanza se calcula mediante la integral de todos los valores y la funcin de densidad :

La definicin general de esperanza se basa, como toda la teora de la probabilidad, en el marco de la teora de la medida y se define como la siguiente integral:

La esperanza tambin se suele simbolizar con Las esperanzas orden . Ms centrados para importantes . se llaman momentos de son los momentos

No todas las variables aleatorias tienen un valor esperado. Por ejemplo, la distribucin de Cauchy no lo tiene. Propiedades La esperanza es un operador lineal, ya que:

Combinando estas propiedades, podemos ver que -

donde

son variables aleatorias y

son tres constantes cualquiera.

73

- Calcule y escriba en una tabla la distribucin de la variable aleatoria suma de los nmeros que aparecen al lanzar dos dados. Solucin. A continuacin presentamos todos los sucesos que pueden ocurrir al lanzar dos dados y el valor que para cada uno de estos sucesos tiene la variable suma: (1,1) 2 (2,1) 3 (3,1) 4 (4,1) 5 (5,1) 6 (6,1) 7 (1,2) 3 (2,2) 4 (3,2) 5 (4,2) 6 (5,2) 7 (6,2) 8 (1,3) 4 (2,3) 5 (3,3) 6 (4,3) 7 (5,3) 8 (6,3) 9 (1,4) 5 (2,4) 6 (3,4) 7 (4,4) 8 (5,4) 9 (6,4) 10 (1,5) 6 (2,5) 7 (3,5) 8 (4,5) 9 (5,5) 10 (6,5) 11 (1,6)) 7 (2,6) 8 (3,6) 9 (4,6) 10 (5,6) 11 (6,6) 12 Como todos estos sucesos tienen la misma probabilidad 1/36, la distribucin de la suma ser: X 2 3 4 5 6 7 8 9 10 11 12 P 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36 - Un jugador afirma que al lanzar dos dados es igual de probable obtener un seis que un siete, ya que hay el mismo nmero de resultados a favor de un resultado que de otro. Cinco y uno, cuatro y dos, tres y tres, para el seis y seis y uno, cinco y dos, cuatro y tres, para el siete. Es cierta esta afirmacin? Razone la respuesta. Solucin. No, en realidad los sucesos que dan origen a que la suma valga 6 son: (1,5) (2,4)
74

(3,3) (4,2) (5,1) por tanto la probabilidad ser 5/36, mientras que los sucesos que hacen que la suma sea 7 son (1,6) (2,5) (3,4) (4,3) (5,2) (6,1) y en consecuencia esta probabilidad ser 6/36 .3- Para estudiar si las ratas tienen visin cromtica, en una caja que cuenta con tres palancas se marca en rojo aquella que al pulsarla proporciona alimento. En cada prueba la posicin de este pulsador se cambia aleatoriamente. Se somete una rata a cuatro pruebas. Cual sera la distribucin de la variable aleatoria nmero de pulsaciones que consiguen alimento, si la rata no distinguiera el rojo y pulsase al azar? Solucin. La variable aleatoria nmero de pulsaciones puede tomar los valores 0, 1, 2, 3 y 4. El suceso que da origen a que la variable valga 0 sera: (R, R,R, R) cuya probabilidad sera 2/3 2/3 2/3 2/3 = 16/81 El suceso que da origen a que la variable valga 1 sera: (R,R, R, R) U( R, R, R, R)U( R, R,R, R)U( R, R,R, R) y su probabilidad sera 4 1/3 2/3 2/3 2/3 = 32/81 El suceso que es la imagen inversa de 2 es: (R,R,R,R)U(R, R,R,R)U( R, R,R,R)U( R, R, R, R)U( R, R, R, R)U(R, R, R, R) y su probabilidad 6 1/3 1/3 2/3 2/3 = 24/81 La imagen inversa de 3 es: (R,R, R, R)U( R, R,R, R)U( R, R, R, R)U(R,R,R,R) y su probabilidad 4 1/3 1/3 1/3 2/3 = 8/81
75

La imagen inversa de 4 es el suceso: (R,R, R, R) y su probabilidad es 1/3 1/3 1/3 1/3 = 1/81 Resumiendo la distribucin del nmero de aciertos es: X01234 P 16/81 32/81 24/81 8/81 1/81 Ejemplos 3.2 Sea i una variable aleatoria que representa el estado de una unidad terminada en la lnea de ensamblaje en el momento i, siendo i= 1 si la unidad es defectuosa y =0 en caso contrario. La variable sigue una distribucin Bernoulli con parmetro p=005, de acuerdo con el dato inicial del problema. Adems, ntese que un conjunto de unidades terminadas constituye un conjunto de ensayos independientes, por lo que el nmero de unidades defectuosas de un total de n unidades terminadas ( 1. n), esto es, i n i n p = = 1 , , sigue una distribucin binomial de parmetros n y p=0,05. Hechas estas consideraciones iniciales, procedemos a resolver el problema:

76

1. Procedamos a calcular: * * 0,0476 2 10 ( 2) 0'05 (1 0,05) 82

P== 2. Se tiene que: * * 0,9984 10 ( 2) 0'05 (1 0,05) 10

77

= i i i P 3. Por ltimo: * * 1 0,5987 0,4013 0 10 ( 1) 1 ( 0) 1 0,05 (1 0,05) 0 10 0 10,0'005 SOLUCIN: Representemos por la variable aleatoria la decisin de asistir ( = 0) o no ( = 1) finalmente al restaurante por parte de una persona que ha hecho una reserva. Esta variable sigue una distribucin de Bernoulli de parmetro p = 0,2, de acuerdo con el enunciado del ejercicio. Suponiendo que las distintas reservas son independientes entre s, se tiene que, de un total de n reservas ( 1. n), el nmero de ellas que acuden finalmente al restaurante es una variable
78

aleatoria Yn = = n i1 1, con distribucin binomial de parmetros n y p=0,2. En el caso particular del problema, n=25. Entonces, para aquellas personas que asistan al restaurante de las 25 que han hecho la reserva puedan disponer de una mesa, debe ocurrir que acudan 20 o menos. As se tiene que: *0,2 *(1 0,2) 0,5799 25 ( 20) 25 20 0 =

3. Una empresa electrnica observa que el nmero de componentes que fallan antes de cumplir 100 horas de funcionamiento es una variable aleatoria de Poisson. Si el nmero promedio de estos fallos es ocho,
79

1. cul es la probabilidad de que falle un componente en 25 horas? 2. y de que fallen no ms de dos componentes en 50 horas? 3. cul es la probabilidad de que fallen por lo menos diez en 125 horas? SOLUCIN: Sea la variable aleatoria , con distribucin de Poisson con parmetro = [ ] = 8, E que determina el nmero de componentes que fallan antes de cumplir 100 horas de funcionamiento. 1. Considerando que se cumplen ciertas condiciones de regularidad, podemos asumir que una variable que mide el nmero de componentes que fallan antes de cumplir 25 horas de funcionamiento sigue una distribucin de Poisson con parmetro = E [] = 8=4 = 2. Por lo tanto, la probabilidad deseada es la siguiente: 0,27067 2. Anlogamente, definimos una variable aleatoria U con distribucin de Poisson de parmetro

U= 8=2 = 4, que mide el nmero de componentes que fallan antes de cumplir las 50 horas de funcionamiento. Se tiene entonces que:

80

3. De la misma forma, definiendo una variable aleatoria V con distribucin de Poisson de parmetro V=10, se obtiene: ( ) ( )

4. Sean y las variables aleatorias que cuentan el nmero de veces que sale 1 y 6, respectivamente, en 5 lanzamientos de un dado. Son y independientes?. SOLUCIN: Las variables y siguen una distribucin binomial de parmetros n=5 y p=1/6. Veamos mediante un contraejemplo, que y no son independientes. Por un lado se tiene que: P =( =0,n=0)=( ) Distribucin hipergeometrica 5 fabricantes producen en determinado dispositivo cuya calidad varia de un fabricante a otro. si usted elige 3 fabricantes al azar, hallar la probabilidad que la seleccion contenga 2 de las 3 mejores. Es P(X=x) N d --> n un = caso C(d,x) de * de en la de distrIbucin C(N-d,n-x) hipergeomtrica: / C(N,n) N=5 mejores) n=3

--> tamao elementos favorables --> tamao

la poblacin poblacin d=3 (los tres la muestra :

81

P(X=2)

C(3,2) C(3,2)

* *

C(5-3,3-2) C(2,1) /

C(5,3) C(5,3)

P(X=2) = P(X=2) = 0.6 --> 60%

2.-En una florera hay 20 variedades de flores, de las cuales 8 son diferentes clases de rosas. Que probabilidad hay de que al extraer una muestra al azar de12 flores , se incluyan 3 clases de rosas? Es una distribucin hipergeomtrica , con los siguientes parmetros: N=tamao de poblacin =20 n=tamao de muestra=12 A=xitos en la poblacin=rosas=8 k=xitos en la muestra=rosas=3 Sustituimos los valores en la frmula general:

Realizando

clculos

obtenemos:

Distribucin de poisson Mars, Inc., asegura que el 20% de sus dulces M&M lisos son rojos. Calcule la probabilidad de que si se escogen 15 dulces M&M lisos al azar, exactamente el 20% (tres dulces) sean rojos. n = 15; p =0.20 P(X = 3) = f(3) = 0.2502
82

Segn el Departamento de justicia de Estados Unidos, el 5% de todos los hogares estadounidenses sufri al menos un robo el ao anterior, pero la polica de Newport informa que una comunidad de 15 hogares sufri cuatro robos el ao anterior. Despus de calcular la probabilidad de tener cuatro o ms robos en una comunidad de 15 hogares, cree usted que esa comunidad simplemente haya tenido mala suerte? n = 15; p =0.05 P(X > 4) = 4 15 f(x) = 0.0055 El evento es tan raro como para atriburselo al azar. Lo ms probable es que haya problemas de seguridad. Distribucin de probabilidades continuas Los pesos de 2 000 soldados presentan una distribucin normal de media65 kg y desviacin tpica 8 kg. Calcula la probabilidad de que un soldado elegidoal azar pese: a) Ms de 61 kg. b) Entre 63 y 69 kg. c) Menos de 70 kg. d) Ms de 75 kg

SOLUCIN:
83

x es N (65, 8) a) P [x > 61] = P [z >86165] = P [z > 0,5] = P [z < 0,5] = 0,6915 b) P [63 < x < 69] = P [0,25 < z < 0,5] = 0,2902 c) P [x < 70] = P [z < 0,625] = 0,7357 d) P [x > 75] = P [z > 1,25] = 1 P [z 1,25] = 0,1056 . En un proceso de fabricacin de tornillos se sabe que el 2% son defectuosos. Los empaquetamos en cajas de 50 tornillos. Calcula la probabilidad de que en una caja haya este nmero de tornillos defectuosos: a) Ninguno. b) Uno. c) Ms de dos. Cuntos tornillos defectuosos habr, por trmino medio, en cada caja? SOLUCIN: x es B (50; 0,02) a) P [x = 0] = 0,9850 = 0,364 b) P [x = 1] = 50 0,02 0,9849 = 0,372 c) P [x > 2] =1 P [x 2] = 1 (P [x = 0] + P [x = 1] + P [x = 2]) = = 1 (0,364 + 0,372 + 0,186) = 1 0,922 = 0,078 Por trmino medio, habr = 50 0,02 = 1 tornillo defectuoso en cada caja Distribucin t 1- las puntuaciones en un test que mide la variable creatividad siguen, en la poblacin general de adolescentes, una distribucin Normal de media 11,5. En un centro escolar que ha

84

implantado un programa de estimulacin de la creatividad una muestra de 30 alumnos ha proporcionado las siguientes puntuaciones: 11, 9, 12, 17, 8, 11, 9, 4, 5, 9, 14, 9, 17, 24, 19, 10, 17, 17, 8, 23, 8, 6, 14, 16, 6, 7, 15, 20, 14, 15. A un nivel de confianza del 95% Puede afirmarse que el programa es efectivo? Solucin: 1 Ho m = 11,5 2 H1 m > 11,5 3 El estadstico de contraste en este caso es t

4 La media muestral es 12,47 y la desviacin tpica de la muestra es 5,22, sustituyendo en el estadstico estos valores se obtiene: t =1. 00

5 Como el contraste es unilateral, buscamos en las tablas de la t de Student, con 29 grados de libertad, el valor que deja por debajo de s una probabilidad de 0,95, que resulta ser 1,699 6 El valor del estadstico es menor que el valor crtico, por consiguiente se acepta la hiptesis nula. 7 La interpretacin sera que no hay evidencia de que el programa sea efectivo.

Distribucin t Un fabricante de focos afirma que us producto durar un promedio de 500 horas de trabajo. Para conservar este promedio esta persona verifica 25 focos cada
85

mes. Si el valor y calculado cae entre t 0.05 y t 0.05, l se encuentra satisfecho con esta afirmacin. Qu conclusin deber l sacar de una muestra de 25 focos cuya duracin fue?: 520 521 511 513 510 =500 h 513 522 500 521 495 n=25 496 488 500 502 512 Nc = 90% 510 510 475 505 521 X = 505 36. 506 503 487 493 500 S=12.07 Se puede concluir que la media poblacional no es 500, porque la muestra poblacional est por encima de esta, y por lo tanto debera estar por encima de 500. Distribucibucion chi cuadrada Un fabricante X concluye que su producto tendr una vida til de 10 aos. Se elige una muestra entre los cuales tenemos: 11.8-9.7-10.5-12.1-13.3-13.4-10.3-8.515.0-10.5-7.6-6.3. Teniendo en cuenta una desviacin poblacional de 1.2 aos. De acuerdo a lo anterior se puede corroborar que la desviacin poblacional es de 1.2 aos? SOLUCIN = 1.2 = 10 s = 2.53 n =12 V =11 X 2 = 48.8

86

De acuerdo a lo anterior se puede observar que la desviacin poblacional es mayor que 1.2 aos (debido a que el valor de Chi Cuadrado es muy alto y por lo tanto no cae dentro del intervalo de confianza para una muestra de 12). Ejemplo. Un farmacutico Jefe del Dpto. Control de Calidad en una industria alimenticia, descubre que en su proceso de produccin el contenido de ciclamato en su lnea de mermeladas dietticas vara en forma indeseada. Sospechando que se trata de una falla en el dosificador, decide tomar 10 muestras seguidas del mismo. Encuentra un promedio de 20 gramos con una desviacin de 8 gramos. Si en su protocolo de fabricacin la variacin mxima permitida es del 3%, determinar si el dosificador debe ser corregido. El desviacin estndar aceptable es: smx = 3% de 20 g = 6 g. Luego: H0:smx 6 g.: el dosificador funciona correctamente H1:smx > 6 g.: el dosificador debe ser cambiado
2 (n 1)s 2 (10 1) * 8 2 16 2 62

De la Tabla de valores crticos surge: c20,95;9=16,9. Por lo tanto, el farmacutico no ha encontrado evidencia que respalde sus sospechas. Sin embargo, el valor hallado es muy cercano al crtico, por lo que le convendra hacer ms pruebas. En estadstica, la distribucin Chi-cuadrado, tambin denominada Chi-cuadrado de Pearson, es una distribucin de probabilidad continua con un parmetro k que representa los grados de libertad de la variable aleatoria: 2 2 X Z1 Z2 2 Zk donde Zi son variables de distribucin normal, N(0,1) o de media cero y varianza uno. Se suele usar la denominada prueba Chi-cuadrado como test de independencia y como test de bondad de ajuste. La funcin de densidad Chi-cuadrado es (1 / 2) k / 2 k / 21 x / 2 f k (x) x e x0 ( k / 2) Distribucin f , Un valor de f con 6 y 10 grados de libertad para un rea de 0.95 a la derecha es, f0.95,6,10=1/(f0.05,10,6)=1/4.06=0.246 Si de dos poblaciones normales, o aproximadamente normales, se extraen dos muestras aleatorias e independientes, y a cada una se le calcula su respectiva

87

2 varianza, el cociente de ambos valores F s1 s 2 (con F>1, esto es, siempre se coloca el ms grande como numerador) tendr una distribucin de Fisher, cuyos valores crticos fueron obtenidos por W. Snedecor en una tabla que se caracteriza por tener dos grados de libertad: el correspondiente al numerador 1=n1-1 y el del denominador 2=n2-1. Programas de computacin permiten calcular los valores crticos respectivos

En las Tablas se presenta una hoja para cada nivel de confianza, se eligen los ms apropiados como: 95% ; 97,5% ; 99% ; 99,5% y 99,9%. Como siempre, el rea total bajo la curva es la unidad y se extiende desde 0 a + . La forma es muy parecida a la Chi-cuadrado. se muestran tres casos, con diferentes grados de libertad, y se marca el valor de F=2,5 con una ,lnea punteada vertical. El principal uso de esta funcin es el Anlisis de Varianza, que se ver ms adelante, y es para cuando se necesita comparar ms de dos medias mustrales a la vez. En estos casos la idea es detectar si el efecto de uno o ms tratamientos afecta a las muestras testeadas. En cambio, cuando se tiene el caso de dos muestras, la idea es testear si hay homocedasticidad en las dos poblaciones en estudio. Una vez verificado este supuesto, se puede avanzar ms verificando si hay diferencia entre las medias mustrales, y as verificar si ambas muestras tienen igual media y varianza, porque eso significa que en realidad provienen de la misma poblacin normal. Eso probara que no hay efecto de un tratamiento si se lo compara con un placebo, o que dos tcnicas de laboratorio son equivalentes. Si el experimento no verifica esto, entonces se deber elegir el caso que presente menor varianza, para tener menor variabilidad en las mediciones. En Gentica se puede verificar si una generacin de cras es ms variable en un carcter que la de sus padres. En Sistemtica se puede testear si dos poblaciones locales tienen la misma variabilidad. En Bioqumica y Farmacia el uso ms frecuente es comparar el error casual de mediciones de laboratorio, al introducir algn efecto o cambiar el mtodo de medicin. En el caso de testear si dos tcnicas de laboratorio tienen igual dispersin, o bien, para elegir aquella con mayor precisin, conviene pensar el problema como la incidencia de un factor en estudio en lugar de dos tcnicas totalmente diferentes entre s. Por ejemplo, se trata de una misma
88

prctica, pero se usan dos espectrofotmetros diferentes, y se trata de determinar si la modificacin de la varianza se debe al uso de un aparato diferente. El factor ac sera: tipo de espectros. Tambin se puede estudiar la incidencia del factor humano, realizando las mismas mediciones a dos personas diferentes. De esa forma se puede imaginar que las dos muestras provienen de diferentes poblaciones, o que el efecto del factor analizado no es despreciable cuando se rechaza la hiptesis nula. En la figura se muestra el caso de dos poblaciones. En el caso (a) ambas poblaciones tienen la misma media, pero por efecto del error casual sus varianzas son diferentes. Si esta diferencia es significativa, resulta evidenciada por el Modelo de Fisher que permite la comparacin de ambas.

En el caso (b) hay un error sistemtico que desplaza la media, pero sus varianzas permanecen iguales. Es lo mismo que sumar una constante a todos los valores; ocurre un desplazamiento hacia la derecha. t-Student se usa para detectar esto cuando se hace el test de comparacin de dos medias independientes. Como se ver ms adelante, se puede construir todo un bagaje de mtodos para efectuar un Control de Calidad interno en un laboratorio de medicin clnica. Por ahora, basta decir que se puede controlar la exactitud con los modelos de t-Student y la precisin con los de Chi-cuadrado y Fisher. Con esto se pueden comenzar a controlar y calibrar los sistemas de medicin. Las limitaciones de todo esto son dos: la primera es que se puede estudiar el efecto del factor analizado en solo dos muestras y no en ms de dos. La segunda es que si la calidad se entiende como exactitud y precisin, solo se pueden emplear estos modelos para magnitudes de tipo cuantitativas como las de la Qumica Clnica, pero no en magnitudes cualitativas como las usuales en Microbiologa, Bacteriologa, Micologa, etc. En magnitudes cuantitativas, por calidad se entiende precisin y exactitud, en lugar de la capacidad de una prueba clnica para diagnosticar. Sin embargo, a pesar de estas limitaciones sigue siendo una herramienta sencilla y poderosa de control. Para poder aplicar este modelo se deben tener en cuenta los requisitos siguientes: - Las muestras fueron extradas de una poblacin normal o aproximadamente normal. - La seleccin de las muestras se hizo en forma aleatoria. - Las muestras son independientes entre s.
89

Esperanza matemtica

Dada la experiencia aleatora de anotar las puntuaciones obtenidas al lanzar un dado, calcular: 1. La funcin de probabilidad y su representacin. 2. La funcin de distribucin y su representacin. 3. La esperanza matemtica, la varianza y la desviacin tpica. 2 Sea X una variable aleatoria discreta cuya funcin de probabilidad es: x 0 1 2 3 4 5 1. Calcular, distribucin. 2. Calcular las siguientes probabilidades: p (X < 4.5) p (X 3)
90

0,1 0,2 0,1 0,4 0,1 0,1 representar grficamente la funcin de

p (3 X < 4.5) 3 Sabiendo que p(X 2) = 0.7 y p(X 2) = 0.75. Hallar: La esperanza matemtica, la varianza y la desviacin tpica. 4 Un jugador lanza dos monedas. Gana 1 2 si aparecen una o dos caras. Por otra parte pierde 5 si no aparece cara. Determinar la esperanza matemtica del juego y si ste es favorable. 5 Se lanza un par de dados. Se define la variable aleatoria X como la suma de las puntuaciones obtenidas. Hallar la funcin de probabilidad, la esperanza matemtica y la varianza. 6 Un jugador lanza un dado corriente. Si sale nmero primo, gana tantos cientos de euros como marca el dado, pero si no sale nmero primo, pierde tantos cientos de euros como marca el dado. Determinar la funcin de probabilidad y la esperanza matemtica del juego. 7 Si una persona compra una papeleta en una rifa, en la que puede ganar de 5.000 un segundo premio de 2000 con probabilidades de: 0.001 y 0.003. Cul sera el precio justo a pagar por la papeleta? Si una persona compra una papeleta en una rifa, en la que puede ganar de 5.000 un segundo premio de 2000 con probabilidades de: 0.001 y 0.003. Cul sera el precio justo a pagar por la papeleta?

E(x) = 5000 0.001 + 2000 0.003 = 11

91

Unidad IV
Estadstica Inferencial

92

4.1Inferencia Estadstica 4.2 Muestreo estadstico 4.3 Estimadores 4.4 Estimacin Puntual 4.5 Estimacin por intervalo 4.6 Errores I y II 4.7 Contraste de hiptesis unilateral y bilateral

93

Estadstica inferencial
La Estadstica inferencial o Inferencia estadstica estudia cmo sacar conclusiones generales para toda la poblacin a partir del estudio de una muestra, y el grado de fiabilidad o significacin de los resultados obtenidos. Muestreo probabilstico Consiste en elegir una muestra de una poblacin al azar. Podemos distinguir varios tipos de muestreo: Muestreo aleatorio simple Para obtener una muestra, se numeran los elementos de la poblacin y se seleccionan al azar los n elementos que contiene la muestra. Muestreo aleatorio sistemtico Se elige un individuo al azar y a partir de l, a intervalos constantes, se eligen los dems hasta completar la muestra. Por ejemplo si tenemos una poblacin formada por 100 elementos y queremos extraer una muestra de 25 elementos, en primer lugar debemos establecer el intervalo de seleccin que ser igual a 100/25 = 4. A continuacin elegimos el elemento de arranque, tomando aleatoriamente un nmero entre el 1 y el 4, y a partir de l obtenemos los restantes elementos de la muestra. 2, 6, 10, 14,..., 98 Muestreo aleatorio estratificado Se divide la poblacin en clases o estratos y se escoge, aleatoriamente, un nmero de individuos de cada estrato proporcional al nmero de componentes de cada estrato. En una fbrica que consta de 600 trabajadores queremos tomar una muestra de 20. Sabemos que hay 200 trabajadores en la seccin A, 150 en la B, 150 en la C y 100 en la D.

Un muestreo puede hacerse con o sin reposicin, y la poblacin de partida puede ser infinita o finita. En todo nuestro estudio vamos a limitarnos a una poblacin de partida infinita o a

94

muestreo con reposicin . Si consideremos todas las pos ibles muestras de tamao n en una poblacin, para cada muestra podemos calcular un estadstico (media, desviacin tpica, proporcin, ...) que variar de una a otra. As obtenemos una distribucin del estadstico que se llama distribucin muestral. Teorema central del lmite Si una poblacin tiene media y desviacin tpica , y tomamos muestras de tamao n (n>30, cualquier tamao si la poblacin es "normal"), las medias de estas muestras siguen aproximadamente la distribucin:

Estimacin de parmetros Es el procedimiento utilizado para conocer las caractersticas de un parmetro poblacional, a partir del conocimiento de la muestra. Con una muestra aleatoria, de tamao n, podemos efectuar una estimacin de un valor de un parmetro de la poblacin; pero tambin necesitamos precisar un: Intervalo de confianza Se llama as a un intervalo en el que sabemos que est un parmetro, con un nivel de confianza especfico. Nivel de confianza Probabilidad de que el parmetro a estimar se encuentre en el intervalo de confianza. El nivel de confianza (p) se designa mediante 1 . Error de estimacin admisible Que estar relacionado con el radio del intervalo de confianza. Estimacin de la media de una poblacin El intervalo de confianza , para la media de una poblacin, con un nivel de confianza de 1 , siendo x la media de una muestra de tamao n y la desviacin tpica de la poblacin, es:

95

El error mximo de estimacin es:

Cuanto mayor sea el tamao de la muestra, n, menor es el error. Cuanto mayor sea el nivel de confianza, 1 - , mayor es el error. Tamao de la muestra

Si aumentamos el nivel de confianza , aumenta el tamao de la muestra . Si disminuimos el error , tenemos que aumentar el tamao de la muestra . El tiempo que tardan las cajeras de un supermercado en cobrar a los clientes sigue una ley normal con media desconocida y desviacin tpica 0,5 minutos. Para una muestra aleatoria de 25 clientes se obtuvo un tiempo medio de 5,2 minutos. 1.Calcula el intervalo de confianza al nivel del 95% para el tiempo medio que se tarda en cobrar a los clientes.

2.Indica el tamao muestral necesario para estimar dicho tiempo medio con un el error de 0,5 minutos y un nivel de confianza del 95%.

n4

Estimacin de una proporcin Si en una poblacin, una determinada caracterstica se presenta en una proporcin p, la proporcin p' , de individuos con dicha caracterstica en las muestras de tamao n, se distribuirn segn:

Intervalo de confianza para una proporcin

El error mximo de estimacin es:

96

En una fbrica de componentes electrnicos, la proporcin de componentes finales defectuosos era del 20%. Tras una serie de operaciones e inversiones destinadas a mejorar el rendimiento se analiz una muestra aleatoria de 500 componentes, encontrndose que 90 de ellos eran defectuosos. Qu nivel de confianza debe adoptarse para aceptar que el rendimiento no ha sufrido variaciones? p = 0.2 q = 1 - p =0.8 E = 0.2 - 0.18 = 0.02 p'= 90/ 500 = 0.18

P (1 z /2 <1.12) = 0.86861 - 0.8686 = 0.1314 0.8686 - 0.1314 = 0.737 Nivel de confianza: 73.72% Contraste de hiptesis Hiptesis estadsticas Un Examen estadstico es un procedimiento para, a partir de una muestra aleatoria y significativa, extraer conclusiones que permitan aceptar o rechazar una hiptesis previamente emitida sobre el valor de un parmetro desconocido de una poblacin. La hiptesis emitida se designa por H 0 y se llama hiptesis nula. La hiptesis contraria se designa por H 1 y se llama hiptesis alternativa. Contrastes de hiptesis 1. Enunciar la hiptesis nula H 0 y la alternativa H 1 . Bilateral H0=k H0 k Unilateral H0 k H1> k H1 k H1 < k

2. A partir de un nivel de confianza 1 o el de significacin . Determinar:

97

El valor z /2 (bilaterales), o bien z (unilaterales) La zona de aceptacin del parmetr o muestral (x o p' ). 3. Calcular: x o p', a partir de la muestra. 4. Si el valor del parmetro muestral est dentro de la zona de la aceptacin, se acepta la hiptesis con un nivel de significacin . Si no, se rechaza. Contraste bilateral Se presenta cuando la hiptesis nula es del tipo H 0 : = k (o bien H 0 : p = k) y la hiptesis alternativa, por tanto, es del tipo H 1 : k (o bien H 1 : p k).

El nivel de significacin se concentra en dos partes (o colas) simtricas respecto de la media. La regin de aceptacin en este caso no es ms que el correspondiente intervalo de probabilidad para x o p', es decir:

o bien:

Se sabe que la desviacin tpica de las notas de cierto examen de Matemticas es 2,4. Para una muestra de 36 estudiantes se obtuvo una nota media de 5,6. Sirven estos datos para confirmar la hiptesis de que la nota media del examen fue de 6, con un nivel de confianza del 95%? 1. Enunciamos las hiptesis nula y alternativa: H0 : = 6 H1 : 6 La nota media no ha variado. La nota media ha variado.

2. Zona de aceptacin Para = 0.05, le corresponde un valor crtico: z /2 = 1.96. Determinamos el intervalo de confianza para la media: (6 - 1,96 0,4 ; 6+1,96 0,4) = (5,22 ; 6,78) 3. Verificacin.

98

Valor obtenido de la media de la muestra: 5,6 . 4.Decisin Aceptamos la hiptesis nula H0, con un nivel de significacin del 5%. Contraste unilateral Caso 1 La hiptesis nula es del tipo H 0 : k (o bien H 0 : p k). La hiptesis alternativa, por tanto, es del tipo H 1 : < k (o bien H 1 : p < k). Valores crticos 1 0.90 0.95 0.99 0.10 0.05 0.01 z 1.28 1.645 2.33

El nivel de significacin se concentra en una parte o cola. La regin de aceptacin en este caso ser:

o bien:

Un socilogo ha pronosticado, que en una determinada ciudad, el nivel de abstencin en las prximas elecciones ser del 40% como mnimo. Se elige al azar una muestra aleatoria de 200 individuos, con derecho a voto, 75 de los cuales estaran dispuestos a votar. Determinar con un nivel de significacin del 1%, si se puede admitir el pronstico. 1.Enunciamos las hiptesis nula y alternativa:

99

H 0 : 0.40 La abstencin ser como mnimo del 40%. H 1 : < 0.40 La abstencin ser como mximo del 40%; 2. Zona de aceptacin Para = 0.01, le corresponde un valor crtico: z = 2.33. Determinamos el intervalo de confianza para la media:

3.Verificacin.

4.Decisin Aceptamos la hiptesis nula H 0 . Podemos afirmar, con un nivel de significacin del 1%, que la abstencin ser como mnimo del 40%.

Caso 2 La hiptesis nula es del tipo H 0 : k (o bien H 0 : p k). La hiptesis alternativa, por tanto, es del tipo H 1 : > k(o bienH 1 : p > k).

El nivel de significacin se concentra en la otra parte o cola. La regin de aceptacin en este caso ser:

o bien:

Un informe indica que el precio medio del billete de avin entre Canarias y Madrid es, como mximo, de 120 con una desviacin tpica de 40 . Se toma una muestra de 100 viajeros y se obtiene que la media de los precios de sus billetes es de 128 .

100

Se puede aceptar, con un nivel de significacin igual a 0,1, la afirmacin de partida? 1.Enunciamos las hiptesis nula y alternativa: H 0 : 120 H 1 : > 120 2.Zona de aceptacin Para = 0.1, le corresponde un valor crtico: z = 1.28 . Determinamos el intervalo de confianza:

3. Verificacin. Valor obtenido de la media de la muestra: 128 . 4. Decisin No aceptamos la hiptesis nula H 0 . Con un nivel de significacin del 10%.

Errores de tipo I y tipo II Error de tipo I. Se comete cuando la hiptesis nula es verdadera y, como consecuencia del contraste, se rechaza. Error de tipo II. Se comete cuando la hiptesis nula es falsa y, como consecuencia del contraste se acepta.

H0

Verdadera Decisn

Falsa correcta Decisin incorrecta:

Aceptar Probabilidad = 1 ERROR Rechazar Probabilidad = DE TIPO I Decisin correcta ERROR DE TIPO II

101

La probabilidad de cometer Error de tipo I es el nivel de significacin . La probabilidad de cometer Error de tipo II depende del verdadero valor del parmetro. Se hace tanto menor cuanto mayor sea n.

102

103

Unidad V
Regresin y correlacin

104

Regresion y correlacion
REGRESION La recta de regresin es la que mejor se ajusta a la nube de puntos. La recta de regresin pasa por el punto llamado centro de gravedad.

Recta de regresin de Y sobre X La recta de regresin de Y sobre X se utiliza para estimar los valores de la Y a partir de los de la X. La pendiente de la recta es el cociente entre la covarianza y la varianza de la variable X.

Recta de regresin de X sobre Y La recta de regresin de X sobre Y se utiliza para estimar los valores de la X a partir de los de la Y. La pendiente de la recta es el cociente entre la covarianza y l a varianza de la variable Y.

Si la correlacin es nula, r = 0, las rectas de regresin son perpendiculares entre s, y sus eucaciones son: y=

105

x=

Ejemplo Las notas de 12 alumnos de una clase en Matemticas y Fsica son las siguientes:

Matemticas Fsica

2 1

3 3

4 2

4 4

5 4

6 4

6 6

7 4

7 6

8 7

10 9

10 10

Hallar las rectas de regresin y representarlas.

xi 2 3 4 4 5 6 6 7 7 8 10 10 72

yi 1 3 2 4 4 4 6 4 6 7 9 10 60

xi yi 2 9 8 16 20 24 36 28 42 56 90 100 431

xi 2 4 9 16 16 25 36 36 49 49 64 100 100 504

yi2 1 9 4 16 16 16 36 16 36 49 81 100 380

106

1 Hallamos las

medias arimticas.

2 Calculamos la

covarianza.

3 Calculamos las

varianzas.

4 Recta de regresin de Y sobre X.

4 Recta de regresin de X sobre Y.

Correlacion. La correlacin trata de establecer la relacin o dependencia que existe entre las dos variables que inte rvienen en una distribucin bidimensional. Es decir, determinar si los cambios en una de las variables influyen en los cambios de la otra. En caso de que suceda, diremos que las variables estn correlacionadas o que hay correlacin entre ellas. Tipos de correlacin 1 Correlacin directa La correlacin directa se da cuando al aumentar una de las variables la otra aumenta.

107

La recta correspondiente a la nube de puntos de la distribucin es una recta creciente.

2 Correlacin inversa La correlacin inversa se da cuando al aumentar una de las variables la otra disminuye. La recta correspondiente a la nube de puntos de la distribucin es una recta decreciente.

3 Correlacin nula La correlacin nula se da cuando no hay dependencia de ningn tipo entre las variables. En este caso se dice que las variables son incorreladas y la nube de puntos tiene una forma redondeada.

Grado de correlacin El grado de correlacin indica la proximidad que hay entre los puntos de la nube de puntos. Se pueden dar tres tipos: 1. Correlacin fuerte La correlacin ser fuerte cuanto ms cerca estn los puntos de la recta.

2. Correlacin dbil

108

La correlacin ser dbil cuanto ms separados estn los puntos de la recta.

109

También podría gustarte