Capitulo2 PDF
Capitulo2 PDF
Capitulo2 PDF
PROBABILIDAD Y ESTADÍSTICA
Depto. Ms. Básicas
ESPECIALIDADES
Ingeniería Eléctrica
Ingeniería Mecánica
Ingeniería Metalúrgica
DOCENTES
Una vez efectuados estos cálculos, deben determinarse los límites de los intervalos los
cuales se plantearán en forma simple, que facilite la interpretación y lectura de los datos.
Proponemos armar los mismos en forma continua, es decir el límite superior de una clase
coincidirá con el límite inferior de la clase siguiente con la convención de que en cada clase
se incluye el límite inferior pero no el superior de los intervalos (intervalos de números
reales cerrados a la izquierda y abiertos a la derecha) o viceversa.
Variable en estudio
X: puntaje obtenido en un test de aptitud
Tabla 1
Se completa la tabla con las columnas correspondientes a los puntos medios de cada
intervalo y las de frecuencia acumulada y relativa. La distribución de frecuencias
relativas se obtiene de dividir las frecuencias absolutas de cada clase por el número total de
datos, se puede expresar en porcentaje resultando una distribución relativa porcentual.
La distribución acumulada: se obtiene acumulando las frecuencias en la distribución de
frecuencias absolutas. También se puede obtener de las frecuencias relativas o relativas
porcentuales.
Probabilidad y Estadística 2020– Dra. Ana M. Craveri Página 3
Tabla 2
Distribución de frecuencias relativas y acumuladas
Puntos Número de Puntos Proporción Frecuencia
(X) empleados Medios de Acumulada
(fi) empleados
(xi) fi (fa)
( fr = )
n
28 - 30 3 29 0,020 3
30 - 32 25 31 0,167 28
32 - 34 33 33 0,220 61
34- 36 34 35 0,227 95
36 - 38 41 37 0,273 136
38- 40 11 39 0,073 147
40 - 42 3 41 0,020 150
Total 150 1,000
45
40
35
30
25
20
15
10
5
0
29 31 33 35 37 39 41
28 30 32 34 36 38 40 42
La variable
X: número de bacterias por mm3 en tubos de ensayo que contienen muestras de agua.
n= 407 tubos
Ejemplo 3
Se debe hacer una prueba de destreza entre los operarios especialistas en soldaduras de la
empresa. Para ello se seleccionó una muestra de 20 soldadores.
La variable en estudio X: Tiempo en segundos para realizar una soldadura
58 – 50 – 58 – 56 - 60 – 40 – 41 – 54 – 52 – 61 - 57 – 62 – 62 – 62 – 65 - 53 – 48 – 59 – 45
- 53
Tamaño de la muestra: n= 20
40 – 41 – 45 – 48 – 50 – 52 – 53 – 53 – 54 – 56 – 57 – 58 – 58 – 59 – 60 – 61 – 62 – 62 –
62 – 65
n + 1 21
Posición Mna = = = 10,5
2 2
56 + 57
Luego Mna= = 56,5 seg (promedio aritmético entre los datos que están en el 10ª y
2
11ª lugar)
Se interpreta que el 50% de los operarios demoró menos de 56,5 seg en realizar la
soldadura.
Mdo=62 seg
Se interpreta: el tiempo más frecuente fue de 62 seg.
En nuestro ejemplo 3
n +1
Posición del Cuartil uno: = 5,25 ≅ 5 Q1= 50seg
4
3(n + 1)
Posición del Cuartil tres: = 15,75 ≅ 16 Q3= 61seg.
2
La interpretación es: la cuarta parte de los operarios tardaron menos de 50seg. y el 25%
demoró más de 61seg.
El promedio resulta ser el valor más representativo de una serie de observaciones pero no
todas las observaciones están concentradas en el valor promedio y distribuciones con un
mismo promedio difieren significativamente en cómo los datos se concentran o no
alrededor del valor central.
Gráfico 6
∑(x
i =1
i − x ) = 0 (1)
Una forma de evitar esto sería elevando al cuadrado los desvíos. La variancia S2 es
justamente el promedio de las desviaciones al cuadrado. La razón de dividir por (n-1) es
porque al tener que satisfacerse la condición (1) quedan (n-1) desvíos linealmente
independientes que son llamados los grados de libertad del S2. Su unidad de medida es la
unidad de medida de la variable elevada al cuadrado. Su aplicación será importante en la
Inferencia Estadística, en este momento la medida que resulta más útil es el Desvío
Estándar S= S 2 que está expresado en las unidades de medida de la variable
Desvío Estandar:
Cuando se comparan dos o más conjuntos de datos con las mismas unidades de medida se
puede decir si una muestra tiene menor ó mayor dispersión que otra. De lo contrario es
difícil hacer una declaración precisa sobre si un valor del Desvío Estándar implica un grado
de variabilidad alto, moderado ó bajo.
Se recurre entonces al siguiente concepto:
Coeficiente de Variación:
En el Ejemplo 3, Q= 61 – 50 = 11seg.
2.3 Medidas de Forma : Permiten estudiar la forma con la que se distribuyen los datos
Curtosis Solo daremos en este curso el concepto de esta medida. Se refiere a la relación
entre la ordenada máxima de la curva empírica de la función y la correspondiente con la
que se obtiene en una curva normal .El coeficiente de curtosis indica si los datos se
distribuyen simétricamente de forma normal ( curva mesocúrtica), más empinados que la
curva normal (curva leptocúrtica) ó mas aplanados que la curva normal ( curva platicúrtica)
Los valores entre B.I y B.E se consideran anómalos moderados. Si están fuera de B.E se
consideran anómalos extremos. En el caso que suceda esto último investigamos si tales
valores fueron recolectados siguiendo las mismas condiciones que los demás valores y si
pudo ocurrir un error de medición.
En el Ejemplo 3
Medidas xm Q1 Mna Q3 xM
Tiempo (seg) 40 50 56,5 61 65
Gráfico 7
Gráfico de Box
40 43 46 49 52 55 58 61 64 67
Observe que se han representado los cuartiles que determinan el bloque. La línea vertical
que está en el interior representa la ubicación de la mediana. El bloque contiene el 50% de
las observaciones que están en la mitad de la distribución. Un 25% de los datos se
encuentra entre el extremo izquierdo y el bloque y el otro 25% entre el bloque y el extremo
derecho.
Estamos observando gráficamente que los datos se distribuyen en forma sesgada hacia la
izquierda. Este ejemplo carece de datos anómalos severos, dado que todos los valores se
hallan dentro de las Barreras Internas.
El Diagrama de Bloques y líneas (box-plot) resulta ser muy ilustrativo para comparar dos o
más series de datos, para esto le proponemos construir, sobre una misma escala, las 4 cajas
que resultan del siguiente ejemplo
Los siguientes datos corresponden a la variable: número de piezas defectuosas
producidas por una máquina a las 6 hs. (defectuosos1) a las 12 hs (defectuosos2)
a las 18 hs (defectuosos3) y a las 24 hs (defectuosos4) de producción.
INFORME
Es la presentación e interpretación de los resultados del análisis de los datos. El
Informe debe ser un análisis objetivo de los resultados encontrados y es la base
para una toma de decisión. Sabido es que la interpretación de los resultados
involucra una parte subjetiva que el investigador debe utilizar éticamente.
Además debe discernirse sobre la conveniencia de poner énfasis en la
significación de una u otra medida estadística atendiendo a las propiedades que
presentan.
En el Ejemplo 1: x = 34,73puntos
61------------34
28------------32
33------------ 2
9,75-----------x= 0,59 ► Q1 = 32,59 puntos
El 25 % de los empleados obtuvieron 32,59 puntos ó menos
Análogamente se calculan:
Cuartil 2 que es la Mediana resultando Mna= 34,85 puntos
diremos que el 50% de los empleados obtuvieron un puntaje de hasta 34,85 puntos.
Cuartil 3, Q3 =36,89 puntos, o sea el 75% de los empleados obtuvieron 36,89 puntos ó
menos
Gráfico 8
Gráfico 9
Si las frecuencias anterior y posterior a la clase modal fueran iguales, el Modo sería el
punto medio del intervalo. Como en general esto no sucede, una vez determinado el
intervalo modal se aplica la siguiente interpolación:
d1
Mdo= Li + h
d1 + d 2
Gráfico 10
Desvío Estandar:
1 k k
S= ∑ ( xi − x ) 2 f i
n − 1 i =1
; ∑f
i =1
i =n
Coeficiente de Variación:
Evaluación de la Forma
EJERCICIOS
1.- La materia prima que se usa en la elaboración de una fibra sintética se almacena en un
depósito que no tiene control de humedad. Las mediciones de la humedad relativa ambiente
en el local durante 12 días dieron los siguientes resultados (unidad de medida %)
X: 42 – 35 – 50 – 43 – 48 – 62 – 31 – 36 – 44 – 39 – 55 – 48
Realice el análisis descriptivo de la serie de datos y el gráfico de caja. Redacte el informe
correspondiente.