Estadistica Descriptiva

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 21

INSTITUTO TECNOLOGICO DE TOLUCA DEPARTEMENTO DE CIENCIAS BASICAS

PROBABILIDAD Y ESTADISTICA

Unidad 1: ESTADISTICA DESCRIPTIVA

Notación sumatoria

Una operación muy común en la estadística es la suma de un grupo de valores, la que se


representa formalmente con el símbolo  (sigma) Cada uno de los valores que se habrán de
sumar con xi , i es un subíndice que identifica a x1. x2. …… xn, de tal manera que
n

x
i 0
i
 x1  x2  ....  xn

La sumatoria tiene cuatro propiedades que se mencionan a continuación.

1. La sumatoria de la suma de dos variables es igual a la suma de la sumatoria de cada

variable, es decir

Introducción

Definición, clasificación y campo de aplicación de la estadística

La estadística es la ciencia que se ocupa de estudiar las diversas formas de recopilar,


organizar, analizar y concluir una serie de datos. Tiene como finalidad, facilitar la solución de
problemas en los cuales necesitamos conocer algunas características sobre el comportamiento de
algún suceso o evento. Características que nos permiten conocer o mejorar el conocimiento de
ese suceso. Además nos permiten inferir el comportamiento de sucesos iguales o similares sin
que estos ocurran. Esto nos da la posibilidad de tomar decisiones acertadas y a tiempo, así como
realizar proyecciones del comportamiento de algún suceso.

La estadística se divide en tres ramas:

1. estadística descriptiva
Comprende la recopilación, organización y representación de datos, esto lo hace utilizando
diferentes métodos (gráficos y numéricos). Por ejemplo, el índice de inflación en los países de
Latinoamérica durante los últimos cinco años, el nivel de escolaridad de los empleados de una
fábrica, etc.

2. teoría de la probabilidad
Proporciona una base racional para tratar de resolver situaciones influenciadas por factores
aleatorios, fortuitos o al azar. Por ejemplo, la posibilidad de que alguien gane la lotería, la
probabilidad de que salga un número determinado al lanzar un dado, etc.

Compilador: M. en C. Yolanda Alvarado Pérez PAGE 1


INSTITUTO TECNOLOGICO DE TOLUCA DEPARTEMENTO DE CIENCIAS BASICAS
PROBABILIDAD Y ESTADISTICA

3. estadística inferencial
Es la que incluye el análisis e interpretación de los datos que son extraídos de un grupo mayor,
además saca conclusiones de su comportamiento. Por ejemplo: con base en las estadísticas de
inflación registradas en los últimos meses en México se espera que para el próximo mes de
noviembre se vuelva a tener una inflación de un solo dígito.

La estadística tiene aplicación en cualquier campo, se utiliza en todas las áreas del
conocimiento, ya sean sociales, humanísticas, técnicas, deportivas, laborales, científicas, etc. es
decir, actualmente resulta difícil indicar alguna área o ciencia que no la utilice.

para aplicar las técnicas estadísticas con eficiencia, se requiere por parte del investigador
conocer ampliamente el área de estudio; siendo más específicos, la estadística se aplica en
ingeniería, medicina, psicología, economía, geografía, física, química, agronomía,
administración, biología, economía, ecología, antropología, historia, contaduría, planeación,
política, etc., y aunque los problemas de cada área o ciencia son diferentes, las técnicas que se
utilizan para el análisis estadístico son las mismas debido a que se trabaja con datos numéricos.

Por ejemplo, en el área deportiva se utiliza en el fútbol para obtener las estadísticas de
cada equipo dentro de la competencia y así poder definir cuál pasará a la siguiente etapa; en la
política para obtener los resultados de las votaciones para elegir a algún gobernante; en economía
para conocer el incremento de alguna moneda con respecto al peso; en geografía para realizar
los censos y conocer el número de habitantes de un país así como sus características, etc.

Población y muestra aleatoria.

La población es el conjunto formado por el total de elementos en estudio por el cual


existe un interés y es elegida por el investigador, ésta puede ser finita o infinita, la finita es
aquella en la cual se conocen todos sus elementos. Por ejemplo: los alumnos que egresaron en
una escuela en un año determinado, y la infinita es aquella en la que no se conocen todos los
elementos bajo estudio. Por ejemplo el no. de estudiantes que egresaran de una escuela durante
su funcionamiento.

La muestra aleatoria es la selección de un conjunto de individuos representativos de la


totalidad del universo objeto de estudio reunidos como una representación válida y de interés
para la investigación de su comportamiento. Así resulta más económico y práctico estudiar los
elementos de una muestra que sea representativa de la población, que toda la población, puesto
que se tiene un ahorro de tiempo y dinero.

Un procedimiento empleado para elegir los elementos de la población que formarán la


muestra es a través de una tabla de números aleatorios, que es un conjunto de números
acomodados en renglones y columnas, los cuales se han seleccionado al azar mediante algún
procedimiento.

Recopilación, organización y representación de datos estadísticos.

Compilador: M. en C. Yolanda Alvarado Pérez PAGE 2


INSTITUTO TECNOLOGICO DE TOLUCA DEPARTEMENTO DE CIENCIAS BASICAS
PROBABILIDAD Y ESTADISTICA

Los datos estadísticos son el producto de las observaciones efectuadas en las personas y
objetos en los cuales se produce el fenómeno que queremos estudiar. Dicho en otras palabras,
son los antecedentes (en cifras) necesarios para llegar al conocimiento de un hecho o para reducir
las consecuencias de este.

Recopilación; se refiere a la forma en cómo son obtenidos los datos que servirán para analizar el
problema y pueden ser de dos tipos:

A) internos. son aquellos que se localizan dentro de la empresa como son: sueldos, compras,
ventas, estados financieros, contratación de personal, promociones, etc.
B) externos. son aquellos que se localizan fuera de la empresa, y pueden ser obtenidos por
dos fuentes:

1) primarias. son los datos que son obtenidos directamente por el investigador, por
medios de: cuestionarios, llamadas telefónicas y observación directa.
2) secundarias. son aquellos datos que fueron obtenidos por otras personas con
anterioridad, y que ya están registrados, por ejemplo: departamentos de estadística,
revistas, bibliotecas, bancos de información.

Organización. En esta etapa los datos que son obtenidos de fuentes primarias son organizados
de acuerdo con ciertas características o cualidades, por ejemplo: sexo, peso, ingresos, edad,
costos altura, religión, nacionalidad, resistencia, producción, utilidades rendimientos, etc.

Presentación. Después de la organización y tomando en cuenta las características de los datos se


presentan de tres maneras (las más comunes).
a) mediante enunciados: numerando cada uno de los datos. se recomienda cuando son pocos
datos.
b) tablas de frecuencia o cuadros estadísticos. son útiles para representar información con
una gran cantidad de datos.
c) graficas estadísticas. es un medio plástico para representar la información, son útiles
porque permiten captar información en periodos cortos de tiempo, su inconveniente es
que los valores son aproximados y varían de persona a persona.

Los resultados de la estadística descriptiva, es decir los métodos usados para describir
conjuntos de datos se pueden clasificar en dos tipos:
 métodos gráficos.
 métodos numéricos.
Los métodos gráficos: permiten la comparación objetiva de las clases o grupos y a la vez
muestran rápidamente el avance o retroceso de una clase respecto a otras. Las gráficas más
comunes son el histograma, polígono de frecuencia y circulograma.

Los métodos numéricos: son utilizados cuando los métodos gráficos están limitados
debido al tipo de datos y observaciones de la población o muestra que se esté analizando, están
clasificados en:
 medidas de tendencia central o centralización
 medidas de posición

Compilador: M. en C. Yolanda Alvarado Pérez PAGE 3


INSTITUTO TECNOLOGICO DE TOLUCA DEPARTEMENTO DE CIENCIAS BASICAS
PROBABILIDAD Y ESTADISTICA

 medidas de dispersión o variabilidad


 medidas de forma

Notación sumatoria

1.1.1 datos no agrupados.

Datos no agrupados.

Los datos no agrupados es un conjunto de información numérica sin ningún orden que
nos establece una relación clara con lo que se pretende desarrollar a lo largo de un problema.

1.1.2 medidas de tendencia central

Medidas de tendencia central o medidas de centralización (datos no agrupados). Son diferentes


métodos para localizar el dato central de un conjunto de datos. El dato alrededor del cual giran
todos los demás. Las medidas de centralización más utilizadas son la medida o promedio,
mediana y moda.
Indican valores con respecto a los que los datos parecen agruparse: media, mediana,
moda, media geométrica y media armónica.

1.- media o promedio ( x ) : para datos no agrupados x1 , x2 , x3 ,........, xn es igual a la


sumatoria de las observaciones o datos divididos entre n (total de datos).

x i
x1  x2  x3  ........  xn
x i 1

n n

para calcular la media o promedio poblacional se calcula de igual forma que la media
muestral

x i
x1  x2  x3  ........  xn
 i 1

n n

2.- la mediana (me): de un grupo de observaciones x1 , x2 , x3 ,........, xn , se define como


la observación que cae en el centro cuando las observaciones, se ordenan en orden creciente. Si
el número de observaciones es par, se escoge como mediana el valor medio de las dos
observaciones centrales.

Compilador: M. en C. Yolanda Alvarado Pérez PAGE 4


INSTITUTO TECNOLOGICO DE TOLUCA DEPARTEMENTO DE CIENCIAS BASICAS
PROBABILIDAD Y ESTADISTICA

3.- la moda (Mo): es el valor o categoría de la variable que se presenta con mayor
frecuencia. La moda puede no existir, e incluso no ser única en caso de existir. Por su propia
definición, la moda no es única, pues puede haber dos o más valores de la variable que tengan la
misma frecuencia.

Ejemplo 1:
el conjunto 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12 y 18
Moda=9

Ejemplo 2:
El conjunto 3, 5, 8, 10, 12, 15 y 16
No tiene moda

Ejemplo 3:
Conjunto 2, 4, 4, 4, 5, 5, 7, 7, 7 y 9
Tiene dos modas. 4 y 7 (bimodal).

4. Media geométrica (g): es la enésima raíz del producto de los números esto es:

g= n x1 .x 2 .x3 .x 4 ....x n .

5 Media armónica (H): es el número de elementos entre recíproco de la suma de los


números.

n n
H 
1 1 1 1
n
  .... 
1 x1 x2 xn
x
i 1 i

1.1.3 medidas de posición.

Las medidas de posición (datos no grapados), son métodos que resultan ser más prácticos
para precisar ciertas situaciones en las que se busca describir la variación o dispersión en un
conjunto de datos. Para datos no agrupados se calculan:

Cuartiles

Compilador: M. en C. Yolanda Alvarado Pérez PAGE 5


INSTITUTO TECNOLOGICO DE TOLUCA DEPARTEMENTO DE CIENCIAS BASICAS
PROBABILIDAD Y ESTADISTICA

Si se tienen una serie de valore x1 , x2 , x3 ,........, xn , se localiza mediante las siguientes fórmulas:

 el primer cuartil se calcula:

n n 1
a. cuando n es par: b. cuando n es impar:
4 4

 el tercer cuartil se calcula:

3n 3  n  1
a. cuando n es par: b. cuando n es impar:
4 4
Donde n es el número de datos

Deciles

Si se tienen una serie de valores x1 , x2 , x3 ,........, xn , se localiza mediante las siguientes


fórmulas:

A(n) A(n  1)
a. cuando n es par: b. cuando n es impar:
10 10

Siendo A , el número del decil.

Percentiles o centiles

Si se tienen una serie de valores x1 , x2 , x3 ,........, xn , se localiza mediante las siguientes


fórmulas:

Para los percentiles:

A(n)
a. cuando n es par:
100

A(n  1)
b. cuando n es impar:
100

Siendo a, el número del percentil.

Es fácil ver que el primer cuartil coincide con el percentil 25; el segundo cuartil con el percentil
50 y el tercer cuartil con el percentil 75.

Compilador: M. en C. Yolanda Alvarado Pérez PAGE 6


INSTITUTO TECNOLOGICO DE TOLUCA DEPARTEMENTO DE CIENCIAS BASICAS
PROBABILIDAD Y ESTADISTICA

1.1.4 medidas de dispersión.

Medidas de dispersión o variabilidad (datos no agrupados).

Son métodos para conocer que tan separado se encuentran los datos con respecto a la
media equilibrante del grupo: rango, recorrido, varianza, desviación media absoluta y
desviación estándar.

1. rango: es la separación máxima entre los datos


Rango = dato mayor -dato menor = d - d.

2. varianza (s2), desviación estándar (s): son métodos para evitar que la suma de las
desviaciones den cero.

n n

(x i
 x) 2
(x i
 x )2
s2  i 1
; s i 1

n 1 n 1

La varianza y la desviación estándar poblacional se calcula como:

n n

(x i
 x )2 (x i
 x )2
2  i 1
;  i 1

n n

3. desviación media absoluta (D.M.A): es un método para evitar que la suma de las
desviaciones den cero.

x i
x
D.M . A  i 1

1.2. Datos agrupados

Datos agrupados.

Son aquellos que están organizados en forma de grupos o clases

Compilador: M. en C. Yolanda Alvarado Pérez PAGE 7


INSTITUTO TECNOLOGICO DE TOLUCA DEPARTEMENTO DE CIENCIAS BASICAS
PROBABILIDAD Y ESTADISTICA

1.2.1 tabla de frecuencia

Tabla de frecuencia

1. frecuencia: son las veces que se repite un dato característico, se representa por la letra
f .
2. frecuencia relativa fr : es la razón de la frecuencia individual de cada grupo o clase
entre el total de frecuencia multiplicada por cien para que esté expresada en porcentaje, esto es:

fi
fr = N (100)
f
i=1
i

3. frecuencia acumulada ( Fa ): se obtiene sumando la frecuencia de ese intervalo con la


frecuencia de los intervalos anteriores. La frecuencia acumulada del último intervalo corresponde
al número total de datos.

Intervalo de clase: es el conjunto de datos que tienen características semejantes y consta


de dos partes.

i. límite superior ( LS ): es el número mayor que se localiza a la derecha .de cada intervalo
2. límite inferior ( LI ): es el número menor de cada intervalo y se localiza a la izquierda en el
intervalo de clase.

Limites reales de clase:

1. límite real inferior ( LRI ): es igual a la semisuma del límite superior de la clase o grupo
anterior y el límite inferior de la clase o grupo en estudio.

2. límite real superior ( LRS ): es igual a la semisuma del límite superior de la clase del intervalo
en estudio y del límite inferior de la clase contigua.

Anchura o tamaño del intervalo de clase (c): es igual a la diferencia LRS - LRI , o
sea:
c = LRS - LRI

Marca de clase ( x ): también se le llama punto medio del intervalo de grupo es igual al
límite superior más el límite inferior dividido entre 2.

LS  LI
x 
2

Compilador: M. en C. Yolanda Alvarado Pérez PAGE 8


INSTITUTO TECNOLOGICO DE TOLUCA DEPARTEMENTO DE CIENCIAS BASICAS
PROBABILIDAD Y ESTADISTICA

Agrupamiento de datos:

Para la construcción de una distribución de frecuencia se recomienda:

a) determinar el número de grupos que se van a usar en la construcción de la tabla de


frecuencia. De manera conveniente seleccionar entre 5 a 20 grupos dependiendo del número de
datos u observaciones que se estén utilizando o de otra forma calcular el número de grupos por la
regla de sturgges: n = 1 + 3.3 log(n).

b) determinar el tamaño de los intervalos de clase: para encontrar la amplitud o tamaño de cada
grupo se utiliza

rango Dato mayor  dato menor


A 
N N

N es el número de grupos en una tabla de frecuencia y n es el total de datos u observaciones.

1.2.2 medidas de tendencia central y de


posición

Medidas de tendencia central (datos agrupados).

Media:
N

 f x i
x i 1
N donde i  1,2,3,..., N
f
i 1
i

x = media o promedio
f i = frecuencia de grupo
x = marca de clase
N = total de grupos.
Mediana:

Compilador: M. en C. Yolanda Alvarado Pérez PAGE 9


INSTITUTO TECNOLOGICO DE TOLUCA DEPARTEMENTO DE CIENCIAS BASICAS
PROBABILIDAD Y ESTADISTICA

n 
 2  Fa 
Me  LRI   C
f
 Me 
 

Me = mediana
LRI = limite real inferior de la clase mediana.
n = total de datos:
Fa = frecuencia acumulada hasta antes de la clase de la mediana.
f Me = frecuencia del grupo de la mediana
C = anchura o tamaño del intervalo de grupo.
Moda:

1
Mo  LRI  C
1   2

Mo = moda
LRI = limite real inferior de la clase o grupo modal.
δ1 = diferencia de la frecuencia del grupo de la moda y la frecuencia del intervalo anterior.
δ2 = diferencia entre la frecuencia del grupo de la moda y la frecuencia del intervalo siguiente.
C = anchura o tamaño de intervalo grupo.
Media geométrica (g):

N
 fi log x
G  log 1 i 1
N
 f
i1 i
 
 f log x  f log x  f log x  .......  f log x 
1
G  log  1 1 2 2 3 3 N N  donde i  1,2,3,..., N
N 
  f 
 
 i1 i 

G = media geométrica
f i = frecuencia de grupo

Compilador: M. en C. Yolanda Alvarado Pérez PAGE 10


INSTITUTO TECNOLOGICO DE TOLUCA DEPARTEMENTO DE CIENCIAS BASICAS
PROBABILIDAD Y ESTADISTICA

x = marca de clase
N = total de grupos.

Media armónica (h):

N N
 f  f
i i
H i  1  i 1 donde i  1,2,3,..., N
N f f f f f
 i 1  2  3 ....  N

i  1 xi x  x  x x
1 2 3 N

h = media armónica
f i = frecuencia de grupo
x = marca de clase
N = total de grupos.

Medidas de posición (datos agrupados):

Posición: dividen un conjunto ordenado de datos en grupos con la misma cantidad de


individuos: cuartiles, deciles, percentiles,...

Son índices diseñados para revelar la situación de una puntuación con respecto a un
grupo, utilizando a este como marco de referencia.
Las medidas de posición dividen la distribución en partes iguales, sirven para clasificar a
un individuo o elemento dentro de una determinada población o muestra.

Cuando la fracción es la mitad, se trata de la mediana.

Cuartiles: dividen a la distribución en 4 partes iguales. El primer cuartil Qi deja el 25% de los
valores por debajo. El segundo cuartil es igual a la mediana y el tercero Q3 deja el 75%.

Los cuartiles se denotan ( Qi ) y se calculan:

Compilador: M. en C. Yolanda Alvarado Pérez PAGE 11


INSTITUTO TECNOLOGICO DE TOLUCA DEPARTEMENTO DE CIENCIAS BASICAS
PROBABILIDAD Y ESTADISTICA

 in 
 4  Fa 
Qi  LRI   C
 fi 
 

Qi = cuartil i, donde i=1, 2, 3,4. indica el cuartil deseado


LRI = limite real inferior del grupo del cuartil i.
n = total de datos:
Fa = frecuencia acumulada hasta antes del cuartil deseado.
fi = frecuencia del grupo del cuartil i
C = anchura o tamaño del intervalo de clase.

Deciles: dividen a la distribución en 10 partes iguales. El primer decil D1 deja el 10% de los
valores por debajo y el resto por encima. El quinto decil D5 es la mediana.

Los deciles se denotan (di) y se calculan:

 in 
 10  Fa 
Di  LRI   C
 f i 
 

Di = decil i, donde i=1, 2, 3,4,…., 10 indica el decil deseado


LRI = limite real inferior del grupo del decil i.
n = total de datos:
Fa = frecuencia acumulada hasta antes del decil deseado.
f i = frecuencia del grupo del decil i
C = anchura o tamaño del intervalo de clase.

Percentiles: dividen a la distribución en 100 partes iguales del total. Así, el percentil 24 ( P24 )
deja el 24% de los valores por debajo. El percentil 50 ( P50 ) es la mediana o el quinto decil ( D5 ).

Los percentiles se denotan (pi) y se calculan:

Compilador: M. en C. Yolanda Alvarado Pérez PAGE 12


INSTITUTO TECNOLOGICO DE TOLUCA DEPARTEMENTO DE CIENCIAS BASICAS
PROBABILIDAD Y ESTADISTICA

 in 
  Fa 
Pi  LRI   100 C
 f i 
 

Pi = percentil, donde i=1, 2, 3,4….100 indica el percentil deseado i.


LRI = limite real inferior del grupo del percentil i.
n = total de datos.
Fa = frecuencia acumulada hasta antes del percentil deseado.
f i = frecuencia del grupo del percentil i.
C = anchura o tamaño del intervalo de grupo o clase.

Desviación cuartilica (DC).

Conocidos los cuartiles se puede calcular la desviación cuartilica, la cual mide la amplitud ó
rango existente entre los 50 términos centrales de la distribución.
Es una medida de variación como el rango referida al 50% de las observaciones contra las demás
series. La desviación cuartilica es igual a la mitad del rango comprendido entre el 50% de los
términos centrales de la distribución. Numéricamente es la mitad de la distancia entre el primer y
tercer cuartil, que eso también se conoce como rango semi-cuartil, o
Q3  Q1
Desviación cuartilica = DC 
2
1.2.3 medidas de dispersión

Medidas de dispersión o variabilidad (datos agrupados)

Son índices que establecen el grado en que se parecen o se diferencian entre si un


conjunto de datos.

¿Por qué estudiar la dispersión? es posible evaluar la confiabilidad promedio que se está
utilizando. Si los valores se concentran en torno a la media, esta última se considera
representativa de los datos. Por el contrario, una dispersión grande indica que la media no es
confiable.

Medidas que calculan la dispersión

Rango muestral: es la diferencia entre la observación más grande y la menor. Por


ejemplo: el valor más pequeño de colesterol total es 3.8 y el más alto es 8.8.
Por lo tanto el rango muestral: rem=x máximo -x mínimo rem= 8.8- 3.8= 5

Compilador: M. en C. Yolanda Alvarado Pérez PAGE 13


INSTITUTO TECNOLOGICO DE TOLUCA DEPARTEMENTO DE CIENCIAS BASICAS
PROBABILIDAD Y ESTADISTICA

Amplitud total o rango: el rango es la medida de dispersión más sencilla. Es la


diferencia entre el valor más alto y el más bajo de un conjunto de datos.
Rango= valor más alto -valor más bajo
Por ejemplo
Consideremos los siguientes grupos de calificaciones en tres cursos diferentes:
A: 6, 6, 6, 6, 6, 6
B: 5, 6, 7, 8, 7,3
C: 2, 3, 4, 7, 9, 11

Los tres grupos poseen la misma media aritmética, pero mientras en el curso a no hay
variaciones, en el curso b (rango=5) y c (rango=9) ha mostrado importantes variaciones, siendo
este ultimo el de mayor variabilidad.

Desviación media absoluta (D.M.A)

Es la suma de los desvíos de todos los valores con respecto a la media aritmética, en valores
absolutos y promediados. Se calcula:

f i
xi - x
D.M . A  i 1
N

f
i 1
i

Varianza (s2): es el promedio de las desviaciones cuadráticas con respecto a la media. Es un


índice basado en la idea de que, al elevar al cuadrado las distancias con respecto a la media antes
de hallar su promedio, no suman cero. Además los cuadrados son siempre positivos.

 f ( x - x )
i i
2

s2  i 1

n 1

x = media o promedio muestral


f i = frecuencia de grupo
x = marca de clase
N = total de grupos.

Si la varianza es poblacional se calcula:

Compilador: M. en C. Yolanda Alvarado Pérez PAGE 14


INSTITUTO TECNOLOGICO DE TOLUCA DEPARTEMENTO DE CIENCIAS BASICAS
PROBABILIDAD Y ESTADISTICA

N N

 fi ( xi -  )2  f ( x -  )
i i
2

2  i 1
N  i 1

n
f
i 1
i

 = media o promedio poblacional


f i = frecuencia de grupo
x = marca de clase
N = total de grupos.

Desviación estándar (s):


La varianza de 106.8 para las edades de los pacientes no está en términos de años, sino más bien
en años al cuadrado

Esto es lo que hace la desviación estándar al calcular la raíz cuadrada de la varianza. Así se
establece con mayor precisión una separación promedio de las distancias de cada uno de los
valores de la variable media.

 f ( x  x )
i
2

s i 1

n 1

La desviación estándar poblacional se calcula;

 f ( x   )
i
2

 i 1

Medidas de forma

Medidas de asimetría y Curtosis

A las medidas de asimetría como el coeficiente de variación, se les llama "medidas relativas", las
cuales son porcentajes que sólo expresan el grado en que la distribución se aleja de la media
aritmética

Compilador: M. en C. Yolanda Alvarado Pérez PAGE 15


INSTITUTO TECNOLOGICO DE TOLUCA DEPARTEMENTO DE CIENCIAS BASICAS
PROBABILIDAD Y ESTADISTICA

Coeficiente de variación (CV)

Una desventaja de la desviación estándar como medida comparativa de medición es que depende
de las unidades de medición esto significa que es difícil de usar la desviación estándar para
comparar mediciones de diferentes poblaciones. Por esta razón en estadística se define el
coeficiente de variación que expresa la desviación estándar como un porcentaje de la media
muestral o poblacional. El coeficiente de variación se calcula como CV = σ/µ

Las medidas de asimetría, más comunes son:


1) las basadas en el grado de alejamiento que tiene los términos con respecto a diversas medidas
centrales a medida que la distribución se hace asimétrica.
2) las basadas en el sistema de momentos (M3). En lo que se refiere a las primeras, estas medidas
nos indican no sólo el grado de asimetría de la curva sino también la dirección de la misma. Si su
valor es negativo, la asimetría es hacia la izquierda y si es positiva la asimetría será hacia la
derecha. De (1) usaremos el coeficiente Pearson, como se recordará en una distribución simétrica
la media, moda y mediana, se encuentran en el mismo punto. Si la distribución es asimétrica, el
valor de cada uno de ellos se localiza en diferentes puntos de la distribución.
La asimetría o sesgo de una distribución de frecuencia expresa su deformación respecto al eje
vertical. La asimetría puede ser positiva o derecha (la media es mediana), o nula (la media es
igual a la mediana).
Puesto que en una distribución asimétrica el valor de la moda permanece en lo alto de la curva y
el de la media se mueve hacia los extremos de la distribución,

La asimetría (a) queda cuantificada por el segundo coeficiente de asimetría de pesaron para la
media, el cual se calcula por: asimetría (a) = 3(x − md )/ σ

Para la moda el coeficiente se calcula como: asimetría (a) = (x – mo)/ σ

La asimetría o dirección de la curva de la distribución es a la derecha, indicando que la mayor


parte de los datos están a la derecha de x.

Sesgada a la derecha sesgada a la izquierda

Momentos y Curtosis

Compilador: M. en C. Yolanda Alvarado Pérez PAGE 16


INSTITUTO TECNOLOGICO DE TOLUCA DEPARTEMENTO DE CIENCIAS BASICAS
PROBABILIDAD Y ESTADISTICA

La deformación respecto al eje horizontal de una distribución de frecuencias se conoce como


curtosis o aplastamiento. Una medida cualitativa de la forma de las distribuciones de frecuencias
las clasifica en:

Leptocurticas: sus datos se concentran en un reducido intervalo de valores.


Mesocurticas: estas presentan una concentración de valores alrededor de la media, y una
reducción de estos hacia los extremos. A estas se les conoce también como distribuciones
normales o campanas de gauss.

Platicurticas. En ella los datos se distribuyen de manera relativa uniforme en todo el rango de
valores.

El coeficiente de curtosis puede calcularse por medio de los momentos de la distribución de


frecuencias. En él se observa que en el primer momento es igual a cero (siempre), que el segundo
momento es siempre igual a la varianza de la distribución. Los momentos se calculan como:

Resumen.

El tercer momento como medida de asimetría


La medición de la asimetría en este caso se hace a través del sistema de momentos.

Compilador: M. en C. Yolanda Alvarado Pérez PAGE 17


INSTITUTO TECNOLOGICO DE TOLUCA DEPARTEMENTO DE CIENCIAS BASICAS
PROBABILIDAD Y ESTADISTICA

La palabra momentos significa en mecánica la medida de una fuerza en relación con su tendencia
a producir rotación. En estadística se usa dicha expresión en sentido análogo, considerando los
grupos de frecuencias como las fuerzas en cuestión.
Los momentos pueden ser calculados con respecto al origen y con respecto a la media aritmética.
De acuerdo con esta última y considerando datos agrupados:

Métodos gráficos
1.3.1 diagrama de dispersión

Definición

La primera forma de describir una distribución bivariable es representar los pares de


valores en el plano cartesiano. El grafico obtenido recibe el nombre de nombre de puntos o
diagrama de dispersión.

Un diagrama de dispersión es una representación grafica de la relación entre dos


variables muy utilizada en las fases de comprobación de teorías e identificación de cosas de raíz
y en el diseño de soluciones y mantenimiento de resultados obtenidos. Tres conceptos
especialmente destacables son el descubrimiento de las verdaderas relaciones de causa efecto es
la clave de la resolución eficaz de un problema que las relaciones de causa efecto casi siempre
muestran relaciones y que es más fácil ver la relación en un diagrama de dispersión que en una
simple tabla de números

1.3.2 diagramas de tallo y hojas


1.3.3 histogramas
Histograma: son diagramas de barras verticales y se obtiene al graficar en el eje horizontal cada
uno de los intervalos de clase y en el eje vertical la frecuencia relativa.
1.3.4 ojivas
1.3.5 polígono de frecuencias
Polígonos de frecuencia: su grafica se obtiene con la marca de clase en el eje horizontal y la
frecuencia en el eje vertical. También puede obtenerse al unir los puntos medios de los techos de
las barras de un histograma.

1.3.6 diagrama de caja y ejes


1.3.7 diagrama de sectores o circulograma
Circulograma: se usan para mostrar como una cantidad total se reparte en un grupo de categorías
y se construye al hacer la relación de correspondencia, 100% corresponde a 360° en un círculo.

Guía de estudio unidad 1

1. Los siguientes valores son los rendimientos por hectárea de un determinado producto agrícola
(en toneladas) en 8 ejidos colectivos de diferentes regiones del país: 1, 2, 3, 4, 5, 11, 11, 30.

Compilador: M. en C. Yolanda Alvarado Pérez PAGE 18


INSTITUTO TECNOLOGICO DE TOLUCA DEPARTEMENTO DE CIENCIAS BASICAS
PROBABILIDAD Y ESTADISTICA

a) calcule el recorrido o rango


b) calcule la desviación cuartilica
c) calcule la desviación media
d) calcule la desviación estándar y la varianza
e) calcule el coeficiente de variación
f) interprete brevemente los resultados obtenidos.

2. las calificaciones de 80 estudiantes de una clase de estadística, están dadas en la siguiente


tabla:

Calificaciones no. de estudiantes

20- 29 3
30 - 39 6
40 - 49 5
50 – 59 7
60 - 69 10
70 – 79 29
80 – 89 12
90 – 99 8

a) calcular la desviación cuartílica


b) calcular la desviación media
c) calcular la desviación estándar.

3. en la siguiente tabla los pesos de 40 estudiantes en state university se registran con


aproximación de una libra.

138 164 150 132 144 125 149 157


146 158 140 147 136 148 152 144
168 126 138 176 163 119 154 165
146 173 142 147 135 153 140 135
161 145 135 142 150 156 145 128

a. construya una tabla de distribución de frecuencias simple.


b. determine la media, mediana y moda para datos agrupados.
c. construya un histograma de frecuencias.

4. Se tomaron 15 tarjetas de control de asistencia al azar, obteniéndose los siguientes resultados:


7:59, 8:01, 8:00, 8:09, 8:15, 7:50, 7:55, 8:00, 8:05, 8:02, 7:58, 7:55, 8:15, 7:59 y 8:00, de
termine la hora promedio en que llegan los empleados. Calcule la desviación media absoluta y la
desviación estándar. Utilizando datos agrupados.
5. las cantidades representadas en la siguiente tabla representan las calificaciones de 80 alumnos
en la materia de introducción a la estadística en la facultad de contaduría y administración
LI - LS f

Compilador: M. en C. Yolanda Alvarado Pérez PAGE 19


INSTITUTO TECNOLOGICO DE TOLUCA DEPARTEMENTO DE CIENCIAS BASICAS
PROBABILIDAD Y ESTADISTICA

53-60 6
61-68 17
69-76 24
77-84 16
85-92 10
93-100 7
Para los datos de la tabla anterior calcular: desviación media absoluta, desviación estándar y
varianza.

6. se obtuvieron quince muestras de aire de una cierta región, y para cada uno se determino la
concentración de monóxido de carbono. Los resultados (en ppm) fueron: 9.3, 10.7, 8.5, 9.6,
12.2, 15.6, 9.2, 10.5, 9.0, 13.2, 11.0, 8.8, 13.7, 12.1, 9.8.
Determine la media, la desviación estándar, y la desviación media absoluta.

7. el sueldo diario de 16 empleados fueron: 50, 40, 45, 55, 60, 80, 43, 47, 52, 68, 54, 50, 41, 50,
49 y 50 pesos, de los datos anteriores encuentre las medidas de centralización (media, mediana,
moda, media geométrica, media armónica).

8. la duración, en horas, de 20 baterías eléctricas, se muestran en seguida. Prepare una


distribución de frecuencias de frecuencias con 4 clases de tamaño uniforme. ¿Qué tan razonable
sería pensar que la duración de las baterías es, por lo general, mayor que 125 hrs? (145, 105, 190,
155, 75, 90, 135, 110, 120, 185, 120, 165, 150, 160, 175, 140, 155, 175, 125, 170).

9. consulte, en la sección de anuncios de venta de automóviles de un periódico importante, los


precios de de un automóvil de tres años de uso, y determine los precios más alto y más bajo, así
como la media y la mediana de los precios y el color más abundante entre los automóviles que se
ofrecen. Algunos periódicos que cuentan con anuncios vía internet son
www.banorte.com.mx, www.eluniversal.com.mx, y www.informador.com.mx

10. obtenga un informe de calidad de un producto de su preferencia, y explique cuáles de los


conceptos vistos se utilizan en dicho informe. Una fuente de información importante es el
laboratorio de pruebas de calidad, del instituto federal de protección al consumidor,
www.profeco.gob.mx .

11. el promedio de peso de 6 toros seleccionados al azar en un enorme rancho ganadero debe ser
de por lo menos 425 kg. Ya se han seleccionado 5 toros y sus pesos han sido de 408, 441, 418,
429 y 422 kg. ¿Cuánto debe pesar el último toro para que el peso promedio de los seis toros sea
el que se quiere?

12. obtenga la temperatura promedio para cada uno de los 12 meses del año de tres ciudades del
país y calcule el porcentaje de variación de esos valores para determinar cuál de esas ciudades
tiene una temperatura más estable. Grafique los valores y comente si la grafica muestra esta
estabilidad o no. el sitio de internet del instituto nacional de estadística, geografía e informática
(www.inegi.gob.mx) tiene la información necesaria.

Compilador: M. en C. Yolanda Alvarado Pérez PAGE 20


INSTITUTO TECNOLOGICO DE TOLUCA DEPARTEMENTO DE CIENCIAS BASICAS
PROBABILIDAD Y ESTADISTICA

13. por lo general, las empresas de cambio de monedas internacionales (divisas) compran las
diferentes monedas a un cierto precio y las venden con una pequeña diferencia a su favor.
Determine el valor de compra y venta, el día de ayer, de las unidades monetarias de cinco países
y determine el rango de cada divisa. Donde puede encontrar la cotización algunos sitios de
internet donde puede encontrar la cotización de divisas son: www.banamex.com,
www.banorte.com y www.bital.com.mx.

14. obtenga del directorio telefónico los últimos cuatro dígitos de 20 números de teléfono
cualquiera. Para cada grupo de dígitos sume el valor de estos y determine los valores mínimo y
máximo que podrían presentarse en la suma de dígitos, así como su desviación estándar y su
coeficiente de variación. ¿Cuáles son los valores mínimo y máximo que podrían presentarse en
la suma de dígitos?

15. el registro de pacientes de un hospital durante cada uno de los doce meses del año 2002 fue
el que se indica (285, 343, 271, 315, 286, 228, 265, 374, 293, 260, 235 y 274) determine la
media y la mediana de dichos valores ¿podría decirse que el hospital recibe más pacientes
durante el verano?

16. una empresa utiliza una sierra eléctrica de trabajo continuo con dientes de corte cuyo
reemplazo ocasiona un costo de $300.00. Actualmente la empresa compra en $500.00 unos
dientes de corte con duración de 80 horas. Otro proveedor ofrece unos con duración de 100 horas
a un precio de $650.00.considere el costo de instalación y determine si conviene cambiar de tipo
de dientes de corte.

Compilador: M. en C. Yolanda Alvarado Pérez PAGE 21

También podría gustarte