Estadistica Descriptiva
Estadistica Descriptiva
Estadistica Descriptiva
PROBABILIDAD Y ESTADISTICA
Notación sumatoria
x
i 0
i
x1 x2 .... xn
variable, es decir
Introducción
1. estadística descriptiva
Comprende la recopilación, organización y representación de datos, esto lo hace utilizando
diferentes métodos (gráficos y numéricos). Por ejemplo, el índice de inflación en los países de
Latinoamérica durante los últimos cinco años, el nivel de escolaridad de los empleados de una
fábrica, etc.
2. teoría de la probabilidad
Proporciona una base racional para tratar de resolver situaciones influenciadas por factores
aleatorios, fortuitos o al azar. Por ejemplo, la posibilidad de que alguien gane la lotería, la
probabilidad de que salga un número determinado al lanzar un dado, etc.
3. estadística inferencial
Es la que incluye el análisis e interpretación de los datos que son extraídos de un grupo mayor,
además saca conclusiones de su comportamiento. Por ejemplo: con base en las estadísticas de
inflación registradas en los últimos meses en México se espera que para el próximo mes de
noviembre se vuelva a tener una inflación de un solo dígito.
La estadística tiene aplicación en cualquier campo, se utiliza en todas las áreas del
conocimiento, ya sean sociales, humanísticas, técnicas, deportivas, laborales, científicas, etc. es
decir, actualmente resulta difícil indicar alguna área o ciencia que no la utilice.
para aplicar las técnicas estadísticas con eficiencia, se requiere por parte del investigador
conocer ampliamente el área de estudio; siendo más específicos, la estadística se aplica en
ingeniería, medicina, psicología, economía, geografía, física, química, agronomía,
administración, biología, economía, ecología, antropología, historia, contaduría, planeación,
política, etc., y aunque los problemas de cada área o ciencia son diferentes, las técnicas que se
utilizan para el análisis estadístico son las mismas debido a que se trabaja con datos numéricos.
Por ejemplo, en el área deportiva se utiliza en el fútbol para obtener las estadísticas de
cada equipo dentro de la competencia y así poder definir cuál pasará a la siguiente etapa; en la
política para obtener los resultados de las votaciones para elegir a algún gobernante; en economía
para conocer el incremento de alguna moneda con respecto al peso; en geografía para realizar
los censos y conocer el número de habitantes de un país así como sus características, etc.
Los datos estadísticos son el producto de las observaciones efectuadas en las personas y
objetos en los cuales se produce el fenómeno que queremos estudiar. Dicho en otras palabras,
son los antecedentes (en cifras) necesarios para llegar al conocimiento de un hecho o para reducir
las consecuencias de este.
Recopilación; se refiere a la forma en cómo son obtenidos los datos que servirán para analizar el
problema y pueden ser de dos tipos:
A) internos. son aquellos que se localizan dentro de la empresa como son: sueldos, compras,
ventas, estados financieros, contratación de personal, promociones, etc.
B) externos. son aquellos que se localizan fuera de la empresa, y pueden ser obtenidos por
dos fuentes:
1) primarias. son los datos que son obtenidos directamente por el investigador, por
medios de: cuestionarios, llamadas telefónicas y observación directa.
2) secundarias. son aquellos datos que fueron obtenidos por otras personas con
anterioridad, y que ya están registrados, por ejemplo: departamentos de estadística,
revistas, bibliotecas, bancos de información.
Organización. En esta etapa los datos que son obtenidos de fuentes primarias son organizados
de acuerdo con ciertas características o cualidades, por ejemplo: sexo, peso, ingresos, edad,
costos altura, religión, nacionalidad, resistencia, producción, utilidades rendimientos, etc.
Los resultados de la estadística descriptiva, es decir los métodos usados para describir
conjuntos de datos se pueden clasificar en dos tipos:
métodos gráficos.
métodos numéricos.
Los métodos gráficos: permiten la comparación objetiva de las clases o grupos y a la vez
muestran rápidamente el avance o retroceso de una clase respecto a otras. Las gráficas más
comunes son el histograma, polígono de frecuencia y circulograma.
Los métodos numéricos: son utilizados cuando los métodos gráficos están limitados
debido al tipo de datos y observaciones de la población o muestra que se esté analizando, están
clasificados en:
medidas de tendencia central o centralización
medidas de posición
Notación sumatoria
Datos no agrupados.
Los datos no agrupados es un conjunto de información numérica sin ningún orden que
nos establece una relación clara con lo que se pretende desarrollar a lo largo de un problema.
x i
x1 x2 x3 ........ xn
x i 1
n n
para calcular la media o promedio poblacional se calcula de igual forma que la media
muestral
x i
x1 x2 x3 ........ xn
i 1
n n
3.- la moda (Mo): es el valor o categoría de la variable que se presenta con mayor
frecuencia. La moda puede no existir, e incluso no ser única en caso de existir. Por su propia
definición, la moda no es única, pues puede haber dos o más valores de la variable que tengan la
misma frecuencia.
Ejemplo 1:
el conjunto 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12 y 18
Moda=9
Ejemplo 2:
El conjunto 3, 5, 8, 10, 12, 15 y 16
No tiene moda
Ejemplo 3:
Conjunto 2, 4, 4, 4, 5, 5, 7, 7, 7 y 9
Tiene dos modas. 4 y 7 (bimodal).
4. Media geométrica (g): es la enésima raíz del producto de los números esto es:
g= n x1 .x 2 .x3 .x 4 ....x n .
n n
H
1 1 1 1
n
....
1 x1 x2 xn
x
i 1 i
Las medidas de posición (datos no grapados), son métodos que resultan ser más prácticos
para precisar ciertas situaciones en las que se busca describir la variación o dispersión en un
conjunto de datos. Para datos no agrupados se calculan:
Cuartiles
Si se tienen una serie de valore x1 , x2 , x3 ,........, xn , se localiza mediante las siguientes fórmulas:
n n 1
a. cuando n es par: b. cuando n es impar:
4 4
3n 3 n 1
a. cuando n es par: b. cuando n es impar:
4 4
Donde n es el número de datos
Deciles
A(n) A(n 1)
a. cuando n es par: b. cuando n es impar:
10 10
Percentiles o centiles
A(n)
a. cuando n es par:
100
A(n 1)
b. cuando n es impar:
100
Es fácil ver que el primer cuartil coincide con el percentil 25; el segundo cuartil con el percentil
50 y el tercer cuartil con el percentil 75.
Son métodos para conocer que tan separado se encuentran los datos con respecto a la
media equilibrante del grupo: rango, recorrido, varianza, desviación media absoluta y
desviación estándar.
2. varianza (s2), desviación estándar (s): son métodos para evitar que la suma de las
desviaciones den cero.
n n
(x i
x) 2
(x i
x )2
s2 i 1
; s i 1
n 1 n 1
n n
(x i
x )2 (x i
x )2
2 i 1
; i 1
n n
3. desviación media absoluta (D.M.A): es un método para evitar que la suma de las
desviaciones den cero.
x i
x
D.M . A i 1
Datos agrupados.
Tabla de frecuencia
1. frecuencia: son las veces que se repite un dato característico, se representa por la letra
f .
2. frecuencia relativa fr : es la razón de la frecuencia individual de cada grupo o clase
entre el total de frecuencia multiplicada por cien para que esté expresada en porcentaje, esto es:
fi
fr = N (100)
f
i=1
i
i. límite superior ( LS ): es el número mayor que se localiza a la derecha .de cada intervalo
2. límite inferior ( LI ): es el número menor de cada intervalo y se localiza a la izquierda en el
intervalo de clase.
1. límite real inferior ( LRI ): es igual a la semisuma del límite superior de la clase o grupo
anterior y el límite inferior de la clase o grupo en estudio.
2. límite real superior ( LRS ): es igual a la semisuma del límite superior de la clase del intervalo
en estudio y del límite inferior de la clase contigua.
Anchura o tamaño del intervalo de clase (c): es igual a la diferencia LRS - LRI , o
sea:
c = LRS - LRI
Marca de clase ( x ): también se le llama punto medio del intervalo de grupo es igual al
límite superior más el límite inferior dividido entre 2.
LS LI
x
2
Agrupamiento de datos:
b) determinar el tamaño de los intervalos de clase: para encontrar la amplitud o tamaño de cada
grupo se utiliza
Media:
N
f x i
x i 1
N donde i 1,2,3,..., N
f
i 1
i
x = media o promedio
f i = frecuencia de grupo
x = marca de clase
N = total de grupos.
Mediana:
n
2 Fa
Me LRI C
f
Me
Me = mediana
LRI = limite real inferior de la clase mediana.
n = total de datos:
Fa = frecuencia acumulada hasta antes de la clase de la mediana.
f Me = frecuencia del grupo de la mediana
C = anchura o tamaño del intervalo de grupo.
Moda:
1
Mo LRI C
1 2
Mo = moda
LRI = limite real inferior de la clase o grupo modal.
δ1 = diferencia de la frecuencia del grupo de la moda y la frecuencia del intervalo anterior.
δ2 = diferencia entre la frecuencia del grupo de la moda y la frecuencia del intervalo siguiente.
C = anchura o tamaño de intervalo grupo.
Media geométrica (g):
N
fi log x
G log 1 i 1
N
f
i1 i
f log x f log x f log x ....... f log x
1
G log 1 1 2 2 3 3 N N donde i 1,2,3,..., N
N
f
i1 i
G = media geométrica
f i = frecuencia de grupo
x = marca de clase
N = total de grupos.
N N
f f
i i
H i 1 i 1 donde i 1,2,3,..., N
N f f f f f
i 1 2 3 .... N
i 1 xi x x x x
1 2 3 N
h = media armónica
f i = frecuencia de grupo
x = marca de clase
N = total de grupos.
Son índices diseñados para revelar la situación de una puntuación con respecto a un
grupo, utilizando a este como marco de referencia.
Las medidas de posición dividen la distribución en partes iguales, sirven para clasificar a
un individuo o elemento dentro de una determinada población o muestra.
Cuartiles: dividen a la distribución en 4 partes iguales. El primer cuartil Qi deja el 25% de los
valores por debajo. El segundo cuartil es igual a la mediana y el tercero Q3 deja el 75%.
in
4 Fa
Qi LRI C
fi
Deciles: dividen a la distribución en 10 partes iguales. El primer decil D1 deja el 10% de los
valores por debajo y el resto por encima. El quinto decil D5 es la mediana.
in
10 Fa
Di LRI C
f i
Percentiles: dividen a la distribución en 100 partes iguales del total. Así, el percentil 24 ( P24 )
deja el 24% de los valores por debajo. El percentil 50 ( P50 ) es la mediana o el quinto decil ( D5 ).
in
Fa
Pi LRI 100 C
f i
Conocidos los cuartiles se puede calcular la desviación cuartilica, la cual mide la amplitud ó
rango existente entre los 50 términos centrales de la distribución.
Es una medida de variación como el rango referida al 50% de las observaciones contra las demás
series. La desviación cuartilica es igual a la mitad del rango comprendido entre el 50% de los
términos centrales de la distribución. Numéricamente es la mitad de la distancia entre el primer y
tercer cuartil, que eso también se conoce como rango semi-cuartil, o
Q3 Q1
Desviación cuartilica = DC
2
1.2.3 medidas de dispersión
¿Por qué estudiar la dispersión? es posible evaluar la confiabilidad promedio que se está
utilizando. Si los valores se concentran en torno a la media, esta última se considera
representativa de los datos. Por el contrario, una dispersión grande indica que la media no es
confiable.
Los tres grupos poseen la misma media aritmética, pero mientras en el curso a no hay
variaciones, en el curso b (rango=5) y c (rango=9) ha mostrado importantes variaciones, siendo
este ultimo el de mayor variabilidad.
Es la suma de los desvíos de todos los valores con respecto a la media aritmética, en valores
absolutos y promediados. Se calcula:
f i
xi - x
D.M . A i 1
N
f
i 1
i
f ( x - x )
i i
2
s2 i 1
n 1
N N
fi ( xi - )2 f ( x - )
i i
2
2 i 1
N i 1
n
f
i 1
i
Esto es lo que hace la desviación estándar al calcular la raíz cuadrada de la varianza. Así se
establece con mayor precisión una separación promedio de las distancias de cada uno de los
valores de la variable media.
f ( x x )
i
2
s i 1
n 1
f ( x )
i
2
i 1
Medidas de forma
A las medidas de asimetría como el coeficiente de variación, se les llama "medidas relativas", las
cuales son porcentajes que sólo expresan el grado en que la distribución se aleja de la media
aritmética
Una desventaja de la desviación estándar como medida comparativa de medición es que depende
de las unidades de medición esto significa que es difícil de usar la desviación estándar para
comparar mediciones de diferentes poblaciones. Por esta razón en estadística se define el
coeficiente de variación que expresa la desviación estándar como un porcentaje de la media
muestral o poblacional. El coeficiente de variación se calcula como CV = σ/µ
La asimetría (a) queda cuantificada por el segundo coeficiente de asimetría de pesaron para la
media, el cual se calcula por: asimetría (a) = 3(x − md )/ σ
Momentos y Curtosis
Platicurticas. En ella los datos se distribuyen de manera relativa uniforme en todo el rango de
valores.
Resumen.
La palabra momentos significa en mecánica la medida de una fuerza en relación con su tendencia
a producir rotación. En estadística se usa dicha expresión en sentido análogo, considerando los
grupos de frecuencias como las fuerzas en cuestión.
Los momentos pueden ser calculados con respecto al origen y con respecto a la media aritmética.
De acuerdo con esta última y considerando datos agrupados:
Métodos gráficos
1.3.1 diagrama de dispersión
Definición
1. Los siguientes valores son los rendimientos por hectárea de un determinado producto agrícola
(en toneladas) en 8 ejidos colectivos de diferentes regiones del país: 1, 2, 3, 4, 5, 11, 11, 30.
20- 29 3
30 - 39 6
40 - 49 5
50 – 59 7
60 - 69 10
70 – 79 29
80 – 89 12
90 – 99 8
53-60 6
61-68 17
69-76 24
77-84 16
85-92 10
93-100 7
Para los datos de la tabla anterior calcular: desviación media absoluta, desviación estándar y
varianza.
6. se obtuvieron quince muestras de aire de una cierta región, y para cada uno se determino la
concentración de monóxido de carbono. Los resultados (en ppm) fueron: 9.3, 10.7, 8.5, 9.6,
12.2, 15.6, 9.2, 10.5, 9.0, 13.2, 11.0, 8.8, 13.7, 12.1, 9.8.
Determine la media, la desviación estándar, y la desviación media absoluta.
7. el sueldo diario de 16 empleados fueron: 50, 40, 45, 55, 60, 80, 43, 47, 52, 68, 54, 50, 41, 50,
49 y 50 pesos, de los datos anteriores encuentre las medidas de centralización (media, mediana,
moda, media geométrica, media armónica).
11. el promedio de peso de 6 toros seleccionados al azar en un enorme rancho ganadero debe ser
de por lo menos 425 kg. Ya se han seleccionado 5 toros y sus pesos han sido de 408, 441, 418,
429 y 422 kg. ¿Cuánto debe pesar el último toro para que el peso promedio de los seis toros sea
el que se quiere?
12. obtenga la temperatura promedio para cada uno de los 12 meses del año de tres ciudades del
país y calcule el porcentaje de variación de esos valores para determinar cuál de esas ciudades
tiene una temperatura más estable. Grafique los valores y comente si la grafica muestra esta
estabilidad o no. el sitio de internet del instituto nacional de estadística, geografía e informática
(www.inegi.gob.mx) tiene la información necesaria.
13. por lo general, las empresas de cambio de monedas internacionales (divisas) compran las
diferentes monedas a un cierto precio y las venden con una pequeña diferencia a su favor.
Determine el valor de compra y venta, el día de ayer, de las unidades monetarias de cinco países
y determine el rango de cada divisa. Donde puede encontrar la cotización algunos sitios de
internet donde puede encontrar la cotización de divisas son: www.banamex.com,
www.banorte.com y www.bital.com.mx.
14. obtenga del directorio telefónico los últimos cuatro dígitos de 20 números de teléfono
cualquiera. Para cada grupo de dígitos sume el valor de estos y determine los valores mínimo y
máximo que podrían presentarse en la suma de dígitos, así como su desviación estándar y su
coeficiente de variación. ¿Cuáles son los valores mínimo y máximo que podrían presentarse en
la suma de dígitos?
15. el registro de pacientes de un hospital durante cada uno de los doce meses del año 2002 fue
el que se indica (285, 343, 271, 315, 286, 228, 265, 374, 293, 260, 235 y 274) determine la
media y la mediana de dichos valores ¿podría decirse que el hospital recibe más pacientes
durante el verano?
16. una empresa utiliza una sierra eléctrica de trabajo continuo con dientes de corte cuyo
reemplazo ocasiona un costo de $300.00. Actualmente la empresa compra en $500.00 unos
dientes de corte con duración de 80 horas. Otro proveedor ofrece unos con duración de 100 horas
a un precio de $650.00.considere el costo de instalación y determine si conviene cambiar de tipo
de dientes de corte.