Probabilidad y Estadistica
Probabilidad y Estadistica
Probabilidad y Estadistica
Conceptos
Variables estadísticas
Las características de interés en una población o una muestra se llaman variables.
Datos
Son los valores que toma una variable de estudio en cada individuo de la muestra
o de la población. En los ejemplos de variables mencionados en la parte anterior,
se pueden presentar los siguientes datos:
Recopilación de datos
Ramas de la estadística
Estadística descriptiva
Esta rama incluye un conjunto de técnicas para recopilar, ordenar, organizar,
resumir y presentar datos de manera que resalten sus características más
importantes, lo cual permite hacer observaciones y extraer conclusiones. Utiliza
tablas, gráficas y medidas estadísticas.
Aunque las técnicas de la estadística descriptiva son útiles para cualquier colección
de datos (de hecho, surgieron del tratamiento de información proveniente de
censos), en la actualidad estas técnicas se suelen usar para trabajar con
información proveniente de muestras.
Estadística Inferencial
Se trata de procedimientos que permiten obtener ciertas conclusiones acerca de
una población con base exclusivamente en la información proporcionada por una
muestra aleatoria representativa.
El azar interviene en la elección de la muestra por lo que debe ser tomado en cuenta
al hacer inferencias, y es aquí donde la Estadística se relaciona con la Probabilidad,
que es la rama de las matemáticas encargada de la toma de decisiones en
condiciones de incertidumbre.
TIPOS DE VARIABLES
Las variables estadísticas pueden clasificarse de acuerdo a los valores que toman,
en variables cuantitativas y variables cualitativas.
Variables cuantitativas o numéricas
Son aquellas variables que toman valores numéricos como resultado de un proceso
de conteo o medición. Por ejemplo:
Cualitativas nominales
Cualitativas ordinales
Son variables cuyos valores sí tienen un orden natural. De los ejemplos anteriores,
las variables de los incisos c y d son ordinales.
TABLAS DE DISTRIBUCIÓN DE FRECUENCIAS
Una tabla de frecuencias es una tabla que muestra los valores que toma una
variable, junto con el número de veces que se observa cada uno de ellos en una
colección de datos. A este número se le llama frecuencia o frecuencia absoluta.
La tabla de frecuencias más sencilla es la formada por dos columnas, una donde se
escriben las categorías o valores de la variable y otra donde se escribe la frecuencia
con que aparece cada valor, como la tabla del ejemplo inicial de esta sección.
Ejemplo 1:
Así que podemos decir que las calificaciones fueron mejores en el grupo A que en
el grupo B.
El número de hermanos que tienen los alumnos de un grupo del CCH Sur, se recoge
en la siguiente lista.
Se tiene una variable numérica discreta con una gran variedad de valores
distintos, o bien
Se tiene una variable numérica continua.
Vamos a ir desarrollando los conceptos necesarios para construir una tabla de datos
agrupados, usando un ejemplo. Consideremos los siguientes datos que
corresponden a la edad de 55 personas.
Si se quisiera hacer una tabla de frecuencias sin agrupar los datos, serían
necesarios 20 renglones diferentes, uno por cada valor de los datos. Es claro que
conviene agrupar los datos en intervalos para reducir esa cantidad.
Todos los intervalos deben tener la misma longitud para que reflejen cuántos datos
caen en subintervalos del mismo tamaño. Sin embargo, es posible dejar abierto el
primero o el último de los intervalos, criterio que se usa con frecuencia en estudios
demográficos. Por ejemplo, se puede poner “80 y más” en una tabla sobre edades.
Para tener una referencia sobre la longitud de los intervalos, se requiere calcular el
rango de los datos, definido como la diferencia del mayor menos el menor de los
valores que toman.
• Tomar una amplitud de 6 unidades para cada intervalo (en lugar de 5).
Entonces, los 7 intervalos abarcarían un total de 42 unidades, por lo que sí se cubre
el rango que es de 38.
Pero estos intervalos no cumplen la característica c), porque los extremos como 21,
26, 31, etc quedan en dos intervalos. Entonces, si hay datos que tengan estos
valores, ¿dónde los contabilizamos?
Usar intervalos abiertos por un lado y cerrados por el otro. Donde se coloca
un corchete, indica que el intervalo incluye al extremo y se dice que es
cerrado por ese lado. Donde se coloca un paréntesis, indica que el intervalo
abarca números menores que el extremo, sin incluir a dicho extremo, y se
dice que es abierto por ese lado. Así, por ejemplo, el intervalo
[16,21)
Una vez construidos los intervalos, las demás columnas de la tabla se trabajan igual
que en el caso de los datos no
agrupados en intervalos. La
frecuencia absoluta de un intervalo
es el número de datos que caen
dentro del intervalo.
Las edades más frecuentes están entre los 20 y los 30 años, pues en este
rango se ubica más del 56% de los datos.
Las edades menos frecuentes son las que se ubican entre los 45 y los 55
años, mismas que abarcan más o menos el 5% de los datos.
De las 55 personas, hay 44 que tienen menos de 35 años, lo que representa
un 80% de los encuestados.
Casi el 95% de los encuestados son menores de 45 años, lo que representa
a 52 personas.
Solo el 9% son menores a 20 años, lo que corresponde a 5 personas.
REPRESENTACIÓN GRÁFICA
Además de la distribución de frecuencias, resulta conveniente construir alguna
representación gráfica de los datos. De esta manera, se tiene una imagen que
describe visualmente el comportamiento de los datos.
Gráfica Circular
Gráfica de barras
En un sistema de ejes coordenados, se localizan en el eje horizontal los
valores de la variable y en el eje vertical, la frecuencia absoluta o relativa que
corresponde a cada valor. Con esa información, se construyen barras separadas,
una para cada valor.
Gráfica de Puntos
En esta gráfica se identifica cada uno de los datos por un punto trazado sobre su
valor a lo largo de una recta numérica, de manera que se observa cada valor
individual. Si dos o más datos tienen el mismo valor se colocará un punto sobre otro
como se puede observar en la siguiente gráfica:
En estas gráficas se muestran la acumulación, variabilidad y la forma de la
distribución de los datos. También es útil para comparar dos muestras y aunque es
muy fácil de construirlo manualmente es recomendable usar un software cuando se
tienen muestras numerosas.
Gráfica de líneas
Se trata de una poligonal formada por segmentos de recta que unen una colección
de vértices. Cada vértice tiene como abscisa el valor o la categoría y su ordenada
es la frecuencia o el dato en el tiempo.
Histograma
Se usa principalmente para datos agrupados en intervalos. Se trata de un gráfico
de barras en el que la barras se colocan pegadas, una junto a la otra, pues cada
intervalo termina donde empieza el siguiente. Las alturas de las barras pueden ser
las frecuencias absolutas o relativas.
El ancho de los rectángulos corresponde al tamaño de los intervalos. Las bases de
las barras se encuentran centradas en el punto medio del intervalo, al que
llamaremos marca de clase.
Polígono de Frecuencias
Es un gráfico de líneas que se cierra para formar un polígono trazando segmentos
de recta que lo unen con el eje horizontal.
Se usan sobre todo en datos que se pueden agrupar en intervalos. Los vértices
tienen como abscisas las marcas de clase o puntos medios de los intervalos, y como
ordenadas las frecuencias correspondientes.
Se debe cerrar sobre el eje horizontal en dos puntos que corresponden a las marcas
de clase de dos intervalos ficticios a los que se les asigna una frecuencia cero, uno
anterior al primer intervalo real y el otro posterior al último intervalo real.
Ojiva
Consiste en una gráfica de líneas en la que la altura de los vértices corresponde a
las frecuencias acumuladas. Por ello, la gráfica es ascendente. Siempre empieza
en el eje horizontal.
Se usa en datos de cualquier variable que tenga frecuencias acumuladas.
Para datos no agrupados en intervalos, se trazan los puntos que corresponden a
los valores de la variable cuantitativa y la frecuencia acumulada (relativa o absoluta),
a continuación, se unen los puntos mediante segmentos de recta, el extremo
derecho no se une con el eje horizontal.
Para datos agrupados en intervalos, los vértices tienen como abscisa a las marcas
de clase de cada intervalo.
MEDIDAS ESTADÍSTICAS
Además de ordenar los datos en tablas de frecuencias y de representarlos a través
de gráficas, la exploración de los datos se enriquece calculando medidas
estadísticas que nos permitan contestar preguntas como:
Ejemplo.
Las alturas en metros de 8 estudiantes elegidos al azar en un grupo son:
1.68, 1.65, 1.66, 1.70, 1.72, 1.73, 1.65 y 1.64. Entonces, la estatura media es
Ejemplo
Para calcular la media de las calificaciones, es necesario recordar que lo que esta
tabla indica es que, de los 115 estudiantes de la muestra, 24 obtuvieron la
calificación 5, 18 estudiantes obtuvieron la calificación 6, 20 estudiantes obtuvieron
7 y así sucesivamente.
Por lo tanto,
Notación de sumatoria
El cálculo de la media aritmética, y el de otras medidas que veremos más adelante,
requiere sumas. Para dar una fórmula general conviene conocer una forma de
escribir brevemente una suma usando la letra griega sigma mayúscula, que
corresponde a la S de nuestro abecedario.
Por ejemplo:
Es decir, debajo de la sigma se pone el primer valor entero que toma la literal y
arriba el último valor entero que toma. Para desarrollar la sumatoria, en cada
sumando se sustituye la literal por uno de los valores enteros en el rango descrito.
Mediana
Se Identifica con las letras Mdn. Si los datos corresponden a una muestra, la
mediana se suele denotar por 𝑋̃.
Ejemplo 2:
Moda
Estas medidas estadísticas indican qué tan cercanos o alejados están los valores
que toma la variable de estudio.
a) Rango
rango de una colección de datos es el resultado de restar el valor máximo menos el
mínimo, y es un indicador de qué tan alejados están los datos entre sí.
Analicemos la dispersión de las siguientes colecciones de datos a través del rango.
Ahora buscamos una medida que indique qué tan lejos están los valores que toma
una variable de su media aritmética o promedio. En el siguiente dibujo, esas
distancias entre los valores y la media están representadas por las flechas sobre la
recta numérica.
Sin embargo, esto da lugar a un nuevo problema. Los valores que toma una variable
estadística tienen unidades. Por ejemplo, si la variable indica el diámetro de
taparroscas de plástico, sus valores están en mm. Pero al hacer los cálculos
anteriores, obtendríamos una medida dada en mm 2, lo que impide una adecuada
comparación de valores pues una es medida de longitud y la otra de área.