Estadistica Materia

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 49

DEFINICIONES

1.1. Elementos básicos de la estadística


La estadística está ligada con los métodos científicos en la toma, organización,
recopilación, presentación y análisis de datos, tanto para la deducción de
conclusiones como para tomar decisiones razonables de acuerdo con tales análisis.

Población

En general, en estadística se denomina población a un conjunto de elementos


(personas, objetos, etc.), que contienen una o más características observables que
se pueden medir.

A cada elemento de la población se denomina unidad elemental o unidad


estadística. El resultado de medir una característica observable en la unidad
elemental se denomina dato estadístico.

Muestra

Se denomina muestra a una parte de la población seleccionada de acuerdo con un


plan, con el fin de obtener información referente a la población de la que proviene.
La muestra debe ser seleccionada de tal manera de que sea representativa y, por
lo tanto, el método de selección de muestras debe garantizar la obtención de datos
fidedignos.

Parámetro

Es una medida descriptiva que resume una característica de la población, por


ejemplo, la media, la mediana, la varianza.

Estadístico

Llamado también estadígrafo, es una medida descriptiva que resume una


característica de una muestra y es calculada a partir de datos observados de una
muestra aleatoria.

Variables

Se llama variable estadística a una característica definida en la población por la


investigación estadística y que puede tomar dos o más valores.

Las variables pueden ser cualitativas y cuantitativas. La primera describe cualidades


mientras que la segunda describe cantidades. A su vez, la variable cuantitativa
puede ser continua o discreta; es continua cuando puede tener valores en un
intervalo, y es discreta cuando puede tomar exclusivamente valores exactos
(enteros).
Los datos que vienen definidos por una variable discreta o continua se llaman datos
discretos o datos continuos, respectivamente. En general, las medidas dan origen
a datos continuos, mientras que las enumeraciones o conteos originan datos
discretos.

1.2. Niveles o escalas de medición de las variables


Se denomina escala de medición a un instrumento de medida, con el que se asigna
valores a las unidades estadísticas para una variable definida.

Las escalas de medición son de los siguientes tipos:


• Variables nominales. No tienen un orden o jerarquía determinados.
Ejemplos: color, nacionalidad, religión, estado civil.

• Variables ordinales. Sí tienen un orden o jerarquía establecidos.


Ejemplos: clase social (alta, media, baja), estado de conservación (excelente, muy
bueno, bueno, regular, malo).

• Variables de nivel de intervalo. El cero es arbitrario y no representa la ausencia


de la variable.
Ejemplo: temperatura: 0 grados centígrados (no representa la ausencia de variable,
es decir, no significa que no haya temperatura).

• Variables de nivel de razón o proporción. El “0” sí representa la ausencia de


variable.
Ejemplos: dinero (0 dólares representa que no hay dinero); n.° de personas (0
personas representa la ausencia de personas).

1.3. Importancia del muestreo


En estadística, una muestra estadística (llamada también muestra aleatoria o
simplemente muestra) es un subconjunto de casos o individuos de una población
estadística.

Las muestras se obtienen con la intención de inferir propiedades de la totalidad de


la población, para lo cual deben ser representativas de la misma. Para cumplir esta
característica la inclusión de sujetos en la muestra debe seguir una técnica de
muestreo. En tales casos, puede obtenerse una información similar a la de un
estudio exhaustivo con mayor rapidez y menor coste abajo.

Por otra parte, en ocasiones, el muestreo puede ser más exacto que el estudio de
toda la población porque el manejo de un menor número de datos provoca también
menos errores en su manipulación. En cualquier caso, el conjunto de individuos de
la muestra son los sujetos realmente estudiados.

El muestreo es importante porque:


 Por lo general no se pueden estudiar a las poblaciones en su totalidad,
entonces estaremos obligados a hacer el muestreo.
 Es más rápido y económico para conocer los parámetros (características) de
interés de la población.
 Existe metodología clara y confiable para el muestreo (y tamaño de muestra).

DISTRIBUCIONES DE FRECEUNCIAS Y MEDIDAS DESCRIPTIVAS

2.1. Fuentes de información


En el proceso de cualquier investigación, la recolección de datos constituye el paso
fundamental para asegurarse la obtención de resultados idóneos, ya sea dentro de
una muestra o de una población.

La recolección de la información tiene que hacerse de acuerdo con una planificación


y esquematización de la investigación, caso contrario vamos a tener datos que no
son relevantes, repetitivos y excesivos, necesitamos organizar la información de tal
manera que pueda contribuir favorablemente al logro de los objetivos propuestos.

Con el panorama claro de las necesidades de información del proyecto, se deben


realizar las siguientes actividades:

 Instrumentos de medición o técnicas de recolección de información


 La aplicación de los instrumentos de medición
 La sistematización, codificación y estructura de la información

A continuación vamos a ver los diferentes instrumentos y técnicas que tenemos para
recolectar información.

¿Qué entendemos por técnicas de recolección de datos?

Podemos decir que son las herramientas con las que se cuenta para la recolección
de datos. Son los procedimientos especiales utilizados para obtener y evaluar las
evidencias necesarias, suficientes y competentes que permiten formar un juicio
profesional y objetivo; en resumen, podemos decir que son cualquier recurso que
recopile información referente a nuestro proyecto.

Clases o Formas de recolección de información

Tenemos diferentes clases de formas para recolectar información:

a) Verbales. Consisten en obtener la información de manera oral mediante


averiguaciones o indagaciones. Pueden ser entrevistas, encuestas y cuestionarios.

b) Oculares. Obtienen la información verificando visualmente en forma directa y


paralela cómo los responsables de cada proceso desarrollan o documentan los
procesos o variables evaluadas. Pueden ser: observación, comparación o
confrontación, revisión selectiva y rastreo.
c) Documentales. Obtienen información escrita para soportar afirmaciones,
análisis o estudios previos. Pueden ser: comprobación y revisión analítica.

d) Físicas. Reconocimiento real sobre hechos o situaciones dadas en tiempo y


espacio determinados y se emplean como técnica de la inspección.

e) Escritas. Reflejan toda la información que se considera importante para


sustentar los hallazgos del trabajo realizado.

f) De auditoría. Conducen a obtener información sobre el desarrollo de destrezas y


habilidades dentro de un proceso específico.

Instrumentos de recolección de información.

Ahora veamos algunos de los instrumentos que nos ayudan a obtener la


información.

 La observación
 La encuesta
 La entrevista

La observación

Es el registro visual de una situación real, estableciendo los acontecimientos de


acuerdo con algún esquema ya planificado.

La entrevista

Es la comunicación interpersonal establecida entre el investigador y el sujeto de


estudio, a fin de obtener respuestas verbales a las interrogantes planteadas sobre
el problema propuesto.

La encuesta

Es una búsqueda sistemática de información en la que el investigador pregunta a


los investigados sobre los datos que desea obtener y posteriormente reunir estos
datos.

Dada la utilidad, complejidad y clasificación que tiene la encuesta, nos vamos a


centrar en el estudio de la misma, además hay que mencionar que es una de las
más utilizadas para la recolección de información.

Características de una encuesta.

Algunas de las características de una encuesta son:

 Es una observación no directa de los hechos, sino por medio de lo que


manifiestan los interesados.
 Es un método preparado para la investigación.
 Permite una aplicación masiva que mediante un sistema de muestreo pueda
extenderse universalmente.

Clasificación de la encuesta.

La encuesta se puede clasificar en:

a) Exploratoria. Se usa cuando la información previa del fenómeno a estudiar es


escasa o poco fiable o es la primera toma de contacto con un fenómeno no muy
conocido.

Utilidad: - Desarrolla hipótesis de trabajo.


- Verificación factible de la investigación.

Estrategia: - Consulta a expertos o grupos de discusión.


- Revisión y análisis de datos disponibles en otras fuentes.

b) Descriptiva. Nos ayuda a definir la realidad, examinar un fenómeno para


caracterizarlo y/o para diferenciarlo de otros. Es el paso previo en cualquier
investigación mediante la encuesta (provoca los porqué de la investigación
explicativa).

Etapas

 Definición teórica del fenómeno a estudiar y selección/definición de las


variables
 Definir la población
 Seleccionar muestras representativas

c) Explicativa. Determina las relaciones causa y efecto entre los fenómenos. Es


imprescindible el control de las posibles explicaciones alternativas. Hay que
considerar todas las variables del fenómeno.

Tipos de variables

 Variables independientes: causa de la explicación


 Variables dependientes: efecto producido por las anteriores.
 Variables extrañas: ajenas al objeto de investigación pero pueden afectar las
variables explicativas.
 Variables controladas: bajo el control del investigador.
 Variables no controladas: aleatorias/perturbadoras.

d) Predictiva. Predice el funcionamiento de un fenómeno. Es necesario conocer la


explicación de los fenómenos antes de tratar de establecer una predicción de estos.

Diseño de la encuesta
El diseño del cuestionario constituye el elemento principal de la encuesta, por lo
tanto, su estructura es muy importante. Dado esto, tenemos que formular preguntas
directas y concretas, que abarquen la necesidad de información que el proyecto
requiere, de tal manera que en el momento de procesar toda esta información, esta
no sea insuficiente ni inconsistente.

Las preguntas que se van a formular se pueden clasificar, entre otras, de la siguiente
manera:

a) Pregunta cerrada. Se proporciona una serie de opciones donde se escoge una


como respuesta, tiene la ventaja de ser fácil de procesar.

b) Pregunta abierta. No se proporciona opciones, se puede responder con libertad,


tiene la ventaja de una mayor riqueza de respuestas pero es difícil de procesar.

c) Pregunta de profundización. Se utiliza para obtener una respuesta más amplia


y completa a una pregunta abierta.

d) Pregunta parcialmente estructurada. Puede tener dos o más opciones o ser


de tipo sí/no.
e) Pregunta de control. Es una pregunta que nos indica si el encuestado no está
mintiendo.

La estadística está ligada con los métodos científicos en la toma, organización,


recopilación, presentación y análisis de datos, tanto para la deducción de
conclusiones como para tomar decisiones razonables de acuerdo con tales análisis.

Características del cuestionario

• Interesante.
• Sencillo de entender.
• Preciso y claro en las preguntas.
• Ordenado.
• Debe tener un vocabulario adecuado.
• Debe tener espacio suficiente para respuestas.

Una vez que ya tengamos listos los apartados anteriores, procedemos a realizar
una prueba piloto o experimental, con el fin de identificar puntos críticos en los que
exista controversia en las respuestas, debido a una mala formulación de alguna(s)
pregunta(s), esta(s) se reformula(n) o en ciertos casos se elimina(n).

2.2. Distribuciones de frecuencia


Toda actividad que hagamos con un propósito investigativo, en el cual el resultado
sean varias mediciones, tiene más que simples números o valores en una hoja. Este
conjunto de datos puede ser organizado y tabulado. Se pueden realizar, entre otros
procesos, gráficos que nos ayudan a captar tendencias y a establecer modelos de
probabilidades. Lo que nos dice esto es que la organización de los datos es muy
importante para los procesos y análisis estadísticos.

Métodos de organización de datos

Existen muchas herramientas para describir y resumir un gran conjunto de datos.


Una de las más simples pero no menos importante es la ordenada, es decir ordenar
los datos de forma ascendente o descendente. Para ciertos propósitos, este orden
de los datos no es suficiente, y es cuando necesitamos otras herramientas o
métodos para organizarlos, de aquí tenemos los siguientes:

a) Distribuciones de frecuencias

Una distribución de frecuencias se puede tomar como una tabla donde los datos
están categorizados por filas y su ocurrencia o frecuencia en columnas, la finalidad
que tiene esta distribución es hacer más fácil la obtención de información de los
datos.

El número de veces que aparece un valor o la frecuencia con que aparece un valor
se llama frecuencia absoluta (fi), y la suma de estas frecuencias absolutas nos
tiene que dar como resultado el número de datos.

Al ordenar nuestros datos tomando en cuenta estas consideraciones, podemos


decir que hemos realizado una distribución de frecuencias o tabla de
frecuencias.

En la tabla n.° 01 se muestra un ejemplo de distribución de frecuencias del peso de


100 estudiantes de una universidad de Perú.

De acuerdo con esta tabla se pueden visualizar varias características que no


podríamos ver si los datos no estuvieran organizados y tabulados. La primera clase
comprende los pesos de los estudiantes que están entre 140 y 149 lb. En esta clase
hay ocho estudiantes, es decir, la frecuencia de esta clase es 8.
Un dato importante que hay que mencionar es que cada clase tiene un límite
inferior y un límite superior (por ejemplo la tercera clase 160-169 tiene como límite
superior a 169 y como límite inferior a 160). Podemos ver que estos valores son
exactos y más adelante notaremos su importancia, además es esencial que los
valores no se solapen de una clase a otra, esto puede causar mucha confusión.

Existen también los denominados límites reales o verdaderos de clase que se


obtienen sumando al límite superior de una clase 0,5 y restando al límite inferior del
misma clase 0,5. Cuando los límites de la clase se expresan con un decimal, la regla
nos indica que se debe sumar 0,05 al límite superior y restar el mismo valor al límite
inferior. Por ejemplo los límites reales de la cuarta clase de la tabla n.° 01 serían:
170-0,5 = 169,5 y 179+0,5 = 179,5.

El número de clases (o número de intervalos) de una tabla de frecuencias de


manera general debe tener entre 5 y 20 clases. Si tuviera pocas clases no se tendría
ningún detalle sobre los datos, de la misma manera si hubiera muchas clases se
crearía confusión.

El intervalo de clase son las divisiones o ancho de los valores que se encuentran
dentro de una clase. Para determinar este valor se resta el límite superior menos el
límite inferior. Lo mejor es hacer iguales los intervalos de clase de una distribución
de frecuencias, de esta manera podemos facilitar la interpretación estadística.

El intervalo de clase se determina con la siguiente expresión:

Otro elemento necesario para una tabla de distribución de frecuencias es establecer


un punto medio o marca de clase, que es el punto medio del intervalo de clase. Este se
determina sumando el límite inferior con el límite superior y se divide por dos, por ejemplo,
para la quinta clase de la tabla n.° 01, la marca de clase o punto medio sería:

b) Distribuciones de frecuencias acumuladas

Se conoce como frecuencia acumulada (Fi) a la suma de las frecuencias menores


que el límite real superior de la clase de un intervalo de clase, también podemos
decir que es la suma de todas las fi hasta el intervalo requerido. Por ejemplo, la
frecuencia acumulada hasta el intervalo de clase 170-179 de la tabla n.° 01
es: 8+15+46+22 = 91.
Una tabla que represente estas frecuencias acumuladas se llama distribución de
frecuencias acumuladas, tabla de frecuencias acumuladas o brevemente
distribución acumulada.

Es importante mencionar que el proceso de acumulación puede basarse en “o más”


o “menor que”, todo dependerá de lo requerido.

c) Distribuciones de frecuencias relativas

La frecuencia relativa (fr) se determina dividiendo cada frecuencia absoluta para el


número de datos. Por ejemplo, en la tabla n.° 01, la frecuencia absoluta de la tercera
clase es 46, este valor se lo divide para el número de datos que en este caso es
100, dándonos como resultado 0.46 que es la frecuencia relativa.

Es importante mencionar que la suma de estas frecuencias siempre dará 1, o


también expresado en porcentaje la suma será del 100 %.

Si las frecuencias en la anterior tabla de frecuencias se sustituyen por las


correspondientes frecuencias relativas, la tabla resultante se llama distribución de
frecuencias relativas, distribución porcentual o tabla de frecuencias relativas.

d) Distribuciones de frecuencias relativas acumuladas

Una distribución de frecuencias relativas acumuladas (Hi) es la división de cada una


de las frecuencias acumuladas para el total de datos. Por ejemplo, en la tabla n.°
01 la frecuencia acumulada de la cuarta clase es 91, esto dividido para el número
de datos que es 100 nos da 0.0091, dato que nos indica frecuencia relativa
acumulada.

El proceso de acumulación igual que en las distribuciones de frecuencia también se


basa en un principio “o más” o “menor que”.

Ejemplo n.° 01

La siguiente tabla representa la distribución de frecuencias para los gastos


semanales de 80 trabajadoras de una compañía de fabricación de pantalones en la
ciudad de Ambato.
Elaborar una tabla de frecuencias acumuladas, frecuencias relativas y relativas
acumuladas. Adicionalmente, incluir el valor de la marca de clase.

Desarrollo

Utilizando los conceptos revisados, calculamos lo solicitado (se puede hacer


manualmente o utilizando una hoja de cálculo, en la cual, hay que tomar en cuenta
la codificación de las fórmulas en cada celda).

Ejemplo n.° 02

La siguiente tabla representa la distribución de frecuencias para los valores pagados


por horas extras de 70 trabajadores del área de Limpieza de la Universidad
Internacional.

Elaborar una tabla de frecuencias acumuladas con criterio “menor que” y “o más”.

Desarrollo

Utilizando los contenidos estudiados, se sabe que se debe tomar en cuenta el límite
inferior de cada intervalo de clase.
1. Criterio “menor que”

2. Criterio “o más”

e) Tablas de contingencias

La tabla de contingencia es una tabla que nos da el número de las observaciones


en diferentes variables; es decir, tenemos varias variables con varias categorías a
la vez. Con esto podemos determinar si dos características están relacionadas y de
qué manera lo están.

La tabla n.° 02 muestra una tabla de contingencia en donde se evalúan dos


variables: sexo y voto de 92 electores seleccionados de manera aleatoria.
La columna y fila general representan los totales por columna y por fila
respectivamente.

2.3. Gráficos estadísticos


Las visualizaciones gráficas son una manera muy práctica de describir un conjunto
de datos mediante la cual se puede adquirir enseguida una comprensión suficiente
de los mismos. Entre estos podemos mencionar: gráfico circular, gráfico de barras,
histograma, polígono de frecuencia y ojivas.

Gráfico circular

Presenta los datos en forma de círculo o tarta y de ahí que se lo llama también
gráfico de pastel. El círculo que lo describe se encuentra dividido en segmentos en
donde cada área de cada uno de los segmentos es proporcional al número de casos
en esa categoría. De manera general, se usan porcentajes para cada categoría.
Una muestra de cómo se ve el gráfico de pastel se presenta en el gráfico n.° 01.

Gráfico de barras

Otra manera de representar los datos es mediante el llamando gráfico de barras


que consiste en exhibir los datos mediante un número de rectángulos, del mismo
ancho, en donde cada uno de ellos representa una categoría particular. La longitud
(y por lo tanto el área) de cada rectángulo es proporcional al número de casos en la
categoría que representa. Se usa de manera general para datos cualitativos. Una
muestra de cómo se ve el gráfico de barras se presenta en el gráfico n.° 02.

Histograma

Es un método útil y muy corriente de visualizar datos. Coloca las clases de una
distribución de frecuencias en el eje horizontal y las frecuencias en el eje vertical.
Representa los datos de manera similar que el diagrama de barras, es decir, que el
área de cada barra rectangular es proporcional a la frecuencia de la clase. Se usa
para datos cuantitativos.

Una muestra de cómo se ve el histograma se presenta en los gráficos n.° 03 y 04.


Polígono de frecuencias

Es un gráfico de línea trazado sobre las marcas de clase. Puede obtenerse uniendo
los puntos medios de los techos de los rectángulos en el histograma.

Una muestra de cómo se ve el polígono de frecuencias se presenta en los gráficos


n.° 05 y 06.
Ojivas

Es un gráfico de línea que representa frecuencias acumuladas. En el eje horizontal


se muestra el límite superior de cada clase.
Una muestra de cómo se ve el polígono de frecuencias se presenta en los gráficos
n.° 07 y 08.

2.4. Medidas descriptivas


Es importante saber que los datos recolectados para un estudio estadístico no son
generalmente constantes, es necesario ver una medida que nos indique la
variabilidad de estos datos y nos dé una referencia sobre alrededor de qué valor
fluctúan. Por otro lado, también es necesario conocer la simetría y la forma en la
que los datos tienden a agruparse.
Las medidas que permiten esto son las llamadas medidas descriptivas y usualmente
se encuadran en los siguientes cuatro tipos:

• Medidas de posición (o de tendencia central)


• Medidas de dispersión
• Medidas de simetría (sesgo)
• Medidas de forma (curtosis)

Medidas de tendencia central

Los estadísticos de ubicación o de tendencia central (también llamados promedios)


proporcionan una estimación de la puntuación típica, común o normal encontrada
en una distribución de puntuaciones en bruto.
Es muy importante que a más de saber calcular las medidas de tendencia central,
se pueda dar una interpretación correcta de la información que estas proporcionan.

Una primera medida es la media poblacional, que es la suma de todos los valores
observados en la población divididos por el número de datos en la población.
La media muestral es la suma de todos los valores de la muestra divididos por el
número de datos en la muestra.

Si analizamos las propiedades de la media aritmética, se destaca que es única y


que su cálculo incluye todos los datos de la muestra. Por esto, es la medida de
tendencia central más utilizada; sin embargo, el valor de la media aritmética se ve
afectado por la presencia de uno o más valores sumamente grandes o pequeños
(valores extremos). En tales casos, la medida de tendencia central más
representativa es la mediana. La media ponderada es un caso especial de la
media aritmética.

Otra medida de tendencia central que es utilizada es la media geométrica, que


resulta útil para determinar el cambio promedio de porcentajes, razones, índices o
tasas de crecimiento. La media geométrica es la raíz enésima del producto de n
datos.

La mediana es el punto medio de los valores una vez que se han ordenado de
menor a mayor. Si el número de datos es par, la mediana es la media aritmética de
los dos valores centrales. Si el número de datos es impar, la mediana es el único
dato central. Las principales propiedades de la mediana son que no es influida por
la presencia de valores extremos y que es calculable en el caso da datos de nivel
ordinal o más altos.

La moda es el dato que aparece con mayor frecuencia. En una distribución puede
haber una o más modas o no haber ninguna. La moda puede determinarse para
todos los niveles de datos y tiene la ventaja de que no influyen en ella los valores
extremos. Sin embargo, se usa menos que la media o la mediana, ya que en muchos
casos no hay moda o hay más de una.
Si Media = Mediana = Moda, la distribución es simétrica. Si Media > Mediana >
Moda, la distribución no es simétrica y tiene sesgo positivo. Si Moda > Mediana
>Media, la distribución no es simétrica y tiene sesgo negativo.

Ejemplo
Con los siguientes datos: 8, 2, 3, 5, 4, 2, 6, 3, 1, 3, 13, 4, calcular la media aritmética,
la media geométrica, la mediana y la moda. Indicar además si hay un valor extremo
y cuál es el tipo de sesgo de la distribución.

1) Media aritmética:

3) Mediana: Para determinar la mediana ordenar los datos: 1,2,2,3,3,3,4,4,5,6,8,13

Como n= 12 es par, la mediana es la media de las dos puntuaciones centrales es


decir mediana = (3+4)/2 = 3.5

4) Moda = 3 (el valor con la frecuencia mayor)

5) Valor extremo: 13 (claramente separado de los demás valores)

6) Tipo de sesgo: Media > Mediana > Moda sesgo positivo o a la derecha

Para datos agrupados en una distribución de frecuencias, en el cálculo de la media


aritmética intervienen el producto de la frecuencia y el punto medio de cada intervalo
de clase.

Las ecuaciones que se utilizarán para este tipo de datos serán;

Media aritmética
Donde:
= límite inferior de la clase de la mediana
= frecuencia acumulada de la clase anterior a la clase de la mediana.

= frecuencia de la clase que contiene a la mediana

Moda

Se la puede aproximar por el punto medio de la clase modal.

Un valor más preciso se obtiene aplicando la siguiente fórmula:


Donde:

= límite inferior de la clase modal


= (frecuencia de la clase modal) – (frecuencia de la clase que le antecede)
= (frecuencia de la clase modal) - (frecuencia de la clase que le sigue)
= es el ancho del intervalo de clase.

Medidas de dispersión

Una medida de ubicación, como la media o la mediana, solo describe el centro de


los datos pero no dice nada sobre la dispersión de los datos. Por eso son necesarias
las medidas de dispersión.

Una medida de dispersión pequeña indica que los datos se acumulan con
proximidad alrededor de la media aritmética mientras que una medida de dispersión
grande indica que hay uno o varios datos alejados de la media aritmética.

Amplitud de variación o rango.

El rango es la medida de dispersión más simple, la amplitud de variación o rango


(AV), es la diferencia entre el valor máximo y mínimo de un conjunto de datos. Es
muy fácil de calcular y entender, sin embargo, es una medida de dispersión que da
una información limitada ya que solo toma en cuenta dos valores (el máximo y el
mínimo) de la distribución.

AV = límite superior de la clase más alta – límite inferior de la clase más baja

Ejemplo:

Dado el conjunto de datos, 1, 2, 4, 6, 7 y 9, encontrar el rango.

De los datos, 1, 2, 4, 6, 7 y 9, el valor menor es el 1, y el valor mayor es el 9,


aplicando la fórmula:

AV = valor máximo – valor mínimo

AV = 9 – 1

AV = 8

La Varianza y desviación estándar

La varianza y la desviación estándar son medidas de dispersión, es decir, indican


la dispersión o separación de los datos. Hay que tener en cuenta que las fórmulas
de la varianza y la desviación estándar son diferentes para una muestra que para
una población.
Podemos hablar de una varianza poblacional y de una varianza muestral, la
diferencia principal es que en la varianza poblacional, el numerador se divide para
N (tamaño de poblacional) y en la varianza muestral para n-1 (donde n es el
tamaño muestral) ya que se debe compensar el hecho de que la distribución
muestral tiene menor dispersión que la distribución poblacional.

Ejemplo

Calcular la desviación estándar de los siguientes datos considerando que son datos
a) de un población y b) de una muestra.

458796
b) Para la desviación estándar muestral, el cálculo de la sumatoria es el mismo solo que
en lugar de µ se usa X .̅

La
desviación estándar es una medida de dispersión más adecuada que el rango ya
que en su cálculo entran todos los datos. Esta medida se utiliza normalmente para
comparar la dispersión de dos o más conjuntos de datos.

Para datos agrupados en una distribución de frecuencias, la desviación estándar


toma en cuenta también la frecuencia de cada clase, como se muestra en las
ecuaciones a continuación.

Desviación estándar
Ejemplo

Determinar la varianza y desviación estándar de un grupo de niños a partir de la


siguiente muestra:
Medidas de sesgo y curtosis

Aparte de las medidas de tendencia central y de dispersión, otra característica de


un conjunto de datos es la forma. Hay cuatro formas: simétrica, con sesgo positivo,
con sesgo negativo y bimodal. En un conjunto simétrico media, mediana y moda
son iguales y los valores de los datos se dispersan uniformemente en torno a estos
valores. Un conjunto de valores se encuentra sesgado a la derecha o positivamente
sesgado si existe un solo pico y los valores se extienden mucho más allá a la
derecha del pico que a la izquierda de este.

En una distribución sesgada a la izquierda o negativamente sesgada existe un solo


pico pero las observaciones se extienden más a la izquierda, en dirección negativa
(gráfico n.° 01).

La medida más sencilla para calcular el sesgo es el coeficiente de sesgo o


asimetría de Pearson (As), se calcula mediante las siguientes fórmulas
dependiendo que datos tenemos:
La curtosis mide cuan puntiaguda es una distribución en general en referencia a
la distribución normal. Existen algunas variables que presentan un mayor grado de
concentración (menor dispersión) de los valores en torno a su media y otras, por el
contrario, presentan un menor grado de concentración (mayor dispersión) de sus
valores en torno a su valor central.

Si tiene un pico alto (mayor concentración), se dice leptocúrtica, mientras que si es


aplastada (menor concentración) se dice platicúrtica. La distribución normal, que
no es ni muy puntiaguda ni muy aplastada, se llama mesocúrtica.

De acuerdo al tipo de datos que tenemos (agrupados o no agrupados) se calcula


con las fórmulas siguientes:

Para datos no agrupados:


n = Tamaño de la muestra

mX = marca de clase

= media muestral

f = frecuencia

El exceso de curtosis o llamado también coeficiente de Fisher sirve para comparar


la distribución en estudio con la distribución normal.

Para datos agrupados como para no agrupados el exceso de curtosis (K), se


determina de la siguiente manera:
Ejemplo

Considerando los siguientes datos, calcular el coeficiente de curtosis e indicar el


tipo de curtosis. 2 3 4 4 5 6

Si el coeficiente es mayor a 3, la forma


es leptocúrtica. Si es igual a 3, la forma es mesocúrtica y si es menor a 3, la forma es
platicúrtica (gráfico n.° 02).

La curva es platicúrtica.

Medidas de Posición - Cuartiles, deciles y centiles

Los Cuantiles (cuartiles, deciles, percentiles) son medidas de localización, nos da


la posición de la variable (en porcentaje) que nos interese respecto de todo el
conjunto de variables. Podemos decir que son medidas de posición las cuales
dividen a la distribución en un cierto número de partes de manera que en cada una
de ellas hay el mismo número de valores de la variable.
Para Datos no agrupados

CUARTILES

Dividen a la distribución en cuatro partes iguales, es decir tiene tres divisiones, Q1,
Q2, y Q3, que corresponden al 25%, 50%, 75%.

La fórmula que se utiliza para su cálculo es:

Ejemplo

Ordenamos los números para seleccionar el lugar correspondiente a los cuartiles


pedidos.
DECILES

Dividen a la distribución en 10 partes iguales, es decir nueve divisiones, D1, D2,


D3,……,D9, que corresponden al 10%, 20%, 30%,.....,90%

La fórmula que se utiliza para su cálculo es:

Ejemplo

Se tiene las notas finales de 20 estudiantes, 5, 5, 8, 7, 9, 10, 7, 6, 8, 7, 8, 9, 10, 10,


8, 7, 6, 5, 9, 6. Calcular el , ,
Ordenamos los números para seleccionar el lugar correspondiente a los deciles
pedidos.

PERCENTILES

Dividen a la distribución en 100 partes iguales, es decir en 99 divisiones, P1, p2,


p3,…...,P99, que corresponden al 1%, 2%, 3%,…....,99%.

La fórmula que se utiliza para su cálculo es:


Para Datos agrupados

CUARTILES

Primero se determina la posición en una distribución de frecuencias con la


siguiente fórmula
DECILES

Primero se determina la posición en una distribución de frecuencias con la


siguiente fórmula
2.5 Teoría de probabilidades
En la naturaleza y en la vida cotidiana se presentan fenómenos cuyo resultado se
lo da anticipadamente a través de la aplicación de leyes o fórmulas, sin embargo,
existen otros cuyo resultado no puede ser anticipado con certeza, sino que existe
una probabilidad de que un cierto resultado se dé. Para dar una explicación
matemática a aquellos resultados que podrían aparecer se desarrolló lo que se
llama Teoría de la Probabilidad.

En general, la probabilidad es la posibilidad de que algo pase. Es decir, una


probabilidad provee una descripción cuantitativa de la posibilidad de ocurrencia de
un evento particular y se puede pensar que es su frecuencia relativa en una serie
larga de repeticiones de una prueba, en la que uno de los resultados es el evento
de interés.

Terminología

Para una mejor comprensión, se utilizan ciertas definiciones generales:

1. Experimento: Es un proceso que genera un conjunto de datos, ya sean


estos cualitativos o cuantitativos, en su mayoría los resultados dependen
del azar, siendo imposible pronosticar con exactitud.

Ejemplos:

 Registrar el tiempo de los competidores en una carrera


 Medir los cambios en la bolsa de valores
 Lanzar un dado

1. Evento: Son todos los resultados posibles de un experimento u otra


situación que genere incertidumbre. Podemos clasificar los eventos dos
tipos:

Los elementales (aquellos que constan de un solo resultado)

Los compuestos (que consisten en dos o más resultados)

Ejemplo:

Al lanzar un dado, el evento “sale uno” es un evento elemental porque es un único


evento posible; mientras que el evento “sale impar” es un evento compuesto
porque está formado de los eventos elementales “sale uno”, “sale tres” y “sale
cinco”.

Debemos indicar que dos eventos son mutuamente excluyentes si cuando


ocurre un evento los otros no pueden ocurrir y viceversa. Por ejemplo, al lanzar
una moneda al aire, si cae y “sale cruz” ya no puede darse el evento “sale cara”.
1. Espacio Muestral: Es el conjunto de todos los resultados posibles de un
experimento, se le identifica con el simbolo Ω.

Ejemplos:

En el experimento: Lanzar la moneda, el espacio muestral sería: evento “cae


cruz” y evento “cae cara”.

En el experimento: Registre el tipo de sangre de una persona. El espacio


muestral está formado por cuatro eventos, los mismo que son mutuamente
excluyentes: “sangre tipo A”, “sangre tipo B”, “sangre tipo AB”, “sangre tipo O”.

Clasificación de la Probabilidad

Podríamos clasificar a la probabilidad de diferentes maneras, nosotros veremos


tres formas básicas:

Probabilidad clásica de Laplace, A Priori o Teórica: Supone que todos los eventos
tienen la misma probabilidad de ocurrencia, supóngase un suceso E, que de un
total de n casos posibles, todos igualmente posibles, puede presentarse en h de
los casos. Entonces la probabilidad de aparición del suceso (es decir la
probabilidad de ocurrencia) viene dada por:

La probabilidad de NO aparición del suceso (llamada no ocurrencia del suceso o no

probabilidad) viene dada por:

Ejemplo:

Si se lanza al aire una moneda equilibrada, cuál será la probabilidad de que se


obtenga una cruz o cara:

Regla general de la adición Probabilidad Empírica, A Posteriori, Experimental o de


frecuencia relativa: La definición anterior de probabilidad tiene el inconveniente que las
palabras “igualmente posibles” son poco concretas generando un efecto circular porque
se define a la probabilidad en términos de ella misma. Se ha generado entonces una
definición con mucho más rigor en donde la probabilidad empírica de un suceso se
toma como la frecuencia relativa de la aparición del suceso, cuando el número de
observaciones es muy grande. La probabilidad por sí mismo es el límite de la frecuencia
relativa cuando el número de observaciones crece indefinidamente.
A pesar de ser práctica, esta definición tiene problemas desde el punto de vista
matemático ya que no puede existir un número límite generándose una moderna
teoría de probabilidades en donde la probabilidad es un concepto NO definido como
ocurre con el punto y la línea en geometría.

Ejemplo:

Suponga que en un experimento se realizan 1000 ensayos y se produjo un evento


E en 200 ocasiones. ¿Cuál es la probabilidad de que en un ensayo cualquiera se
produzca el evento E?

R: P(E) =200/1000 = 1/5 = 0.20

1. Probabilidad subjetiva: Está basado en las creencias de las personas que


efectúan la estimación de la probabilidad definiéndose como la probabilidad
asignada a un evento por parte de un individuo, basada en la evidencia que
tenga disponible.

La probabilidad subjetiva se utiliza más frecuentemente en situaciones normales y


no tanto es situaciones serias o profesionales, como podría ser un análisis de datos
o para tomar una decisión en una empresa, sino que es usada en cosas de la vida
cotidiana que no tienen una trascendencia muy importante.

Ejemplo:

Si alguien dice “Creo que hay un 90% de posibilidades de que empiece a llover
antes en la tarde”, estará dando un ejemplo de probabilidad subjetiva.

Reglas de probabilidad

 Regla especial de adición

Se aplica cuando los eventos son mutuamente excluyentes o disjuntos

Para dos eventos A, B: P(A o B) = P(A) + P(B)

Para tres eventos A, B, C : P(A o B o C) = P(A) + P(B) + P(C)

En el ejemplo de las 3 bolas rojas, 2 blancas y 5 azules, calcular la probabilidad de


que al sacar una bola de la urna esta sea:

1. a) Roja o Blanca: P(roja o blanca) = P(roja) +P(blanca) = 3/10 + 2/10 = ½


2. b) Blanca o azul: P(blanca o azul) =P(blanca) + P(azul) = 2/10 + 5/10 = 7/10

Se aplica para calcular la probabilidad de ocurrencia de uno u otro evento que no


sean mutuamente excluyentes. (la fórmula es válida también para eventos
mutuamente excluyentes dado que P(A y B) = 0 )

Para los eventos A, B: P(A o B) = P(A) + P(B) – P(A y B)

Ejemplo: Un estudiante está tomando Algebra y Castellano, si la probabilidad de


que apruebe algebra es 0.75, la de que apruebe Castellano es 0.90 y la
probabilidad de que apruebe Algebra y Castellano es 0.70. Se pregunta cuál es la
probabilidad de que apruebe Algebra o Castellano.

P(A o C) = P(A) + P(C) – P(A y C)

= 0.75 + 0.90 - 0.70 = 0.95

Para resolver estos problemas debe realizar un diagrama de Venn como el de la


figura.

 Regla especial de la multiplicación

Se aplica para calcular la probabilidad conjunta de ocurrencia de eventos


independientes.

Para dos eventos A y B: P(A y B) = P(A) P(B)

Para tres eventos A, B y C: P(A y B y C) = P(A) P(B) P(C)

Ejemplo: Se lanza un dado por dos ocasiones, ¿cuál es la probabilidad de que en


los dos lanzamientos caiga en 3?

P(3, 3) = P(3) P(3) = (1/6) (1/6) = 1/36

Obsérvese que el resultado del segundo lanzamiento es independiente


del primero

 Probabilidad condicional
Es la probabilidad de que ocurra un evento B, dado que ya ocurrió un evento A.
o también la probabilidad de que ocurra un evento A dado que ya ocurrió el evento
B. Esto se escribe:

Si se cumple que los eventos o sucesos A y B son estadísticamente


independientes

 Regla general de la multiplicación

Se aplica para calcular la probabilidad conjunta de eventos dependientes, es


decir, cuando la ocurrencia de uno de ellos está condicionada a la ocurrencia del
otro.

P(A y B) = P(A) P(B/A) o también P(A y B) = P(B) P(A/B)

Estas fórmulas y las de la probabilidad condicional están relacionadas, ya que las


unas se obtienen de las otras mediante despejes.

Tomemos el ejemplo de las 3 bolas rojas, 2 blancas y 5 azules y supongamos que


se desea calcular la probabilidad de que al sacar una bola y luego otra, la primera
sea roja y la segunda blanca:

Obsérvese que la probabilidad de que la primera vez salga roja es 3 /10, pero al
haber sacado una roja ahora nos quedan en total 9 bolas, de las cuales 2 son
blancas.

Calculemos ahora la probabilidad de sacar una bola roja y una azul:

Como no se indica el orden tendremos que:

Tabla de contingencia o matriz de probabilidad

Los problemas de probabilidades se resuelven fácilmente usando una tabla de


contingencia o matriz de probabilidad, en ella se pueden leer las probabilidades a
priori y las probabilidades conjuntas o de intersección. Además, permite calcular
fácilmente las probabilidades de la unión de eventos y las condicionales, tal como
se ilustra a continuación.

Ejemplo: El personal que labora en una empresa está formado por hombres y
mujeres que trabajan en las siguientes secciones: Gerencia, Profesional y Técnica,
cuyos datos se resumen en la siguiente tabla:

Complete esta tabla de contingencia y luego suponiendo que se elige al azar un


empleado calcule las siguientes probabilidades.

1. a) La probabilidad de que sea mujer.


2. b) La probabilidad de que sea hombre y trabaje en la sección técnica
3. c) La probabilidad de que trabaje en Gerencia o en la sección profesional
4. d) La probabilidad de que trabaje en gerencia, dado que sea mujer.
5. e) La probabilidad de que sea hombre dado que trabaje en la Sección técnica.

Solución:

A la tabla de los datos le añadimos una fila y una columna para los totales parciales
de las filas y de las columnas. En la celda del extremo inferior derecho se coloca el
total horizontal y vertical.

1. a) P(Mujer) = 54/136
2. b) P(Hombre y Técnica) = 50/136
3. c) P(Gerencia o Profesional) = P(Gerencia) + P(Profesional) = 11/136 +
40/136 = 51/136
4. d) P(Gerencia/ Mujer) = 3/54 En la columna de MUJER vemos que 3 de las
54 trabajan en También se puede aplicar la fórmula de la probabilidad
condicional.

1.
e) P(Hombre/ Técnica) = 50/85 En la fila TECNICA se ve que 50 de los 85
técnicos son hombres.

Aplicando la fórmula:

2.6 Teorema de Bayes y diagramas de árbol


Teorema de Bayes

El teorema de Bayes se utiliza para calcular la probabilidad de un evento, teniendo


previamente información sobre ese evento.

Podemos calcular la probabilidad de un evento A, sabiendo además que ese A


cumple cierta característica que condiciona su probabilidad. El teorema de Bayes
entiende la probabilidad de forma inversa al teorema de la probabilidad total. El
teorema de la probabilidad total hace inferencia sobre un suceso B, a partir de los
resultados de los sucesos A. Por su parte, Bayes calcula la probabilidad de A
condicionado a B.

Para poder aplicar el teorema de Bayes correctamente tenemos que estar seguro
de que los eventos son mutuamente excluyentes y colectivamente exhaustivos.

La fórmula de la forma simple del teorema que se aplica es la siguiente:


Dónde:

 A y B son eventos, además: P(B) ≠ 0.


 P(A/B): es la probabilidad de que ocurra A, dado que ha ocurrido B.
 P(B/A): es la probabilidad de que ocurra B, dado que ha ocurrido A.
 P(A): es la probabilidad de que ocurra A.
 P(B): es la probabilidad de que ocurra B

Ejemplo

En la universidad, la probabilidad de que a un alumno escogido al azar pase


estadística es el 60 %, mientras que la probabilidad de que pase álgebra es del 36
%. Además, se sabe que la probabilidad de que pase álgebra dado que pase
estadística es del 40 %. Calcular la probabilidad de que a un alumno pase
estadística dado que pase álgebra.

Primero definimos los 2 eventos con los que vamos a trabajar y los datos que
tenemos:

 E: que un alumno pase estadística.


 A: que un alumno pase álgebra.
 P(E) = 0,6.
 P(A) = 0,36.
 P(A/E) = 0,4.

Nos piden calcular P(E/A).

Aplicamos el teorema de Bayes:

Entonces, la probabilidad de que un alumno pase estadística dado que pase


álgebra es de 66,67 %.

Diagrama de árbol
Un diagrama de árbol es una herramienta que se utiliza para determinar todos los
posibles resultados de un experimento aleatorio (su uso es más característico en
el Teorema de Bayes).

El diagrama de árbol es una representación gráfica de los posibles resultados del


experimento, el cual consta de una serie de pasos, donde cada uno de estos tiene
un número finito de maneras de ser llevado a cabo.

Para la construcción de un diagrama en árbol se partirá poniendo una rama para


cada una de las posibilidades, acompañada de su probabilidad. Cada una de
estas ramas se conoce como rama de primera generación.

En el final de cada rama de primera generación se constituye a su vez, un nudo


del cual parten nuevas ramas conocidas como ramas de segunda generación,
según las posibilidades del siguiente paso, salvo si el nudo representa un posible
final del experimentó (nudo final).

Hay que tener en cuenta que la construcción de un árbol no depende de tener el


mismo número de ramas de segunda generación, estas salen de cada rama de
primera generación y la suma de probabilidades de las ramas de cada nudo debe
ser 1.

Existe un principio sencillo de los diagramas de árbol que hace que éstos sean
mucho más útiles para los cálculos rápidos de probabilidad: multiplicamos las
probabilidades si se trata de ramas adyacentes (contiguas).

Ejemplos

Una universidad está formada por tres facultades:

 La 1ª con el 50% de estudiantes.


 La 2ª con el 25% de estudiantes.
 La 3ª con el 25% de estudiantes.

Las mujeres están repartidas uniformemente, siendo un 60% del total en cada
facultad.
¿Probabilidad de encontrar una alumna de la primera facultad?

¿Probabilidad de encontrar un alumno varón?

Pero también podría ser lo contrario.

2.7 Técnicas de conteo


Las técnicas de conteo son aquellas que son usadas para enumerar eventos
difíciles de cuantificar. Son utilizados de manera común en probabilidades.

1.- Fórmula de la multiplicación: Si hay m formas de realizar una cosa


y n formas de hacer otra, habrán mxn formas de realizar ambas en conjunto. Esta
regla se extiende a 3, 4 o más acciones.

Ejemplo: Un joven tiene 3 pares de zapatos, 4 pantalones y 5 camisas. ¿De


cuantas maneras puede vestirse?

N = 3x4x5 = 60 (puede vestirse de 60 formas)

Ejemplo: ¿De cuantas maneras puede usted colocar 4 libros en un estante?

El libro que va a colocar en primer lugar puede elegir de 4 maneras, le quedan 3


libros, entonces el que va a colocar en la segunda posición puede elegirse de 3
maneras; le quedan 2 para la tercera posición; y una vez colocado el tercero le
queda 1 para la cuarta posición; es decir: No. de formas = 4x3x2x1 = 24 = 4!

2.- Permutaciones: Nos da el número de arreglos de r objetos


tomados de un grupo de n objetos. Un arreglo se diferenciará de otro por el orden
de sus elementos, por ejemplo ab y ba son diferentes, pocas palabras una
permutación es una combinación ordenada.

Ejemplo: Cuantos números de 2 cifras se pueden escribir usando los dígitos 1, 2 y


3 bajo la condición de que no haya dígitos repetidos.

Los números de dos cifras construidos con los dígitos 1, 2 y 3 son efectivamente
6, tal como usted puede ver:

12 13 21 23 31 32

3.- Combinaciones:

Las combinaciones son arreglos de r objetos tomados de un grupo de n objetos,


donde no importa el orden de ellos.
Ejemplo: Con los dígitos 1, 2 y 3, cuantas sumas diferentes se puede tener,
tomando dos a dos, bajo la condición de que no haya dígitos repetidos.

Observe que en este caso no importa el orden porque por ejemplo las sumas 1+2 y
2+1 son las mismas, entonces el número de sumas distintas son:

Ejemplo: ¿Cuantas combinaciones de dos letras se pueden formar con las letras
A, B, C y D?

Estas combinaciones son: AB AC AD BC BD y CD.

Obsérvese que como combinación AB y BA es la misma, pero no como


permutación.

Importante.

 Si el orden no importa, es una combinación.


 Si el orden sí importa es una permutación.

También podría gustarte