Material Estudio Estadística
Material Estudio Estadística
Material Estudio Estadística
Definición de estadística
"La estadística es una técnica especial apta para el estudio cuantitativo de los
fenómenos de masa o colectivo, cuya mediación requiere una masa de
observaciones de otros fenómenos más simples llamados individuales o
particulares". (Gini, 1953).
Murray R. Spiegel, (1991) dice: "La estadística estudia los métodos científicos para
recoger, organizar, resumir y analizar datos, así como para sacar conclusiones
válidas y tomar decisiones razonables basadas en tal análisis.
Estadística es una ciencia que proporciona un conjunto de métodos que se utilizan
para recolectar, resumir, clasificar, analizar e interpretar el comportamiento de los
datos con respecto a una característica, materia de estudio o investigación. En
primera instancia se encarga de obtener información, describirla y luego usa esta
información a fin de predecir algo respecto a la fuente de información. (Moya
Calderón, Rufino).
La estadística es el arte de aprender a partir de los datos. Está relacionada con la
recopilación de datos, su descripción subsiguiente y su análisis, lo que nos lleva a
extraer conclusiones. (M. Ross, Sheldon).
Cualquiera sea el punto de vista, lo fundamental es la importancia científica que
tiene la estadística, debido al gran campo de aplicación que posee.
Clasificación
Podemos definir la Estadística Descriptiva como un método para describir
numéricamente conjuntos numerosos. (Vargas Sabadías, Antonio. 1995).
Por tratarse de un método de descripción numérica, la estadística descriptiva utiliza
el número como medio para describir un conjunto, que debe ser numeroso, ya que
las permanencias estadísticas no se dan en los casos raros. No es posible, por
tanto, sacar conclusiones concretas y precisas de los datos estadísticos. La
Estadística Descriptiva trata sobre el análisis y presentación de la información, luego
de su recolección, se elabora cuadros estadísticos, gráficos y algunos cálculos.
La estadística inferencial tiene como función generalizar los resultados de
la muestra para estimar las características de la población. No obstante, el conjunto
de datos muestrales puede describirse o analizarse de la misma forma que una
población. Por lo tanto, el conjunto de datos u observaciones de una muestra puede
utilizarse en un doble sentido: primero, para describir el propio conjunto de
observaciones y, segundo, para inferir o predecir lo que ocurre en la población.
(Spagni De Barletta; 2005)
En consecuencia, la fase descriptiva es común a cualquier conjunto de
observaciones o datos, ya se refieran éstos a toda la población, a una muestra o,
incluso, a una subpoblación. La Estadística Descriptiva es la parte más clásica, más
conocida y más elemental de la ciencia estadística.
Bibliografía
Corrado Gini, Luigi Galvani. Curso de Estadística, 1953.
Spiegel, Murray R. Estadística. McGraw-Hill, 1991.
M. Ross, Sheldon. Introducción a la Estadística. Editorial Reverté, S.A.
1
Moya Calderón, Rufino. Estadística descriptiva. Conceptos y Aplicaciones. Lima-
Perú. 1991
Pardo Merino, Antonio; Ruiz Díaz, Miguel Ángel. Spss 11 Guía Para el Análisis
de Datos. McGraw-Hill, 2002.
www.monografias.com
www.wikipedia.com
www.ditutor.com
2
Algunos ejemplos de la estadística descriptiva pueden incluir los censos de
población de un país en un año determinado o el número de personas que fueron
recibidas en un hospital dentro de un margen de tiempo determinado.
Categorías
Existen ciertos conceptos y categorías que forman parte exclusivamente del campo
de la estadística descriptiva. Algunos se listan a continuación:
– Dispersión: es la diferencia que existe entre los valores incluidos dentro de una
misma variable. La dispersión también incluye el promedio de dichos valores.
– Promedio: es el valor que resulta de la sumatoria de todos los valores incluidos
en una misma variable y la posterior división del resultado por el número de datos
incluidos en la sumatoria. Se define como la tendencia central de una variable.
– Sesgo o curtosis: es la medida que indica qué tan inclinada es una curva. Es el
valor que indica la cantidad de elementos que se encuentran más próximos al
promedio. Existen tres tipos diferentes de sesgo (leptocúrtica, mesocúrtica y
platicúrtica), cada uno de ellos indica qué tan alta es la concentración de datos
alrededor del promedio.
– Gráficos: son la representación gráfica de los datos obtenidos del análisis.
Usualmente, son utilizados diferentes tipos de gráficos estadísticos, incluidos los de
barras, circulares, lineales, poligonales, entre otros,
– Asimetría: es el valor que muestra la manera como los valores de una misma
variable se encuentran repartidos con relación al promedio. Puede ser negativa,
simétrica o positiva (Formulas, 2017).
Estadística inferencial
Es el método de análisis utilizado para hacer inferencias sobre una población,
teniendo en cuenta los datos arrojados por la estadística descriptiva sobre un
segmento de la misma muestra. Dicho segmento debe ser elegido bajo criterios
rigurosos.
La estadística inferencial se vale del uso de herramientas especiales que le permiten
hacer afirmaciones globales sobre la población, a partir de la observación de una
muestra.
Los cálculos llevados a cabo por este tipo de estadística son aritméticos y siempre
dan cabida a un margen de error, cosa que no sucede con la estadística descriptiva,
que se encarga de analizar a la totalidad de la población.
Por tal motivo, la estadística inferencial requiere de hacer uso de modelos de
probabilidades que le permiten inferir conclusiones sobre una población amplia
basándose únicamente en lo que una parte de ella le indica (Vaivasuata, 2015).
Según la estadística descriptiva es posible obtener datos de una población general
a partir del análisis de una muestra conformada por individuos seleccionados de
forma aleatoria.
Categorías
La estadística inferencial puede ser clasificada en dos grandes categorías descritas
a continuación:
– Pruebas de hipótesis: como su nombre lo indica, consiste en poner a prueba
aquello que se concluyó sobre una población a partir de los datos arrojados por la
muestra.
– Intervalos de confianza: estos son los rangos de valores señalados dentro de la
muestra de una población para identificar una característica relevante y
3
desconocida (Minitab Inc., 2017). Por su naturaleza aleatoria, son los que permiten
reconocer un margen de error dentro de cualquier análisis estadístico inferencial.
Diferencias entre la estadística descriptiva y la inferencial
La principal diferencia entre la estadística descriptiva y la inferencial radica en que
la primera busca ordenar, resumir y clasificar los datos derivados del análisis de
variables.
Por su parte, la estadística inferencial, lleva a cabo deducciones con base a los
datos previamente obtenidos.
Por otro lado, la estadística inferencial depende del trabajo de la estadística
descriptiva para llevar a cabo sus inferencias.
De este modo, la estadística descriptiva constituye la base sobre la que
posteriormente la estadística inferencial llevará a cabo su trabajo.
También es importante señalar que la estadística descriptiva se utiliza para analizar
tanto poblaciones (grupos numerosos) como muestras (subconjuntos de las
poblaciones).
Mientras que la estadística inferencial se encarga de estudiar muestras a partir de
las cuales busca llegar a conclusiones sobre la población general.
Otra diferencia entre estos dos tipos de estadística radica en que la estadística
descriptiva únicamente se centra en la descripción de los datos obtenidos, sin
asumir que estos tengan ninguna propiedad relevante.
Ésta no va más allá de lo que los mismos datos obtenidos puedan señalar. Por su
parte, la estadística inferencial cree que todos los datos derivados de cualquier
análisis estadístico dependen de fenómenos externos y aleatorios que pueden
alterar su valor.
LOS DATOS
Los datos son los valores que toma una variable
cuando es medida.
Los datos pueden ser cualitativos y cuantitativos.
Los cualitativos pueden corresponder a dos
categorías, llamados dicotómicos, o a más de dos
categorías.
Los cuantitativos pueden ser continuos o
discretos.
Las escalas de medición se definen por las operaciones matemáticas que
pueden ser usadas en su manipulación. Se distinguen escalas nominales,
categóricas, de intervalo y de razón.
En cualquier investigación, de un paciente o grupos de estos, lo que hacemos es
efectuar mediciones que ayuden a entender, evaluar y diferenciar las características
de personas u objetos o grupos de ellas. Así, se miden variables (peso, edad,
presión arterial) y los datos son los valores que toma una variable. Estas mediciones
nos permiten llegar a cierta precisión en las características de una variable de
4
acuerdo a su cantidad, grado, capacidad o cualidad. Se habla de la precisión de una
medición para referirse al grado de exactitud y usualmente esta significa el número
de decimales que se alcanza en la medición. El tipo de datos y las escalas de
medida son importantes por la precisión implícita y porque determinan qué métodos
de análisis son válidos y sensatos.
TIPOS DE DATOS
Una primera caracterización distingue entre datos cualitativos y cuantitativos, y
estos pueden ser continuos o discretos:
1. Los datos cualitativos: pueden corresponder a dos categorías, denominados
dicotómicos, (vivo/muerto, si/no) o a más de dos categorías (fumador, no
fumador, ex fumador). Los sujetos son clasificados sin un orden.
2. Los datos cuantitativos, pueden ser:
Continuos, aquellos en los que es posible, a lo menos teóricamente, observar
un número infinito de valores regularmente espaciados entre dos puntos
cualesquiera de su intervalo de medidas. En general corresponden a
mediciones (por ejemplo, presión arterial, tiempo, peso, potasemia).
Discretos, aquellos que sólo pueden tener un número finito de valores en su
intervalo de medidas; en general, corresponden a conteos (por ejemplo,
número de hijos, estadio de las enfermedades, género, y también edad medida
hasta el último cumpleaños o frecuencia cardiaca).
El límite muchas veces lo pone la sensibilidad o precisión de los instrumentos de
medición lo que podría provocar confusión entre lo que es continuo y lo que es
discreto. Por ejemplo, la edad es continua, pero la edad medida hasta el último
cumpleaños es discreta. En la práctica, si se puede efectuar un elevado número de
mediciones en el intervalo de medidas posible y si los intervalos entre las
mediciones son uniformes, esas medidas pueden considerarse continuas para su
análisis.
ESCALAS DE MEDICIÓN
Otra aproximación es que los datos pueden definirse también por la escala usada
para la medición de las variables, distinguiéndose cuatro de ellas: nominales,
ordinales, de intervalo y de razón. Los cuatro niveles de medida determinan qué
operaciones son posibles de usar y por consiguiente las pruebas estadísticas que
son permisibles en cada nivel. Todas las escalas tienen algunas propiedades
formales que proporcionan definiciones de las características de la escala con
mayor exactitud que las que puede asignarse en términos verbales. Estas
propiedades pueden expresarse más abstractamente especificando las
operaciones aritméticas posibles y las relaciones entre los objetos que han sido
clasificados.
1) La escala nominal. Comprende los datos nominales que no tienen un orden: los
datos dicotómicos solo pueden tomar dos valores posibles (como vivo o muerto). Es
el nivel de medición más débil. Los números u otros símbolos se usan simplemente
para clasificar un objeto, persona o característica. Ejemplos: número de ficha clínica,
de teléfono, permiso de circulación, números en las camisetas de un equipo de
fútbol. En una escala nominal, la operación consiste en dividir una clase
determinada en un conjunto de subclases mutuamente excluyentes. La única
relación envuelta es la de equivalencia, simbolizada por el signo =, o su ausencia,
por el símbolo ≠.
5
En las escalas nominales la única operación admisible es la de transformación “uno
a uno” o “simétrica”. Esto implica que los símbolos en la escala pueden ser
intercambiados siempre que esto sea hecho consistente y completamente. Las
únicas estadísticas descriptivas admisibles son aquellas que no cambiarían con una
transformación de ese tipo: el modo y las frecuencias. Bajo ciertas condiciones se
pueden probar hipótesis relacionadas con la distribución de casos en las categorías
usando un chi cuadrado o una prueba exacta de Fisher. La prueba de asociación
más común para datos nominales es el coeficiente C de contingencia.
2) Escala ordinal o de rangos. Comprende los datos ordinales con un mínimo de
tres valores posibles y con un número total limitado. Los objetos en una categoría
no sólo son diferentes de los objetos en otras categorías de esa misma escala sino
que tienen alguna relación con ellos. Relaciones típicas son: mayor, más alto, más
difícil, más enfermo, menos grave. Su significado específico depende de la
naturaleza de la relación que define esa escala. Ejemplos: escalas de clase
socioeconómica, grados de un linfoma, grados de Mallampati, clasificación ASA.
Muchas pruebas o escalas de evaluación resultan en puntajes que tienen la
fortaleza de rangos: el puntaje del Mini Mental State, la escala de Glasgow o el
puntaje APACHE son buenos ejemplos. Aun cuando estos puntajes pueden parecer
más precisos que los rangos, generalmente no cumplen con los requisitos de
escalas de mayor nivel y deben ser consideradas como ordinales.
La diferencia fundamental entre una escala nominal y la ordinal estriba en que ésta
incorpora la relación de “mayor que” (>) o “menor que” (<) a la de equivalencia (=).
Cualquier transformación que no altere el orden de las clases es permisible. La
mejor descripción de la tendencia central es la mediana ya que ésta no se ve
afectada por cambios de puntajes, en tanto no se altere el número de cuentas sobre
o bajo ella. Con la escala ordinal es posible usar todo el rango de pruebas
estadísticas conocidas como “estadísticas ordinales o de rango” o “no
paramétricas”. La única presunción de estas pruebas es que los puntajes deben ser
sacados de una distribución continua.
Las escalas visuales análogas (EVA) pertenecen estrictamente a este grupo y en
rigor debieran ser analizadas con pruebas no paramétricas. Sin embargo, algunos
autores han aducido que el error introducido por un análisis paramétrico es de
escasa magnitud y que no altera las conclusiones, por lo que bien puede
aprovecharse la mayor potencia de las pruebas paramétricas, práctica ampliamente
aceptada en la literatura anestesiológica.
3) La escala de intervalo. Comprende los datos continuos o datos discretos que
contienen un elevado número de posibles valores. Las distancias entre cualquier
par de números de la escala tienen una dimensión conocida y constante por lo que
es posible conocer con certeza la magnitud de los intervalos. Se caracteriza por
tener una unidad común de medida que asigna un número real a todos los pares de
objetos en el conjunto ordenado. Aun cuando el punto cero y la unidad de medida
son arbitrarios, la razón entre dos intervalos es independiente de esa unidad y de
ese punto.
La medición de temperatura se hace en escala de intervalo. Las escalas Fahrenheit
y Celsius tienen cada una su unidad arbitraria, los grados, y también un cero
arbitrario. Ambas escalas, sin embargo, tienen la misma cantidad y tipo de
6
información pues están linealmente relacionadas; la medida en una escala puede
transformarse a la equivalente en la otra mediante una transformación lineal.
Las operaciones y relaciones de una escala de intervalo son similares a la estructura
de la aritmética por lo que pueden utilizarse todas las operaciones. En una escala
de intervalo se puede reconocer la equivalencia (=) y el orden (>) y, además, las
razones de cada intervalo. Las pruebas paramétricas pueden y deben usarse si se
cumplen las otras presunciones puesto que las pruebas no paramétricas restan
potencia al análisis al no usar toda la información contenida en una escala de
intervalo.
4) Escala de razón. Además de todos los atributos de una escala de intervalos,
ésta tiene en su origen un cero verdadero y en ella la razón entre dos puntos de la
escala es independiente de la unidad de medida. La masa, el peso, la distancia, el
tiempo se mide en esta escala. Por ejemplo, si medimos el peso de dos objetos en
gramos o en onzas, la razón es constante, cosa que no sucede si se mide la
temperatura de un cuerpo en grados Celsius o Fahrenheit. Este tipo de escalas sólo
se obtienen cuando las siguientes cuatro relaciones son operacionalmente posibles:
equivalencia, mayor que, razón conocida entre dos intervalos y razón conocida entre
dos valores escalares cualesquiera. Los números asociados con esta escala son
verdaderos con un cero también verdadero. Cualquier prueba estadística puede ser
usada, incluyendo medidas como la media geométrica y el coeficiente de variación
que requieren de un punto cero verdadero.
El orden de las escalas indica la cantidad relativa de información que contiene cada
una de las ellas. Las mediciones de un nivel de información concreto pueden
transformarse o reescalarse a un nivel inferior, pero no es posible reescalar las
variables a un nivel superior al que se midieron realmente. Al reescalar a un nivel
inferior se pierde información, hecho que tiende a aumentar el error tipo II, de no
encontrar una diferencia cuando en realidad existe, si todo lo demás se mantiene
igual. En otras palabras, reescalar a un nivel inferior reduce la potencia estadística
por lo que debe evitarse; por ejemplo, reducir la edad a dos o más grupos,
transformando una variable continua en una categórica.
UNIDAD DE ANÁLISIS
8
Muestra
Subconjunto finito de una población. El número de elementos
que forman la muestra se denomina tamaño muestral.
¿Qué se entiende en estadística por "variable"?
www.estadistica.mat.uson.mx/Material/elmuestreo.pdf
MUESTREO
En ocasiones en que no es posible o conveniente realizar un
censo (analizar a todos los elementos de una población), se
selecciona una muestra, entendiendo por tal una parte
representativa de la población.
El muestreo es por lo tanto una herramienta de la investigación científica, cuya
función básica es determinar que parte de una población debe examinarse, con la
finalidad de hacer inferencias sobre dicha población.
La muestra debe lograr una representación adecuada de la población, en la que se
reproduzca de la mejor manera los rasgos esenciales de dicha población que son
importantes para la investigación. Para que una muestra sea representativa, y por
lo tanto útil, debe de reflejar las similitudes y diferencias encontradas en la
población, es decir ejemplificar las características de ésta.
Los errores más comunes que se pueden cometer son:
1.- Hacer conclusiones muy generales a partir de la observación de sólo una parte
de la Población, se denomina error de muestreo.
2.- Hacer conclusiones hacia una Población mucho más grandes de la que
originalmente se tomó la muestra. Error de Inferencia.
En la estadística se usa la palabra población para referirse no sólo a personas sino
a todos los elementos que han sido escogidos para su estudio y el término muestra
se usa para describir una porción escogida de la población.
TIPOS DE MUESTREO
Existen diferentes criterios de clasificación de los diferentes tipos de muestreo,
aunque en general pueden dividirse en dos grandes grupos: métodos de muestreo
probabilísticos y métodos de muestreo no probabilísticos.
I. Muestreo probabilístico
Los métodos de muestreo probabilísticos son aquellos que se
basan en el principio de equiprobabilidad. Es decir, aquellos en
los que todos los individuos tienen la misma probabilidad de ser
elegidos para formar parte de una muestra y, consiguientemente, todas las posibles
10
muestras de tamaño n tienen la misma probabilidad de ser seleccionadas. Sólo
estos métodos de muestreo probabilísticos nos aseguran la representatividad de la
muestra extraída y son, por tanto, los más recomendables. Dentro de los métodos
de muestreo probabilísticos encontramos los siguientes tipos:
11
Afijación Simple: A cada estrato le corresponde igual número de elementos
muéstrales.
Afijación Proporcional: La distribución se hace de acuerdo con el peso (tamaño)
de la población en cada estrato.
Afijación Óptima: Se tiene en cuenta la previsible dispersión de los resultados, de
modo que se considera la proporción y la desviación típica. Tiene poca aplicación
ya que no se suele conocer la desviación.
4.- Muestreo aleatorio por conglomerados:
Los métodos presentados hasta ahora están pensados para
seleccionar directamente los elementos de la población, es decir,
que las unidades muéstrales son los elementos de la población.
En el muestreo por conglomerados la unidad muestral es un
grupo de elementos de la población que forman una unidad, a la que llamamos
conglomerado. Las unidades hospitalarias, los departamentos universitarios, una
caja de determinado producto, etc., son conglomerados naturales. En otras
ocasiones se pueden utilizar conglomerados no naturales como, por ejemplo, las
urnas electorales. Cuando los conglomerados son áreas geográficas suele hablarse
de "muestreo por áreas".
El muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto
número de conglomerados (el necesario para alcanzar el tamaño muestral
establecido) y en investigar después todos los elementos pertenecientes a los
conglomerados elegidos.
II. Métodos de muestreo no probabilísticos
A veces, para estudios exploratorios, el muestreo
probabilístico resulta excesivamente costoso y se acude a
métodos no probabilísticos, aun siendo conscientes de que no
sirven para realizar generalizaciones (estimaciones inferenciales sobre la
población), pues no se tiene certeza de que la muestra extraída sea representativa,
ya que no todos los sujetos de la población tienen la misma probabilidad de ser
elegidos. En general se seleccionan a los sujetos siguiendo determinados criterios
procurando, en la medida de lo posible, que la muestra sea representativa.
En algunas circunstancias los métodos estadísticos y epidemiológicos permiten
resolver los problemas de representatividad aun en situaciones de muestreo no
probabilístico, por ejemplo los estudios de caso-control, donde los casos no son
seleccionados aleatoriamente de la población.
Entre los métodos de muestreo no probabilísticos más utilizados en investigación
encontramos:
1.- Muestreo por cuotas:
También denominado en ocasiones "accidental". Se asienta
generalmente sobre la base de un buen conocimiento de los
estratos de la población y/o de los individuos más
"representativos" o "adecuados" para los fines de la
investigación. Mantiene, por tanto, semejanzas con el muestreo aleatorio
estratificado, pero no tiene el carácter de aleatoriedad de aquél.
En este tipo de muestreo se fijan unas "cuotas" que consisten en un número de
individuos que reúnen unas determinadas condiciones, por ejemplo: 20 individuos
de 25 a 40 años, de sexo femenino y residentes en Gijón. Una vez determinada la
12
cuota se eligen los primeros que se encuentren que cumplan esas características.
Este método se utiliza mucho en las encuestas de opinión.
2.- Muestreo intencional o de conveniencia:
Este tipo de muestreo se caracteriza por un esfuerzo
deliberado de obtener muestras "representativas" mediante
la inclusión en la muestra de grupos supuestamente típicos.
Es muy frecuente su utilización en sondeos preelectorales de
zonas que en anteriores votaciones han marcado tendencias de voto.
También puede ser que el investigador seleccione directa e intencionadamente los
individuos de la población. El caso más frecuente de este procedimiento el utilizar
como muestra los individuos a los que se tiene fácil acceso (los profesores de
universidad emplean con mucha frecuencia a sus propios alumnos).
4. Muestreo bola de nieve
Se localiza a algunos individuos, los cuales conducen a
otros, y estos a otros, y así hasta conseguir una muestra
suficiente. Este tipo se emplea muy frecuentemente cuando
se hacen estudios con poblaciones "marginales",
delincuentes, sectas, determinados tipos de enfermos, etc.
PRESENTACIÓN ESTADÍSTICA
Distribución de frecuencias. (ditutor, 2010)
Una distribución de frecuencias o tabla de frecuencias es
una ordenación en forma de tabla de los datos estadísticos, asignando
a cada dato su frecuencia correspondiente
Frecuencia absoluta
La frecuencia absoluta es el número de veces que aparece un
determinado valor en un estudio estadístico.
La frecuencia absoluta es el número de veces que aparece un
determinado valor en un estudio estadístico
Se representa por f
La suma de las frecuencias absolutas es igual al número total de
datos, que se representa por N
14
Frecuencia relativa
La frecuencia relativa es el cociente entre la frecuencia absoluta de
un determinado valor y el número total de datos.
Se puede expresar en tantos por ciento y se representa por n i
𝑓𝑖
𝑓𝑟 = 𝑁
La suma de las frecuencias relativas es igual a 1
𝑓% = 𝑓𝑟 ∙ 100
Frecuencia acumulada
La frecuencia acumulada es la suma de las frecuencias absolutas de
todos los valores inferiores o iguales al valor considerado
Se representa por F a
Ejemplo
Durante el mes de julio, en una ciudad se han registrado las siguientes
temperaturas máximas:
32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30, 32, 31, 31, 30, 30,
29, 29, 30, 30, 31, 30, 31, 34, 33, 33, 29, 29.
En la primera columna de la tabla colocamos la variable ordenada de
menor a mayor, en la segunda hacemos el recuento y en la tercera
anotamos la frecuencia absoluta.
15
xi Recuento f fa i fr Fr% fra Fra%
31 1 100%
Este tipo de tablas de frecuencias se utiliza con variables
discretas
3) Calcule el Ancho del Intervalo (i) o clase.- Se obtiene dividiendo el Rango para
el número de intervalos
𝑅
𝑖=
𝑛𝑖
Cuando el valor de i no es exacto, se debe redondear al valor superior más cercano.
Esto altera el valor de rango por lo que es necesario efectuar un ajuste así:
16
𝑁𝑢𝑒𝑣𝑜 𝑅 = 𝑛𝑖 ∙ 𝑖
Por ejemplo: Si una distribución de 40 datos el valor mayor es 41 y el menor es 20
se tiene:
Calculando el Rango se obtiene:
𝑅 = 𝑥𝑚á𝑥 − 𝑥𝑚í𝑛 + 1 = 41 − 20 = 21 + 1 = 22
El exceso de 3 que se tiene en este caso se distribuye entre xmáx y xmín. Por lo
general se agrega al mayor y se quita al menor. Como por ejemplo, se podría
agregar 2 al valor mayor y quitar 1 al valor menor, obteniéndose los siguientes
nuevos valores:
𝑥𝑚á𝑥 = 41 + 2 = 43 𝑥𝑚𝑖𝑛 = 20 − 1 = 19
O también se podría agregar 1 al valor mayor y quitar 2 al valor menor, obteniéndose
los siguientes nuevos valores:
𝑥𝑚á𝑥 = 41 + 1 = 42 𝑥𝑚𝑖𝑛 = 20 − 2 = 18
4) Forme los Intervalos de Clase agregando i-1 al límite inferior de cada clase,
comenzando por el Xmín del rango.
5) Se realiza el Conteo de Datos que cae dentro de cada clase (frecuencia
absoluta)
EJEMPLO ILUSTRATIVO
A 40 estudiantes se les pidió que estimen el número de horas que habrían dedicado
a estudiar la semana pasada (tanto en clase como fuera de ella), obteniéndose los
siguientes resultados:
36 30 47 60 32 35 40 50
54 35 45 52 48 58 60 38
32 35 56 48 30 55 49 39
58 50 65 35 56 47 37 56
58 50 47 58 55 39 58 45
17
Solución:
1) Calculando el Rango se obtiene:
𝑅 = 𝑥𝑚á𝑥 − 𝑥𝑚í𝑛 = 65 − 30 = 35
2) Calculando el número de intervalos se obtiene:
𝑛𝑖 = 1 + 3,32 ∙ 𝑙𝑜𝑔(𝑛) = 1 + 3,32 ∙ 𝑙𝑜𝑔40 = 6,32 = 6
3) Calculando el ancho se obtiene:
𝑅 35
𝑖= = = 5,83
𝑛𝑖 6
El exceso de 1 que se tiene en este caso se distribuye entre xmáx y xmín. En este
ejemplo, se podría agregar 1 al valor mayor y no quitar nada al valor menor, o no
agregar nada al mayor y quitar 1 al menor. Al elegir la primera opción se obtiene:
𝑥𝑚á𝑥 = 65 + 1 = 66
𝑥𝑚𝑖𝑛 = 30 − 0 = 30
5) Formando los intervalos de clase agregando i-1 (6-1=5) al límite inferior de cada
clase, comenzando por el Xmín del rango se obtiene:
30+5 = 35; 36+5 = 41; 42+5 = 47; 48+5 = 53; 54+5 = 59; 60+5 = 65
6) Realizando el conteo de datos que cae dentro de cada clase, calculando la marca
de clase y las frecuencias se obtiene:
18
A continuación se presenta algunas interpretaciones de la tabla:
El valor de fra = 0,65 y fra% = 65%: Significa que el 0,65 o el 65% de los estudiantes
dedicaron a estudiar la semana pasado entre 30 y 53 horas.
a) Digite los datos, las clases y límites superiores de las clases. Seleccione C8:C13
donde las frecuencias absolutas deben ser calculadas. Escriba la fórmula:
=FRECUENCIA(A1:H5; B8:B13)
b) Presione CTRL+SHIFT+ENTER
19
Los cálculos de la marca de clase y de las otras frecuencias empleando Excel se
muestran en la siguiente figura:
20
Ordenar de manera ascendente
Realizar la tabla de distribución de frecuencias para datos agrupados.
Solución:
En los casos anteriores los datos han sido ordenados y organizados por sus
características cuantitativas y atendiendo a la escala de medición utilizada, en caso
de los datos cualitativos utilizamos la escala de medición nominal, en este caso se
pueden ordenar según orden alfabético ascendente. En este caso, nuestra variable
es refresco vendido, por lo que los valores son los diferentes nombres de refrescos
tal que la tabla de frecuencia quedaría:
21
Elaboración de gráficos:
Una de las ventajas más importantes de la construcción de las tablas de frecuencia
es facilitar la elaboración de los gráficos, los cuales permiten una interpretación
sencilla y rápida de la información. Dependiendo del tipo de datos y su
representación en tablas agrupadas o no se tienen las siguientes representaciones
graficas:
Histograma(htte://wikipedia.,214)
HISTOGRAMA
En estadística, un histograma es una
representación gráfica de una variable en
forma de barras, donde la superficie de cada
barra es proporcional a la frecuencia de los
valores representados, ya sea en forma
diferencial o acumulada. Sirven para obtener
una "primera vista" general, o panorama, de la
distribución de la población, o la muestra,
respecto a una característica, cuantitativa y
continua, de la misma y que es de interés para
el observador (como la longitud o la masa). De
esta manera ofrece una visión en grupo permitiendo observar una preferencia, o
tendencia, por parte de la muestra o población por ubicarse hacia una determinada
región de valores dentro del espectro de valores posibles (sean infinitos o no) que
pueda adquirir la característica. Así pues, podemos evidenciar comportamientos,
observar el grado de homogeneidad, acuerdo o concisión entre los valores de todas
las partes que componen la población o la muestra, o, en contraposición, poder
observar el grado de variabilidad, y por ende, la dispersión de todos los valores que
toman las partes, también es posible no evidenciar ninguna tendencia y obtener que
cada miembro de la población toma por su lado y adquiere un valor de la
característica aleatoria-mente sin mostrar ninguna preferencia o tendencia, entre
otras cosas.
Construcción de histograma
Paso 1
Determinar el rango de los datos. Rango es igual al dato mayor menos el dato
menor.
Paso 2
Obtener los números de clases, existen varios criterios para determinar el número
de clases (o barras) -por ejemplo la regla de Sturgess. Sin embargo ninguno de
ellos es exacto. Algunos autores recomiendan de cinco a quince clases,
dependiendo de cómo estén los datos y cuántos sean. Un criterio usado
frecuentemente es que el número de clases debe ser aproximadamente a la raíz
23
cuadrada del número de datos. Por ejemplo, la raíz cuadrada de 30 (número de
artículos) es mayor que cinco, por lo que se seleccionan seis clases.
Paso 3
Establecer la longitud de clase: es igual al rango dividido por el número de clases.
Paso 4
Construir los intervalos de clases: Los intervalos resultan de dividir el rango de los
datos en relación al resultado del PASO 2 en intervalos iguales.
Paso 5
Graficar el histograma: En caso de que las clases sean todas de la misma amplitud,
se hace un gráfico de barras, las bases de las barras son los intervalos de clases y
altura son la frecuencia de las clases. Si se unen los puntos medios de la base
superior de los rectángulos se obtiene el polígono de frecuencias.
A veces es más útil representar las frecuencias acumuladas, o representar
simultáneamente los histogramas de una variable en dos situaciones distintas.
Otra forma muy frecuente, de representar dos histogramas de la misma variable en
dos situaciones distintas.
En las variables cuantitativas o en las cualitativas ordinales se pueden representar
polígonos de frecuencia en lugar de histogramas, cuando se representa la
frecuencia acumulativa, se denomina ojiva.
Polígonos de frec uencias. Vari ables discretas
Los polígonos de frecuencias se realizan tra zando los puntos que
representan las f recuencias y uniéndolos mediante segmentos
Ejemplo
Las temperaturas en un día de otoño de una ciudad han suf rido las
sigu ientes variacio nes:
24
Ejemplo: El peso de 65 personas viene dado por la siguiente tabla
ci fi Fi
[50, 60) 55 8 8
[60, 70) 65 10 18
[70, 80) 75 16 34
[80, 90) 85 14 48
[90, 100) 95 10 58
65
65 18 60
50
75 34 40
85 48 30
20
95 58
10
110 63 0
55 65 75 86 95 110 115
115 65
Serie 1
Gráfica circular
Este tipo de diagrama se puede utilizar para todo tipo de variables (cualitativas,
cuantitativas) pero se usa más frecuentemente para variables cualitativas.
Los datos se representan en un círculo de modo que el ángulo de cada sector es
proporcional la frecuencia que representa.
En el caso que el grafico circular se realice de forma manual debe efectuarse una
serie de conversiones previas para adecuar el valor en el sector del círculo. Para
ello se utiliza la siguiente formula:
25
Donde N es el número total de datos y la frecuencia absoluta del valor que se desea
representar.
Para calcular el tamaño de los ángulos
360 𝑥 19 360 𝑥 13
Coca cola α= = 136.8º Pepsi cola α= = 93.6
50 50
360 𝑥 8 360 𝑥 5
Coca dieta α= = 57.6º Pepsi dieta α= = 36º
50 50
360 𝑥 5
Sprite α= = 36º
50
Ventas f f% α
Sprite 5
Coca cola 19 38 136.8º ventas
clásica Pepsi Coca
Pepsi cola 13 26 93.6º dieta 5 cola
Coca dieta 8 16 57.6º clasica
19
Pepsi dieta 5 10 36º Pepsi
Sprite 5 10 36º cola 13
N= 50 100% 360º
26
La media (promedio) de un conjunto de datos se encuentra al sumar todos los
números en el conjunto de datos y luego al dividir entre el número de valores en el
conjunto. La mediana es el valor medio cuando un conjunto de datos se ordena de
menor a mayor.
27
La respuesta es afirmativa. Las medidas de tendencia o acumulación se conocen
como medidas de Tendencia Central o de localización y las de variabilidad como
medidas de dispersión o de variabilidad.
¿Se puede calcular la media aritmética a partir de los datos agrupados en una tabla
de frecuencias?
La respuesta es afirmativa. Si lo único que tenemos es un resumen de los datos, en
forma de tabla de frecuencias y no contamos con la información original, sí es
posible calcular la media aritmética.
Con el fin de evitar cálculos aritméticos tediosos, no hace muchos años cuando se
tenían numerosos datos, los datos originales se resumían en una tabla de
frecuencias, y después se calculaban sus medidas de tendencia central y de
variabilidad. Hoy en día con el uso de software adecuado se pueden procesar
fácilmente los datos originales, y ya no se justifica por éste motivo construir la tabla
de frecuencias.
28
Suponga que la información que tenemos es
la siguiente Tabla que muestra el tiempo que
tardaron 50 clientes en una caja bancaria y
deseamos conocer cuál es el tiempo
promedio que tardaron.
Sabemos, por ejemplo, que en la primera
clase 2 clientes tardaron en la caja entre 141
y casi 157 segundos. No sabemos con
exactitud cuánto tardó cada uno de ellos, sólo
sabemos que tardaron un tiempo
comprendido entre éstos dos límites. Para
efectuar el cálculo de la media aritmética, supondremos que un valor representativo
de la clase es su marca de clase o punto medio, xi
Entonces tenemos:
29
El cálculo anterior lo podemos sistematizar obteniendo
una columna adicional en la Tabla de
distribución de frecuencias. La columna
expresará los productos para cada clase. La suma de
esta columna, 9146, entre el número de datos, nos da el valor de la media.
A partir de los cálculos realizados podemos escribir la expresión para la media
calculada a partir de los datos agrupados en la Tabla de distribución de frecuencias.
∑𝑛
𝑖=1 𝑋𝑖𝑓𝑖 9146
𝑋̅ = 𝑋̅ = 50 = 18292
𝑛
¿Qué es la mediana?
La mediana es el valor central que se localiza en una serie ordenada de datos. Para
obtener la mediana de los números x1 = 13, x2 = 15, x3 = 9, x4 = 6, x5 = 4, x6 = 12,
x7 = 11, primero tenemos que ordenarlos:
Entonces la mediana es 11.
30
La respuesta es afirmativa. Al igual que la media, sí es posible calcular la mediana
si sólo se cuenta con un resumen de los datos en forma de tabla de distribución de
frecuencias.
A partir de nuestro ejemplo del tiempo que tardan unos clientes en una caja
bancaria, calculemos la mediana.
Debido a que la mediana es el valor por abajo del cual se encuentran el 50% de los
datos y por arriba de él se encuentra también el 50% de los datos, entonces la
mediana se debe de encontrar en la clase en la que la frecuencia relativa acumulada
en una clase anterior sea menor de 0.5 (50%) y en ella la frecuencia relativa
acumulada sea 0.5 o más. A esta clase se le llama clase mediana.
Para nuestro ejemplo, la clase mediana es la tercera. Una clase anterior, es decir la
segunda clase, tiene una frecuencia relativa acumulada de 0.3 (menor a 0.5) y la
tercera clase tiene una frecuencia relativa acumulada igual a 0.64 (mayor de 0.5).
¿Qué es la Moda?
La moda es el valor más frecuente en una serie de datos. Por ejemplo, para los
siguientes datos, la moda es 15, porque es el valor que se repite más.
31
La siguiente serie de datos es trimodal, ya que el 4, el 11 y el 15 se repiten 3 veces.
La siguiente serie de datos no tienen moda, porque no hay ningún dato que se repita
más que otro. Todos tienen frecuencia 1
4 7 12 15 10 6 8
La siguiente serie de datos no tiene moda porque no hay ningún dato que se repita
más que otro, todos tienen frecuencia 3.
5 5 5 6 6 6 10 10 10
Es el valor que representa la mayor frecuencia absoluta. En tablas de frecuencias
con datos agrupados, hablaremos de intervalo modal.
La moda se representa por Mo.
¿Se puede calcular la moda a partir de los datos agrupados en una tabla de
frecuencias?
Resulta suficiente definir la clase modal, es decir la clase de mayor frecuencia (el
pico de la distribución). Si se quiere establecer un valor, la moda será igual a la
marca de clase de la clase modal.
Para nuestro ejemplo, del tiempo en atender al cliente, la clase modal es la tercera.
Entonces reportamos que la clase modal es de 173 a menos de 189 segundos y la
moda es igual a 181.
¿En una serie de datos pueden ser iguales la media, la mediana y la moda?
32
Si, cuando la distribución es en forma de campana, lo que en estadística se conoce
como distribución normal, coinciden los valores de la media, mediana y la moda. En
la distribución que se muestra enseguida, la media, la mediana y la moda son
iguales y tienen un valor de 50.
Sí la distribución no es simétrica
¿Cuál es la posición de la media,
mediana y moda?
Si la distribución es simétrica
coinciden los valores de la media
y de la mediana. La moda puede o
no existir.
Para las distribuciones con sesgo a la derecha (asimetría positiva)
𝑋̅ > 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 > 𝑚𝑜𝑑𝑎
¿Cuáles son las ventajas y las desventajas de cada una de las medidas de
tendencia central revisadas?
La media es la más usada de las medidas de tendencia central, sus principales
ventajas es que es muy fácil de calcular, para determinar su valor se toman en
cuenta todos los datos y es muy importante en inferencia estadística por las
propiedades de su distribución muestral. Su principal desventaja es que debido a
que es el punto de equilibrio de la distribución su valor se ve muy afectado por datos
extremos, por lo que si la distribución es muy sesgada no es conveniente utilizarla.
33
Para ejemplificar el cálculo y reafirmar el concepto de variabilidad, supongamos que
tenemos dos muestras de tres datos cada una:
Muestra 1 Muestra 2
17 18 19 15 16 23
El resumen de los datos de cada muestra seria:
Muestra 1: n = 3; 𝑿 ̅ = 𝟏𝟖 Muestra 2: n = 3; 𝑿̅ = 𝟏𝟖
De tal forma, que si nos referimos a una muestra de tamaño 3 y media 18, no
sabemos si hablamos de la muestra 1 o de la muestra 2. Es decir, la media no es
una medida suficiente para poder distinguir una muestra de la otra. Es necesario,
entonces construir otra medida que permita diferenciarlas.
Si inspeccionamos las muestras vemos que la primera varía de 17 a 19, mientras
que la segunda de 15 a 23. Esta amplitud o rango es la primera medida de
variabilidad.
Muestra 1: Ymax – Ymin R = 19 – 17 = 2
Muestra 2: Ymax – Ymin R = 23 – 15 = 8
Sin embargo, es una medida que sólo toma en cuenta dos datos, el valor máximo y
el mínimo y por tanto se ve afectada por los valores extremos. Es una medida que
proporciona la variabilidad en forma muy burda.
Si observamos las muestras vemos que la muestra 1, tiene sus valores más
agrupados alrededor de la media, 18, mientras que los valores de la muestra 2,
están más alejados de ella. Entonces, se hace necesaria una medida que valore la
variabilidad o distancia promedio de los datos con respecto a su media.
La idea sería obtener las distancias de cada dato con respecto a su media, y a partir
de estas obtener la distancia promedio. Note que una medida construida de esta
manera, toma en cuenta todos los datos.
Muestra 1 Muestra 2
Xi ̅ )
(X - 𝑿 Xi ̅ )
(X - 𝑿
17 17 – 18 = -1 15 15 – 18 = -3
18 18 – 18 = 0 16 16 – 18 = -2
19 19 – 18 = 1 23 23 – 18 = 5
∑ d= 0 ∑d= 0
¿Por qué en ambos casos la suma de las distancias resulta igual a cero? Sabemos
que si obtenemos las distancias de cada dato con respecto a su media, la suma de
las distancias de los datos mayores a la media, es igual a la suma de las distancias
de los datos menores a ella, y si a las distancias de los datos menores a la media
les asignamos signos negativos y a las mayores signos positivos, la suma siempre
resultara cero y por esta vía resulta imposible obtener la distancia o variabilidad
promedio.
Una manera de resolver este problema es elevar al cuadrado las distancias, con lo
cual se resolvería el problema de los signos. Obtendríamos la distancia cuadrática
promedio, lo que nos daría la medida que buscamos elevada al cuadrado, la cual
se conoce como varianza y se representa con s2. Una vez calculada la varianza,
34
obtenemos su raíz cuadrada y con esto la medida buscada, que se conoce como
desviación estándar.
Muestra 1 Muestra 2
Xi ̅ )
(X - 𝑿 (X - 𝑿̅ )2 Xi ̅ )
(X - 𝑿 (X - 𝑿̅ )2
17 17 – 18 = -1 1 15 15 – 18 = -3 9
18 18 – 18 = 0 0 16 16 – 18 = -2 4
19 19 – 18 = 1 1 23 23 – 18 = 5 25
2 38
̅ )2
∑(X − 𝑿 2 ̅ )2
∑(X − 𝑿 38
S2 = = 1 𝑢𝑛𝑖𝑑𝑎𝑑 2 S2 = = 19 𝑢𝑛𝑖𝑑𝑎𝑑𝑒𝑠 2
𝑛−1 2 𝑛−1 2
S = √1 = 1 𝑢𝑛𝑖𝑑𝑎𝑑 S = √19 = 4.36 𝑢𝑛𝑖𝑑𝑎𝑑𝑒𝑠
35
El coeficiente de variación es una medida de variabilidad relativa de una serie de
datos y se obtiene dividiendo la desviación estándar de los datos entre su media.
36
Añadimos una columna donde se anoten las distancias al cuadrado
37
Entonces la varianza es:
Ya que la desviación estándar es una medida de variabilidad ¿Se puede usar para
determinar cuántos datos se encuentran en diferentes intervalos alrededor de la
media?
Si, la desviación estándar nos permite determinar, con un buen grado de precisión,
donde están localizados los valores de una distribución de frecuencias con relación
a la media.
¿Qué es Probabilidad? Fuente: https://concepto.de/probabilidad/#ixzz5dM6YSy1u
El concepto de probabilidad proviene del término latino probabilĭtas. En primera
instancia se entiende como la posibilidad que existe de que un determinado hecho
probable realmente suceda. Ese hecho puede finalmente suceder, o no suceder.
La idea de probabilidad es algo en lo que diversos pensadores han trabajado a lo
largo de la historia de la humanidad. En un principio estos términos se relacionaban
exclusivamente con los juegos de azar ya practicados hace más de cinco mil años.
El concepto ha sufrido tales cambios y ha sido objeto de interés tan particular que
hoy en día la probabilidad es considera incluso como una de las ramas de la
matemática.
En este caso se define a la probabilidad como el estudio y medición cuantitativa de
que un determinado hecho suceda o se produzca. Para ello se determinan ciertos
presupuestos del contexto, sus posibles combinaciones y además se hace uso de
la disciplina de la estadística. En este caso las probabilidades suelen ser
representados en número mayores a cero e inferiores a uno o en fracciones.
¿Qué mide, y cuáles son sus métodos?
Dentro de la teoría de la probabilidad se intenta determinar la cantidad de veces que
puede un determinado resultado acontecer, con el fin de conocer qué suceso es el
más probable. Algunos de los elementos que se tienen en cuenta son el espacio de
muestras, los sucesos, los sucesos elementales y las partes.
38
En el estudio de la probabilidad pueden ser identificados tres tipos de métodos.
El primero es llamado el método de distribución binominal. En este caso los
es posible obtener dos resultados, los mismos son independientes y
excluyentes entre sí. Por ejemplo si se lanza una moneda puedo obtener cara
o cruz, al obtener cara no puedo obtener cruz y viceversa.
El segundo método es llamado de multiplicación. En este caso se determina
una probabilidad de varios eventos que son independientes entre sí, es decir
que los resultados obtenidos no tendrán influencia en los demás resultados.
El último método es el de la suma o regla de adición. En este caso la
posibilidad de que suceda un evento específico es equivalente a la sumatoria
de las probabilidades particulares. Esta regla se da bajo la condición que los
eventos sean excluyentes entre sí.
Las áreas en las que pueden ser aplicados los estudios de probabilidad son
diversas. Algunos ejemplos son gráficos o tablas relacionadas con la compra y venta
de las empresas, son también utilizadas en los censos o en diversos estudios de las
ciencias sociales y naturales. Las tablas estadísticas suelen reflejar las llamadas
frecuencias, sean las mismas acumuladas, con intervalos o de doble entrada. En
dichas tablas la información recolectada en organizada de manera clara y visible
para que sean comprensibles fácilmente.
Algunos de los grandes pensadores que se preocuparon por la probabilidad fueron
por ejemplo Galileo Galilei; a quien se le atribuyen las bases para la posterior
fundación de la estadística, Blaise Pascal; quien formuló una teoría acerca de las
propiedades de los números que es aún muy utilizada, Pierre La place; quien definió
ciertas aplicaciones prácticas a la teoría de la probabilidad, entre muchos otros
pensadores.
PROBABILIDAD
Definición de probabilidad
La probabilidad de un suceso es un número, comprendido entre 0 y 1, que indica
las posibilidades que tiene de verificarse cuando se realiza un experimento
aleatorio.
Experimentos deterministas
Son los experimentos de los que podemos predecir el resultado antes de que se
realicen.
Ejemplo:
Si dejamos caer una piedra desde una ventana sabemos, sin lugar a dudas, que
la piedra bajará. Si la arrojamos hacia arriba, sabemos que subirá durante un
determinado intervalo de tiempo; pero después bajará.
Experimentos aleatorios
Son aquellos en los que no se puede predecir el resultado, ya que éste depende
del azar.
Ejemplos:
Si lanzamos una moneda no sabemos de antemano si saldrá cara o cruz.
Si lanzamos un dado tampoco podemos determinar el resultado que vamos a
obtener.
Teoría de probabilidades
La teoría de probabilidades se ocupa de asignar un cierto número a
cada posible resultado que pueda ocurrir en un experimento aleatorio, con el
39
fin de cuantificar dichos resultados y saber si un suceso es más probable que
otro. Con este fin, introduciremos algunas definiciones:
Suceso
Es cada uno de los resultados posibles de una experiencia aleatoria.
Ejemplos:
Al lanzar una moneda salga cara.
Al lanzar un dado se obtenga 4.
Espacio muestral
Es el conjunto de todos los posibles resultados de una experiencia aleatoria, lo
representaremos por E (o bien por la letra griega Ω).
Ejemplos:
Espacio muestral de una moneda: E = {C, X}.
Espacio muestral de un dado: E = {1, 2, 3, 4, 5, 6}.
40
Nota:
La probabilidad del evento B, calculada bajo la suposición de que el evento A ha
ocurrido, se denomina probabilidad condicional de B, dado A, y se denota por P
(B/A).
Ejemplos ilustrativos
De una baraja estándar de 52 cartas sea A el suceso de sacar un As en la primera
extracción y B sacar un As en la segunda extracción. Calcular la probabilidad de
sacar dos Ases en dos extracciones sin devolver la carta extraída.
Solución:
A y B son sucesos dependientes porque la ocurrencia de A afecta la probabilidad
de ocurrencia de B.
La probabilidad de que la primera carta sea un As es:
41
Reemplazando los anteriores valores en la regla general de la multiplicación de
probabilidades para eventos dependientes se obtiene:
42
Simbología:
S = espacio muestral
A= Matemática
B = Estadística
a = Solamente Matemática
b = Solamente Estadística
c = Matemática y Estadística
d = Ninguna de las dos asignaturas
Datos y cálculos:
a = 10
b = 15
c = S - a - b - d = 50 - 10 - 15 - 5 = 20
d=5
S = 50
a) Matemática y Estadística.
43
La suposición de que el alumno seleccionado tenga preferencia por Matemática
significa que sólo consideremos el conjunto A, de los 30 elementos de A, sólo 20
tienen preferencia por Estadística. Por lo tanto la probabilidad condicional
P(B/A) = 20/30 = 2/3
O también, observando el diagrama de Venn-Euler y aplicando la fórmula de la
probabilidad condicional se tiene:
b) Estadística y Matemática.
44
Notas:
En los eventos dependientes se cumple:
4) De una tómbola que contiene 3 bolas rojas y 5 blancas, Mathías extrae tres bolas,
sin volver a la tómbola la bola extraída, calcular la probabilidad de que las 3 bolas
extraídas sean:
a) Rojas
b) 2 rojas y una blanca
c) Una roja y 2 blancas
d) 3 blancas
Solución:
a) Rojas
En 3 sucesos la fórmula de la regla general de probabilidades es:
46
Nota: Dos eventos A y B son independientes si la
ocurrencia de uno de ellos
no afecta la probabilidad de
ocurrencia del otro, esto es, si
Ejemplos ilustrativos
1) De una baraja estándar de 52 cartas sea A el
suceso de sacar un As en la primera extracción y
B sacar un Rey en la segunda extracción. Calcular
la probabilidad de sacar un As y un Rey en dos extracciones devolviendo la carta
extraída.
Solución:
A y B son sucesos independientes porque la ocurrencia de A afecta la probabilidad
de ocurrencia de B.
La probabilidad de que la primera carta sea un As es:
2) Una pareja de esposos desean tener 3 hijos. Suponiendo que las probabilidades
de tener un niño o una niña son iguales, calcular la probabilidad de éxito en
tener hombre en el primer nacimiento, mujer en el segundo nacimiento y hombre en
el tercer nacimiento.
Solución:
M = mujer
H = hombre
Elaborando un diagrama de árbol se tiene todas las probabilidades:
Entonces,
47
www.monografias.com AUTOR: MAGALLY ROSARIO DE LA CRUZ MACHUCA [email protected]
ALUMNA DE LA MAESTRIA EN “SALUD PÚBLICA CON MENCIÓN EN SALUD REPRODUCTIVA”
UNIVERSIDAD NACIONAL FEDERICO VILLARREAL.
48
Supongamos que a la charla asistieron tres mujeres, entonces definimos como
variable aleatoria a:
X: Número de mujeres que desearían ser esterilizadas.
Antes de hacerles la pregunta sobre su deseo de ser esterilizadas, puede considerar
las posibles respuestas:
X = 0 Ninguna desearía ser esterilizada
X = 1 Sólo una de las mujeres desearía
X = 2 Dos mujeres desearían
X = 3 Las tres mujeres desearían
Antes de verificar las respuestas de las 3 mujeres seleccionada; no sabe cuántas
estarán de acuerdo en ser esterilizadas, pero si conociera las probabilidades de
ocurrencia de cada uno de los posibles valores de la variable podría predecir su
ocurrencia con una cierta probabilidad. El conjunto de las probabilidades de
ocurrencia de los posibles valores de la variable aleatoria se denomina distribución
de probabilidades.
En nuestro ejemplo:
X Probabilidad
0 0.125
1 0.375
2 0.375
3 0.125
www.ieszaframagon.com/matematicas/estadistica/...aleatoria/tema5_2.ht...
1. DISTRIBUCIÓN DE PROBABILIDAD PARA VARIABLES ALEATORIAS
DISCRETAS.
1.1.-VARIABLES ALEATORIAS
49
asocia un número. O sea, para hablar de variable aleatoria, nuestro experimento
tiene que ser de tal forma que cada posible suceso o resultado se pueda expresar
mediante un número.
En los últimos ejemplos, tal como están planteados no serían variables aleatorias,
pero a veces podemos asociarles valores para que sí lo sean. Por ejemplo, si yo
digo que el suceso "le gusta el teatro" vale 1 y el suceso "no le gusta el teatro" vale
0, ya tendría definida una variable aleatoria sobre el experimento elegir una persona,
que valdría 1 si le gusta el teatro y 0 si no le gusta.
50
Toda variable aleatoria discreta tiene asociada una función de probabilidad, que a
cada valor, le marca la probabilidad de que la variable tome dicho valor. Esta
probabilidad viene a jugar el mismo papel que la frecuencia relativa en los temas de
estadística.
Antes que nada, vamos al construir el espacio muestral del experimento lanzar tres
monedas. Éste sería:
51
estadística unidimensional: media, varianza moda, mediana, percentiles,
desviaciones, etc., aunque nosotros vamos a centrarnos en las dos primeras, la
media y la varianza, (bueno o la desviación típica que era la raíz de la varianza si
recuerdas)
xi 0 1 2 3 Ejemplo: Calcula la
esperanza y la varianza de
1/8 = 1/8 = la variable número de
pi 3/8 = 0.375 3/8 = 0.375
0.125 0.125 caras del ejemplo 2
52
E(X) =0·0,125 + 1·0,375 + 2·0,375 + 3·0,125 = 1,5.
Xi -2 -1 0 1 2 3
pi 0.08 0.21 0.1 0.23 0.04
3.- ¿Cuál es el dinero que espera ganar un jugador que lanza dos dados de quinielas
(o sea, solo con tres caras, 1, X y 2) y recibe 90 dólares si salen dos doses; 45
dólares si sale un dos y paga 81 dólares si no sale dos?
VALOR ESPERADO
Se llama también esperanza matemática. Se trata de un operador matemático que
al ser aplicado a la función probabilidad permite el cálculo de ese valor en el caso
discreto, mientras que en el caso continuo se lo aplica a la función frecuencia.
53
Esperanza matemática
Ejemplos
1 Si una persona compra una papeleta en una rifa, en la que puede ganar de
5.000 dólares o un segundo premio de 2000 dólares con probabilidades de: 0.001
y 0.003. ¿Cuál sería el precio justo a pagar por la papeleta?
54
2 Un jugador lanza dos monedas. Gana 1 o 2 pesos si aparecen una o dos caras.
Por otra parte pierde 5 pesos si no aparece cara. Determinar la esperanza
matemática del juego y si éste es favorable.
E = {(c,c);(c,x);(x,c);(x,x)}
p(+1) = 2/4
p(+2) = 1/4
p(−5) = 1/4
Desviación típica
x pi x·pi x 2 · pi
6 1 6
55
DISTRIBUCION BINOMIAL
n
P( x) p x (1 p) n x
x
X = 0, 1, 2,……, n.
n n!
x (n x)! x!
La media o valor esperado es = np
La varianza 2 = np (1-p)
56
Todo experimento aleatorio con estas características se dice que sigue el modelo
de la distribución binomial, y a la variable X que expresa el número de éxitos
obtenidos en las n repeticiones de la prueba, se le llama variable aleatoria binomial
y se representa por B(n, p); donde "n" es el número de repeticiones de la
prueba y "p" la probabilidad de éxito.
De la manera que está planteado el problema sólo hay dos posibles resultados, o
acierta (éxito, pues me preguntan sobre los aciertos) o no acierta (fracaso) y la
probabilidad de acierto en cada prueba es la misma, 1 / 3.
General, si X sigue una distribución B(n, p), la función de probabilidad viene dada
por la fórmula:
57
Donde, n, debe ser un entero positivo y p debe pertenecer al intervalo 0 ≤ p ≤ 1,
por ser una proporción. Su media y su varianza, vendrán dadas por las siguientes
expresiones
El cálculo de la media y la varianza de una distribución binomial es inmediato si
conocemos sus parámetros n y p. Haciendo cálculos se llega a que:
Var(X) = n*p*(1 – p)
Veamos el siguiente ejemplo: Sea el caso de una droga X, con una dosis mortal
de 1g/100 ml para cobayos experimentales, en el 25% de los casos. Aplicando esta
dosis a cien cobayos se desea saber cuánto vale la probabilidad de que mueran
veinte de ellos.
Primero analizaremos si este caso cumple los supuestos básicos de una distribución
binomial:
Los cobayos mueren (éxito) o sobreviven (fracaso).
Que un cobayo muera con la dosis, no significa que lo hará el siguiente
(independencia) pues no se trata de una epidemia.
La probabilidad de que mueran se mantiene constante a lo largo de la serie de
pruebas (p = 0,25).
Entonces, como si cumple los supuestos básicos, aplicamos la fórmula:
100 100 20
P( x 20)
20
(0.25) (1 0.25)
20
0.04902 4.9%
Mucha matemática. No se preocupen, tenemos al Excel. Ingresamos la información
y listo P(x=20) = 0.0493
58
Veamos otro ejemplo:
En una farmacia se ha calculado la probabilidad de venderle a un cliente con obra
social es del 20%. Se eligen al azar 15 clientes de ese tipo que ingresan al negocio
y se desea calcular la probabilidad de concretar menos de tres ventas.
Si se cumple los supuestos básicos de la distribución binomial, entonces:
P(x<3) = P(x=0) + P(x=1) + P(x=2)
Matemáticamente esto se resuelve así:
15
P( x 0) (0.20) 0 (1 0.20)150 0.0352
0
15
P( x 1) (0.20)1 (1 0.20)151 0.1319
1
15
P( x 2) (0.20) 2 (1 0.20)15 2 0.2309
2
Entonces: P(x<3) = 0.0352 + 0.1319 + 0.2309 = 0.398
Ahora los hacemos con el Excel.
Matemáticamente P(x<3) = P (x≤ 2). El Excel calcula siempre o igualdad o menor
igual. Cuando queremos menor igual, en la opción de acumulado ingresamos
VERDADERO.
Entonces P(x<3) = 0.398
Distribuciones muestrales
Las muestras aleatorias obtenidas de una población son, por naturaleza propia,
impredecibles. No se esperaría que dos muestras aleatorias del mismo tamaño y
59
tomadas de la misma población tenga la misma media muestral o que sean
completamente parecidas; puede esperarse que cualquier estadístico, como la
media muestral, calculado a partir de las medias en una muestra aleatoria, cambie
su valor de una muestra a otra, por ello, se quiere estudiar la distribución de todos
los valores posibles de un estadístico. Tales distribuciones serán muy importantes
en el estudio de la estadística inferencial, porque las inferencias sobre las
poblaciones se harán usando estadísticas muestrales.
Con el análisis de las distribuciones asociadas con los estadísticos muestrales,
podremos juzgar la confiabilidad de un estadístico muestral como un instrumento
para hacer inferencias sobre un parámetro poblacional desconocido. Como los
valores de un estadístico, tal como la media, varían de una muestra aleatoria a otra,
se le puede considerar como una variable aleatoria con su correspondiente
distribución de frecuencias. La distribución de frecuencia de un estadístico muestral
se denomina distribución muestral. En general, la distribución muestral de un
estadístico es la de todos sus valores posibles calculados a partir de muestras del
mismo tamaño.
Distribución Muestral de Medias
Suponga que se han seleccionado muestras aleatorias de tamaño 20 en una
población grande. Se calcula la media muestral x para cada muestra; la colección
de todas estas medias muestrales recibe el nombre de distribución muestral de
medias, lo que se puede ilustrar en la siguiente figura:
Muestra 1 𝑋̅1 X1
Muestra 2 𝑋̅2 X2
Muestra 3 X3
𝑋̅3
Muestra k Xk
𝑋̅k
El Teorema del Límite Central también nos indica que cuando se extraen muestras
de tamaño mayor a 30 o bien de cualquier tamaño pero provenientes de una
población normal, la distribución muestral de medias tiene un comportamiento
aproximadamente normal, por lo que se puede utilizar la fórmula de la distribución
normal con
𝜎
µ = 𝑋̅ y 𝑆= 𝑛
√
S es equivalente al error estándar de la media, entonces la fórmula para calcular la
probabilidad del comportamiento del estadístico, en este caso la media de la
muestra, quedaría de la siguiente manera:
𝑋̅ − µ
Z= 𝜎
√𝑛
60
𝜎
Sobre el Error Estándar 𝑆 =
√𝑛
Actividad 1. Se eligen muestras de pares de números, con reemplazo, de la
población de los valores 0, 2, 4 y 6.
Encontrar:
μ, la media poblacional.
S, la desviación estándar poblacional.
μ x, la media de la distribución muestral de medias.
S x, la desviación estándar de la distribución muestral de medias.
Además, graficar las frecuencias para la población y para la distribución muestral
de medias.
Nota: Usar muestra s ordenadas implica todas las combinaciones de valores, por
ejemplo, (4,2) y (2,4) son dos parejas diferentes.
0+2+4+6
Solución: La media poblacional es: μ = =3
4
La distribución de frecuencias de la población es una distribución uniforme.
La desviación estándar de la poblacional es:
(4, 4) 4 16 48 0
0 1 2 3 4 5 6
(4, 6) 5
(6, 0) 3 La media de la distribución muestral de medias es:
(6, 2) 4
∑𝑓𝑥
(6, 4) 5 µx = ∑𝑓 = 48/16 = 3
(6, 6) 6
̅ −µx )2
∑f(𝑿 1(0 – 3)2 + 2(1 – 3)2 + 3(2 – 3)2 + 4(3 – 3)2 + 3(4 – 3)2 + 2(5 – 3)2 +1(6−3)2
σ=√ = √ = 1.58
∑f 16
61
PRUEBAS DE HIPÓTESIS
Autor
Mario Orlando Suárez Ibujes
http://www.monografias.com/trabajos91/prueba-hipotesis-medias-excel-y-
winstats/prueba-hipotesis-medias-excel-y-winstats.shtml#ixzz3lNkevmRy
En vez de estimar el valor de un parámetro, a veces se debe decidir si una
afirmación relativa a un parámetro es verdadera o falsa. Es decir, probar una
hipótesis relativa a un parámetro. Se realiza una prueba de hipótesis cuando se
desea probar una afirmación realizada acerca de un parámetro o parámetros de
una población.
Una hipótesis es un enunciado acerca del valor de un parámetro (media,
proporción, etc.).
Prueba de Hipótesis es un procedimiento basado en evidencia muestral
(estadístico) y en la teoría de probabilidad (distribución muestral del estadístico)
para determinar si una hipótesis es razonable y no debe rechazarse, o si es
irrazonable y debe ser rechazada.
La hipótesis de que el parámetro de la población es igual a un valor determinado se
conoce como hipótesis nula. Una hipótesis nula es siempre una de status quo o de
no diferencia.
Se simboliza comn el símbolo H0 y cuando se se desarrolla la prueba se asume que
la hipótesis nula es verdadera y este supuesto será rechazado sólo si se encuentran
suficientes evidencias en base a la información muestral.
Siempre que se especifica una hipótesis nula, también se debe especificar una
hipótesis alternativa, o una que debe ser verdadera si se encuentra que la hipótesis
nula es falsa. La hipótesis alternativa se simboliza H1. La hipótesis alternativa
representa la conclusión a la que se llegaría si hubiera suficiente evidencia de la
información de la muestra para decidir que es improbable que la hipótesis nula sea
verdadera y por tantorechazarla. Es siempre opuesta a la Hipótesis Nula.
62
En toda prueba de hipótesis se pueden cometer 2 tipos de errores:
1) Error tipo I: se comete error tipo I, cuando se rechaza la Ho, siendo esta
realmente verdadera. A la probabilidad de cometer error tipo I, se le conoce
como nivel de significación y se le denota como α
2) Error tipo II: se comete error tipo II, cuando se rechaza la Ho, siendo esta
realmente falsa. A la probabilidad de cometer error tipo II, se le denota como
β
El complemento de la probabilidad de cometer error tipo II, se le llama
potencia de la prueba y se denota como 1 – β
Como resumen se da la siguiente tabla:
63
Se acepta H0 Se rechaza H0
H0 es verdadera Decisión correcta Error Tipo I
H0 es falsa Error Tipo II Decisión correcta
64
Ejemplos ilustrativos:
1) La duración media de una muestra de 300 focos producidos por una compañía
resulta ser de 1620 horas.
65
Como se tiene como dato el tamaño de la población se tiene que verificar si cumple
con la condición para utilizar el factor finito de corrección.
66
Los cálculos en Excel se muestran en la siguiente imagen:
67
El gráfico elaborado con Winstats y Paint se muestra en la siguiente imagen:
68
Los cálculos en Excel se muestran en la siguiente imagen:
69
El gráfico elaborado con Winstats y Paint se muestra en la siguiente imagen:
70
Para tamaños más pequeños de muestra, Z estará distribuida normalmente sólo si
las dos poblaciones que se muestrean también lo están.
71
Ejemplo ilustrativo
La media de las calificaciones de dos muestras de 15 estudiantes de primer
semestre en la asignatura de Estadística de la universidad UTN resulta ser de 7 y
8,5. Se sabe que la desviación típica de las calificaciones en esta asignatura fue en
el pasado de 1,5.
72
Los cálculos en Excel se muestran en la siguiente figura:
Bibliografía
SUÁREZ, Mario, (2012), Interaprendizaje de Probabilidades y Estadística
Inferencial con Excel, Winstats y Graph, Primera Edición. Imprenta M & V,
Ibarra, Ecuador.
73
ANÁLISIS DE CORRELACION: Es el grupo de técnicas estadísticas empleado
para medir la intensidad de la relación (correlación) entre dos variables.
El principal objetivo del análisis de correlación es determinar qué tan intensa
es la relación entre dos variables. Una medida de esta relación es el coeficiente de
correlación ( r ) el cual puede tomar valores en una escala desde –1 hasta +1
inclusive como se indica enseguida.
-1.00 -0.50 0 +0.50 +1.00
Correlación negativa (C.N.) correlación positiva (C.P.)
r = -1 x x
Donde:
n es el número de pares de observaciones (x, y)
x valores de la variable independiente x.
y valores de la variable dependiente y.
74
EJEMPLO:
El director de personal de una empresa debe entrevistar y seleccionar nuevo
personal para el área de ventas. Ha diseñado una prueba que ayude a seleccionar
los mejores aspirantes. Con la finalidad de verificar la validez de su prueba, como
instrumento de predicción de las ventas semanales, eligió al azar cinco vendedores
experimentados y aplicó la prueba a cada uno (esta muestra es pequeña para fines
didácticos, en la práctica debe tomarse una muestra mucho mayor).
Los resultados obtenidos se muestran en la tabla siguiente:
Ventas 14
Semanales 12
10
8
6
4
2
1 2 3 4 5 6 7 8 9 10 11 x
Puntuación de prueba
75
n( xy) ( x)( y)
.r
[n( x²) ( x)²][n( y ²) ( y)²]
76
pronosticar la demanda de familias de productos. Aunque es probable que durante
un periodo varié bastante la demanda para un producto específico de la familia, la
demanda para toda la familia es sorpresivamente regular.
La restricción principal para usar los pronósticos de regresión lineal es que,
supuestamente, los datos pasados y las proyecciones caen sobre una línea recta.
Aunque esto limita su aplicación, algunas veces, si usamos un periodo más breve
puede usarse el análisis de regresión lineal. Por ejemplo, si existe una tendencia
de crecimiento y usamos un período de diez o veinte años la tendencia se pierde
entre todos los datos y será baja la proyección para el año siguiente. Sin embargo,
si sólo usamos los últimos años, el pronóstico será más preciso. Es una parte del
procedimiento de regresión lineal se estima lo adecuado del ajuste en la línea con
los datos.
La regresión lineal se usa tanto para pronósticos de series de tiempo como
para pronósticos de relaciones causales cuando la variable dependiente (por lo
general el eje vertical de un gráfico) cambia como resultado del tiempo (el eje
horizontal en el gráfico), se trata de un análisis de series de tiempo. Si una variable
cambia debido al cambio de otra variable, estamos ante una relación causal (como
el incremento en el número de muertes por cáncer en el pulmón con respecto a las
personas que fuman).
y b x n xy x y
a b
n n x² x ²
77
EJEMPLO 1.
Pronostique las ventas para los periodos 13, 14 y 15 si las ventas de los 12 periodos
anteriores son los que se indican a continuación.
Periodo (x) Ventas (y) (xy) (x²) Y’
1 600 600 1 801.3
2 1550 3100 4 1160.9
3 1500 4500 9 1520.5
4 1500 6000 16 18880.1
5 2400 12000 25 2239.7
6 3100 18600 36 2599.4
7 2600 18200 49 2959.0
8 2900 23200 64 3318.6
9 3800 34200 81 3678.2
10 4500 45000 100 4037.8
11 4000 44000 121 4397.4
12 4900 58800 144 4757.1
∑x = 78 ∑y = 33,350 ∑ = 268,200 ∑= 650
Calculando la pendiente:
12(268,200) 78(33,350) 3218,400 2601300 617,100
b 359.6153
12(650) (78)² 7800 6084 1716
78
El error estándar de estimación, o sea, la calidad de ajuste de la línea a los datos
anteriores es:
n
y i y 'i ²
Sy ' i 1
363.9
n2
Una ecuación más fácil de calcular para el error estándar es:
Sy '
y ² a y b xy
n2
EJEMPLO 2.
Volviendo a las puntuaciones de prueba y las ventas semanales de los cinco
vendedores, las sumas y otros datos básicos para despejar o evaluar a y b aparecen
en la tabla siguiente:
Ventas
Puntuación semanales
de prueba. (niveles de
dólares)
Vendedor X Y X² XY Y²
Sr. Amber 4 5 16 20 25
Sr. Archer 7 12 49 84 144
Sra. Smith 3 4 9 12 16
Sr. Malcolm 6 8 36 48 64
Sra. 10 11 100 110 121
Goodwin
Total 30 40 210 274 370
79
Por tanto, la ecuación de regresión es y’ = 1.202 + 1.133x (en miles de dólares).
Las ventas pronosticas para un candidato a un puesto en ventas, que calificó 6 en
la puerta del director de personal es $8000, que se obtiene por y’ = a + bx = 1.202
+ 1.133(6) = 1.202 + 6.798 = 8.000 (en miles de dólares).
EJERCICIO:
Datos: Calcular el pronóstico para los meses de enero, febrero y marzo del año
siguiente.
E F M A M J J A S O N D E F M A M J J A S O N D EF M
6 5 6 8 8 6 7 7 6 7 7 6 7 8 9 7 7 7 6 8 8 8 9 10
8 5 3 2 7 3 7 8 2 8 4 2 4 0 6 4 1 1 6 6 5 9 1 3
80