MANUAL - ESTADISTICA - Descipcita y Distribuciones Discretas

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 10

MG. CARLOS A.

VALENCIA MARTINEZ
UNIVERSIDAD ANDINA DEL CUSCO – FILIAL QUILLABAMBA

Las variables
Son características de la población que nos interesa estudiar y siempre toma valores
diferentes por observación

Tipos de variables
1. Cualitativos: variables no numéricos
a) Ordinales. Criterio único de orden
b) Nominales: No presentan un criterio para ordenarlas
2. Cuantitativas: son valores numéricos
a) Discretas: Variable que se puede contar
b) Continuas: Variables que se miden y no se cuentan

Población

Muestra
Es un sector representativo con las características de las variables de la población
Muestreo
Forma de ser seleccionados los elementos de la muestra de una población

Información estadística
Definido la muestra y el muestreo se aplicaran un instrumento a un sector de la
población.

Censo
Instrumento que se aplica al total de la población

Representaciones en tablas y representaciones en gráficos


Datos agrupados
Tablas de distribución de frecuencias
Estas tablas nos permiten darnos cuenta de la tendencia en los valores de la variable,
de su distribución y de su variabilidad.
Se pueden agrupar los datos cuando se trabaja con un conjunto grande de números,
generalmente no podemos sacar conclusiones pues solemos concentrarnos en los
MG. CARLOS A. VALENCIA MARTINEZ
UNIVERSIDAD ANDINA DEL CUSCO – FILIAL QUILLABAMBA

valores mayores o en los menores o en los más frecuentes sin afirmar algo
categóricamente. En este sentido, decimos que tenemos datos, pero no información

En estadística se denomina distribución de frecuencias a la agrupación de datos,


generalmente representada en una tabla, en categorías excluyentes que concentran el
número de veces que tales datos se repiten, es decir, su frecuencia de aparición en
cierto conjunto. La intención es observar de manera más sencilla el número de datos
existentes en cada categoría de la distribución.
Para la construcción de una distribución de frecuencias agrupadas primero
aprenderemos a determinar las clases y con ellas construir la tabla de frecuencias
hasta llegar a expresar los resultados gráficamente mediante un histograma.

Clases
1. Rango de valores. Se ordena los datos y se identifica el valor máximo y mínimo.
Con estos valores se determinará el rango.
𝑹 = 𝑴𝒂𝒙𝒊𝒎𝒐 − 𝑴𝒊𝒏𝒊𝒎𝒐
2. Número de clases. Es cada uno de los intervalos de los valores que utilizaremos en
la distribución de frecuencias agrupadas. Es una costumbre muy frecuente dividir el
MG. CARLOS A. VALENCIA MARTINEZ
UNIVERSIDAD ANDINA DEL CUSCO – FILIAL QUILLABAMBA

rango de valores en 10 clases como máximo, pues con más clases, el trabajo puede ser
muy laborioso y con menos clases se puede perder precisión.
Cuando el número de datos es grande (más de 150), una manera de determinar el
número de clases es usando la siguiente fórmula:
Regla de Sturges:
𝑲 = 𝟏 + 𝟑, 𝟑𝟐𝟐 × 𝑳𝑶𝑮𝟏𝟎 ×N
Cuando el número de datos no es muy grande (digamos a lo más 150), una manera de
determinar el número de clases es usando la siguiente fórmula:

𝑲= 𝑵
Donde N es el número de datos.

3. Ancho de clase. Todos los intervalos o clases deben tener el mismo ancho y no
deben superponerse, de manera que cada dato caiga dentro de solamente una clase.
Para darnos una primera idea del ancho de clase dividiremos el rango entre el número
de clases:
𝑹
a=
𝑲

Donde a = ancho; R = rango; k = clase

4. Límites de clases. Una vez que hemos definido el número de clases y su ancho,
podemos empezar a construir la tabla con la distribución de frecuencias. Tendremos
tantos renglones como clases y una que indique los valores que componen cada
intervalo. Podemos también colocar dos columnas adicionales: una que indique
específicamente cuál es el límite inferior y otra para el límite superior.
– Limites abiertos: usan paréntesis ( )
– Limites cerrados: usan los corchetes [ ]
– Limites semiabiertos: usan los corchetes [ ) o ( ]

Ejemplo: Las estaturas de 40 alumnos son:

1.51 1.63 1.72 1.85 1.61 1.63 1.73 1.85 1.61 1.64 1.74

1.86 1.60 1.64 1.75 1.86 1.60 1.65 1.75 1.87 1.59 1.66
MG. CARLOS A. VALENCIA MARTINEZ
UNIVERSIDAD ANDINA DEL CUSCO – FILIAL QUILLABAMBA

1.77 1.88 1.56 1.66 1.78 1.88 1.55 1.69 1.80 1.90 1.54

1.71 1.83 1.92 1.52 1.72 1.83 1.99


Hallamos el Rango de valores:
Valor Máximo: 1.99 y el Valor Mínimo: 1.51
R = 1.99-1.51=0.48
Hallamos el número de clases
Así que aplicando la fórmula a nuestro ejercicio tenemos
√40=6.3≈6, esto es 6 clases.
Hallamos el ancho de clase
Aplicando formula obtenemos que el ancho de cada clase deberá ser de 8 cm. Sin
embargo siempre que sea posible resulta práctico usar números que sean múltiplos de
5, elige un número que resulte conveniente para lograr que todos los datos sean
cubiertos por las clases.

Marca
Intervalo de
Clase Limites reales de clase Frecuencia
Clase
clcclase
1 1.50 – 1.57 1.505 – 1.575 1.54 5

2 1.58 – 1.65 1.575 – 1.655 1.615 10

3 1.66 – 1.73 1.655 – 1.735 1.695 6

4 1.74 – 1.81 1.735 – 1.815 1.775 6

5 1.82– 1.98 1.815– 1.985 1.9 13

Total 40
MG. CARLOS A. VALENCIA MARTINEZ
UNIVERSIDAD ANDINA DEL CUSCO – FILIAL QUILLABAMBA

Representaciones Graficas
Variables cuantitativas
1. Histograma

https://codap.concord.org/releases/latest/static/dg/en/cert/index.html#shared=100
496

2. Polígono de frecuencias

Variables cualitativas
1. Gráficos de barras
2. Grafico circular

Medidas descriptivas de tendencia


Son cantidades que nos permiten conocer el comportamiento de la variable
1. Medidas de tendencia central. Nos indican hacia que valores tiende el
comportamiento de la variable. Estas medidas son similares entre sí, pero
cuando se tiene datos atípicos provocan que se sobreestime el comportamiento
de la variable como la media aritmética y la moda, la mediana es la medida
que representa mejor el comportamiento de la variable.
a. Media aritmética. Es una medida equitativa entre las observaciones.
Es el valor que tomaría todas las observaciones de ser éstas iguales
0entre sí.
𝒙
b. Mediana. Es el valor de la observación que se encuentra en la mitad de
la lista ordenada de las observaciones hechas.
𝒙
c. Moda. La observación que tiene la frecuencia absoluta mayor
𝒙
2. Medias de dispersión. Nos indican de qué manera se tiene la variabilidad o
dispersión de los datos, dentro del conjunto de los mismos.

3. Medidas descriptivas de posición. Nos indican como es el comportamiento


de la distribución de todos nuestros datos.
𝑩−𝑨 𝒃−𝒂
=
a. Ojiva porcentual 𝑩−𝑪 𝒃−𝒄
MG. CARLOS A. VALENCIA MARTINEZ
UNIVERSIDAD ANDINA DEL CUSCO – FILIAL QUILLABAMBA

b. Cuantiles: Numero de partes en loe se secciona la muestra, en este


caso entre cuatro:25%, 50%, 75%, 100%
c. Quintiles: Entre cinco: 20%, 40%, 60%, 80%, 100%
d. Deciles: Entre diez:10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%,
90%, 100%
e. Centiles: 1%, 2%, 3%... 100%

Medidas descriptivas de variabilidad


Error: Diferencia de algún valor observado de una variable con respecto de algún
valor fijo, como la media aritmética
Varianza: Mide los errores por la frecuencia de cada valor de variable y elevarla al
cuadrado para evitar que la suma de errores por defecto y por exceso sea cero
Desviación estándar: La raíz cuadrada de la varianza
Amplitud: Mayor valor de variable menos el menor valor de variable, los errores no
deben superar la amplitud.
Coeficiente de variación: Es la relación que tiene la desviación estándar con respecto
a la media, se usa para medir variabilidad de dos poblaciones distintas, pero debe
compararse la misma variable.
Regla empírica: Si a la media se le suma y resta sucesivamente la desviación -
estándar formaremos intervalos que agrupen una cierta proporción de nuestras
observaciones, siempre y cuando la distribución de la serie de datos sea más o menos
simétrica.
 El primer intervalo de sumar y restar la desviación estándar contendrá
aproximadamente el 68% de todas las observaciones.
 Si sumamos y restamos dos veces la desviación estándar contendrá 95% de
las observaciones.
 Si sumamos y restamos tres veces la desviación estándar contendrá 99% de
las observaciones.
 Si sumamos y restamos tres veces y media la desviación estándar tendrá el
total de las observaciones.

Interpretación de información estadística y resultados


Evitar información sesgada considerando lo que se estudia, la región geográfica, la
población, la muestra y como se obtuvieron los datos.
Los resultados serán confiables por todas las consideraciones anteriores y por el
comportamiento de los datos.
MG. CARLOS A. VALENCIA MARTINEZ
UNIVERSIDAD ANDINA DEL CUSCO – FILIAL QUILLABAMBA

Análisis estadístico con más de una variable


Usaremos los Diagrama de dispersión
Primero evaluaremos si los datos se proyectan hacia una función como la recta.
Enlaces de ejercicios:
https://codap.concord.org/releases/latest/static/dg/en/cert/index.html#shared=100496
https://codap.concord.org/releases/latest/static/dg/en/cert/index.html#shared=122032

Distribuciones Discretas
Distribución Binomial
Una distribución binomial es la probabilidad de una variable aleatoria discreta
(P(X=k)) y se define como el número de éxitos independientes y tiene las siguientes
características:
𝑛 𝑘 𝑛−𝑘
𝑓𝑘 = 𝑃 𝑋 = 𝑘 = 𝑝 𝑞
𝑘
Es un experimento finito, tiene un número fijo de pruebas o ensayos (n),
Los ensayos son independientes y cada ensayo tiene dos resultados posibles: éxitos
(k) y fracaso,
La probabilidad de éxito es constante durante todo el experimento (p)
La distribución binomial simbólicamente se representa B(n,p)
Se puede calcular aplicando la formula o en Microsoft Excel, insertando la función,
selecciona dentro del tipo de funciones estadísticas, el comando “DISTR.BINOM”,
como puede apreciarse en la imagen 1.

Esperanza de vida
𝑛
E𝑋 =𝜇= 𝑘 𝑘𝑃 𝑋 = 𝑘 = 𝑛 ∗p
Varianza

𝜎2 = 𝑛 ∗ 𝑞 ∗ p
Desviación típica

𝜎= 𝑛∗𝑞∗p
MG. CARLOS A. VALENCIA MARTINEZ
UNIVERSIDAD ANDINA DEL CUSCO – FILIAL QUILLABAMBA

Distribución de Poisson:
La distribución de Poisson aparece como límite de la distribución binomial cuando el
número de experimentos tiende a infinito y la probabilidad de éxito tiende hacia cero.
Simbólicamente se describe como P(l), aparece como aproximación a la distribución
binomial, B(n,p), cuando n es grande y p pequeño, siendo E(X)=l=Var(X).
Se utiliza para determinar la probabilidad de un número designado de éxitos cuando el
experimento ocurre en un espectro continuo de tiempo y espacio. Tiene las siguientes
características:
𝑘
𝜆
𝑓 𝑘 = 𝑃 𝑋 = 𝑘 = 𝑒 −𝜆
𝑘!
Tiene un número infinito de ensayos (n)
Donde X representa el número de ensayos que son infinitos y cada ensayo tiene dos
resultados posibles: éxitos (k) y fracaso.

𝑥 𝜆𝑥 𝑒 −𝜆
𝑃 =
𝜆 𝑘!

𝜆 = promedio de ensayos en un periodo de tiempo


𝑒 = 2.71828…es la Base de logaritmos naturales

Simbólicamente la distribución Poisson se representa P(𝜆 , siendo E(k)= 𝜆 = 𝑉𝑎𝑟 𝑘


Se puede calcular aplicando la formula o en Microsoft Excel, insertando la función,
selecciona dentro del tipo de funciones estadísticas, el comando “POISSON.DIST”,
como puede apreciarse en la imagen 2.

Distribución hipergeométrica
La distribución geométrica, simbólicamente descrita como H(N,n,p), describe las
probabilidades no constantes (sin reemplazamiento) en muestras pequeñas de
poblaciones pequeñas de obtener un resultado “A” y de obtener un resultado “no A”.
Es un experimento “N” no definido o un experimento separado en dos categorías
“N1” y “N2”
MG. CARLOS A. VALENCIA MARTINEZ
UNIVERSIDAD ANDINA DEL CUSCO – FILIAL QUILLABAMBA

𝑁𝑝 𝑁𝑞 𝑁1 𝑁2
𝑘 𝑛−𝑘 𝑘 𝑛−𝑘
𝑃 𝑋=𝑘 = 𝑁 = 𝑁
𝑛 𝑛
Los ensayos son independientes y cada ensayo tiene dos resultados excluyentes
posibles, donde habrá una característica “A” que es éxito (k) experimento N1 y un
éxito (k-1) para el experimento N2
La probabilidad de éxito no es constante durante todo el experimento (p), cambia
después de cada ensayo.
Se puede calcular aplicando la formula o en Microsoft Excel, insertando la función,
seleccionada dentro del tipo de funciones estadísticas, el comando
“DISTR.HIPERGEOM.N”, como puede apreciarse en la imagen 3.
Esperanza de vida
𝑛
E𝑋 =𝜇= 𝑘 𝑘𝑃 𝑋 = 𝑘 = 𝑛𝑝
Varianza

2
𝑁−𝑛
𝜎 = 𝑛𝑝 1 − 𝑝
𝑁−1
Desviación típica

𝑁−𝑛
𝜎= 𝑛𝑝 1 − 𝑝
𝑁−1

Distribución multinomial
Esta distribución de variable aleatoria discreta se aplica en situaciones en las que:
Experimento se espera más de dos tipos de resultados 𝑘>2
La probabilidad asociada a cada uno de los resultados son c
Las observaciones se pueden dividir constantes
Los ensayos o repetición del experimento son independientes, donde el número de
repeticiones es constante (n)

𝑛! 𝑥 𝑥 𝑥
𝑝 𝑥1 , 𝑥2 , … 𝑥𝑘 , 𝑛 = 𝑝1 1 𝑝2 2 … 𝑝𝑘 𝑘
𝑥1 ! 𝑥2 ! … 𝑥𝑘 !
MG. CARLOS A. VALENCIA MARTINEZ
UNIVERSIDAD ANDINA DEL CUSCO – FILIAL QUILLABAMBA

Se puede calcular aplicando la formula o en Microsoft Excel, insertando la función,


seleccionada dentro del tipo de funciones estadísticas, el comando
“MULTINOMIAL”, como puede apreciarse en la imagen 4.

También podría gustarte