Análisis de Datos-Sesión02
Análisis de Datos-Sesión02
Análisis de Datos-Sesión02
Introducción a la Estadística:
Descripción de Datos II
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
2
Medidas de Ubicación
Media Si la medida es calculada a
Mediana partir de los datos de una
muestra se les llama
Moda estadístico muestral
Percentil
Cuartil Si la medida es calculada a partir de
los datos de una población se les
llama parámetro poblacional
Un estadístico muestral es un
estimador puntual de su correspondiente
parámetro poblacional
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
3
Promedio
1. Medida de Tendencia Central
2. La medida más común
3. Actúa como un “Punto de Balance”.
4. Se afecta por valores extremos.
5. Fórmula
n N
Xi Xi
X
i 1 m
i 1
n N
Muestra Población
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
4
Mediana
1. Medida de Tendencia Central.
2. Valor central en una secuencia de datos
ordenada. Percentil 50.
3. No se afecta por valores extremos.
4. Posición de la Mediana.
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
5
Promedio Truncado
El Promedio Truncado se obtiene promediando luego
de eliminar a % de los menores datos y a % de los
mayores datos del conjunto total de datos.
Es una buena medida de ubicación o tendencia
central si tenemos datos extremos o muy grandes o
muy pequeños.
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
6
Percentil
El p percentil de un conjunto de datos es un valor tal que por
lo menos el p% de las observaciones es menor o igual a él o el
(100-p)% de los valores es mayor que él.
1. Arreglar los datos en forma ascendente.
2. Calcular la posición i del p percentil.
i = (p/100)n
3. Si i no es un número entero, redondear hacia arriba. El p
percentil es el valor de la observación en la posición i.
4. Si i es un entero, el p percentil es el promedio entre las
observaciones de las posiciones i e i+1.
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
7
Cuartil
1. Medida de Tendencia NO Central
2. Divide los datos ordenados en cuatro partes.
3. Primer Cuartil = 25 Percentil
4. Segundo Cuartil = 50 Percentil = Mediana
5. Tercer Cuartil = 75 Percentil
Min Q1 Q2 Q3 Max
Q0 Q4
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
8
Medidas de Variabilidad
Rango
Rango Intercuartil
Varianza
Desviación Estándar
Coeficiente de Variación
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
9
Rango
1. Medida de dispersión
2. Diferencia entre la más grande y la menor de
las observaciones
3. Ignora Cómo se distribuyen los datos
4. Es muy sensible a valores extremos.
7 8 9 10 7 8 9 10
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
10
Rango Intercuartílico
1. Medida de Dispersión
2. Diferencia entre el Tercer y Primer Cuartil
3. Es el rango en que se tiene el 50% central de
los datos.
4. No se afecta por Valores Extremos
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
11
Varianza
La varianza es el promedio de las diferencias al cuadrado de cada
observación con el promedio. Muestra la variación alrededor del
promedio.
La Varianza se calcula como sigue:
2 S ( X – X )2 S ( X – m )2
s s2
n-1 N
Muestra Población
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
12
Desviación Estándar
La desviación estándar de un conjunto de datos es la
raíz cuadrada positiva de la varianza.
Esta medida está en las mismas unidades que los
datos, haciendo más fácil su comparación con el
promedio.
s = s2 s s2
Muestra Población
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
13
Coeficiente de Variación
El coeficiente de variación indica cuán grande es la
desviación estándar en relación con el promedio.
Se expresa como un porcentaje.
S (100) % s (100) %
X m
Muestra Población
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
14
Estadística Descriptiva
Usando herramientas de Excel
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
15
Valor Z
El valor - Z es generalmente llamado el valor estandarizado.
Indica el número de desviaciones estándar que un Xi
cualquiera se aleja del promedio.
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
16
Regla Empírica
Para datos que se distribuyen en forma de campana:
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
17
Detectando Outliers
Un outlier es inusualmente muy pequeño o
inusualmente muy grande.
Un dato con un valor – Z menor que -3 o mayor que +3
pueden ser considerados como un outlier.
Puede ser un valor mal registrado. Puede ser un valor
indebidamente incluido en una muestra (población).
Como también puede ser un valor correctamente
registrado y que pertenece a esta muestra (población).
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
18
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
19
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
20
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
21
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
22
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
23
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
24
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
25
Covarianza
La covarianza es una medida de la asociación lineal
entre dos variables.
Valores positivos indican relación directa.
Valores negativos indican relación inversa.
S ( X – X ) ( Y – Y ) S ( X – mX ) ( Y – my )
sXY sXY
n-1 N
Muestra Población
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
26
Covarianza
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
27
Coeficiente de Correlación
El coeficiente puede tomar valores entre -1 y +1.
Valores cercanos a -1 indican una fuerte relación
negativa.
Valores cercanos a +1 indican una fuerte relación
positiva.
SXY sXY
rXY rXY
SX SY sX sY
Muestra Población
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
28
Coeficiente de Correlación
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.