Análisis de Datos-Sesión02

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 28

ANÁLISIS DE DATOS

Introducción a la Estadística:
Descripción de Datos II

Tomás Minauro La Torre


Sesión 2
[email protected]

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
2

Medidas de Ubicación
 Media Si la medida es calculada a
 Mediana partir de los datos de una
muestra se les llama
 Moda estadístico muestral
 Percentil
 Cuartil Si la medida es calculada a partir de
los datos de una población se les
llama parámetro poblacional

Un estadístico muestral es un
estimador puntual de su correspondiente
parámetro poblacional

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
3

Promedio
1. Medida de Tendencia Central
2. La medida más común
3. Actúa como un “Punto de Balance”.
4. Se afecta por valores extremos.
5. Fórmula
n N
 Xi  Xi
X  
i 1 m  
i 1
n N
Muestra Población

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
4

Mediana
1. Medida de Tendencia Central.
2. Valor central en una secuencia de datos
ordenada. Percentil 50.
3. No se afecta por valores extremos.
4. Posición de la Mediana.

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
5

Promedio Truncado
El Promedio Truncado se obtiene promediando luego
de eliminar a % de los menores datos y a % de los
mayores datos del conjunto total de datos.
Es una buena medida de ubicación o tendencia
central si tenemos datos extremos o muy grandes o
muy pequeños.

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
6

Percentil
El p percentil de un conjunto de datos es un valor tal que por
lo menos el p% de las observaciones es menor o igual a él o el
(100-p)% de los valores es mayor que él.
1. Arreglar los datos en forma ascendente.
2. Calcular la posición i del p percentil.
i = (p/100)n
3. Si i no es un número entero, redondear hacia arriba. El p
percentil es el valor de la observación en la posición i.
4. Si i es un entero, el p percentil es el promedio entre las
observaciones de las posiciones i e i+1.
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
7

Cuartil
1. Medida de Tendencia NO Central
2. Divide los datos ordenados en cuatro partes.
3. Primer Cuartil = 25 Percentil
4. Segundo Cuartil = 50 Percentil = Mediana
5. Tercer Cuartil = 75 Percentil

25% 25% 25% 25%

Min Q1 Q2 Q3 Max
Q0 Q4
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
8

Medidas de Variabilidad
 Rango
 Rango Intercuartil
 Varianza
 Desviación Estándar
 Coeficiente de Variación

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
9

Rango
1. Medida de dispersión
2. Diferencia entre la más grande y la menor de
las observaciones
3. Ignora Cómo se distribuyen los datos
4. Es muy sensible a valores extremos.

7 8 9 10 7 8 9 10

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
10

Rango Intercuartílico

1. Medida de Dispersión
2. Diferencia entre el Tercer y Primer Cuartil
3. Es el rango en que se tiene el 50% central de
los datos.
4. No se afecta por Valores Extremos

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
11

Varianza
La varianza es el promedio de las diferencias al cuadrado de cada
observación con el promedio. Muestra la variación alrededor del
promedio.
La Varianza se calcula como sigue:

2 S ( X – X )2 S ( X – m )2
s s2 
n-1 N
Muestra Población

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
12

Desviación Estándar
La desviación estándar de un conjunto de datos es la
raíz cuadrada positiva de la varianza.
Esta medida está en las mismas unidades que los
datos, haciendo más fácil su comparación con el
promedio.

s = s2 s s2
Muestra Población

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
13

Coeficiente de Variación
El coeficiente de variación indica cuán grande es la
desviación estándar en relación con el promedio.
Se expresa como un porcentaje.

 S  (100) %  s  (100) %
X m 
Muestra Población

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
14

Estadística Descriptiva
Usando herramientas de Excel

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
15

Valor Z
El valor - Z es generalmente llamado el valor estandarizado.
Indica el número de desviaciones estándar que un Xi
cualquiera se aleja del promedio.

Un dato con valor menor que el promedio tendrá un valor Z


menor que cero.
Un dato con valor mayor que el promedio tendrá un valor Z
mayor que cero.
Un dato con valor igual al promedio tendrá un valor Z igual
a cero.

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
16

Regla Empírica
Para datos que se distribuyen en forma de campana:

Aproximadamente el 68% de los datos estarán entre la


media y una desviación estándar.
Aproximadamente el 95% de los datos estarán entre la
media y dos desviación estándar.
Casi todos los datos estarán entre la media y tres
desviación estándar.

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
17

Detectando Outliers
Un outlier es inusualmente muy pequeño o
inusualmente muy grande.
Un dato con un valor – Z menor que -3 o mayor que +3
pueden ser considerados como un outlier.
Puede ser un valor mal registrado. Puede ser un valor
indebidamente incluido en una muestra (población).
Como también puede ser un valor correctamente
registrado y que pertenece a esta muestra (población).

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
18

Análisis Exploratorio de Datos

Resumen con Cinco Números


Box Plot

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
19

Resumen con Cinco Números


Menor Valor
Primer Cuartil
Mediana
Tercer Cuartil
Mayor Valor

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
20

Box Plot – Diagrama de Caja


Se dibuja una caja con sus extremos en el primer y tercer
cuartil.
Se traza una línea vertical dentro de la caja en la
ubicación de la mediana.
Se definen límites (no se dibujan) usando el rango
intercuartílico (IQR).
Límites interiores se definen a 1.5(IQR) debajo de Q1 y
1.5(IQR) encima de Q3.
Límites exteriores se definen a 3(IQR) debajo de Q1 y
3(IQR) encima de Q3.
Continua

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
21

Box Plot – Diagrama de Caja


Se dibuja una línea punteada a través de la caja desde
el valor más pequeño hasta el valor más grande de los
datos dentro de los límites internos.
La ubicación de outliers medios se muestran con el
símbolo * .
La ubicación de outliers extremos se muestran con el
símbolo o .

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
22

Box Plot – Diagrama de Caja


Sesgo a la izquierda Simétrica Sesgo a la derecha
Q1 Mediana Q3 Q1 Mediana Q3 Q1 Mediana Q3

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
23

Box Plot – Diagrama de Caja


Es una excelente técnica gráfica para hacer comparaciones
entre dos o más grupos.

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
24

Medidas de Asociación entre dos Variables


 Hasta ahora hemos examinado únicamente métodos
numéricos utilizados para resumir los datos de una sola
variable a la vez.
 A menudo, un gerente o un tomador de decisiones está
interesado en la relación entre dos variables.
 Dos medidas descriptivas de la relación entre dos
variables son la covarianza y el coeficiente de correlación.

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
25

Covarianza
La covarianza es una medida de la asociación lineal
entre dos variables.
Valores positivos indican relación directa.
Valores negativos indican relación inversa.

S ( X – X ) ( Y – Y ) S ( X – mX ) ( Y – my )
sXY  sXY 
n-1 N
Muestra Población

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
26

Covarianza

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
27

Coeficiente de Correlación
El coeficiente puede tomar valores entre -1 y +1.
Valores cercanos a -1 indican una fuerte relación
negativa.
Valores cercanos a +1 indican una fuerte relación
positiva.

SXY sXY
rXY  rXY 
SX SY sX sY
Muestra Población

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.
Análisis de Datos
28

Coeficiente de Correlación

Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2019.

También podría gustarte