Introducción A La Estadística
Introducción A La Estadística
Introducción A La Estadística
FENÓMENOS ALEATORIOS.
Estudia fenómenos aleatorios (que pueden pasar pero que no tengo poder de afectar ni
controlarlo NO SE PUEDE PREVER CON EXACTITUD) de forma cuantitativa. SE
TRABAJA CON LA INCERTIDUMBRE.
Muestreo probabilístico: todos los elementos tienen la misma probabilidad de ser elegidos,
ej tirar el dado.
1
Muestreo aleatorio simple: ej. los nombres en una bolsa y elijo.
Muestreo aleatorio sistemático: ej. cada vez que pasen 4 alumnos por la puerta al quinto lo
elijo.
Muestreo aleatorio estratificado: de alguna manera segmento, por ej. por universidad a la
que van, por su edad y una vez que los segmento tomó una muestra de cada pedacito que
separé.
Variable: algún atributo o variable que vaya a estudiar. Refiere a aquella característica que
nos interesa estudiar de los individuos. Se representa con una x. AQUELLO SOBRE LO
QUE DECIDA ESTUDIAR VA A SER MI VARIABLE.
VARIABLES: CUANTITATIVA (vamos a estudiar algo que se cuenta o mide. Ej. lo que nos
sacamos en un parcial, la temperatura que hace adentro del aula y afuera) o CUALITATIVA
(vamos a estudiar carac. o atributos, ej. la ciudad en la que viven o el puesto que ocupamos
en un trab)
TIPOS DE VARIABLES…
2
- DE FORMA: determine la forma o distribución que sigue la variable (que son
simétrica, asimétrica positiva y asimétrica negativa).
- DE VARIABILIDAD: rango, varianza, desvío y coeficiente de variación.
MODO o MODA: valor de la variable que se repite con mayor frecuencia. Su símbolo
es Mo. ES AQUELLO QUE MÁS SE REPITE.
AL MODO NO LE IMPORTAN LOS VALORES EXTREMOS DE UNA VARIABLE, no tiene
en cuenta los valores de la variable, sino la cantidad de veces que se repite cada una.
3
MEDIANA: divide a la mitad los datos
- ordeno los datos de menor a mayor
- Me= n+1%2 (el +1 lo hago porq me ayuda simplificandome la búsqueda)
- frecuencia acumulada: cantidad de datos que voy acumulando (sumar)
LA FRECUENCIA ACUMULADA SIEMPRE ME TIENE QUE DAR n (la cantidad
de datos que estoy sumando)
-POSICIÓN DE LA MEDIANA-
4
LA FORMA QUE TIENE LA DISTRIBUCIÓN se puede entender como SIMÉTRICA (si
son iguales) o ASIMÉTRICA POSITIVA o ASIMÉTRICA NEGATIVA…
5
PERCENTIL: agarra todos los datos que tengo y los % en 100 pedacitos iguales (cada
pedacito es un 1 %)
6
MEDIDAS DE DISPERSIÓN:
Nos van a decir que tan dispersos están los datos, por ej. al preguntar la edad y todos dicen
18, 19, 20, 18 etc. está concentrado, en cambio si responden 18, 45, 80 ESTÁN
DISPERSOS ESOS DATOS.
LA MEDIDA DE DISPERSIÓN ME AYUDA A ENTENDER LAS MEDIDAS DE TENDENCIA
CENTRAL, todo lo que vimos, sobre todo el promedio sin las medidas de dispersión; les va
a faltar una vuelta de interpretación.
- RANGO: Es la diferencia (RESTA) entre el mayor valor y el menor. EJ: si se dice que
las edades van entre 18 y 22 EL RANGO ES 4 (22 - 18) R= x (mayor) - x (menor)
Puede cambiar drásticamente de una muestra a otra.
- VARIANZA: mide la dispersión (DISTANCIA) de los datos respecto del promedio. EJ:
supongamos que un alumno viene y nos dice que tiene un montón de finales
aprobados, pero me dice 3 de esos y nos dice que en esos últimos 3 finales tiene
promedio 8 . EMI SUPONGAMOS QUE TIENEN COMO NOTAS DE ESOS FINALES
8-8-8 (en el caso de emi no hay distancia ENTRE LO QUE OBSERVE Y EL
PROMEDIO porq saco 8 8 8 y el promedio es 8 osea que el promedio pasa por
todos los puntos) PERO, MARTÍN TIENE PROMEDIO 8 TENIENDO COMO
NOTAS DE ESOS FINALES 9-7-8 por esto el promedio de Martin NO PASA POR
TODOS LOS PUNTOS, es decir que, hay una diferencia entre el 9 y el 8 y del 7
al 8.
LA VARIANZA SIEMPRE TIENE QUE SE POSITIVA, por esto es que la definición
de la varianza indica que “la varianza mide la dispersión de los datos respecto
del promedio. Es el promedio de las distancias AL CUADRADO que van desde
las observaciones a la media”.
7
CUANDO CÁLCULO UNA VARIANZA QUE VIENE DE LA POBLACIÓN, DIVIDO
POR EL TOTAL DE DATOS.
Y CUANDO CÁLCULO UNA VARIANZA QUE VIENE DE LA MUESTRA, divido por
el total de datos menos 1 (total de datos -1).
La imagen anterior muestra la varianza de Martin con las notas de los últimos 3
finales.
8
- COEFICIENTE DE VARIACIÓN: me va a terminar de decir si el promedio me
sirve o no me sirve.
9
cuando algo es relativo es porque depende de algo…
10
PROBABILIDAD
ESPACIO MUESTRAL (E): son todos los resultados posibles que yo tengo. TODAS
LAS CARAS DEL DADO QUE PUEDEN SALIR.
11
(LA PROBABILIDAD DE QUE SEA DE ESPADA O BASTO ES IGUAL A LA P DE QUE
SEA DE ESPADA SUMADO A LA P DE QUE SEA DE BASTO)
LA PROBABILIDAD DEL SUCESO SUMA DE DOS SUCESOS NO EXCLUYENTES ES:
la P DE QUE SUCEDA ESPADA O 1 = P DE QUE SUCEDA ESPADA + P DE QUE
SUCEDA 1 - P DE QUE SUCEDA ESPADA Y (intersección) 1
TABLA DE CONTINGENCIA…
la vamos a hacer siempre la tabla para trabajar con las probabilidades
12
13
PROBABILIDAD CONDICIONAL…
La PROBABILIDAD CONDICIONAL no es sobre el universo total, sino que por ej. “son
de espada” y voy al total de espada
Diagrama de VENN:
14
P (espada / par) refiere a LA PROBABILIDAD DE QUE SEA ESPADA SABIENDO QUE
ES PAR.
SUCESOS INDEPENDIENTES…
hay que probar la independencia O NO de esos dos sucesos
15
como son distintos SON DEPENDIENTES
según lo indicado hay relación entre el género y el gusto del chocolate
16
ESTADÍSTICA INFERENCIAL
17
vamos a tratar de estimar que es lo que va a pasar…
ej con las elecciones del domingo
CUANDO UNO TRABAJA CON LA POBLACIÓN EL VALOR ES ÚNICO. SEA CUAL SEA
EL INDICADOR SOBRE EL QUE ESTOY TRABAJANDO.
18
EN CAMBIO, CUANDO TRABAJO CON UNA MUESTRA ESE RESULTADO VA A
VARIAR TODO EL TIEMPO DEPENDIENDO LA MUESTRA SOBRE LA QUE ESTOY
TRABAJANDO.
19
EL OBJETO DE ESTE TEMA ES A PARTIR DE X RAYA (promedio muestral)
INFERIR/ESTIMAR CUÁNTO VALE MU (promedio poblacional)
AHORA MI VARIABLE NO VA A SER X SINO X RAYA (promedio muestral)
20
CON REPOSICIÓN…
21
ESE ERROR COMO NO CONOZCO MU NO VA A SER PRECISO
Nos manejamos con una probabilidad de acierto…
22
el promedio poblacional pasa POR CASI TODOS los intervalos
POSIBILIDAD DE ACIERTO, ej hay un 90% de acierto (por lo que hay tal % de chance
de que no esté el MU en el intervalo que yo calculé)
23
TCL teorema central de límite
24
25
INTERVALO DE CONFIANZA: intervalo de valores en donde uno espera encontrar
encontrar ese valor que no conozco.
ERROR DE MUESTREO: diferencia entre el valor del estimador puntual (X raya) y el valor
del parámetro (MU).
NIVEL DE CONFIANZA Y NIVEL DE RIESGO:
probabilidad de que ese valor que no conozco MU esté dentro del intervalo.
26
27
refes de la foto anterior:
unidad de observación; refiere a quién voy a observar
variable aleatoria; qué les voy a mirar, en este caso a la familia
28
MÓDULO es siempre positivo porque son distancias
29
SABER CUÁL ES NUESTRA POBLACIÓN DE ESTUDIO es vital.
30
ANÁLISIS DE REGRESIÓN LINEAL
buscar si existe relación entre dos variables cuantitativas
31
VAMOS A TENER DOS VARIABLES: Y variable dependiente que queremos estimar y
la variable X que es independiente sucediendo por sí misma y a partir de la cual voy a
estimar a Y
Y depende de X
pero… con otras variables ¿cómo me doy cuenta quién depende de quién?
nota del examen (Y) depende de las horas de estudio (X) o las ventas (Y) depende del
PBI (X)
32
me indica que es muestral
el punto donde corta el eje “y” es la ordenada al origen (EL VALOR QUE TOMA Y
CUANDO X VALE CERO)
33
ORDENADA AL ORIGEN DEL EJ: es la nota que se va a sacar un estudiante cuando
no estudio nada
34
Coeficiente de regresión muestral (pendiente): CUÁNTO VA A VARIAR Y POR CADA
VARIACIÓN UNITARIA EN X. EN EL EJ. LA PENDIENTE ME VA A INDICAR: CUÁNTO
VA A VARIAR LA NOTA POR CADA HR ADICIONAL QUE ESTUDIE.
35
HRS trabajadas son las X
ERRORES COMETIDOS ES Y
36
RESIDUO (e): diferencia (distancia) entre el valor observado y el promedio que nos
está dando la recta. EL DATO OBSERVADO MENOS EL DE LA RECTA.
CUANDO EL PUNTO CAE JUSTO EN LA RECTA NO HAY RESIDUO (no existe tal
diferencia nombrada anteriormente).
37
en el punto 1) indica que la suma de los residuos me da 0. Cuando sumó todos los
residuos se terminan cancelando y me da cero.
2) si agarro cada uno de los res. los elevo al cuadrado y los sumo no me va a dar 0,
sino que me dará un resultado positivo. (VOY A OBTENER LA MENOR SUMA
POSIBLE explica porqué se llama método de los mínimos cuadrados).
38
SABIENDO QUE… NUESTRO OBJETIVO RONDA EN:
39
LA RECTA SIRVE SOLO PARA VALORES DE X QUE VAN (en este caso) ENTRE 2 Y 6
(entre los valores observados)
40
SI AL DEFINIR LA ORDENADA AL ORIGEN HAY UNA EXTRAPOLACIÓN (está fuera
del entorno observado: está es la justificación) NO ES CORRECTO, hay que decir que
NO SE PUEDE DEFINIR LA ORDENADA AL ORIGEN.
41