Clase 014a - Analisis de Datos II
Clase 014a - Analisis de Datos II
Clase 014a - Analisis de Datos II
INFERENCIAL: DE
LA MUESTRA A LA POBLACIN
La hiptesis en el contexto de la estadstica inferencial es una proposicin respecto a uno o varios parmetros, y lo que el investigador hace a travs de la prueba de hiptesis es determinar si la hiptesis es congruente con los datos obtenidos. Si es congruente con los datos, se acepta como vlido, en otro caso se rechaza (no asi los datos)
CURVA NORMAL
La mayora del comportamiento humano se manifiesta de manera NORMAL, de all la frase l no es normal. Ej. Si revisamos el nivel de inteligencia, veremos que la mayora se ubica en el promedio, pero en un extremo hallaremos unos pocos genios y en el otro extremo hallaremos unos pocos retrasados, de este concepto se gener la curva normal, que es un modelo terico, que representa una aproximacin de la realidad.
Es Unimodal (una sola moda) La asimetra es cero (la mitad de la curva es igual a la otra) La distancia entre la media y +3s es la misma distancia entre la media y -3s La base est dada en unidades de desviacin estndar (puntaciones z)
Donde -1s, -2s, -3s, 1s, 2s, 3s equivalen respectivamente a -1.00 z, -2.00z, -3.00z, a 1.00 z, 2.00z, 3.00z, (las distancias entre puntuaciones z representan reas bajo la curva (probabilidades)) La media, la mediana y la moda coinciden en el mismo punto (el centro)
NIVEL DE SIGNIFICANCIA
La probabilidad que un evento ocurra oscila entre 0 y 1, de manera que toda la curva normal es igual a 1 como rea. PARA PROBAR HIPOTESIS INFERENCIAL RESPECTO A LA MEDIA, SE DEBE EVALUAR QUE LA PROBABILIDAD DE QUE LA MEDIA DE LA MUESTRA EST CERCA DE LA MEDIA DE LA DISTRI-
BUCION MUESTRAL. Si es baja el investigador dudar de generalizar a toda la poblacin, y si es alta se podr hacer generalizaciones. Ej. Supongamos que la probabilidad de ganar una carrera de caballos es 95% apostaramos? O bien si compra 95 de 100 nmeros de bolido, sentira confianza que ganar en la noche ?
NIVEL DE SIGNIFICANCIA
El investigador una vez tiene la muestra, calcula su estadstica y analiza el porcentaje de confianza de que dicha muestra se acerca a la distribucin muestral.
Nivel
En este el investigador tiene 95% de seguridad para generalizar sin equivocarse y solo 5% en contra, en trminos de probabilidad 0.95 y 0.05 respectivamente, ambos suman la unidad.
En este el investigador tiene 99% de seguridad para generalizar sin equivocarse y solo 1% en contra, en trminos de probabilidad 0.99 y 0.01 respectivamente, ambos suman la unidad.
O RECHAZADA ?
CONSIDERACIONES PREVIAS:
La distribucin muestral es una distribucin normal de puntuaciones z, la base de la curva son puntuaciones z o unidades de desviacin estndar. Las puntuaciones z son distancias que indican reas bajo la distribucin normal o reas de probabilidad. El rea de riesgo es tomada como el rea de rechazo de la hiptesis; y el rea de confianza, como el rea de aceptacin de hiptesis.
EJEMPLO Y PROCEDIMIENTO:
Establecemos una hiptesis: el promedio de horas darias que se exponen los nios de la ciudad de Paricuntin a la TV en fin de semana es 3 horas. Definimos un nivel de significancia, por ejemplo 0.05 Recolectamos los datos en una muestra, y supongamos que se obtuvo una media de 2.9 horas
CONTINA
Al buscar en las tablas de rea (probabilidad) la puntuacin z que deje 2.5% de cada lado de la curva (e.d. 0.05) encontramos que su valor es 1.96, considerando 0.05 como nivel de significancia.
CONTINA
Ahora se compara la media de la muestra transformada a puntuacin z con el valor 1.96 si es menor, aceptar la hiptesis, si es mayor rechazarla. RESULTADOS:
Aunque el riesgo es mnimo existe la posibilidad de cometer errores, y de aqu se derivan 4 tipos de resultados: 1. aceptar una hiptesis verdadera (la decisin correcta) 2. Rechazar la hiptesis falsa (decisin correcta) 3. Rechazar la hiptesis verdadera (conocida como error tipo I o error alfa) 4. aceptar una hiptesis falsa (conocida como error de tipo II o error beta)
Los ltimos dos son indeseables, se puede reducir su posibilidad de ocurrencia mediante: A) muestras representativas probabilsticas B) inspeccin cuidadosa de los datos C) seleccin de la prueba estadstica apropiada D) mayor conocimiento de la pobacin
MODELO DE
REGRESIN LINEAL
Procedimiento e Interpretacin:
La regresin lineal se determina con base en el diagrama de dispersin. Este consiste en una grfica donde se relacionan las puntuaciones de una muestra en dos variables. Veamoslo con un ejemplo sencillo de 8 casos. Una variable es la calificacin en matemtica y la otra es la calificacin en estadstica, ambas medidas de 0 a 10.
Y = a + bX Donde Y es el valor de la variable dependiente que se desea predecir, y a es la ordenada en origen y b la pendiente o inclinacin.
Si sabemos que en matemtica tiene 7, cual valor le podra corresponder en estadstica ? Calculamos a = intercepto = 1.2 B = inclinacin = 0.8 Y = 1.2 + 0.8x7 Y = 6.8
T DE STUDENT.
LA PRUEBA
LA PRUEBA T
Esta se utiliza para evaluar si dos grupos difieren entre s de manera significativa con respecto a sus medias.
Se
simboliza t
HIPOTESIS: De diferencia entre 2 grupos. La hiptesis de investigacin propone que los grupos difieren significamente entre s y la hiptesis nula propone que los grupos no difieren significativamente.
Variable: la comparacin se realiza sobre una variable. (si hay diferentes variables se hacen diferentes clculos t, uno por cada variable) Ejemplo: dos grupos donde a uno se le aplica el estmulo experimental y el otro grupo es el de control. El valor t se obtiene con la frmula
Aqu X1es la media de un grupo y , X2 es la media del otro grupo, S1 es la desviacin estndar del primer grupo elevada al cuadrado, n1 es el tamao del primer grupo, s2 es la desviacin estndar del segundo grupo elevada al cuadrado y n2 es el tamao del segundo grupo. Para saber si el valor t es significativo, se aplica la frmula y se calculan los grados de libertad. Los grados de libertad constituye el nmero de maneras en que los datos pueden variar libremente. Cuando mayor sea el nmero de grados de libertad, la distribucin t de student se acercar ms a la distribucin normal. Si los grados de libertad son ms de 120, se puede usar la curva normal.
GRADOS DE LIBERTAD
Los grados de libertad se calculan as, Gl = (n1 + n2 ) 2 Aqui n1 y n2 son los tamaos de los grupos que se comparan. Una vez calculado el valor de t, los grados de libertad, se elige el nivel de significancia, y se compara el valor obtenido de t y el de la tabla t de student.
Si el valor calculado es igual o mayor al que aparece en la tabla, se acepta la hiptesis de investigacin. Pero si es menor se acepta la hiptesis NULA. USO DE LA TABLA t de student
Se busca en la tabla el valor que vamos a comparar, el que se ha calculado, basndose desde luego en los grados de libertad y el nivel de confianza seleccionado (0.05 o 0.01) En los renglones estn los grados de libertad y en las columnas se encuentran los niveles de confianza
ANALISIS DE T DE STUDENT
Ej. El 0.05 significa 95% de que en realidad los grupos DIFIEREN significativamente entre s y se tiene 5% de posibilidad de error. Cuanto mayor es el resultado de t respecto al valor de la tabla y menor sea la posibilidad de error, mayor ser la certeza de los resultados.
La prueba t se utiliza para comparar los resultados de preprueba con los resultados de una posprueba en un contexto experimental. O bien se comparan las prepruebas y las postpruebas de dos grupos que participan en un experimento.
Se busca en la tabla t student, con grados de libertad mayor a 200, en este caso aplica a (infinito) con 0.05 y encontramos: 0.05 tiene 1.645 y 0.01 tiene 2.326 Y siendo nuestro t = 6.698 entonces concluimos que se acepta la hiptesis de investigacin y rechazamos la hiptesis NULA.