Métodos Estadísticos para Investigadores

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 35

MÉTODOS ESTADÍSTICOS PARA INVESTIGADORES

NIVEL DE SIGNIFICANCIA (HIPÓTESIS)


En estadística, un resultado o efecto es estadísticamente significativo cuando es improbable que
haya sido debido al azar. Una "diferencia estadísticamente significativa" solamente significa que
hay evidencias estadísticas de que hay una diferencia; no significa que la diferencia sea grande,
importante o radicalmente diferente.
El nivel de significación de una prueba estadística es un concepto estadístico asociado a
la verificación de una hipótesis. En pocas palabras, se define como la probabilidad de tomar la
decisión de rechazar la hipótesis nula cuando ésta es verdadera (decisión conocida como error de
tipo I, o "falso positivo"). La decisión se toma a menudo utilizando el valor p: si el valor p es
inferior al nivel de significación, entonces la hipótesis nula es rechazada. Cuanto menor sea el
valor p, más significativo será el resultado.
En otros términos, el nivel de significación de un contraste de hipótesis es una probabilidad p tal
que la probabilidad de tomar la decisión de rechazar la hipótesis nula- cuando ésta es verdadera -
no es mayor que p.

Uso en la práctica

El nivel de significación es comúnmente representado por el símbolo griego α (alfa). Son comunes
los niveles de significación del 0.05, 0.01 y 0.001. Si un contraste de hipótesis proporciona
un valor p inferior a α, la hipótesis nula es rechazada, siendo tal resultado denominado
'estadísticamente significativo'. Cuanto menor sea el nivel de significación, más fuerte será la
evidencia de que un hecho no se debe a una mera coincidencia (al azar).
En algunas situaciones es conveniente expresar la significación estadística como 1 − α. En general,
cuando se interpreta una significación dada, se debe tomar en cuenta que, precisamente, está siendo
probada estadísticamente.
Diferentes niveles de α tienen distintas ventajas y desventajas. Valores pequeños de α otorgan
mayor confianza en la determinación de la significación, pero hacen correr mayores riesgos de
equivocarse al aceptar una hipótesis nula falsa (error de tipo II o "falso negativo"), con lo cual se
pierde potencia de estudio. La elección de un nivel de α inevitablemente envuelve un compromiso
entre significación y potencia, y consecuentemente entre errores de tipo I y de tipo II.
En algunos campos, por ejemplo física nuclear y de partículas, es común expresar la significación
estadística en unidades de "σ" (sigma), el desvío estándar de una distribución de Gauss. La

significación estadística de " " puede ser convertida en un valor α por medio de la función
error:
El uso de σ está motivado por la importancia de la distribución gaussiana para medir incertezas.
Por ejemplo, si una teoría predice que un parámetro tendrá un valor de, digamos, 100, y el
parámetro medido resulta de 109 ± 3, luego se puede informar la medición como un "desvío de 3σ"
de la predicción teórica. En términos de α, esta afirmación es equivalente a decir que "asumiendo
que la teoría sea cierta, la posibilidad de obtener el resultado experimental por casualidad es 0,27%
(dado que 1 − erf(3/√2) = 0,0027).
Los niveles fijos de significación tales como los mencionados pueden ser considerados como útiles
en el análisis exploratorio de datos. Sin embargo, la recomendación de la estadística moderna es
que, cuando el resultado de un test es esencialmente el resultado final de un experimento o de otro
estudio, el valor pdebería ser citado explícitamente. Y, sobre todo, debería ser citado si el valor p es
juzgado o no como significativo. Esto es para permitir que el máximo de información sea
transferido de un resumen de estudio al metaanálisis.
La diferencia entre un estadístico de muestra y un valor hipotético es estadísticamente significativa
si una prueba de hipótesis indica que es muy poco probable que la misma haya ocurrido en virtud
de las probabilidades. Para evaluar la significancia estadística, examine el valor p de la prueba. Si
el valor p está por debajo de un nivel de significancia (α) especificado (generalmente 0.10, 0.05 o
0.01), usted puede decir que la diferencia es estadísticamente significativa y rechazar la hipótesis
nula de la prueba.

Por ejemplo, supongamos que usted desea determinar si el grosor de unos parabrisas de vehículo
supera los 4 mm, tal como lo exigen las normas de seguridad. Usted toma una muestra de parabrisas
y realiza una prueba t de 1 muestra con un nivel de significancia (α) de 0.05 y plantea las hipótesis
siguientes:

H0: μ = 4

H1: μ > 4
Si la prueba produce un valor p de 0.001, usted declara significancia estadística y rechaza la
hipótesis nula, porque el valor p es menor que α. Usted concluye a favor de la hipótesis alternativa:
que el grosor de los parabrisas es mayor que 4 mm.

Sin embargo, si el valor p es igual a 0.50, usted no puede declarar significancia estadística. No
tiene suficiente evidencia para afirmar que el grosor promedio de los parabrisas es mayor de 4 mm.

Un resultado estadísticamente significativo podría no ser significativo desde el punto de vista

práctico
La significancia estadística por sí sola no implica que los resultados tengan una consecuencia
práctica. Si utiliza una prueba con una potencia muy alta, podría concluir que una pequeña
diferencia con respecto al valor hipotético es estadísticamente significativa. Sin embargo, esa
pequeña diferencia podría ser insignificante para su situación. Debe usar su conocimiento
especializado para determinar si la diferencia es significativa desde el punto de vista práctico.

Por ejemplo, supongamos que usted está evaluando si la media de la población (μ) para las horas
trabajadas en una planta de manufactura es igual a 8. Si μ no es igual a 8, la potencia de la prueba
se acercará a 1 a medida que aumente el tamaño de la muestra y el valor p se acerque a 0.

Con suficientes observaciones, es probable que incluso las diferencias triviales entre los valores
hipotéticos y reales de los parámetros se vuelvan significativas. Por ejemplo, supongamos que el
valor real de mu es 7 horas, 59 minutos y 59 segundos. Con una muestra lo suficientemente grande,
lo más probable es que usted rechace la hipótesis nula de que μ es igual a 8 horas, aunque la
diferencia no tenga importancia práctica.
ERROR TIPO I Y TIPO II (HIPÓTESIS)
Ninguna prueba de hipótesis es 100% cierta. Puesto que la prueba se basa en probabilidades,
siempre existe la posibilidad de llegar a una conclusión incorrecta. Cuando usted realiza una prueba
de hipótesis, puede cometer dos tipos de error: tipo I y tipo II. Los riesgos de estos dos errores están
inversamente relacionados y se determinan según el nivel de significancia y la potencia de la
prueba. Por lo tanto, usted debe determinar qué error tiene consecuencias más graves para su
situación antes de definir los riesgos.

Error de tipo I
Si usted rechaza la hipótesis nula cuando es verdadera, comete un error de tipo I. La
probabilidad de cometer un error de tipo I es α, que es el nivel de significancia que usted
establece para su prueba de hipótesis. Un α de 0.05 indica que usted está dispuesto a aceptar
una probabilidad de 5% de estar equivocado al rechazar la hipótesis nula. Para reducir este
riesgo, debe utilizar un valor menor para α. Sin embargo, usar un valor menor para alfa
significa que usted tendrá menos probabilidad de detectar una diferencia si esta realmente
existe.

Error de tipo II
Cuando la hipótesis nula es falsa y usted no la rechaza, comete un error de tipo II. La
probabilidad de cometer un error de tipo II es β, que depende de la potencia de la prueba.
Puede reducir el riesgo de cometer un error de tipo II al asegurarse de que la prueba tenga
suficiente potencia. Para ello, asegúrese de que el tamaño de la muestra sea lo
suficientemente grande como para detectar una diferencia práctica cuando esta realmente
exista.

La probabilidad de rechazar la hipótesis nula cuando es falsa es igual a 1–β. Este valor es la
potencia de la prueba.

Verdad acerca de la población

Decisión basada H0 es verdadera H0 es falsa


en la muestra

No rechazar H0 Decisión correcta (probabilidad = 1 Error tipo II - no rechazar


- α) H0cuando es falsa (probabilidad =
β)

Rechazar H0 Error tipo I - rechazar H0 cuando Decisión correcta (probabilidad =


es verdadera (probabilidad = α) 1 - β)
Ejemplo de error de tipo I y tipo II
Para entender la interrelación entre los errores de tipo I y tipo II, y para determinar cuál error
tiene consecuencias más graves para su situación, considere el siguiente ejemplo.

Un investigador médico desea comparar la efectividad de dos medicamentos. Las hipótesis


nula y alternativa son:
 Hipótesis nula (H0): μ1= μ2
Los dos medicamentos tienen la misma eficacia.
 Hipótesis alternativa (H1): μ1≠ μ2
Los dos medicamentos no tienen la misma eficacia.

Un error de tipo I se produce si el investigador rechaza la hipótesis nula y concluye que los
dos medicamentos son diferentes cuando, en realidad, no lo son. Si los medicamentos tienen
la misma eficacia, el investigador podría considerar que este error no es muy grave, porque
de todos modos los pacientes se beneficiarían con el mismo nivel de eficacia
independientemente del medicamento que tomen. Sin embargo, si se produce un error de tipo
II, el investigador no rechaza la hipótesis nula cuando debe rechazarla. Es decir, el
investigador concluye que los medicamentos son iguales cuando en realidad son diferentes.
Este error puede poner en riesgo la vida de los pacientes si se pone en venta el medicamento
menos efectivo en lugar del medicamento más efectivo.

Cuando realice las pruebas de hipótesis, considere los riesgos de cometer errores de tipo I y
tipo II. Si las consecuencias de cometer un tipo de error son más graves o costosas que cometer
el otro tipo de error, entonces elija un nivel de significancia y una potencia para la prueba que
reflejen la gravedad relativa de esas consecuencias.
ENSAYOS DE HIPÓTESIS PARA UNA POBLACIÓN

Tenemos que empezar por definir que es una hipótesis y que es prueba de hipótesis.
Hipótesis es una aseveración de una población elaborado con el propósito de poner aprueba, para
verificar si la afirmación es razonable se usan datos.
En el análisis estadístico se hace una aseveración, es decir, se plantea una hipótesis, después se
hacen las pruebas para verificar la aseveración o para determinar que no es verdadera.
Por tanto, la prueba de hipótesis es un procedimiento basado en la evidencia muestral y
la teoría de probabilidad; se emplea para determinar si la hipótesis es una afirmación razonable.
Prueba de una hipótesis: se realiza mediante un procedimiento sistemático de cinco paso:

Siguiendo este procedimiento sistemático, al llegar al paso cinco se puede o no rechazar la


hipótesis, pero debemos de tener cuidado con esta determinación ya que en la consideración de
estadística no proporciona evidencia de que algo sea verdadero. Esta prueba aporta una clase de
prueba más allá de una duda razonable. Analizaremos cada paso en detalle
Objetivo de la prueba de hipótesis.
El propósito de la prueba de hipótesis no es cuestionar el valor calculado del estadístico (muestral),
sino hacer
un juicio con respecto a la diferencia entre estadístico de muestra y un valor planteado del
parámetro.
3.- Procedimiento sistemático para una prueba de hipótesis de una muestra
.Paso 1: Plantear la hipótesis nula Ho y la hipótesis alternativa H1.
Cualquier investigación estadística implica la existencia de hipótesis o afirmaciones acerca de las
poblaciones que se estudian.
La hipótesis nula (Ho) se refiere siempre a un valor especificado del parámetro de población, no a
una estadística de muestra. La letra H significa hipótesis y el subíndice cero no hay diferencia. Por
lo general hay un "no" en la hipótesis nula que indica que "no hay cambio" Podemos rechazar o
aceptar Ho.
La hipótesis nula es una afirmación que no se rechaza a menos que los datos maestrales
proporcionen evidencia convincente de que es falsa. El planteamiento de la hipótesis nula siempre
contiene un signo de igualdad con respecto al valor especificado del parámetro.
La hipótesis alternativa (H1) es cualquier hipótesis que difiera de la hipótesis nula. Es una
afirmación que se acepta si los datos maestrales proporcionan evidencia suficiente de que la
hipótesis nula es falsa. Se le conoce también como la hipótesis de investigación. El planteamiento
de la hipótesis alternativa nunca contiene un signo de igualdad con respecto al valor especificado
del parámetro.
Paso 2: Seleccionar el nivel de significancia.
Nivel de significacia: Probabilidad de rechazar la hipótesis nula cuando es verdadera. Se le denota
mediante la letra griega α, tambiιn es denominada como nivel de riesgo, este termino es mas
adecuado ya que se corre el riesgo de rechazar la hipótesis nula, cuando en realidad es verdadera.
Este nivel esta bajo el control de la persona que realiza la prueba.
Si suponemos que la hipótesis planteada es verdadera, entonces, el nivel de significación indicará
la probabilidad de no aceptarla, es decir, estén fuerade área de aceptación. El nivel de
confianza (1-α), indica la probabilidad de aceptar la hipótesis planteada, cuando es verdadera en
la población.

La distribución de muestreo de la estadística de prueba se divide en dos regiones, una región de


rechazo (conocida como región crítica) y una región de no rechazo (aceptación). Si la estadística
de prueba cae dentro de la región de aceptación, no se puede rechazar la hipótesis nula.
La región de rechazo puede considerarse como el conjunto de valores de la estadística de prueba
que no tienen posibilidad de presentarse si la hipótesis nula es verdadera. Por otro lado, estos
valores no son tan improbables de presentarse si la hipótesis nula es falsa. El valor crítico separa
la región de no rechazo de la de rechazo.
Tipos de errores
Cualquiera sea la decisión tomada a partir de una prueba de hipótesis, ya sea de aceptación de la
Ho o de la Ha, puede incurrirse en error:
Un error tipo I se presenta si la hipótesis nula Ho es rechazada cuando es verdadera y debía ser
aceptada. La probabilidad de cometer un error tipo I se denomina con la letra alfa α
Un error tipo II, se denota con la letra griega β se presenta si la hipótesis nula es aceptada cuando
de hecho es falsa y debía ser rechazada.
En cualquiera de los dos casos se comete un error al tomar una decisión equivocada.
En la siguiente tabla se muestran las decisiones que pueden tomar el investigador y las
consecuencias posibles.

Las Hipótesis "son tentativas de explicación de los fenómenos a estudiar, que se formulan al
comienzo de una investigación mediante una suposición o conjetura verosímil destinada a ser
probada por la comprobación de los hechos" (María Antonieta Tapia B, 2000). "Es una predicción
científica, una conjetura, la supuesta solución a un problema, a cuya comprobación se dedica la
investigación y como es lógico puede ser comprobada o rechazada" (Dr. C. Carlos A. Córdova
Martínez).
En muchos casos se formula una hipótesis estadística con el solo fin de rechazarla o anularla. Es el
caso de decidir si un procedimiento es mejor que otro, entonces se formula la hipótesis de que no
existe diferencia entre los procedimientos. Esas hipótesis se denominan hipótesis de nulidad y se
denotan por Ho. Cualquiera hipótesis que contradiga a Ho será llamada por hipótesis
alternativa H1. En términos estadísticos, supóngase que se quiere examinar la validez o no, de una
hipótesis referida a un parámetro de la población, digamos que se quiere probar que la media
poblacional ( no es igual a un valor determinado (o; lo expresado se acostumbra a representar

por: Ho : ( = (o vs H1: ( (o
La filosofía detrás del proceso de verificación de la hipótesis estadística en cierto sentido se puede
equiparar con la que rige el método de demostración por reducción al absurdo; es decir, afirmar
algo y para demostrar su veracidad suponer primero que no se cumple, y entonces, por medio de
un proceso lógico llegar a una contradicción con alguna propiedad ya establecida, y de este modo,
arribar a la conclusión de que lo afirmado inicialmente es cierto.
Los procedimientos que nos permiten decidir si se acepta o se rechaza la hipótesis o determinar si
las muestras observadas difieren grandemente de los resultados esperados, son llamados Pruebas
de Hipótesis, Dócimas de Hipótesis o Contraste de Hipótesis.
Al tomar una decisión se corre el riesgo de cometer uno de los dos errores posibles, uno
denominados de tipo I y el otro de tipo II, pero también hay dos posibilidades de tomar una decisión
correcta como se puede apreciar a continuación

Decisión

Si Ho es: Rechazar No Rechazar

Verdadera Error Tipo I Acción correcta

Falsa Acción correcta Error Tipo II

Es importante medir las magnitudes de eso errores e intentar que sean las menores posibles, es
decir que la probabilidad de cometerlo sea suficientemente pequeña, aunque es imposible reducir
ambas tanto como se quiera, puesto que la disminución en una, en general, es el aumento de la otra.
Como consecuencia de la aleatoriedad de las observaciones muestrales es posible que la estimación
obtenida se desvíe considerablemente de lo esperado por lo que se tome la decisión, siendo cierta
Ho, de rechazarla. Es lógico o conveniente por tanto que la probabilidad de que esto suceda sea
pequeña. Dentro de esta metodología, esta probabilidad, se denota por a y recibe el nombre de Nivel
de Significación.
El nivel de significación, es un valor arbitrario, en el sentido de que es seleccionado a priori por el
investigador de acuerdo a su experiencia y deseo. Siendo una probabilidad, puede asignársele
cualquier valor entre 0 y 1, pero como es importante usar una cifra pequeña, los valores que con
más frecuencia se utilizan son 0.05 y 0.01 o inclusive mas pequeños, aunque poco frecuentes en la
practica usual .
Es conveniente notar que el uso del término, significación, es debido a que la diferencia entre, el
valor hipotético (también llamado, teórico) y el hallado en la muestra (conocido como, práctico),
se considera suficientemente grande, como para que no sea solamente atribuible al azar; es decir,
que el concepto se refiere al estado de ser, estadísticamente significativo, y no es utilizado en el
sentido funcional habitual de la palabra.
El conjunto de valores muéstrales que conducen a rechazar Ho se denomina o conoce como, región
crítica o de rechazo, de la prueba de hipótesis.
Sea H una Hipótesis. Si la distribución muestral de un estadígrafo S es una distribución normal con
media (S y desviación estándar ?s , entonces la distribución de la variable estandarizada (o
puntuación Z) viene dada por Z=(S-(S)/?s , que es la distribución normal estandarizada ( media 0
y varianza 1)(Murray R Spiegel).
Como fue indicado en la anterior figura, se tendrá una confianza de un 95%, si la hipótesis H es
verdadera, de que la puntuación de Z de un estadígrafo muestral S estará entre k1 y k2, ya que el
área bajo la curva normal entre k1 y k2 es 0.95.
Como la distribución normal es simétrica, se distribuye a partes iguales la probabilidad de rechazar
Ho, cuando esta es verdadera, entre las dos colas de la curva, y entonces rechazaremos Ho sólo si
Z < k1 ó Z > k2, donde k1,2 están reflejados en la tabla que se muestra a continuación. La región
crítica o de rechazo, entonces estará constituida por el conjunto de las todas muestras de un tamaño
n, dado tales que el valor observado de Z cumpla con una de las dos siguientes condiciones: Z <
k1 ó Z > k2.

Nivel de significación a 0.10 0.05 0.01 0.005 0.002

Valores críticos de k -1.645 ó


-1.28 ó 1.28 -2.33 ó 2.33 -2.58 ó 2.58 -2.88 ó 2.88
para pruebas de una cola 1.654

Valores críticos de k para -1.645 y


-1.96 y 1.96 -2.58 y 2.58 -2.81 y 2.81 -3.08 y 3.08
pruebas de dos colas 1.645

Si, por otra parte, Z no se ubica en alguna de estas zonas, lo que sucede con probabilidad 1 – ?,
entonces en este caso se decide no rechazar Ho, y en consecuencia a esa región central bajo la curva
normal se le llama, región de no rechazo. En muchos textos de estadística se le denomina región
de aceptación.
La siguiente tabla muestra en situaciones diferentes el modo de calcular el estadígrafo de prueba,
según algunos textos:

Situación Distribución Estadígrafo

Para ( y ( conocida Normal estándar

( desconocida y n ( 30 Normal estándar

( desconocida y n ( 30 t-Student

Proporciones para muestras


Normal estándar
grandes Z=

Para muestras grandes las distribuciones muestrales de muchos estadígrafos Z, son distribuciones
normales con media (x y desviación estándar (S.
Los casos siguientes son de interés práctico, pero para poblaciones infinitas o para muestreos con
reemplazo. Para Medias y Proporciones se puede calcular Z según se indica a continuación:
Media. Sea S = la media muestral, (x = ( la media poblacional, (x = (/ donde ( es la desviación

estándar de la población y N el tamaño de la muestra. Entonces Z=


Proporción. Sea P la proporción de «éxito» en una muestra; (p = p, donde p es la proporción de
éxito de la población y N es el tamaño de la muestra; (p =, donde q=1-p. El valor de Z se expresa
por Z= . En el caso en que P=X/N donde X es el número real de éxito en una muestra, el valor de

Z se expresa por Z= , donde (x = (=Np, y (x = (= .


Ejemplo.
El fabricante de una medicina ME, patentada, adujo que la misma era efectiva un 90 % en la cura
de una dolencia. En una muestra de 200 pacientes con la dolencia y que fueron tratados con ME,
se curaron 160. Determinar si lo alegado por el fabricante es legítimo.
Solución:
Sea p la probabilidad de ser curado por la medicina ME patentada por el fabricante.
Formulación de las hipótesis Ho y H1: Ho: p=0.9 vs H1: p
Conclusiones
Si se condensan los resultados hasta aquí obtenidos, a manera de conclusiones se puede abordar,
que todo problema de prueba de hipótesis consiste en lo siguiente:
 1. Identificar una variable aleatoria X que tiene una distribución conocida, es decir, que
pertenece a una clase determinada, por ejemplo a las del tipo normal, y con relación a la cual se
quiere tomar una decisión respecto al valor de un parámetro desconocido, pero asociado a ella,
digamos (, (, ...,etc
 2. Se plantea una hipótesis nula, donde se asume un valor para el parámetro; y una hipótesis
alternativa donde se contradice lo expresado en la hipótesis nula.
 3. Se escoge el nivel de significación a, que es la probabilidad de rechazar la hipótesis nula
siendo esta cierta.
 4. Se selecciona una muestra de tamaño n para estimar el parámetro desconocido
y poder posteriormente decidir si se rechaza o no H0.
 5. Se define la región crítica para la prueba de hipótesis de interés.
 6. Se toma la decisión de rechazar H0, con un nivel de significación a si el valor estimado del
parámetro está en la región crítica y de no rechazar H0 si este valor no está en la región crítica.
MEDIA CON MUESTRA GRANDE (HIPÓTESIS)

En las unidades anteriores se manejó el uso de la distribución z, la cual se podía utilizar siempre y
cuando los tamaños de las muestras fueran mayores o iguales a 30 ó en muestras más pequeñas si
la distribución o las distribuciones de donde proviene la muestra o las muestras son normales.

En esta unidad se podrán utilizar muestras pequeñas siempre y cuando la distribución de donde
proviene la muestra tenga un comportamiento normal. Esta es una condición para utilizar las tres
distribuciones que se manejarán en esta unidad; t de student, X2 ji-cuadrada y Fisher.

A la teoría de pequeñas muestras también se le llama teoría exacta del muestreo, ya que también la
podemos utilizar con muestras aleatorias de tamaño grande.
En esta unidad se verá un nuevo concepto necesario para poder utilizar a las tres distribuciones
mencionadas. Este concepto es "grados de libertad".

Para definir grados de libertad se hará referencia a la varianza muestral:

Esta fórmula está basada en n-1 grados de libertad (degrees of freedom). Esta terminología resulta
del hecho de que si bien s2 está basada en n cantidades ..., éstas suman
cero, así que especificar los valores de cualquier n-1 de las cantidades determina el valor restante.
Por ejemplo, si n=4 y

; y , entonces automáticamente tenemos , así que


sólo tres de los cuatro valores de están libremen te determinamos 3 grados de libertad.

Entonces, en esta unidad la fórmula de grados de libertad será n-1 y su simbología

distribucion "t de student"

Supóngase que se toma una muestra de una población normal con media y varianza . Si
es el promedio de las n observaciones que contiene la muestra aleatoria, entonces la

distribución es una distribución normal estándar. Supóngase que la varianza de la


2
población es desconocida. ¿Qué sucede con la distribución de esta estadística si se
reemplaza por s? La distribución t proporciona la respuesta a esta pregunta.

La media y la varianza de la distribución t son = 0y para >2,


respectivamente.

La siguiente figura presenta la gráfica de varias distribuciones t. La apariencia general de la


distribución t es similar a la de la distribución normal estándar: ambas son simétricas y unimodales,
y el valor máximo de la ordenada se alcanza en la media = 0. Sin embargo, la distribución t tiene
colas más amplias que la normal; esto es, la probabilidad de las colas es mayor que en la
distribución normal. A medida que el número de grados de libertad tiende a infinito, la forma límite
de la distribución t es la distribución normal estándar.
Propiedades de las distribuciones t

1. Cada curva t tiene forma de campana con centro en 0.


2. Cada curva t, está más dispersa que la curva normal estándar z.
3. A medida que aumenta, la dispersión de la curva t correspondiente disminuye.
4. A medida que , la secuencia de curvas t se aproxima a la curva normal estándar,
por lo que la curva z recibe a veces el nombre de curva t con gl =

La distribución de la variable aleatoria t está dada por:

Esta se conoce como la distribución t con grados de libertad.

Sean X1, X2, . . . , Xn variables aleatorias independientes que son todas normales con media y

desviación estándar . Entonces la variable aleatoria tiene una distribución t con =


n-1 grados de libertad.

La distribución de probabilidad de t se publicó por primera vez en 1908 en un artículo de W. S.


Gosset. En esa época, Gosset era empleado de una cervecería irlandesa que desaprobaba la
publicación de investigaciones de sus empleados. Para evadir esta prohibición, publicó su trabajo
en secreto bajo el nombre de "Student". En consecuencia, la distribución t normalmente se llama
distribución t de Student, o simplemente distribución t. Para derivar la ecuación de esta
distribución, Gosset supone que las muestras se seleccionan de una población normal. Aunque esto
parecería una suposición muy restrictiva, se puede mostrar que las poblaciones no normales que
poseen distribuciones en forma casi de campana aún proporcionan valores de t que se aproximan
muy de cerca a la distribución t.
MEDIA CON MUESTRA PEQUEÑA (HIPÓTESIS)
La distribución t difiere de la de Z en que la varianza de t depende del tamaño de la muestra y
siempre es mayor a uno. Unicamente cuando el tamaño de la muestra tiende a infinito las dos
distribuciones serán las mismas.
Se acostumbra representar con el valor t por arriba del cual se encuentra un área igual a .

Como la distribución t es simétrica alrededor de una media de cero, tenemos ;


es decir, el valor t que deja un área de a la derecha y por tanto un área de a la izquierda,
es igual al valor t negativo que deja un área de en la cola derecha de la distribución. Esto es,
t0.95 = -t0.05, t0.99=-t0.01, etc.

Para encontrar los valores de t se utilizará la tabla de valores críticos de la distribución t del libro
Probabilidad y Estadística para Ingenieros de los autores Walpole, Myers y Myers.

Ejemplo:

El valor t con = 14 grados de libertad que deja un área de 0.025 a la izquierda, y por tanto un
área de 0.975 a la derecha, es

t0.975=-t0.025 = -2.145

Si se observa la tabla, el área sombreada de la curva es de la cola derecha, es por esto que se tiene
que hacer la resta de . La manera de encontrar el valor de t es buscar el valor de en el
primer renglón de la tabla y luego buscar los grados de libertad en la primer columna y donde se
intercepten y se obtendrá el valor de t.

Ejemplo:

Encuentre la probabilidad de –t0.025 < t < t0.05.

Solución:

Como t0.05 deja un área de 0.05 a la derecha, y –t0.025 deja un área de 0.025 a la izquierda,
encontramos un área total de 1-0.05-0.025 = 0.925.
P( –t0.025 < t < t0.05) = 0.925

Ejemplo:

Encuentre k tal que P(k < t < -1.761) = 0.045, para una muestra aleatoria de tamaño 15 que se
selecciona de una distribución normal.

Solución:

Si se busca en la tabla el valor de t =1.761 con 14 grados de libertad nos damos cuenta que a este
valor le corresponde un área de 0.05 a la izquierda, por ser negativo el valor. Entonces si se resta
0.05 y 0.045 se tiene un valor de 0.005, que equivale a . Luego se busca el valor de 0.005 en el
primer renglón con 14 grados de libertad y se obtiene un valor de t = 2.977, pero como el valor
de está en el extremo izquierdo de la curva entonces la respuesta es t = -2.977 por lo tanto:

P(-2.977 < t < -1.761) = 0.045

Ejemplo:

Un ingeniero químico afirma que el rendimiento medio de la población de cierto proceso en lotes
es 500 gramos por milímetro de materia prima. Para verificar esta afirmación toma una muestra de
25 lotes cada mes. Si el valor de t calculado cae entre –t0.05 y t0.05, queda satisfecho con su
afirmación. ¿Qué conclusión extraería de una muestra que tiene una media de 518 gramos por
milímetro y una desviación estándar de 40 gramos? Suponga que la distribución de rendimientos
es aproximadamente normal.

Solución:

De la tabla encontramos que t0.05 para 24 grados de libertad es de 1.711. Por tanto, el fabricante
queda satisfecho con esta afirmación si una muestra de 25 lotes rinde un valor t entre –1.711 y
1.711.

Se procede a calcular el valor de t:


Este es un valor muy por arriba de 1.711. Si se desea obtener la probabilidad de obtener un valor
de t con 24 grados de libertad igual o mayor a 2.25 se busca en la tabla y es aproximadamente de
0.02. De aquí que es probable que el fabricante concluya que el proceso produce un mejor producto
del que piensa.

MODELOS DE REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE Y


MÚLTIPLE
El caso más simple de regresión lineal ajusta a la ecuación de la recta los valores de la variable
independiente X1 a la variable dependiente Y, es decir:
Y = b0+b1X1,
donde b0 es la ordenada en el origen y b1 es la pendiente de la recta. El ajuste a esta ecuación
(mediante mínimos cuadrados) se caracteriza por la obtención de b0, b1 y el coeficiente de
correlación r.
La regresión lineal múltiple se basa en obtener una relación lineal entre un conjunto de variables
independientes X1,..,Xn con una variable dependiente Y, es decir:
Y = b0+b1X1+b2X2+b3X3+ ··· +bnXn.
El éxito de determinar una correlación lineal múltiple es que exista una correlación lineal simple
de cada variable independiente con la variable dependiente.
El estudio de la relación lineal simple y múltiple en R se realiza de la misma forma y se recoge en
el script_Regresion_Lineal.. Para ello se utiliza la función de regresión lineal lm(). Dicha función
esta definida por una variable dependiente, y una o varias variables independientes (si es una
variable independientes estamos trabajando con una regresión lineal simple; si son varias las
variables entonces es una regresión múltiple). Por ello, se ha de indicar a la función lm() cuál es la
variable dependiente y cuales son las independientes. La forma de expresarse en R es: variable
dependiente ~ variable/s independiente/s. Por ejemplo:
la variable dependiente Y en función de X1: Y~ X1
la variable dependiente Y en función de X1 y X2: Y~ X1+X2
la variable dependiente Y en función de todas las variables independientes (se usa el ‘.’): Y~.
También hay que indicarle dónde están guardadas esas variables y almacenarlas. Así, añadimos
data=datos a la función lm(), es decir, indicamos que las variables están almacenadas en datos.
Posteriormente las almacenamos el resultado en reg. Los pasos a seguir son (recordar que en primer
lugar se cargan los datos):
datos<-read.table("datos.txt",header=T,blank.lines.skip=F)
reg<-lm(Y~.,data=datos)
En función de los resultados obtenidos en el modelo lineal (como se verá en el siguiente ejemplo)
éste se puede mejorar eliminado variables independientes que tienen poco peso estadístico en la
función. De esta forma se puede conseguir un modelo predictivo más preciso, aunque la
eliminación de estas variables puede disminuir la calidad del modelo geoquímico-predictivo.
Por último, siempre resulta práctico comprobar gráficamente los valores del modelo predictivo (o
teórico) con los valores experimentales con el objeto de cuantificar la bondad del modelo predictivo
y evaluar si el modelo se ajusta para todo el intervalo de valores. En primer lugar, guardamos los
datos del ajuste lineal (reg$fitted.values) y en segundo lugar lo almacenarlos (con la variable
Y_teor). Es decir:
Y_teor<-reg$fitted.values
Finalmente se representa gráficamente los datos experimentales (datos$Y) frente a los datos
teóricos (Y_teor) y el ajuste de la regresión lineal:
plot(datos$Y,Y_teor)
abline(lm(datos$Y~Y_teor),col="blue")
Si queremos realizar un análisis de regresión lineal simple o múltiple debemos cargar
el script_Regresion_Lineal.

Ejercicio 1. Regresión lineal simple


Obtener la ecuación de la recta o correlación lineal entre el la concentración de Cr (variable
independiente) y la concentración de Ni (variable dependiente) a partir de los datos obtenidos en
el Ejercicio 1 de las prácticas de Matriz de correlación y gráficos de dispersión.
Este ejercicio se puede realizar cambiando los encabezados Cr por X1 y Ni por Y y usar la sintaxis
genérica explicada anteriormente:
datos<-read.table("datos.txt",header=T,blank.lines.skip=F)
reg<-lm(Y~X1,data=datos)
Y_teor<-reg$fitted.values
plot(datos$Y,Y_teor)
abline(lm(datos$Y~Y_teor),col="blue")
O bien dejar los encabezados originales y cambiar la sintaxis:
datos<-read.table("datos.txt",header=T,blank.lines.skip=F)
reg<-lm(Ni~Cr,data=datos)
Y_teor<-reg$fitted.values
plot(datos$Ni,Y_teor)
abline(lm(datos$Ni~Y_teor),col="blue")
Ejercicio 2. Regresión lineal multiple
Se ha estudiado el comportamiento frente a la cristalización de las sales 10 rocas porosas utilizadas
como material de construcción. La durabilidad de estas rocas se ha estimado mediante la pérdida
de masa después de cristalización de sales. Además se caracterizaron diferentes propiedades de la
roca, como la resistencia a la compresión simple, la densidad de conjunto (o aparente), y la
porosidad efectiva y el tamaño medio de poro, ambas obtenidas con porosimetría de intrusión de
mercurio.
El objetivo de este ejercicio es seleccionar el mejor modelo lineal múltiple para predecir la
durabilidad de las rocas (variable dependiente) en función de las otras variables (independientes).
Este ejemplo muestra cómo se pueden transformar variables independientes para que tengan una
influencia lineal sobre la variable dependiente (Datos obtenidos en: Benavente et al., (2007): The
influence of petrophysical properties on the salt weathering of porous building rocks. Environ Geol
52:197–206).
El primer paso es realizar la matriz de correlación y el grafico de dispersión. De esta forma
podemos evaluar qué variables se pueden transformar o eliminar por no ser significativas. Los
gráficos de dispersión muestran una relación inversa entre la pérdida de masa y el tamaño de poro
y la resistencia mecánica. Para ello, en la matriz de datos.txt añadir una columna con la inversa del
tamaño del poro (r-1) y otra con la inversa de la resistencia a la compresión simple (RCS-1).
RECTA DE REGRESIÓN DE MÍNIMOS CUADRADOS
Una recta que mejor se ajusta es una línea recta que es la mejor aproximación del conjunto de
datos dado.

Es usada para estudiar la naturaleza de la relación entre dos variables.

Una recta que mejor se ajusta puede ser determinada aproximadamente usando el método visual al
dibujar una línea recta en unagráfica de dispersión para que tanto el número de puntos arriba de la
recta y debajo de la recta sean casi iguales (y la línea pasa a tráves de tantos puntos como sea
posible).

Una forma más precisa de encontrar la recta que mejor se ajusta es el método de mínimos
cuadrados .

Use los pasos siguientes para encontrar la ecuación de la recta que mejor se ajusta para un conjunto
de parejas ordenadas .

Paso 1: Calcule la media de los valores de x y la media de los valores de y .

Paso 2: Realice la suma de los cuadrados de los valores de x .

Paso 3: Realice la suma de cada valor de x multiplicado por su valor correspondiente y .

Paso 4: Calcule la pendiente de la recta usando la fórmula:

donde n es el número total de puntos de los datos.


Paso 5: Calcule la intercepción en y de la recta usando la fórmula:

donde son las medias de las coordenadas de x y y de los puntos de datos respectivamente.
Paso 6: Use la pendiente y la intercepción en y para formar la ecuación de la recta.

Ejemplo:
Use el método de mínimos cuadrados para determinar la ecuación de la recta que mejor se ajusta
para los datos. Luego grafique la recta.
Solución:

Grafique los puntos en un plano coordenado .

Calcule las medias de los valores de x y los valores de y , la suma de los cuadrados de los valores
de x , y la suma de cada valor de xmultiplicado por su valor correspondiente y .

Calcule la pendiente.

Calcule la intercepción en y .

Primero, calcule la media de los valores de x y la media de los valores de y .


Use la fórmula para calcular la intercepción en y .

Use la pendiente y la intercepción en y para formar la ecuación de la recta que mejor se ajusta.

La pendiente de la recta es -1.1 y la intercepción en y es 14.0.

Por lo tanto, la ecuación es y = -1.1 x + 14.0.

Dibuje la recta en la gráfica de dispersión.


INTERVALO DE CONFIANZA PARA LOS COEFICIENTES BI.
PRUEBA DE HIPÓTESIS PARA LOS COEFICIENTES DE
REGRESIÓN
COEFICIENTE DE CORRELACIÓN

ara poder contar con un indicador que nos permita, por un lado establecer la covariación conjunta
de dos variables , y por otro, que tenga la universalidad suficiente para poder establecer
comparaciones entre distintos casos, se utiliza el coeficiente de correlación (lineal, de Pearson).La
correlación es, pues una medida de covariación conjunta que nos informa del sentido de esta y de
su relevancia, que está acotada y permite la comparación entre distintos casos.

El coeficiente de correlación entre dos variables puede definirse como la covarianza existente entre
sus dos variables tipificadas y tiene por expresión de cálculo:

Interpretación:

**Si r < 0 Hay correlación negativa : las dos variables se correlacionan en sentido inverso.A
valores altos de una de ellas le suelen corresponder valor bajos de la otra y viceversa.Cuánto más
próximo a -1 esté el coeficiente de correlación más patente será esta covariación extrema.Si r= -1
hablaremos de correlación negativa perfecta lo que supone una determinación absoluta entre las
dos variables ( en sentido inverso): Existe una relación funcional perfecta entre ambas(una relación
lineal de pendiente negativa).

** Si r > 0 Hay correlación positiva: las dos variables se correlacionan en sentido directo.A
valores altos de una le corresponden valores altos de la otra e igualmente con los valores
bajos.Cuánto más próximo a +1 esté el coeficiente de correlación más patente será esta
covariación.Si r = 1 hablaremos de correlación positiva perfecta lo que supone una determinación
absoluta entre las dos variables (en sentido directo):Existe una relación lineal perfecta ( con
pendiente positiva).

** Si r = 0 se dice que las variables están incorrelacionadas: no puede establecerse ningún sentido
de covariación.

La correlación estadística es medida por lo que se denomina coeficiente de correlación (r). Su valor
numérico varía de 1,0 a -1,0. Nos indica la fuerza de la relación.
En general, r> 0 indica una relación positiva y r <0 indica una relación negativa, mientras que r =
0 indica que no hay relación (o que las variables son independientes y no están relacionadas). Aquí,
r = 1,0 describe una correlación positiva perfecta y r = -1,0 describe una correlación negativa
perfecta.
Cuanto más cerca estén los coeficientes de +1,0 y -1,0, mayor será la fuerza de la relación entre las
variables.

Como norma general, las siguientes directrices sobre la fuerza de la relación son útiles (aunque
muchos expertos podrían disentir con la elección de los límites).

Valor de r Fuerza de relación


-1,0 A -0,5 o 1,0 a 0,5 Fuerte
-0,5 A -0,3 o 0,3 a 0,5 Moderada
-0,3 A -0,1 o 0,1 a 0,3 Débil
-0,1 A 0,1 Ninguna o muy débil
La correlación es solamente apropiada para examinar la relación entre datos cuantificables
significativos (por ejemplo, la presión atmosférica o la temperatura) en vez de datos categóricos,
tales como el sexo, el color favorito, etc.

Desventajas

Si bien 'r' (coeficiente de correlación) es una herramienta poderosa, debe ser utilizada con cuidado.

1. Los coeficientes de correlación más utilizados sólo miden una relación lineal. Por lo tanto, es
perfectamente posible que, si bien existe una fuerte relación no lineal entre las variables, r está
cerca de 0 o igual a 0. En tal caso, un diagrama de dispersión puede indicar aproximadamente la
existencia o no de una relación no lineal.
2. Hay que tener cuidado al interpretar el valor de 'r'. Por ejemplo, se podría calcular 'r' entre el
número de calzado y la inteligencia de las personas, la altura y los ingresos. Cualquiera sea el
valor de 'r', no tiene sentido y por lo tanto es llamado correlación de oportunidad o sin sentido.
3. 'R' no debe ser utilizado para decir algo sobre la relación entre causa y efecto. Dicho de otra
manera, al examinar el valor de 'r' podríamos concluir que las variables X e Y están relacionadas.
Sin embargo, el mismo valor de 'r no nos dice si X ínfluencia a Y o al revés. La correlación
estadística no debe ser la herramienta principal para estudiar la causalidad, por el problema con
las terceras variables.
INTERVALO DE CONFIANZA PARA LOS COEFICIENTES DE
CORRELACIÓN

a) Supuestos:

La población sigue la distribución Normal.

Los datos son independientes.

b) Hipótesis:

c) Estadístico de contraste:

donde Zr es la transformación de Fisher del coeficiente de correlación.

d) Distribución del estadístico de contraste: Normal.

e) Significación del estadístico de contraste.

g) Intervalo de confianza:
Ejemplo

En un estudio de la relación entre malestar físico subjetivo y depresión hallan que la correlación
entre las dos variables es igual a 0.6 en una muestra de 35 pacientes de depresión seleccionados
aleatoriamente. Saben que la correlación entre estas variables en la población de individuos sin
depresión es igual a 0.4 (valor ficticio), y quieren saber si la diferencia es estadísticamente
significativa.

a) Supuestos:

Se asume que los supuestos son satisfechos dado que hemos seleccionado aleatoriamente los
individuos de la muestra.

b) Hipótesis:

alfa=0.05

c) Estadístico de contraste:

donde Zr es la transformada de Fisher del coeficiente de correlación de Pearson.

d) Distribución del estadístico de contraste: Normal.

e) Significación del estadístico de contraste: 0.06

f) Decisión: La significación del estadístivo de contraste es superior a 0.05 se acepta la Hipótesis


Nula.

g) Intervalo de confianza:
Con un nivel de confianza del 95% se concluye que la correlación poblacional toma un valor entre
0.34 y 1

Conclusión: La diferencia entre la correlación observada en la muestra y la correlación poblacional


no es estadísticamente significativa.

También podría gustarte