Apuntes Con Definiciones
Apuntes Con Definiciones
Apuntes Con Definiciones
El Análisis de regresión es una técnica que se aplica siempre que una variable cuantitativa (la variable dependiente o criterio), sea
estudiada como una función de una variable o de una combinación de varias variables independientes o predictoras.
De este modo el análisis de regresión permite:
• Conocer el peso o influencia que ejerce cada variable independiente o predictora a la hora de explicar la variabilidad de la variable
dependiente o criterio.
• Establecer predicciones sobre el comportamiento de la variable dependiente, a partir de información proveniente, únicamente, de
la variable o variables independientes.
Cuando la variable dependiente o criterio es función de una solo variable independiente o predictora hablamos de Análisis de Regresión
Simple (ARS)
Cuando la variable dependiente o criterio es función de una combinación de dos o más variables independientes o predictoras hablamos
de Análisis de Regresión Múltiple (ARM).
La función que pone en relación la/s variable/s independiente/s con la dependiente son muy diversas, así por ejemplo, pueden
encontrarse relaciones de diversos tipos: lineales, exponenciales, potenciales, polinómicas…
En el caso específico de que la variable dependiente sea el resultado de una función lineal o una combinación lineal de varias variables
independientes hablaremos de Análisis de regresión lineal.
Análisis de Varianza - ANOVA
El análisis de varianza o ANOVA es un test paramátrico que se aplica con el fin de conocer si existen diferencias significativas entre las
medias de las poblaciones de tres o más grupos.
El procedimiento del análisis consiste en descomponer la variabilidad o varianza total en:
- Varianza intergrupos: varianza atribuible al efecto de los distintos niveles del factor sobre la variable dependiente u objeto de
estudio
- Varianza intragrupos: varianza del error, debida a toda una serie de factores no controlados en el experimento
De tal modo, en la medida que la varianza intergrupos sea significativamente mayor que la varianza intragrupos se admitirá la hipótesis
alternativa de que las medias de los grupos son distintas, pues gran parte de la varianza observada en el objeto de estudio viene
explicada por el efecto o impacto de los distintos niveles del factor en estudio.
Para poder aplicar un análisis de varianza se deben cumplir los supuestos de independencia, normalidad y homocedasticidad.
El análisis de varianza se aplica para conocer si existen diferencias entre tres o más grupos, no obstante este análisis no identifica los
pares de grupos entre los que existen diferencias, para lo que habrá de utilizarse comparaciones múltiples, concretamente las
denominadas comparaciones no planificadas, a posteriori o post hoc; siendo algunas de las pruebas post hoc más utilizadas: la prueba
de comparaciones múltiples de Tukey y la prueba de comparaciones múltiples de Scheffé.
Análisis de varianza de dos o más factores
Al igual que en el Análisis de varianza de un factor, cada factor esta compuesto por un determinado número de niveles.
Por ejemplo, con dos factores y dos nivelesar en cada factor, un diseño factorial tendría en total cuatro combinaciones de tratamientos,
y se le denominaría diseño factorial de 2×2.
Este tipo de diseños estudia el efecto de cada factor sobre la variable dependiente, así como el efecto de la interacción de dichos factores
sobre la misma.
La estrategia de análisis en este tipo de diseños, al igual que en los análisis de varianza de un factor, consiste en descomponer las
fuentes de variabilidad en elementos mutuamente excluyentes. Así, por ejemplo, en un ANOVA de 2 factores tendríamos:
• los efectos principales: A y B, que son el efecto global de cada factor considerado de forma independiente
• los efectos de la interacción entre los dos factores: AB, que viene definido por la relación existente entre los factores o lo que es
lo mismo, la interacción o efecto cruzado entre dichos factores.
• y el error experimental (S/AB) que representaría la desviación de la puntuación de cada sujeto con respecto a la media de los
tratamientos que se le han asignado aleatoriamente.
Además, en este tipo de diseños es muy importante conocer el concepto de efecto simple que es el efecto puntual que ejerce un factor
sobre cada nivel del otro factor (la manera de enfocar este análisis es convertir cada nivel o fila de la matriz AB en un diseño de un solo
factor). Destacar además que la suma de los efectos simples de un factor A es igual a la suma de sus efectos principales más su
interacción con el otro factor.
A la hora de realizar el análisis en este tipo de diseños el procedimiento consiste en realizar, en primer lugar, la prueba ómnibus, que
informa de la significación estadística tanto de los efectos principales como de la interacción.
Si los primeros son significativos se procede a las comparaciones múltiples entre los tratamientos.
Si los segundos son significativos, será necesario explicar cuáles de los diferentes efectos simples explican ese efecto. Identificado cuál
es el efecto simple significativo se realizarán comparaciones múltiples para determinar entre qué tratamientos se producen las
diferencias que explican la significación estadística del efecto simple.
Análisis robusto
Ver Robusto (análisis)
ANOVA con efectos aleatorios o modelo aleatorio
Se trata de un modelo de Análisis de Varianza en el que los i niveles del factor son una muestra aleatoria de todos los posibles niveles
del factor, de tal modo que las conclusiones obtenidas se generalizarán a todos los niveles del factor.
ANOVA con efectos fijos o modelo fijo
Se trata de un modelo de Análisis de Varianza en el que el investigador establece o fija como niveles del factor sólo aquellos que está
interesado en estudiar. De este modo, aunque el investigador es consciente de que existen más niveles, sólo estudia aquellos que le
interesan.
Por tanto, cuando existe redundancia o correlación entre dos variables independientes X1 y X2, el coeficiente de correlación semiparcial
nosinforma de la contribución de X1 sobre Y, eliminando esta redundancia o aportación de X2 sobre X1. El coeficiente de determinación
semiparcial (el cuadrado del coeficiente de correlación semiparcial) nos explica la proporción de varianza de Y que se debe únicamente
a la variable X1 eliminado de esta la influencia del resto de variables independientes X.
Recurriendo al diagrama de Venn anterior:
(a+c) representa el coeficiente de determinación simple entre X1 e Y.
(b+c) representa el coeficiente de determinación simple entre X2 e Y.
"a" representa el COEFICIENTE DE DETERMINACIÓN SEMIPARCIAL de X1 sobre Y, y cuantifica la aportación exclusiva de X1 sobre Y
eliminando de X1 la parte de variabilidad que aporta X2 sobre X1.
"b" representa la aportación exclusiva de X2 sobre Y, es decir el COEFICIENTE DE DETERMINACIÓN SEMIPARCIAL DE X2 SOBRE Y y
cuantifica la aportación exclusiva de X2 sobre Y eliminando de X2 la parte de variabilidad que aporta X1 sobre X2.
De esta forma, tenemos que:
Por lo que:
Solo en el caso de que no existiera solapamiento (correlación) entre las dos variables independientes, X1 y X2, como se representa en
el diagrama de más abajo, se cumpliría que el coeficiente de determinación múltiple ES IGUAL a la suma de los dos coeficientes de
determinación simples:
Y el coeficiente de determinación semiparcial entre X1 e Y sería igual al coeficiente de determinación entre X1 e Y, ya que la zona
representada anteriormente por “c” no existiría: (a+b) – b = a
Ver:
• Coeficiente de correlación lineal simple.
• Coeficiente de determinación simple.
• Coeficiente de determinación múltiple.
Coeficiente de determinación (Análsis de regresión)
Representado como r2, en el caso del análisis de regresión simple (también r2xy), su valor es el cuadrado del coeficiente de correlación
de Pearson: rxy o r, mientras que en el análisis de regresión múltiple (también R2y.12) equivale al cuadrado del coeficiente de correlación
múltiple Rxy. Su valor oscila entre 0 y 1 esta medida nos indica la bondad de ajuste del modelo al cuantificar la proporción de variabilidad
de la variable dependiente, Y, que es explicada por la variabilidad de la o las variables independientes, según sea una regresión simple
o múltiple.
El coeficiente de determinación es también una medida del tamaño del efecto de la correlación. Si entre dos variables Y, notas de un
examen, y X, horas semanales dedicadas al estudio existiera una correlación de 0,6, indicaría que (0,22 = 0,36) el 36% de la variabilidad
de las notas del examen se explicarían por las horas semanales de estudio. El restante (100-36) 64% se deberían a otras variables no
incluídas en el modelo de regresión, como la inteligencia, motivación, etc, que tambien podrían influir en la nota.
De este modo cuanto mas se aproxime su valor a 1 mayor será el porcentaje de varianza explicada por el modelo, disminuyendo dicha
proporción en la medida que dicho valor se aproxima a 0.
La representación gráfica del coeficiente de determinación se realiza mediante un diagrama de Venn. Siendo las variables X e Y cada
uno de los círculos, r2 corresponde a la intersección de los dos círculos.
Por su parte, en el análisis de regresión múltiple , la contribución de cada VI sobre la VD se representa también
mediante las zonas solapadas de un diagrama de Venn:
Si, por ejemplo, la variable Y representa las puntuaciones en una prueba de matemáticas, la variable X1, representa la variable “horas
de estudio” y X2, las “puntuaciones en los test de razonamiento”, entonces el coeficiente de determinación múltiple, que corresponde a
la contribución conjunta de X1 y X2 en Y, queda representado por la intersección de los tres círculos (a + c + b), mientras que el
coeficiente de determinación simple entre X1 e Y es (a+c), y el de X2 e Y es (c+b):
Y "d" queda como zona que representa la contribución debida a otras variables no incluidas en el modelo de regresión (como pudiera
ser, el interés por la materia, el cociente intelectual, etc).
De esta forma, resulta evidente a partir de la figura anterior que, si las variables X1 y X2 están también solapadas, entonces el coeficiente
de determinación múltiple no es igual a la suma de los dos coeficientes de determinación simples:
Esta desigualdad se debe a que las variables X1 y X2 son redundantes a la hora de explicar la variabilidad de Y. Como ilustración de
esto, no hay más que ver la figura anterior para comprobar que (a+b+c) no es igual a la suma de (a+c) con (c+b) porque la zona c
(que representa esta redundancia de X1 y X2 con Y, la estaríamos sumando dos veces. En estas condiciones las variables X1 y X2 no son
fuentes independientes para explicar la variabilidad de Y ya que comparte una parte común.
En estas condiciones, cuando existe redundancia o correlación entre dos variables independientes X1 y X2, para explicar la variabilidad
de la VD, Y, nos puede interesar analizar la contribución de X1 sobre Y, eliminando esta redundancia o aportación de X2 sobre X1. Y este
es el concepto de COEFICIENTE DE CORRELACIÓN SEMIPARCIAL
Ver coeficiente de correlación parcial y semiparcial
Coeficientes de la Regresión lineal múltiple
Dado un modelo de regresión lineal formado por dos variables independientes:
Y=B0+B1X1+ B2X2+e
Tenemos los siguientes coeficientes:
• B0 denominado constante, origen o intercepto, será el valor estimado de la variable dependiente (Y´ ) cuando las dos variables
dependiente X1 y X2 valgan 0.
• B1 será el coeficientes de regresión parcial de de X1 y cuantifica el incremento que se produce en la variable dependiente estimada
(Y´) cuando se produce el incremento en una unidad en X1 -permaneciendo la otra variable independiente contante (X2)-.
• B2 será el coeficientes de regresión parcial de de X2 y cuantifica el incremento que se produce en la variable dependiente estimada
(Y´) cuando se produce el incremento en una unidad en X2 -permaneciendo la otra variable independiente contante (X1)-.
Por último, dentro del modelo e representa el error de predicción o residuo, que equivale a la distancia entre el valor observado de Y y
su valor estimado (Y´) para cada valor dado de X
Coeficientes de la Regresión lineal simple
Dada la recta de regresión (o recta de estimación, predicción o ajuste) para la regresión lineal simple:
Y=B0+BX+e
Tenemos los siguientes coeficientes:
• B0 denominado constante, origen o intercepto, señala el punto en el que la recta de regresión corta el eje de ordenadas, es decir,
es el valor estimado de Y (Y´) cuando X es igual a 0. Dicho coeficiente no suele ser objeto de interpretación
• B, también denominado como pendiente de la recta, es el coeficiente protagonista de la recta de regresión, y cuantifica el
incremento que se produce en la variable dependiente estimada (Y´) cuando la variable independiente (X) se incrementa en una
unidad.
Por último, dentro de la recta, e representa el error de predicción o residuo, que equivale a la distancia entre el valor observado de Y y
su valor estimado (Y´) para cada valor dado de X
Comparación de grupos
En muchas investigaciones, el objetivo del investigador es comparar dos o más grupos de sujetos respecto a una característica: medias,
proporciones, varianzas de la variable dependiente, VD. Los grupos se pueden formar mediante procedimientos aleatorios, no aleatorios
o ya vienen asignados por compartir una característica común, como la nacionalidad, el género, el nivel de estudios, que actuaría como
variable independiente, VI. En cualquiera de los casos, el objetivo es analizar las diferencias observadas entre los grupos (clasificados
por una variable intependiente, como el sexo, la actividad profesional, etc) en los que se ha registrado una determinada VD, como el
salario medio, la proporción de paro, la integración social, ña varianza de un test, etc. Este mismo objetivo se puede presentar indicando
que se quiere analizar la relación entre esa variable independiente de clasificación de los sujetos, por lo general de naturaleza categórica
(por ejemplo el sexo), y la variable dependiente, de naturaleza cuantitativa sobre la que calculamos, las medias de cada grupo (por
ejemplo, el salario medio), varianzas (delos salarios de cada grupo) 0 entre proporciones (del paro para un mismo colectivo profesional),
etc.
En este tipo de análisis se parte de una hipótesis, llamada hipótesis nula, que establece que no existen diferencias significativas entre
los dos grupos o, en otras palabras, el efecto nulo de la VI sobre la VD. Por ejemplo, en dos (o más) grupos formados por su nacionalidad
de procedencia (que acturaría como la VI), se desea comprobar si existen diferencias respecto a su nivel de integración social (que sería
la VD). De otra forma, si el nivel de integración social (la VD) es el mismo para las distintas nacionalidades que generan los grupos (la
VI) o, también, si la nacionalidad del inmigrante (la VI) influye sobre el nivel de integración (la VD). Frente a esta hipótesis (que señala
un efecto nulo de la VI sobre la VD, una diferencia nula entre los grupos) se formula la hipótesis alternativa que señala que sí existe
un efecto de la VI sobre la VD que genera diferencias entre los grupos a comparar. Este efecto se manifiesta a través de los diferentes
niveles de integración que manifiestan los individuos en función de su país de origen. Se adivina que, por lo general, la hipótesis
alternativa es que el investigador quiere comprobar.
Para que el investigador pueda comprobar su hipótesis, la alternativa, debe analizar sus datos cuantificando estas diferencias observadas
(el estadístico de contraste) suponiendo cierta la hipótesis nula (que recordemos, es la que señala que no existen diferencias). Esta
probabilidad recibe el nombre de nivel crítico p..
Ver muestras independientes vs relacionadas;; hipótesis nula ; contraste de hipótesis; significación estadística.
Comparaciones múltiples
En el contexto de Diseños con más de dos grupos las comparaciones múltiples proporcionan información más específica que el ANOVA.
En el ANOVA la Hipótesis alternativa se plantea en términos de que, al menos, entre dos medias, existen diferencias significativas, es
decir, que no son debidas al azar. Sin embargo, si se confirma dicha hipótesis, el contraste no proporciona mayor información sobre
entre qué pares específicos se producen las diferencias significativas.
Dicha información se alcanza con los análisis de comparaciones múltiples, que permiten identificar entre qué pares de medias existen
diferencias significativas no debidas al azar. De este modo, este tipo de análisis proporcionan una información más exacta sobre la
importancia de cada uno de los niveles de la variable independiente.
Dos son los tipos fundamentales de análisis de comparaciones múltiples existentes:
• Comparaciones no planificadas, a posteriori o post hoc. Son los más utilizados, aplicándose una vez realizado el ANOVA y
rechazada la Hipótesis nula, por lo que, a continuación, se desea conocer entre qué pares de medias existen diferencias no debidas
al azar. Mediante dicho análisis se comparan sistemáticamente todos los posibles pares de medias formados a partir de los
lo n niveles del factor. Entre los contrastes más utilizados dentro de esta familia hemos de destacar: la prueba de comparaciones
múltiples de Tukey, así como la prueba de comparaciones múltiples de Scheffé.
• Comparaciones planificadas o a priori. En este caso el investigador no está interesado en realizar el ANOVA ni en comparar
sistemáticamente todos los posibles pares de medias formados a partir de los lo n niveles del factor, tan sólo está interesado en
algunas comparaciones específicas entre ciertos pares, que son las que realimente le interesan.
Condición experimental
En el Análisis de Varianza (ANOVA) cada condición experimental equivale a cada uno de los niveles o categorías que constituyen un
factor.
Ver: Niveles de un factor
Contrabalanceo
Es una técnica de control experimental utilizada en los diseños intrasujetos para controlar el efecto del orden. Consiste en ordenar de
tal modo los tratamientos experimentales que el efecto de factores tales como el aprendizaje o la fatiga se distribuya equitativamente
entre todas las condiciones experimentales de tal forma que afecten por igual a todos los niveles del factor.
En los diseños intrasujetos este efecto se puede obviar o tener en cuenta, obteniéndose, en el segundo caso, un análisis más sensible
al producirse un incremento de la potencia.
Contraste de hipóteis
Un contraste de hipótesis es una afirmación relativa a una o varias poblaciones que puede ser cierta o no. Mediante un procedimiento
de inferencia estadística se trata de comprobar si esta afirmación es compatible con lo observado en una muestra representativa de
dicha población y tanto si se rechaza la afirmación formulada, como si no se encuantran evidencias para hacerlo, se puede cometer un
error (Error tipo I o Error Tipo II).
Fue iniciada por Ronald Fisher y fundamentada posteriormente por Jerzy Neyman y Karl Pearson.
Ver contraste unilateral vs bilateral
Contraste de hipótesis (unilateral vs bilateral)
Las hipótesis nula y alternativa son exhaustivas y mutuamente excluyentes, de tal forma que el rechazo de una supone la aceptación
de la otra. Dependiendo de como se formulen originan dos tipos de contrastes: cuando las hipótesis se formulan en términos de igualdad
vs desigualdad, estamos planteando un contraste bilateral. Por el contrario, si las hipótesis se formulan tratando de encontrar no solo
una diferencia sino también el sentido de esta diferencia (positiva o negativa) estamos ante un contraste unilateral.
En consecuencia, la hipótesis alternativa, que suele ser la hipótesis del investigador, es la que determina si el contraste es bilateral o
unilateral.
Si la hipótesis alternativa no marca la dirección de la diferencia, y por tanto puede ser en un sentido o en otro, hablamos de contraste
bilateral. En esta situación, el nivel de significación "alfa", se divide entre los dos lados de la distribución (alfa/2 a cada lado).
Si por el contrario, la hipótesis alternativa marca la dirección de la diferencia hablamos de contraste unilateral. En este caso, el nivel de
significación, alfa, se concentra en un lado de la distribución. Si es en el lado derecho tendremos un contraste unilateral derecho. Y si
es en el lado izquierdo tendremos un contraste unilateral izquierdo, como se representa en la siguiente figura.
La cuasivarianza de la muestra se representa por y es el estimador insesgado de la varianza poblacional por lo que también se
le denomina varianza insesgada (recuérdese que la varianza de la muestra no es un estimador insesgado de la varianza poblacional).
A continuación se muestra cómo obtener el cálculo de ambas:
Varianza de la muestra:
Por lo que la cuasivarianza de la muestra se puede calcular a partir de la varianza de la muestra de acuerdo a la siguiente expresión
En el presente curso, en los temas dedicados al análisis de datos paramétricos para diseños de dos grupos (temas 3 y 4) la cuasivarianza
se representará como pues al trabajar con dos muestras necesitamos un subíndice para distinguir entre ambas, por ejemplo:
y , por este motivo se representa a la cuasivarianza con un acento circunflejo (que es este símbolo:^).
d de Cohen
El estadístico d de Cohen es una medida del tamaño del efecto como diferencia estandarizada entre las medias de dos grupos.
Su finalidad es cuantificar la relevancia de una diferencia observada o, en otras palabras, del efecto obtenido o influencia de una variable
sobre la otra. Dicho de otra forma, se trata de establecer si efectos, influencias o diferencias estadísticamente significativas son
relevantes para aplicación práctica de los resultados de la investigación.
INTERPRETACIÓN:
Con ayuda de un ejemplo, supongamos que en un estudio se analiza si existe diferencias en el auto-concepto entre sujetos activos y
no activos. Se encuentra que la media en el cuestionario de autoconcepto de los sujetos activos es de 23,7 y en los sujetos inactivos
22,41. El estadístico de contraste que se obtiene es t= 2,24 (p=0,025), lo que indica que existen diferencias significativas con un nivel
de significación de 0,05. La magnitud del efecto, con el estadístico de Cohen, es d=0,28 y cuantifica la distancia tipificada, en valor
absoluto, entre estas dos medias:
Este estadístico d se interpreta como si fuera una puntuación típica Z por lo que consultamos la tabla y observamos que la probabilidad
de obtener puntuaciones menores o iguales que Z=0,28 es 0,6103. Es decir, que el 61,03% de los sujetos inactivos tienen una
puntuación en autoconcepto inferior a la de los sujetos activos. Solo el 38,97% de los sujetos inactivos superan la media de autoconcepto
de los sujetos activos.
De la misma forma, y conforme a la siguiente representación, podríamos decir que el 61,03% de los sujetos activos tienen un
autoconcepto que supera la media de los sujetos inactivos y que solo el 38,97% de los sujetos activos quedan por debajo de la media
de los sujetos inactivos:
Esta distribución forma parte de la estadística inferencial -para obtener intervalos de confianza- y para distintos tipos de contrastes de
hipòtesis.
Distribución de probabilidad
Ver Función de probabilidad
distribución en la muestra
Es la distribución que se obtiene con los datos concretos recolectaddos en una determinada muestra extraida de una determinada
población. Y puede adoptar cualquier forma, normal, uniforme, etc.
Distribución F
Conocida como distribución F de Snedecor o como distribución F de Fisher-Snedecor, es una distribución de probabilidad de una variable
aleatoria continua que se generan a partir del cociente entre dos variables con distribución chi-cuadrado, cada una de ellas con sus
correspondientes grados de libertad (gl).
Se utilizada en los contrastes de hipótesis de igualdad de varianzas de dos muestras independientes que provienen de poblaciones
con distribución normal. Y también en el análisis de varianza para contrastar si existen diferencias significativas entre las medias
poblacionales a partir de los datos obtenidos en dos o más muestras independientes o relacionadas. En ambos casos, se recurre al
estadístico F calculado como cociente entre dos estimaciones de la varianza.
La distribución F es, en realidad, una familia de distribuciones que solo pueden tomar valores positivos ya que su valor se obtiene a
partir del cociente entre dos variables chi-cuadrado que siempre son positivos, y cuya forma depende de los grados de libertad de las
variable chi-cuadrado del numerador y denominador, respectivamente.
este modelo de Gauss. Cada una de estas distribuciones se caractarizan por su media, , y su desviación típica, .
Y todas ellas se puden transformar en una única distribucíón con media 0 y desviación típica 1, que se representa por N(0;1) y recibe
el nombre de distribución normal estándar o tipificada. Las tablas de la distribución normal permiten determinar la probabilidad de
obtener valores menores o iguales que una puntuación Y, determinada. Para ello, hay que tipificar la variable Y, que consiste en realizar
una transformación lineal, mediante la siguiente expresión:
Las nuevas puntuaciones Z, denominadas puntuaciones típicas, tienen media cero y desviación típica 1 y son las que dan origen a la
distribución normal tipificada. La tabla de la distribución normal nos informa de la probabilidad de encontrar valores menores o iguales
que una puntuación z determinada.
De igual forma, dadas dos puntuaciones z1 y z2, y localizadas en la tabla sus respectivas probabilidades P(Z<=Z1) y P(Z<=Z2),
podemos conocer la probabilidad de obtener puntuaciones comprendidas entre ambas, o lo que es los mismo, mayores o iguales que
Z1 y menores o iguales que Z2 de la siguiente forma:
Distribución poblacional
Es la distribución de los datos en la población. Puede ser una distribución normal, uniforme, asimétrica, etc.
Distribución t
La distribución t es una distribución de probabilidad de una variable aleatoria continua (que puede tomar cualquier valor positivo o
negativo) que se utiliza para el analizar si existen diferencias significativas entre dos medias poblacionales estimadas a partir de dos
muestras que provienen de poblaciones en las que se desconoce sus varianzas poblacionales que tienen que ser estimadas a partir de
los datos muestrales.
La distribución t es una familia de distribuciones simétricas respecto a su media, con
Media μ=0
y desviación típica: σ=nn−2
y cuya forma depende de los grados de libertad. No obstante puede observarse que a medida que aumenta n el valor de la desviación
típica se aproxima a 1, por lo que a medida que aumentan los grados de libertad, n, la distribución t se va aproximando a la distribución
normal de puntuaciones Z (distribución normal estándar) con media 0 y desviación típica 1.
Efecto de interacción (Diseño factorial)
En un diseño factorial, se dice que existe interacción entre los factores (o variables independientes) cuando el efecto de un factor
depende de los niveles del otro.
Por ejemplo, si se estudia la influencia de la edad y el sexo en el salario que reciben unos empleados por el desempeño del mismo
puesto y categoría profesional, se dice que hay interacción, si se encuentran diferencias significativas del salario entre hombres y
mujeres para distintos tramos de edad (figura de la izquierda) o de sexo (figura de la derecha), obteniendo una representación gráfica
como las siguientes:
Si la diferencia encontradas para diferentes tramos de edad (figura de la izquierda) o de sexos (figura de la derecha) es la misma,
entonces no existe efecto de interacción.
Error tipo II
Es el error que se comete al no rechazar una hipótesis nula que en realidad es falsa. La probabilidad de cometer este error se representa
por "beta": ß y no es conocida de antemano aunque se puede calcular. Se comete cuando el estadístico de contraste se sitúa a la
izquierda del valor crítico, Zc, no rechazando una H0 que es falsa.
Su valor complementario es 1- ß, que corresponde a la potencia de contraste.
Estadística paramétrica
Técnicas de análisis estadísticos que se aplican cuando los datos no cumplen los supuestos que exigen las pruebas paramétricas.
Ver Pruebas paramétricas
Estadístico
Es un valor numérico que describe una característica de la muestra (como su tendencia central, su variablidad, su forma, etc). Por
tanto, la media cuando se refiere a los datos de una muestra es un estadístico de tendencia central. La varianza, la proporción, la
correlación, la pendiente de una recta de regresión, etc, son estadísticos si están referidos a los datos de una muestra.
Se representan con letras del alfabeto latino y son valores conocidos que se calculan a partir de los datos recogidos en la muestra.
(ver parámetro).
X¯¯¯; Y ; Medias de la variable X y media de la variable Y,
S2X : Varianza de la variable X en la muestra.
p: proporción observada en la muestra.
rXY: Correlación en la muestra.
Y=b0+b1 X Ecuación de regresión de Y sobre X obtenida en la muestra.
etc.
Estadístico de contraste
Es un valor numérico de una variable aleatoria continua (con una determinada función de probabilidad) que se obtiene a partir de los
datos proporcionados por la, o las, muestras y cuantifica la discrepancia entre la información empírica obtenida a partir de la muestra
(o muestras) utilizadas en la investigación frente a la discrepancia téorica formulada en la hipótesis nula.
Este valor, como se ha indicado, corresponde a una variable aleatoria que sigue una determinada distribución de probabilidad (normal,
t, chi cuadrado, F,…)
El valor numéricos, el cálculo, de este estadístico es una fase esencial en el Contraste de Hipótesis, pues permite rechazar o no
la Hipótesis nula planteada al comparar el valor obtenido a través de este estadístico con el valor crítico o bien, al comparar la
probabilidad asociada a dicho estadístico: el nivel p crítico, con el nivel de significación establecida. (Ver valor critico y nivle crítico p)
Si la información proporcionada por la muestra no es compatible con lo formulado en la hipótesis nula, se rechazará esta hipótesis. En
caso contrario, no disponemos de evidencia para rechazarla y se mantendrá como provisionalmente verdadera, hasta que nuevas
evidencias demuestren lo contrario.
Ver Hipótesis nula y alternativa; estadístico de contraste; nivel de significacion.
Estimación
Es cualquier técnica para conocer el valor aproximado de un parámetro poblacional, a partir del estadístico muestral correspondiente,
calculado con los datos recogidos en la muestra. Hay dos tipos de estimación: la estimación por puntos y la estimación por intervalos
Estimación por intervalos
A diferencia de la estimación puntual, con la estimación por intervalos se trata de determinar dos valores entre los cuáles se encontrará
el parámetro poblacional, con un determinado nivel de confianza. Esta estimación se realiza a patir del conocimiento de la distribución
muestral del estadístico que se utiliza como estimador del parámetro.
Estimación puntual
En la estimación puntual se utiliza el estadístico obtenido en la muestra como valor del parámetro poblacional. Conocido también como
método de los momentos (ideado por K. Pearson) este procedimiento entraña riesgos, pues no todos los estadísticos tienen la virtud de
ser buenos estimadores de los parámetros poblacionales y además es poco probable que el estadístico de una muestra concreta coincida
con el verdadero valor del parámetro poblacional. (ver también estimación por intervalos).
Estimador
Un estimador es un estadístico utilizado para conocer el valor aproximado de un parámetro desconocido de la población (¿),
representándose el estimador del parámetro poniendo un acento circunflejo (^) sobre el parámetro, quedando por tanto como: .
Por ejemplo, si dentro de la población de estudiantes de 15 años se desea conocer el nivel de habilidad media en la asignatura de
ciencias (el parámetro desconocido) se aplicarán test a un subconjunto representativo de estudiantes (la muestra) a través de los cuales
se pueda conocer el nivel de habilidad de cada alumno y, consiguientemente se pueda calcular la habilidad media de la muestra. Pues
bien, precisamente la media de la muestra podrá utilizarse como estimador de la habilidad media en ciencias de la población de
estudiantes de 15 años.
Propiedades de los estimadores:
Para cada parámetro pueden existir varios estimadores diferentes. En general, escogeremos el estimador que posea mejores
propiedades que los restantes, siendo éstas:
- Insesgado: su valor esperado o esperanza matemática debe coincidir con el parámetro que estima
- Eficiente, de tal manera que la distribución del estimador tenga poca variabilidad. Un estimador será mas eficiente cuanto menor
sea la variabilidad de su distribución muestral.
- Consistencia: de tal manera, que a medida que aumenta el tamaño de la muestra tiende a concentrarse en un rango cada vez más
estrecho alrededor de su parámetro. De este modo, su sesgo y su varianza tienden a cero a medida que se incrementa n.
- Suficiencia: un estimador será suficiente en la medida que al estimar el parámetro de ¿ utiliza toda la información muestral
relacionada con el parámetro.
Estimador eficiente
Es bueno que la distribución del estimador tenga poca variabilidad, en este sentido, diremos que un estimador es más eficiente que
otro estimador, si la varianza del primero es menor que la del segundo.
Estimador insesgado
Un estimador es insesgado cuando su esperanza matemática (valor esperado o media) coincide con el parámetro poblacional.
En el caso de la media se comprueba que la media de todas las posibles medias -calculadas en todas las posibles muestras del mismo
tipo y tamaño extraídas de una población- coincide con la media poblacional. Por tanto, la media de la muestra es un estimador
insesgado de la media poblacional (parámetro).
Experimento
Un experimento es un procedimiento mediante el cual se trata de comprobar (confirmar, verificar) una o varias hipótesis relacionadas
con un determinado fenómeno, mediante la manipulación de una o más variables que presumiblemente son su causa (factores).
En un experimento se consideran todas las variables relevantes que intervienen en el fenómeno, mediante la manipulación de las que
presumiblemente son su causa, el control de las variables extrañas y la aleatorización de las restantes. Estos procedimientos pueden
variar mucho según las disciplinas (no es igual en Física que en Psicología, por ejemplo), pero persiguen el mismo objetivo: excluir
explicaciones alternativas (diferentes a la variable manipulada) en la explicación de los resultados. Cada repetición del experimento se
llama prueba o ensayo.
Las distintas formas de realizar un experimento (en cuanto a distribución de unidades experimentales en condiciones o grupos) son
conocidas como diseños experimentales.
Ver Grupo de control y grupo experimental
F distribución
Ver distribución F
Factor
En el Análisis de varianza o ANOVA se denomina factor a la variable independiente, compuesta por un determinado número de niveles
(categorías), de este modo, lo que nos interesa estudiar es el efecto que generan estos niveles del factor sobre la variable objeto de
estudio. O dicho en otras palabras, se pretende estudiar si se observan diferencias entre las medias de los grupos correspondientes a
cada uno de los niveles del factor.
De este modo, en la medida que la varianza debida a los distintos niveles del factor (varianza intergrupos) sea mayor que la varianza
debida al error experimental (varianza intragrupos) se dirá que el factor ejerce un impacto significativo sobre la variable dependiente
objeto de estudio, o lo que es lo mismo, se observan diferencias significativas entre las medias de los grupos formados por cada uno
de los niveles del factor.
Función de densidad de probabilidad
La función de densidad de probabilidad, f(k), se aplica a las variables aleatorias continuas y representa el mismo concepto que
la función de probabilidad, f(k), de las variables aleatorias discretas que puedes leer más abajo, es decir, la probabilidad de
obtener un valor concreto,k, para la varialel aleatoria, X: f(k) = P(X= k).
Una variable aleatoria continua es aquella en la que existen infinitos valores posibles de forma que entre dos de ellos, por muy próximos
que estén, siempre podremos encontrar infinitos valores más. Ejemplos de variables aleatorias continuas son el peso, la altura, la
distancia, etc, de forma que entre dos cualesquiera como 20 y 21 cm, existen el 20,48 y 20,49 cm y, a su vez, entre estos el 20,481 y
20,489 y así hasta infinitos, por lo que la probabilidad de un valor concreto, como k = 21,458 cm es cero: f(21,458) = P(X=21,458) =
0,
Para este tipo de variables no es posible determinar la probabilidad -función de probabilidad, f(k)- de un valor concreto, k, de la variable
continua tal y como se hace con las variables aleatorias discretas. Lo que sí podemos calcular es la probabilidad acumulada hasta un
cierto valor mediantes su función de distribución,
F(k) = P(X<= k).
También podremos estudiaar la variación de la probabilidad acumulada en cada punto de la variable aleatoria y a estos cambios se
denominan densidad de probabilidad.
Las distribuciones normales, t de Student, chi-cuadrado y F de Snedecor, son ejemplos de funciones de densidad de variables aleatorias
continuas. La zona sombreada corresponde a F(0,52) = P(X<=0,52) cuyo valor se busca en las tablas de la distribución normal tipificada
o estándar.
Función de distribución
La función de distribución una variable aleatoria discrete, X, y escribiremos F(x) a la función que asocia a cada valor de la variable
aleatoria la probabilidad acumulada hasta ese valor, y se escribe:
F(k)=P(X≤k)
Un ejemplo de función de distribución discreta es la distribución binomial, que describe el número de aciertos en una serie de N
experimentos independientes de una variable dicotómica cuyos resultados posibles son "si" o "no"; "acierto" o "fallo", "hombre" o
"mujer" todos ellos con probabilidad de "acierto" p y probabilidad de "fallo" q = 1 − p, que se mantienen constantes en los N ensayos.
Su función de distribución es:
F(k)=P(X≤k)=∑kk=0(Nk) pk qN−k
Función de probabilidad
La función de probabilidad (o distribución de probabilidad) de una variable aleatoria discreta, X, es la función que asigna a cada suceso
o resultado posible que puede tomar la variable aleatoria la probabilidad de que dicho resultado se produzca.
Un ejemplo de función de probabilidad discreta es la distribución binomial, que describe el número de aciertos en una serie de N
experimentos independientes de una variable dicotómica cuyos resultados posibles son "si" o "no"; "acierto" o "fallo", "hombre" o
"mujer" todos ellos con probabilidad de "acierto" p y probabilidad de "fallo" q = 1 − p, que se mantienen constantes en los N ensayos.
Su función de probabilidad es:
f(k)=P(X=k)=(Nk) pk qN−4
Por tanto, a función de probabilidad, f(k), de la variable aleatoria, X, es la función que asigna a cada valor k de la variable X su
correspondiente probabilidad. Un ejemplo de representación gráfica de la función de probabilidad binomial es:
A medida que N aumenta y p no toma valores extremos, la forma de la distribución de probabilidad binomial se hace mas simétrica y
acampanada aproximándose a la distribución normal:
Grados de libertad
Los grados de libertad hacen referencia al número de datos de información independientes disponibles después de realizar un cálculo
numérico. Por ejemplo, si conocemos la media de n valores, podemos asignar valores a n-1 y el último quedará determinado
automáticamente para cumplir la condición de que la media sea el valor fijado. En este caso, el cálculo de la media se realiza con n-
1 grados de libertad.
Grupo de control y grupo experimental
Dichos grupos son elementos fundamentales en el diseño de experimentos constituyendo por tanto una pieza fundamental en el método
científico y en la experimentación
En efecto, en un experimento controlado, se realizan dos acciones idénticas. En uno de ellos — grupo experimental — el tratamiento o
factor testado es aplicado. En otro — grupo de control — el factor testado no es aplicado.
Por ejemplo, al testar un medicamento, es importante verificar cuidadosamente que los supuestos efectos de la droga se producen
solamente como consecuencia de la misma. Los investigadores controlan dicho efecto a través de un ensayo clínico, generalmente
compuesto por dos grupos idénticos de pacientes que serán comparados: uno de ellos (el grupo experimental) recibe una droga y el
otro (el grupo de control) recibe un placebo.
Ver Experimento
Hipótesis estadística
Las hipótesis estadísticas (hipótesis nula e hipótesis alternativa) se plantean para dar forma a la hipótesis científica y es una afirmación
referida a la población (o poblaciones) que puede someterse a contrastación empírica a partir de la información recogida en una o varias
muestras -según el tipo de diseño- representativas.
Hipótesis nula y alternativa
Se denomina hipótesis nula, Ho, a una afirmación sobre una o más características de la población que se supone provisionalmente
cierta. Sería la hipótesis equivalente a la "presunción de inocencia" que ampara a todo ciudadano de un estado de derecho y es la
hipótesis que se somete a contrastación empírica que implica iniciar una investigación para encontrar evidencias (los datos de la
investigación) que nos permitan rechazarla. Consiste, por tanto, en una afirmación sobre el valor concreto que toma un parámetro
(media, varianza, correlación, pendiente de la ecuación de regresión, etx) o de una diferencia entre dos, o más, parámetros
poblacionales, o sobre la forma de la distribución de probabilidad que una determinada variable adoptará en la población. Por este
motivo, la Ho siempre incluye SIEMPRE el signo =, que en un contraste unilateral iría acompañado de la correspondiente
desigualdad ≥o≤.
El nombre de "nula" indica que no existen diferencias "significativas" (ver diferencia significativa) entre el valor empírico obtendio a
partir de los datos de la muestra, y el valor teórico, que formulamos para la población. Con otras palabras: la hipótesis nula es la que
plantea una relación nula entre variables, el efecto nulo de una variable sobre otra, la diferencia nula entre grupos, etc.
La hipótesis alternativa, representada por H1, es la afirmación complementaria a la Ho y, por lo general, coincide con la hipótesis del
investigador cuyo objetivo es encontrar "diferencias significativas" (Ver diferencia significativa). En consecuencia, las hipótesis, nula y
alternativa, son exhaustivas y mutuamente excluyentes, es decir, que si a partir de la evidencia de los datos de la investigación, se
concluye rechazando la Ho, es porque existe un motivo, causa o explicación a la diferencia o relación encontrada y por eso se dice que
los resultados encontrados son "significativos".
Si los datos de la investigación aportan evidencias contra la Ho entonces se rechaza. Si los datos de la investigación no contradicen
decididamente a Ho, se continúa asumiendo como provisionalmente verdadera. La hipótesis Ho, nunca se acepta porque nunca se
considera probada. Simplemente se rechaza, o no, a la luz de la evidencia que proporcionan los datos de la muestra utilizada en la
investigación. Por tanto, en todo contraste de hipótesis solo hay dos conclusiones posibles: rechazar la Ho o no rechazar Ho con sus
respectivos errores.
Ver:
• Diferencia significativa.
• Potencia del contraste.
• Contraste de hipótesis.
Homocedasticidad
Este concepto significa “igualdad de varianzas” y es un supuesto que ha de cumplirse tanto para la regresión como para el Análisis de
Varianza (ANOVA) y hace referencia a la igualdad de varianzas de la variable dependiente para cada uno de los valores de la variable
independiente.
En la comparacion de grupos, la homocedasticidad implica que los grupos o muestras cuyas medias estamos comparando proceden de
poblaciones cuyas varianzas no difieren significativamente en lo que respecta a la variable independiente que forma parte del análisis.
En la regresión, la homocedasticidad se refiere a la igualdad de varianzas de las distribución de los valores de la variable Y para cada
uno de los valores de la variable X.
Existen diversos contrastes para evaluar la existencia de homocedasticidad, como son el Test de Cochran (para modelos equilibrados)
y el test de Barlett (que no parte del supuesto de modelos equilibrados). En dichos contrastes la Hipótesis nula es precisamente la de
homocedasticidad o igualdad de varianzas entre los distintos grupos, mientras que la Hipótesis alternativa propone la no igualdad de
las varianzas de los grupos, lo que en terminología estadística se denomina heterocedasticidad.
Indices de variabilidad o dispersión
Los índices de variabilidad o dispersión describen el grado de dispersión o hetereogeneidad que tienen un conjunto de puntuaciones.
Por ejemplo, en una muestra de sujetos nacidos en 1975, la edad medida en años es la misma para todos por lo que no existiría ninguna
variabilidad. Otras variables, como por ejemplo la altura, será distinta de unos a otros y presentaría cierto grado de variabilidad,
hetereogeneidad o dispersión (son términos similares),
Para describir la variabilidad de los datos de una variable cuantitativa, se utiliza
La amplitud total: diferencia entre la puntuación mayor y menor.
La varianza: que es la media de los cuadrados de las diferencias entre cada puntuación directa, X, respecto a su media. De otra forma,
es la sumas de cuadrados de todas las puntuaciones respecto a su media dividida entre N.
La desviación típica: La raiz cuadrada de la varianza.
La cuasi-varianza: Similar a la varianza pero dividiendo las sumas de cuadrados del numerador entre N-1, en lugar de N.
La cuasi-desviación típica: La raíz cuadrada de la cuasi-varianza.
La amplitud intercuartil: Es la diferencia entre el tercer cuartil (o percentil 75) y el primer cuartil (o percentil 25)
Ver estimación, estimador , varianza.
Inferencia estadística
Es la rama de la estadística que permite realizar afirmaciones sobre una población a partir de los datos obtenidos en alguna de las
muestras que se pueden obtener de la misma. De este modo, la inferencia estadística permite ir de lo concreto (la muestra) a lo general
(la población).
La inferencia estadística se basa en la estimación de parámetros y en el contraste de hipótesis.
Insesgado
Un estimador es insesgado cuando el valor esperado (la media) de ese estimador coincide con el parámetro a estimar. El sesgo es la
diferencia entre el valor esperado del estimador y el valor real del parámetro. Si esta diferencia es cero, se dice que el estimador es
insesgado.
De esta forma, la media es un estimador insesgado de la media poblacional porque:
Sin embargo, y por la misma razón, se demostraría que la varianza de la muestra es un estimador sesgado de la varianza poblacional.
El estimador insesgado de la varianza poblacional es la cuasi-varianza de la muestra.
Interacción
Ver Efecto de interacción
Intervalo de confianza
Los intervalos de confianza se utilizan para fijar los valores que puede tomar el parámetro poblacional que se quiere estimar. Se trata
de determinar dos valores entre los cuáles se encontrará el parámetro poblacional, con un determinado nivel de confianza.
Para el caso de la media y otros parámetros poblacionales, cuya distribucion muestral es normal o la T de Student, los intervalos se
construyen partiendo del valor del estimador puntual, que se utilizará como centro del intervalo, al que se le suma y resta el producto
de: el margen de confianza con el que deseamos trabajar por el error típico, obteniéndose, de esta manera, el límite superior e inferior
del intervalo de confianza.
En el caso de la media y proporción, la amplitud de un intervalo de confianza depende pues de estos dos factores:
• el nivel de confianza y
• el error típico de la distribución muestral del estadístico
Ver valor crítico, nivel crítico p, error típico, nivel de confianza, distribucion muestral,
La función de probabilidad
La función de probabilidad (o distribución de probabilidad) de una variable aleatoria discreta, X, es la función que asigna a cada suceso
o resultado posible que puede tomar la variable aleatoria la probabilidad de que dicho resultado se produzca. Se representa por f(x)
Es decir, la función de probabilidad f(k) de la variable aleatoria, X, es la función que asigna al valor k de la variable X su correspondiente
probabilidad.
Un ejemplo de distribución de probabilidad de una variable aleatoria discreta es la distribución binomial, cuya función de probabilidad
es:
McNemar (Estadístico de o prueba de McNemar)
La prueba de McNemar se utiliza en los diseños de dos muestras relacionadas para comprobar si un determinado "tratamiento" o variable
independiente produce algún cambio en la proporción de sujetos sometidos al mismo. Es muy habitual utilizarlo en las pruebas "antes-
después", o diseños intra-sujetos, cuando los que los sujetos actúan como su propio control.
Las hipótesis nula y alternativa se pueden formular señalando el sentido de la diferencia (contraste unilateral) o no (contraste bilateral),
sin embargo (y a diferencia de la prueba Z para esta misma hipótesis y diseño) el valor numérico resultante del estadístico chi-cuadrado,
siempre es positivo variando de 0 a infinito.
Z=b−cb+c√
El resultado de Z será cero cuando b = c, indicando que no existen diferencias, por lo que no se puede rechazar la Ho. Y a medida que
las frecuencias del numerador ( los valores de b y c) se van diferenciando, aumenta el resultado del estadístico de chi-cuadrado y, con
ello, la probabilidad de rechazar la Ho.
Por tanto, el resultado de chi-cuadrado únicamente nos indica si se ha producido o no un cambio pero no el sentido de la diferencia que
únicamente se puede valorar observano cómo se reparten las frecuencias en la tabla 2x2 de doble entrada.
Medida de discrepancia
Ver Estadístico de contraste
Esto indica que, suponiendo cierta la Ho, la probabilidad de obtener unos resultados en la muestra tan alejados o más del valor formulado
en la Ho, es de 0,0003. Como este valor es menor que los niveles de significación utilizados habitualmente (0,05 o 0,01) rechazamos
la Ho.
Y para un estadístico Z=2,5 en un contraste bilateral, el nivel crítico p es la suma de las probabilidades de las dos colas: P(Z>= 2,5)
+P(Z<= -2,5) = 0,0124
Niveles de un factor
En la terminología de los ANOVA's, cada una de las categorías del factor o variable independiente
(Ver Factor y Análisis de varianza)
Ortogonal (factor, vector, elemento…)
El concepto ortogonal procede del álgebra de matrices, de este modo se dice que dos vectores son ortogonales si su producto escalar
es cero.
Con el fin de facilitar la comprensión de dicho concepto al alumno en la presente asignatura se señala que el concepto ortogonal equivale
a independiente. De este modo, si decimos que los efectos principales de dos factores en un diseño factorial son ortogonales, en realidad
estamos queriendo decir que son independientes.
Parámetro
Es un valor numérico que describe una característica de la población (como su tendencia central, su variablidad, su forma, etc). Por
tanto, la media cuando se refiere a los datos de una población es un parámetro de tendencia central. La varianza, la proporción, la
correlación, la pendiente de una recta de regresión, etc, son parámetros si están referidos a los datos de una muestra.
Se representan con letras del alfabeto griego y son valores desconocidos que se estiman a partir de sus estimadores: los estadísticos
de la muestra. (Ver estadístico)
μ: Media poblacional.
π: Proporción poblacional
σ2: Varianza poblacional.
ρXY: Correlación poblacional.
Y=β0+β1 X Ecuación de regresín poblacional,
etc.
Población
Se denomina Población o Universo al conjunto de todos los elementos que estamos estudiando, acerca de los cuales pretendemos sacar
conclusiones.
Con frecuencia el número de elementos o sujetos que compone una población es tan elevado que sería difícil estudiarla en su totalidad
Por esta razón se decide tomar un subconjunto de n elementos representativo de dicha población y que denominamos muestra.
La rama de la estadística que permite realizar afirmaciones sobre una población a partir de los datos obtenidos en alguna de las muestras
que se pueden obtener de la misma se denominará inferencia estadística.
Potencia del contraste
Es la decisión correcta de rechazar una hipótesis nula cuando es falsa. Su probabilidad se representa por "uno menos beta": 1- β. y
depende del "nivel de significación", del tamaño de la muestra y del tamaño del efecto.
De esta forma, puede comprobarse que, aunque las puntuaciones Z pueden tomar cualquier valor positivo o negativo, la realidad es
que entre las puntuaciones, Z=-3,59 y Z=+3,59 de una distribución normal se encuentran el 99,73% de los datos.
Y de la misma forma, entre Z=-2 y Z=+2 se encuentra el 95,45% de los datos. Y entre Z=-1 y Z=+1
se encuentra el 68,26%
Región de rechazo
La región de rechazo o región crítica viene delimitada por los valores críticos y corresponde al conjunto de valores de la distribución de
probabilidad del estadístico de contraste para los que se rechaza la hipótesis nula.
Por ejemplo, en los diseños de una muestra, cuando se utiliza el estadístico Z en un contraste bilateral para un determinado valor
hipotético formulado para la media poblacional con un nivel de confianza del 95%, la región crítica viene delimitada por los valores que
se encuentran a la izquierda de -1,96 o a la derecha de +1,96 y que, en consecuencia, mantienen entre ellos una probabilidad de 0,95.
Y para un contraste unilateral derecho, la región de rechazo queda delimitada por el valor 1,64 que deja a su izquierda una probabilidad
de 0,95 (el nivel de confianza) y a su derecha una probabilidad de 0,05 (el nivel de significación "alfa"), como se represantaría en la
siguiente gráfica:
Regla de decisión
Asumiendo que la Ho es verdadera, el contraste de hipótesis trata de obtener, a partir de los datos recogidos en la investigación,
evidencias suficientes para rechazarla. La regla de decisión es el criterio para decidir si la Ho debe ser, o no, rechazada a partir de la
evidencia que proporcionan los datos.
Para ello hay que dividir la distribución muestral del estadístico de contraste utilizado (Z, T, F, Chi-cuadrado, son los utilizados en
nuestro temario) en dos zonas, que designaremos como zona de rechazo y zona de no rechazo (también llamada de aceptación). Esta
división se realiza a partir del establecimiento del nivel de confianza (o su complementario, el nivel de significación) y se concreta con
los valores críticos de la distribución de probabilidad correspondiente.
A modo de ejemplo, en un contraste bilateral en los que se apliquen los estadísticos Z o T que corresponden a distribuciones de
probabilidad simétricas, estas zonas vendrían delimitadas por dos valores críticos -iguales pero de signo contrario- representadas por
las siguientes gráficas.
Si el estadístico obtenido se encuentra dentro de la zona de no rechazo delimitado por los valores críticos entonces la Ho se mantiene
porque no hay evidencias suficientes para rechazara.
Si el estadístico obtenido supera estos valores críticos y se situa en la zona de rechazo, entonces la Ho se rechaza.
Robusto (estadístico)
Se dice que un estadístico o un análisis es robusto cuando no se ve especialmente afectado por el incumplimiento de un determinado
supuesto.
Así, por ejemplo, la normalidad de la distribución de las puntuaciones para cada una de las condiciones del factor es un supuesto que,
teóricamente, debería cumplirse en el análisis ANOVA, sin embargo en ocasiones podemos encontrar estudios donde se aplicó el ANOVA
como técnica de análisis sin cumplirse este supuesto. Esto se debe a que el ANOVA es robusto al incumplimiento del supuesto de
normalidad.
Significación estadística
Una diferencia estadísticamente significativa indica que hay evidencias de que la diferencia observada entre lo que indica la teoría
(recogido en la Ho) y la evidencia de los resultado obtenidos en la muestra es real, que tiene una explicación y que esta explicación no
es el azar o a la casualidad. Encontrar diferencias significativas en un contraste de hipótesis conlleva el rechazo de la hipótesis nula.
Cuando decimos que un resultado es significativo, estamos diciendo que si volvieramos a repetir la misma investigación en las mismas
circunstancias, pero con otra muestra distinta (aunque del mismo tipo y tamaño y representativa de la población general), llegariamos
a la misma conclusión, por lo que el resultado obtenido es poco probable que se deba a la "casualidad".
La significación estadística se cuantifica mediante el nivel crítico p que nos informa de la probabilidad de que siendo cierta la Ho,
lleguemos unos resultados como los obtenidos o más extremos. De esta forma, estableciendo como criterior de decisión los niveles de
significación en los valores de 0,05 o 0,01, si el nivel critico p es menor que el nivel de significación, rechazamos la Ho con ese nivel de
significación.
Ver nivel crítico p;
Simetría compuesta
La simetría compuesta integra dos de los supuestos que deben cumplirse en el ANOVA intrasujetos y que, además, son particulares de
este tipo de diseños (AxS):
• Las varianzas de las puntuaciones para los distintos niveles del factor deben ser iguales entre sí (homocedasticidad).
• Las covarianzas entre todos los niveles del factor deben ser iguales entre sí
Si representamos esta información en una matriz (tabla) el cumplimiento de este supuesto se manifestaría con claridad al observarse
dos elementos:
• Por una parte la diagonal principal (diagonal que va desde la esquina superior izquierda hasta la esquina inferior derecha) en la
que se representan las varianzas
• Por otra parte, las covarianzas en los demás elementos de la matriz
Se habla de simetría compuesta porque en el caso de cumplirse los dos supuestos referidos nos encontraríamos con una matriz simétrica,
en relación a la diagonal principal, y compuesta por dos únicos valores: el de la varianza y el de la covarianza.
T distribución
Ver distribución t
Tabla de contingencia
Es un tipo de tabla de doble entrada que se utiliza para registrar los datos de dos variables cualitativas con la finalidad de analizar la
relacion entre ambas variables. La dimensión de la tabla se representa por (FxC), donde F representa el número de categorias de la
variable que situamos en las filas y C el de categorías que situamos en la columna. En las celdas interiores de la tabla se encuentran
las frecuencias conjuntas, en la parte exterior las frecuencias marginales, y en el extremo inferior derecho la frecuencia total o tamaño
de la muestra.
A modo de ejemplo, la siguiente tabla presenta la distribución de frecuencias el nivel de estudios por sexo de una muestra de sujetos.
La variable "nivel de estudios" se ha registrado con los valores: obligatorios, medios y superiores, y la tabla tendría el siguiente aspecto:
Distribución del nivel de estudios por sexo
obligatorios Medios Superiores
Hombres 26 48 96
Mujeres 46 54 20
En esta tabla, los números interiores representan frecuencias de personas, de forma que el 26 corresponde a 26 personas que cumplen
con las siguientes dos condiciones: son hombres y con estudios obligatorios. De la misma forma, el número 54 indica que hay 54
mujeres con estudios medios.
Si sumamos por filas, tenemos, en la primera fila 26+48+96 = 150 hombres, y en la segunda fila 120 mujeres. En total 270 personas.
Si sumamos por columna, en la primera columna tenemos 72 personas con estudios obligatorios, de los que 26 son hombres y 46
mujeres, y de forma similar se procede con el resto de columnas para tener la siguiente:
Distribución del nivel de estudios por sexo
Hombres 26 48 96 150
Mujeres 46 54 20 120
TOTAL 72 102 116 270
Esta es una tabla de 3x2, es decir, de TRES columnas (definidas por el nivel de estudios) por DOS filas (correspondientes al sexo) a la
que se han añadido una nueva fila y columna que recogen las frecuencias marginales.
La celda inferior derecha es el TOTAL de observaciones, y corresponde a la suma de todas las frecuencias de la tabla 3x2 y debe
coincidir, tanto con la suma de las frecuencias de la fila de totales marginales como de la columna de totales marginales.
Con un simple examen visual se observa que los hombres tienen mayor nivel educativo que las mujeres pero, además, existen prubas
estadísticas para cuantificar la intensidad de esta relación, de tal forma que si estos datos provienen de un estudio realizado en unas
determinadas condiciones (por ejemplo, una empresa, una región, una época anterior, etc,) el resultado obtenido permite hacer
comparaciones con la obtenida en otra empresa, región o momento temporal.
Tamaño del efecto
Es un concepto relativamente nuevo en las Ciencias del Comportamiento. Se refiere al grado en que la Ho es falsa, es decir, el grado
en que el fenómeno concreto de estudio está presente en la población. Por tanto, es un procedimiento complementario a la prueba de
significación para establecer si resultados estadísticamente significativos son relevantes en el campo de aplicación de la
investigación.
El tamaño del efecto es un elemento de gran importancia en el análisis de potencia, ya que la potencia de todo contraste depende de
la magnitud del efecto que se quiere detectar de modo que cuando los efectos son grandes, la potencia del contraste incrementa.
Manteniendo constante el nivel de significación y el tamaño de la muestra, cuanto mayor sea el tamaño del efecto mayor es la potencia
estadística.
Ver: d de Cohen.
Teorema Central del Límite
Este teorema de especial importancia en el ámbito de estimación de parámetros y el contraste de hipótesis establece que: si una
población tiene una media µ y una varianza s2 finitas, la distribución de las medias muestrales de tamaño n extraídas de manera
aleatoria e independiente, se aproxima a la forma de una distribución normal con varianza s2/n y media µ conforme el tamaño n se va
incrementando
Universo
Ver Población
Valores críticos
Es el valor o valores dentro de la distribución muestral que se asocian directamente al nivel de significación α ("alfa") y marca la máxima
diferencia que podemos admitir, por simple azar, entre el valor teórico planteado en H0 y el valor obtenido en la muestra compatibles
con la hipótesis nula. Depediendo de cual sea la distribución muestral del estadístico de contraste (normal, t de Student, chi-cuadro o
F de Snedecor) los valores críticos corresponden a puntuaciones Z, t, X2 o F, respetivamente. Por ejemplo, el valor crítico de una
distribución chi-cuadrado con 22 grados de libertad para un contraste unilateral derecho con un nivel de significación 0,02 es 33,92.
Un procedimiento, a la hora de decidir si se rechazar o no la H0, es comparar el estadístico de contraste con el valor crítico de la
distribución muestral, de tal modo que si el estadístico de contraste es mayor (en valor absoluto) que valor crítico se rechazará la
H0 aceptándose H1. (Ver página 66 del texto).
Variable
En su acepción estadística, una variable es una representación numérica de una característica. Cuando efectuamos la medida de
una característica determinada, atribuimos números a los objetos según sea la cualidad o cuantía que presenten de dicha característica.
Esta representación numérica refleja el hecho de que los objetos varían respecto a la característica objeto de estudio, y por tanto
permite diferenciar unos objetos de otros. Las variables pueden ser:
• Cualitativas: cuando los números asignados representan cualidades, como el estado civil, barrio de residencia por el C.P, sexo,
etc.
• Cuasi-cuantitativas: cuando los números asignados representan cualidades que pueden ser ordenadas, como el nivel de
estudios, el nivel sociocultural, etc.
• Cuantitativas: cuando los números asignados representan cantidades. A su vez, estas variables cuantitativas pueden ser:
o Discretas: cuando entre dos números contiguos, no existen valores intermedios, como el número de aciertos en un examen
tipo test. Entre acertar 13 o 14 preguntas no existen valores intermedios
o Continuas: cuando entre dos números, por próximos que estén, siempre existen infinitos valores intermedios, como por
ejemplo el peso. Entre 5,67 y 5,68 gr siempre podemos encontrar valores intermedios 5,674 gr o 5,6739 gr.
Variable aleatoria
Una variable aleatoria es una función que asigna un número, y solo uno, a cada resultado de un experimento aleatorio. El
valor de la variable aleatoria puede cambiar de ensayo a ensayo cuando el experimento se repite sucesivamente. La variable aleatoria
puede ser discreta o continua.
Por ejemplo, el número de aciertos que se cometen al responder al azar a un test de conocimientos formado por N ítems con tres
alternativas de respuesta (de las que solo una es correcta) es una variable aleatoria que puede tomar cualquier valor discreto desde 0
(para el que no acierta ninguna pregunta) hasta N (para el que acierta todas). Toda variable aleatoria tiene asociado su distribución de
probabilidad (si la variable es discreta) o su función de densidad de probabilidad (si la variable aleatoria es continua)
Variable aleatoria de Bernouilli
Es aquella variable aleatoria que se origina en aquellos experimentos en los que sólo se pueden dar dos valores: hombre-mujer; cara-
cruz; salud-enfermedad; acierto-fallo, etc. El espacio muestral es binario y los valores numéricos asignados a cada suceso del espacio
muestral suelen ser 1 y 0.
Variable aleatoria discreta
Cuando la variable aleatoria, X, es un conjunto de valores numéricos definidos sobre un conjunto finito o infinito, pero en cualquier caso
numerable (susceptibles de ser contados) de casos posibles, decimos que la variable aleatoria es discreta. En este caso entre dos valores
consecutivos no existen valores intermedios, porque la variable aleatoria X toma valores únicamente en los puntos x1, x2,..., xn. con
probabilidades respectivas pi siendo nula la probabilidad de que tome cualquier otro valor. Los siguientes casos número de asignaturas
matriculadas por los alumnos de 1º de Psicología, la edad - contada en años- de estos alumnos, el número de ítems contestados
correctamente en un test, son ejemplos de variables discretas y los son también la mayoría de las situaciones que requieren un conteo.
Variable categórica
Llamada también variable cualitativa es aquella que se mide con escala nominal de tal forma que los valores que presenta corresponden
a categorías discretas. Estas categorías no pueden ser ordenadas y representan grupos diferentes, como, el tipo de religión, el sexo,
etc.
Variable chi-cuadrado
Es una variable continua definida como la suma de los cuadrados de una serie de variables con distribución normal estándar y cuya
distribución de probabilidad es la distribución chi-cuadrado. Concretamente
X2n=Z21+Z22+Z23+...Z2n
Ver distribución chi-cuadrado; variables
Variable criterio (Análisis de regresión)
En el contexto del Análisis de regresión se denomina variable criterio a la variable dependiente.
De este modo, el Análisis de regresión se aplica cuando una variable cuantitativa (la variable dependiente o criterio), es estudiada como
una función de una variable o de una combinación de varias variables independientes o predictoras.
Variable cualitativa
Véase Variable categórica.
Variable dependiente
Representada como Y se trata de la variable observada, medida y registrada en un experimento y que será objeto de análisis. Dicha
variable no queda bajo el control directo del experimentador. Por su nivel de medida puede ser, cuantitativa (medida con escala de
intervalo o de razón), cuasi-cuantitativa (mediad con escala ordinal) o nominal (medida con escala cualitativa). Esta última a su vez
puede ser dicotómica si solo puede tomar dos valores (hombre-mujer; verdadero-falso, si-no, etc) politómica, cuando puede tomar tres
o mas valores (la nacionalidad, el código postal, etc)
Variable dicotómica
Es un tipo especial de variable cualitativa, que sólo puede adoptar dos valores. Por ejemplo, la variable sexo o la variable "resultado
que se obtiene al lanzar una moneda". Toda variable continua es susceptible de ser "dicotomizada", por ejemplo, la variable "altura"
siendo una variable continua puede presentarse "dicotomizada" en altos y bajos.
Variable discreta
Una variable discreta es aquellas que toma unos valores concretos que pueden ser contados como 0, 1, 2, 3, 4, ...Si una variable puede
tomar solo un número finito de valores, decimos que es discreta. Como ejemplo de variable discreta está el número de respuestas
correctas contestadas en un test, el número de hijos de una familia y por lo general todas aquellas variables que requieren un conteo.
Variable F
Variable continua que se define como el cociente entre dos variables chi-cuadrado dividida cada una de ellas por sus respectivos grados
de libertad. Puede tomar cualquier valor positivo y tiene una función de densidad de probabilidad conocida como distribución F
Variable independiente
Representada por X, es la variable controlada o manipulada por el experimentador con el fin de analizar su efecto sobre la variable
dependiente u observada (Y).
Las variables presentes en una investigación se pueden clasificar de acuerdo a diferentes criterios. Desde un punto de vista metodológico
de pueden clasificar en dos grandes grupos
• Variables explicativas, son aquellas que están presentes en la formulación de la hipótesis, bien como variable independiente,
o causa, o bien como variable dependiente, o efecto, respuesta, criterio. Desde el punto de vista de la investigación y por la
capacidad de manipulación que el investigador tiene sobre ella, la variable independiente puede ser:
o Variables Activas: cuando puede ser manipulada directamente por el investigador, como la dosis de una determinada
droga o fármaco.
o Variables Asignadas: cuando no se puede manipular modificando sus valores conforme a nuestro interés porque están
ligadas a características personales o de la propia naturaleza del sujeto, como la nacionalidad, edad, género, etc. En este
caso, lo más que se puede hacer es seleccionar los valores de interés, por ejemplo distintas patologías.
• Variables extrañas. son aquellas otras variables, controladas o no por el investigador, pero que pueden afectar en los resutltados
obtenidos en la variable dependiente o respuesta.
Variable nominal
Es lo mismo que una variable categórica. Los valores o números que presenta una variable nominal corresponden a "nombres" o
etiquetas. Por ejemplo, la profesión es un tipo de variable nominal o categórica. Si una variable nominal sólo presenta dos categorías,
recibe el nombre de variable dicotómica.
Variable ordinal
Es un tipo de variable medida con escala ordinal y cuyos valores solo pueden ser ordenados no pudiendo establecerse distancias entre
valores. Por ejemplo, los números asignados a los candidatos que se presentan a una oposición en función de la puntuación obtenida
en la prueba forman una variable ordinal.
Variable predictora (Análisis de regresión)
En el contexto del Análisis de regresión se denomina variable predictora a la variable independiente.
De este modo, el Análisis de regresión se aplica cuando una variable cuantitativa (la variable dependiente o criterio), es estudiada como
una función de una variable o de una combinación de varias variables independientes o predictoras.
Variable t
Es una variable continua definida como el cociente entre una variable normal tipificada , z, y la raiz cuadrada de una variable chi-
cuadrado, dividida por sus grados de libertad. La variable t, así definida, puede tomar cualquier valor, positivo o negativo y tiene una
función de densidad de probabilidad conocida que recibe el nombre de distribución t de Student en honor de su descubridor, el
matemático Gosset que publicó sus trabajos con el seudónimo de Student
Variables aleatorias independientes
Dos variables aleatorias X e Y son independientes si los valores de X no influyen sobre los valores de Y, y viceversa, si los valores de Y
no influyen sobre los valores de X. Con otras palabras, dos variables X e Y son independientes si los valores de X no afectan a la
distribución de probabilidad de Y. Entonces se cumple que en la distribución de probabilidad conjunta f(xy)=f(x).g(y)
Varianza
La varianza, representada como es un índice de dispersión que permite determinar la dispersión o variablidad de los datos de variable
objeto de estudio. Matemáticamente se define como la media de los cuadrados de las distancias de cada puntuación a la media. Su
fórmula recoge la expresión anterior.
La varianza puede ser un estadístico, cuando se refiere a la variablidad de los datos de una muestra, o un parámetro, cuando se refiere
a la variabilidad de los datos de la población en cuyo caso se representa con la letra griega sigma minúscula :
Varianza insesgada
Véase Cuasi-varianza
Varianza intergrupos (ANOVA)
En el ANOVA o análisis de varianza se trata de la varianza atribuible al efecto de los distintos niveles de la variable independiente (o
factor) sobre la variable dependiente u objeto de estudio y cuantifica la dispersión de las medias de las muestras respecto a la media
total.
Es igual a la suma de cuadrados intergrupos dividida por su grados de liberta y su fórmula es:
que recuerda a la fórmula de una varianza. Cuanto mayor sea esta varianza, mayor será el efecto de la variable independiente o factor.
Varianza intragrupos (ANOVA)
En el ANOVA o análisis de varianza, la varianza intragrupos se refiere a la variabilidad existente entre las puntuaciones dentro de cada grupo. Se
denomina también varianza del error ya que se debe a la variabilidad producida por toda una serie de factores no controlados en el experimento.
Esta varianza es igual a la suma de cuadrados intragrupos dividida por sus grados de lilbertad.
Uno de los supuestos del ANOVA es el de homocedasticidad, que supone que las muestras provienen de poblaciones con la misma
varianza. (Ver homocedasticidad)