Apuntes Con Definiciones

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 49

Análisis de Regresión

El Análisis de regresión es una técnica que se aplica siempre que una variable cuantitativa (la variable dependiente o criterio), sea
estudiada como una función de una variable o de una combinación de varias variables independientes o predictoras.
De este modo el análisis de regresión permite:
• Conocer el peso o influencia que ejerce cada variable independiente o predictora a la hora de explicar la variabilidad de la variable
dependiente o criterio.
• Establecer predicciones sobre el comportamiento de la variable dependiente, a partir de información proveniente, únicamente, de
la variable o variables independientes.
Cuando la variable dependiente o criterio es función de una solo variable independiente o predictora hablamos de Análisis de Regresión
Simple (ARS)
Cuando la variable dependiente o criterio es función de una combinación de dos o más variables independientes o predictoras hablamos
de Análisis de Regresión Múltiple (ARM).
La función que pone en relación la/s variable/s independiente/s con la dependiente son muy diversas, así por ejemplo, pueden
encontrarse relaciones de diversos tipos: lineales, exponenciales, potenciales, polinómicas…
En el caso específico de que la variable dependiente sea el resultado de una función lineal o una combinación lineal de varias variables
independientes hablaremos de Análisis de regresión lineal.
Análisis de Varianza - ANOVA
El análisis de varianza o ANOVA es un test paramátrico que se aplica con el fin de conocer si existen diferencias significativas entre las
medias de las poblaciones de tres o más grupos.
El procedimiento del análisis consiste en descomponer la variabilidad o varianza total en:
- Varianza intergrupos: varianza atribuible al efecto de los distintos niveles del factor sobre la variable dependiente u objeto de
estudio
- Varianza intragrupos: varianza del error, debida a toda una serie de factores no controlados en el experimento
De tal modo, en la medida que la varianza intergrupos sea significativamente mayor que la varianza intragrupos se admitirá la hipótesis
alternativa de que las medias de los grupos son distintas, pues gran parte de la varianza observada en el objeto de estudio viene
explicada por el efecto o impacto de los distintos niveles del factor en estudio.
Para poder aplicar un análisis de varianza se deben cumplir los supuestos de independencia, normalidad y homocedasticidad.
El análisis de varianza se aplica para conocer si existen diferencias entre tres o más grupos, no obstante este análisis no identifica los
pares de grupos entre los que existen diferencias, para lo que habrá de utilizarse comparaciones múltiples, concretamente las
denominadas comparaciones no planificadas, a posteriori o post hoc; siendo algunas de las pruebas post hoc más utilizadas: la prueba
de comparaciones múltiples de Tukey y la prueba de comparaciones múltiples de Scheffé.
Análisis de varianza de dos o más factores
Al igual que en el Análisis de varianza de un factor, cada factor esta compuesto por un determinado número de niveles.
Por ejemplo, con dos factores y dos nivelesar en cada factor, un diseño factorial tendría en total cuatro combinaciones de tratamientos,
y se le denominaría diseño factorial de 2×2.
Este tipo de diseños estudia el efecto de cada factor sobre la variable dependiente, así como el efecto de la interacción de dichos factores
sobre la misma.
La estrategia de análisis en este tipo de diseños, al igual que en los análisis de varianza de un factor, consiste en descomponer las
fuentes de variabilidad en elementos mutuamente excluyentes. Así, por ejemplo, en un ANOVA de 2 factores tendríamos:
• los efectos principales: A y B, que son el efecto global de cada factor considerado de forma independiente
• los efectos de la interacción entre los dos factores: AB, que viene definido por la relación existente entre los factores o lo que es
lo mismo, la interacción o efecto cruzado entre dichos factores.
• y el error experimental (S/AB) que representaría la desviación de la puntuación de cada sujeto con respecto a la media de los
tratamientos que se le han asignado aleatoriamente.
Además, en este tipo de diseños es muy importante conocer el concepto de efecto simple que es el efecto puntual que ejerce un factor
sobre cada nivel del otro factor (la manera de enfocar este análisis es convertir cada nivel o fila de la matriz AB en un diseño de un solo
factor). Destacar además que la suma de los efectos simples de un factor A es igual a la suma de sus efectos principales más su
interacción con el otro factor.
A la hora de realizar el análisis en este tipo de diseños el procedimiento consiste en realizar, en primer lugar, la prueba ómnibus, que
informa de la significación estadística tanto de los efectos principales como de la interacción.
Si los primeros son significativos se procede a las comparaciones múltiples entre los tratamientos.
Si los segundos son significativos, será necesario explicar cuáles de los diferentes efectos simples explican ese efecto. Identificado cuál
es el efecto simple significativo se realizarán comparaciones múltiples para determinar entre qué tratamientos se producen las
diferencias que explican la significación estadística del efecto simple.
Análisis robusto
Ver Robusto (análisis)
ANOVA con efectos aleatorios o modelo aleatorio
Se trata de un modelo de Análisis de Varianza en el que los i niveles del factor son una muestra aleatoria de todos los posibles niveles
del factor, de tal modo que las conclusiones obtenidas se generalizarán a todos los niveles del factor.
ANOVA con efectos fijos o modelo fijo
Se trata de un modelo de Análisis de Varianza en el que el investigador establece o fija como niveles del factor sólo aquellos que está
interesado en estudiar. De este modo, aunque el investigador es consciente de que existen más niveles, sólo estudia aquellos que le
interesan.

ANOVA de dos o más factores


Ver Diseño factorial
ANOVA- Modelo equilibrado
Ver Modelo equilibrado (ANOVA)
ANOVA- Modelo no equilibrado
Ver Modelo no equilibrado (ANOVA)
Coeficiente de alienación (Análisis de regresión)
Representado como (1- R2) es la parte residual de la variabilidad de la variable dependiente atribuible a otros factores no relacionados
linealmente con la variable dependiente. Es el complementario del coeficiente de determinación.
Coeficiente de correlación de Pearson
El coeficiente de correlación describe la intensidad de la relación entre dos variables (medidas como mínimo a nivel de intervalo). Este
coeficiente, que se expresa como rxy , o simplemente r mide concretamente la intensidad de la relación lineal entre dos variables, siendo
resultado de dividir la covarianza de X e Y: Cov(X,Y) entre las desviaciones típicas de las distribuciones marginales de X e Y.
El valor del coeficiente de correlación varía entre [-1, +1], es decir, el valor del coeficiente de correlación puede tomar valores desde
menos uno hasta uno, indicando que mientras más cercano a uno sea el valor del coeficiente de correlación, en cualquier sentido, más
fuerte será la asociación lineal entre las dos variables. Mientras más cercano a cero sea el coeficiente de correlación indicará que más
débil es la asociación entre ambas variables. Si es igual a cero se concluirá que no existe relación lineal alguna entre ambas variables.
De este modo:
• Si r = 1, existe una correlación positiva perfecta. El índice indica una dependencia total entre las dos variables denominada
relación directa: cuando una de ellas aumenta, la otra también lo hace en proporción constante.
• Si 0 < r < 1, existe una correlación positiva.
• Si r = 0, no existe relación lineal. Pero esto no necesariamente implica que las variables son independientes: pueden existir
todavía relaciones no lineales entre las dos variables.

• Si -1 < r < 0, existe una correlación negativa.


• Si r = -1, existe una correlación negativa perfecta. El índice indica una dependencia total entre las dos variables llamada relación
inversa: cuando una de ellas aumenta, la otra disminuye en proporción constante.
Coeficiente de correlación múltiple (Análisis de regresión múltiple)
Representado como Ry.12 o R dentro del Análisis de regresión múltiple es el coeficiente que correlaciona la variable dependiente con una
combinación óptima de dos o más variables independientes
Coeficiente de correlación parical (Análisis de regresión múltiple)
Presentado como pri este coeficiente, utilizado en el análisis de regresión múltiple, mide la correlación existente entre cada variable
independiente y la variable dependiente, habiendo eliminado el influjo del resto de variables independientes tanto de la variable
independiente como de la variable dependiente.
De este modo, este coeficiente mide la correlación “pura” entre Xi e Y, es decir, expresa la correlación entre la parte de Y no asociada
linealmente con el resto predictoras y la porción de Xi, no asociada linealmente con el resto de predictoras.
Dicho coeficiente, sirve además para determinar cuál es la primera variable que se incorporará al modelo cuando se realiza variable a
variable.
Si elevamos dicho coeficiente al cuadrado pri2 obtenemos la proporción de varianza de Y no asociadas al resto de X que sí está asociada
con Xi
Coeficiente de correlación semiparcial (Análisis de regresión múltiple)
Si en la ecuación de regresión Y= B 0 + B 1 X 1 + B 2 X 2 , la variable Y representa las puntuaciones en una "prueba de matemáticas", la
variable X1, representa la variable “horas de estudio” y X2, las “puntuaciones en los test de razonamiento”, el coeficiente de
correlación semiparcial entre X1 e Y, corresponde a la correlación entra las puntuaiones en la prueba de matemáticas,Y, y las horas
de estudio, X1, eliminando de esta, X1, la influencia del razonamiento, X2.
Es frecuente que en la regresión múltiple las variables independientes, X1 y X2 estén correlacionadas, es decir, que sean redundantes a
la hora de explicar la variabilidad de Y. En estas condiciones las variables X1 y X2 no son fuentes independientes para explicar la
variabilidad de Y ya que comparte una parte común, como se trata de representar en la siguiente figura.

Por tanto, cuando existe redundancia o correlación entre dos variables independientes X1 y X2, el coeficiente de correlación semiparcial
nosinforma de la contribución de X1 sobre Y, eliminando esta redundancia o aportación de X2 sobre X1. El coeficiente de determinación
semiparcial (el cuadrado del coeficiente de correlación semiparcial) nos explica la proporción de varianza de Y que se debe únicamente
a la variable X1 eliminado de esta la influencia del resto de variables independientes X.
Recurriendo al diagrama de Venn anterior:
(a+c) representa el coeficiente de determinación simple entre X1 e Y.
(b+c) representa el coeficiente de determinación simple entre X2 e Y.
"a" representa el COEFICIENTE DE DETERMINACIÓN SEMIPARCIAL de X1 sobre Y, y cuantifica la aportación exclusiva de X1 sobre Y
eliminando de X1 la parte de variabilidad que aporta X2 sobre X1.
"b" representa la aportación exclusiva de X2 sobre Y, es decir el COEFICIENTE DE DETERMINACIÓN SEMIPARCIAL DE X2 SOBRE Y y
cuantifica la aportación exclusiva de X2 sobre Y eliminando de X2 la parte de variabilidad que aporta X1 sobre X2.
De esta forma, tenemos que:

Por lo que:

Solo en el caso de que no existiera solapamiento (correlación) entre las dos variables independientes, X1 y X2, como se representa en
el diagrama de más abajo, se cumpliría que el coeficiente de determinación múltiple ES IGUAL a la suma de los dos coeficientes de
determinación simples:

Y el coeficiente de determinación semiparcial entre X1 e Y sería igual al coeficiente de determinación entre X1 e Y, ya que la zona
representada anteriormente por “c” no existiría: (a+b) – b = a

Ver:
• Coeficiente de correlación lineal simple.
• Coeficiente de determinación simple.
• Coeficiente de determinación múltiple.
Coeficiente de determinación (Análsis de regresión)
Representado como r2, en el caso del análisis de regresión simple (también r2xy), su valor es el cuadrado del coeficiente de correlación
de Pearson: rxy o r, mientras que en el análisis de regresión múltiple (también R2y.12) equivale al cuadrado del coeficiente de correlación
múltiple Rxy. Su valor oscila entre 0 y 1 esta medida nos indica la bondad de ajuste del modelo al cuantificar la proporción de variabilidad
de la variable dependiente, Y, que es explicada por la variabilidad de la o las variables independientes, según sea una regresión simple
o múltiple.
El coeficiente de determinación es también una medida del tamaño del efecto de la correlación. Si entre dos variables Y, notas de un
examen, y X, horas semanales dedicadas al estudio existiera una correlación de 0,6, indicaría que (0,22 = 0,36) el 36% de la variabilidad
de las notas del examen se explicarían por las horas semanales de estudio. El restante (100-36) 64% se deberían a otras variables no
incluídas en el modelo de regresión, como la inteligencia, motivación, etc, que tambien podrían influir en la nota.
De este modo cuanto mas se aproxime su valor a 1 mayor será el porcentaje de varianza explicada por el modelo, disminuyendo dicha
proporción en la medida que dicho valor se aproxima a 0.
La representación gráfica del coeficiente de determinación se realiza mediante un diagrama de Venn. Siendo las variables X e Y cada
uno de los círculos, r2 corresponde a la intersección de los dos círculos.

Por su parte, en el análisis de regresión múltiple , la contribución de cada VI sobre la VD se representa también
mediante las zonas solapadas de un diagrama de Venn:

Si, por ejemplo, la variable Y representa las puntuaciones en una prueba de matemáticas, la variable X1, representa la variable “horas
de estudio” y X2, las “puntuaciones en los test de razonamiento”, entonces el coeficiente de determinación múltiple, que corresponde a
la contribución conjunta de X1 y X2 en Y, queda representado por la intersección de los tres círculos (a + c + b), mientras que el
coeficiente de determinación simple entre X1 e Y es (a+c), y el de X2 e Y es (c+b):

Y "d" queda como zona que representa la contribución debida a otras variables no incluidas en el modelo de regresión (como pudiera
ser, el interés por la materia, el cociente intelectual, etc).
De esta forma, resulta evidente a partir de la figura anterior que, si las variables X1 y X2 están también solapadas, entonces el coeficiente
de determinación múltiple no es igual a la suma de los dos coeficientes de determinación simples:
Esta desigualdad se debe a que las variables X1 y X2 son redundantes a la hora de explicar la variabilidad de Y. Como ilustración de
esto, no hay más que ver la figura anterior para comprobar que (a+b+c) no es igual a la suma de (a+c) con (c+b) porque la zona c
(que representa esta redundancia de X1 y X2 con Y, la estaríamos sumando dos veces. En estas condiciones las variables X1 y X2 no son
fuentes independientes para explicar la variabilidad de Y ya que comparte una parte común.
En estas condiciones, cuando existe redundancia o correlación entre dos variables independientes X1 y X2, para explicar la variabilidad
de la VD, Y, nos puede interesar analizar la contribución de X1 sobre Y, eliminando esta redundancia o aportación de X2 sobre X1. Y este
es el concepto de COEFICIENTE DE CORRELACIÓN SEMIPARCIAL
Ver coeficiente de correlación parcial y semiparcial
Coeficientes de la Regresión lineal múltiple
Dado un modelo de regresión lineal formado por dos variables independientes:
Y=B0+B1X1+ B2X2+e
Tenemos los siguientes coeficientes:
• B0 denominado constante, origen o intercepto, será el valor estimado de la variable dependiente (Y´ ) cuando las dos variables
dependiente X1 y X2 valgan 0.
• B1 será el coeficientes de regresión parcial de de X1 y cuantifica el incremento que se produce en la variable dependiente estimada
(Y´) cuando se produce el incremento en una unidad en X1 -permaneciendo la otra variable independiente contante (X2)-.
• B2 será el coeficientes de regresión parcial de de X2 y cuantifica el incremento que se produce en la variable dependiente estimada
(Y´) cuando se produce el incremento en una unidad en X2 -permaneciendo la otra variable independiente contante (X1)-.
Por último, dentro del modelo e representa el error de predicción o residuo, que equivale a la distancia entre el valor observado de Y y
su valor estimado (Y´) para cada valor dado de X
Coeficientes de la Regresión lineal simple
Dada la recta de regresión (o recta de estimación, predicción o ajuste) para la regresión lineal simple:
Y=B0+BX+e
Tenemos los siguientes coeficientes:
• B0 denominado constante, origen o intercepto, señala el punto en el que la recta de regresión corta el eje de ordenadas, es decir,
es el valor estimado de Y (Y´) cuando X es igual a 0. Dicho coeficiente no suele ser objeto de interpretación
• B, también denominado como pendiente de la recta, es el coeficiente protagonista de la recta de regresión, y cuantifica el
incremento que se produce en la variable dependiente estimada (Y´) cuando la variable independiente (X) se incrementa en una
unidad.
Por último, dentro de la recta, e representa el error de predicción o residuo, que equivale a la distancia entre el valor observado de Y y
su valor estimado (Y´) para cada valor dado de X
Comparación de grupos
En muchas investigaciones, el objetivo del investigador es comparar dos o más grupos de sujetos respecto a una característica: medias,
proporciones, varianzas de la variable dependiente, VD. Los grupos se pueden formar mediante procedimientos aleatorios, no aleatorios
o ya vienen asignados por compartir una característica común, como la nacionalidad, el género, el nivel de estudios, que actuaría como
variable independiente, VI. En cualquiera de los casos, el objetivo es analizar las diferencias observadas entre los grupos (clasificados
por una variable intependiente, como el sexo, la actividad profesional, etc) en los que se ha registrado una determinada VD, como el
salario medio, la proporción de paro, la integración social, ña varianza de un test, etc. Este mismo objetivo se puede presentar indicando
que se quiere analizar la relación entre esa variable independiente de clasificación de los sujetos, por lo general de naturaleza categórica
(por ejemplo el sexo), y la variable dependiente, de naturaleza cuantitativa sobre la que calculamos, las medias de cada grupo (por
ejemplo, el salario medio), varianzas (delos salarios de cada grupo) 0 entre proporciones (del paro para un mismo colectivo profesional),
etc.
En este tipo de análisis se parte de una hipótesis, llamada hipótesis nula, que establece que no existen diferencias significativas entre
los dos grupos o, en otras palabras, el efecto nulo de la VI sobre la VD. Por ejemplo, en dos (o más) grupos formados por su nacionalidad
de procedencia (que acturaría como la VI), se desea comprobar si existen diferencias respecto a su nivel de integración social (que sería
la VD). De otra forma, si el nivel de integración social (la VD) es el mismo para las distintas nacionalidades que generan los grupos (la
VI) o, también, si la nacionalidad del inmigrante (la VI) influye sobre el nivel de integración (la VD). Frente a esta hipótesis (que señala
un efecto nulo de la VI sobre la VD, una diferencia nula entre los grupos) se formula la hipótesis alternativa que señala que sí existe
un efecto de la VI sobre la VD que genera diferencias entre los grupos a comparar. Este efecto se manifiesta a través de los diferentes
niveles de integración que manifiestan los individuos en función de su país de origen. Se adivina que, por lo general, la hipótesis
alternativa es que el investigador quiere comprobar.
Para que el investigador pueda comprobar su hipótesis, la alternativa, debe analizar sus datos cuantificando estas diferencias observadas
(el estadístico de contraste) suponiendo cierta la hipótesis nula (que recordemos, es la que señala que no existen diferencias). Esta
probabilidad recibe el nombre de nivel crítico p..
Ver muestras independientes vs relacionadas;; hipótesis nula ; contraste de hipótesis; significación estadística.
Comparaciones múltiples
En el contexto de Diseños con más de dos grupos las comparaciones múltiples proporcionan información más específica que el ANOVA.
En el ANOVA la Hipótesis alternativa se plantea en términos de que, al menos, entre dos medias, existen diferencias significativas, es
decir, que no son debidas al azar. Sin embargo, si se confirma dicha hipótesis, el contraste no proporciona mayor información sobre
entre qué pares específicos se producen las diferencias significativas.
Dicha información se alcanza con los análisis de comparaciones múltiples, que permiten identificar entre qué pares de medias existen
diferencias significativas no debidas al azar. De este modo, este tipo de análisis proporcionan una información más exacta sobre la
importancia de cada uno de los niveles de la variable independiente.
Dos son los tipos fundamentales de análisis de comparaciones múltiples existentes:
• Comparaciones no planificadas, a posteriori o post hoc. Son los más utilizados, aplicándose una vez realizado el ANOVA y
rechazada la Hipótesis nula, por lo que, a continuación, se desea conocer entre qué pares de medias existen diferencias no debidas
al azar. Mediante dicho análisis se comparan sistemáticamente todos los posibles pares de medias formados a partir de los
lo n niveles del factor. Entre los contrastes más utilizados dentro de esta familia hemos de destacar: la prueba de comparaciones
múltiples de Tukey, así como la prueba de comparaciones múltiples de Scheffé.
• Comparaciones planificadas o a priori. En este caso el investigador no está interesado en realizar el ANOVA ni en comparar
sistemáticamente todos los posibles pares de medias formados a partir de los lo n niveles del factor, tan sólo está interesado en
algunas comparaciones específicas entre ciertos pares, que son las que realimente le interesan.
Condición experimental
En el Análisis de Varianza (ANOVA) cada condición experimental equivale a cada uno de los niveles o categorías que constituyen un
factor.
Ver: Niveles de un factor
Contrabalanceo
Es una técnica de control experimental utilizada en los diseños intrasujetos para controlar el efecto del orden. Consiste en ordenar de
tal modo los tratamientos experimentales que el efecto de factores tales como el aprendizaje o la fatiga se distribuya equitativamente
entre todas las condiciones experimentales de tal forma que afecten por igual a todos los niveles del factor.
En los diseños intrasujetos este efecto se puede obviar o tener en cuenta, obteniéndose, en el segundo caso, un análisis más sensible
al producirse un incremento de la potencia.
Contraste de hipóteis
Un contraste de hipótesis es una afirmación relativa a una o varias poblaciones que puede ser cierta o no. Mediante un procedimiento
de inferencia estadística se trata de comprobar si esta afirmación es compatible con lo observado en una muestra representativa de
dicha población y tanto si se rechaza la afirmación formulada, como si no se encuantran evidencias para hacerlo, se puede cometer un
error (Error tipo I o Error Tipo II).
Fue iniciada por Ronald Fisher y fundamentada posteriormente por Jerzy Neyman y Karl Pearson.
Ver contraste unilateral vs bilateral
Contraste de hipótesis (unilateral vs bilateral)
Las hipótesis nula y alternativa son exhaustivas y mutuamente excluyentes, de tal forma que el rechazo de una supone la aceptación
de la otra. Dependiendo de como se formulen originan dos tipos de contrastes: cuando las hipótesis se formulan en términos de igualdad
vs desigualdad, estamos planteando un contraste bilateral. Por el contrario, si las hipótesis se formulan tratando de encontrar no solo
una diferencia sino también el sentido de esta diferencia (positiva o negativa) estamos ante un contraste unilateral.
En consecuencia, la hipótesis alternativa, que suele ser la hipótesis del investigador, es la que determina si el contraste es bilateral o
unilateral.
Si la hipótesis alternativa no marca la dirección de la diferencia, y por tanto puede ser en un sentido o en otro, hablamos de contraste
bilateral. En esta situación, el nivel de significación "alfa", se divide entre los dos lados de la distribución (alfa/2 a cada lado).
Si por el contrario, la hipótesis alternativa marca la dirección de la diferencia hablamos de contraste unilateral. En este caso, el nivel de
significación, alfa, se concentra en un lado de la distribución. Si es en el lado derecho tendremos un contraste unilateral derecho. Y si
es en el lado izquierdo tendremos un contraste unilateral izquierdo, como se representa en la siguiente figura.

Contrastes paramétricos vs no paramétricos


Las pruebas o contrastes de hipótesis paraméticas se basan en el cumplimiento de una serie de requisitos que hacen que la pruba sea
más potente, proporcionando más seguridad al tomar la decisión de rechazar, o no, la hipótesis nula planteada sobre un parámetro en
la población. Dentro de esta categoría se encuentran los procedimientos de anáisis de datos, tanto para obtener los intervalos de
confianza como los de cálculo de los estadísticos de contraste utilizados para contrastar hipótesis sobre los parámetros poblacionales.
Y también las pruebas t de contraste de hipótesis de una muestra, dos muestras independientes o relacionadas, los ANOVAS, regresión
simple y múltiple.
Las pruebas paramétricas poseen supuestos más rígidos y restrictivos que las no paramétricas. De este modo, los contrastes
paramétricos requieren que:
• La variable objeto de estudio sea de naturaleza cuantitativa (medida, al menos, con escala de intervalo).
• La hipótesis a contrastar se refiere a algún tipo de parámentro poblacional.
• La variable se distribuye normalmente en la población.
• Las muestras deben ser grandes porque influirá en una mejor estimación
• Las varianzas de los grupos a comparar sean aproximadamente iguales.
A modo de ejemplo, la prueba T de Student de comparación de grupos exige que la variable dependiente sea de naturaleza cuantitativa,
que provienen de poblaciones con distribuciones aproximadamente normales y varianzas homogéneas. Aunque existen técnicas de
análisis de los datos para comprobar el cumplimento de estas condiciones, por lo general es más probable que estas condiciones se
cumplan cuando las muestras son grandes.
Por su parte, las pruebas no paramétricas se utilizan con:
• Variables de tipo nominal u ordinal, o bien cuando las escalas sean de tipo intervalo/razón pero han sido recodificadas en variables
de tipo nominal u ordinal
• Proceden de una población cuya distribución poblacional no viene especificada asumiendo, a lo sumo, la distribución simétrica de
la variable en la población.
• La hipótesis no está referida a parámetros poblacionales sino a otras características, como la forma de su distribución o el ajuste
de una distribución empírica a una distribución teórica (Bondad de ajuste).
• Contrastes sobre la asociación entre varibles ordinales o categóricas.
• Contrastes de diferencias entre dos o más gruposo comparando sus medianas como índice de centralidad.
Una consecuencia de todo esto es que, en igualdad de condiciones, las pruebas paramétricas son más potentes que las no paramétricas,
es decir, tienen mayor probabilidad de rechazar una hipótesis nula falsa; pero esto no debe suponer que las pruebas no paramétricas
no tengan su área de aplicación bajo las circunstancias señaladas y su consecuente utilidad, por lo que son una muy buena alternativa
cuando la o las muestras son pequeñas y se duda del cumplimiento de las exigencias de las pruebas paramétricas.
Covarianza
La covarianza es una medida de la variación conjunta entre dos variables y, por tanto, es una medida del grado y sentido de la
relación entre las mismas. Se representa por s x y o s x y (a veces también denotada Cov(X,Y)
La covarianza equivale a la media aritmética de los productos de las desviaciones de cada una de las variables respecto a sus medias
respectivas.
De este modo, la covarianza indica el sentido de la correlación entre las variables, de tal modo que:
• Si el valor de la covarianza es mayor que cero, la covariación entre ambas variables es directa, de tal modo que a medida
que aumenta el valor de una de las variables también lo hace el de la otra. Dicho en otras palabras: los valores altos de X están
asociados a los valores altos de Y y viceversa.
• Si el valor de la covarianza es menor que cero, la covariación entre ambas variables es inversa, de tal modo que a medida
que aumenta el valor de una de las variables disminuye el de la otra, es decir: los valores altos de X están asociados a los valores
bajos de Y y viceversa.
Uno de los inconvenientes que presenta la covarianza como medida es el hecho de que su valor depende directamente de los valores
que toman las variables, por lo que es difícil valorar el grado de covariación entre dos variables. Para evitar este problema se suele
utilizar como medida de covariación el coeficiente de correlación, medida estandarizada entre -1 y 1 de muy fácil interpretación.
Cuasi-desviación típica
La cuasi-desviación típica de la muestra se representa por Sn-1 y es el estimador insesgado de la desviación típica poblacional por lo
que también se le denomina desviación típica insesgada (recuérdese que la desviación típica de la muestra no es un estimador
insesgado de la desviación típica poblacional).
A continuación se muestra cómo obtener el cálculo de ambas:
Desviación típica de la muestra:

Cuasi-desviación típica de la muestra o desviación típica insesgada:


Cuasi-varianza

La cuasivarianza de la muestra se representa por y es el estimador insesgado de la varianza poblacional por lo que también se
le denomina varianza insesgada (recuérdese que la varianza de la muestra no es un estimador insesgado de la varianza poblacional).
A continuación se muestra cómo obtener el cálculo de ambas:
Varianza de la muestra:

Cuasivarianza de la muestra o varianza insesgada:

Obsérvese que entre la varianza y la cuasivarianza existe la siguiente relación:

Por lo que la cuasivarianza de la muestra se puede calcular a partir de la varianza de la muestra de acuerdo a la siguiente expresión

En el presente curso, en los temas dedicados al análisis de datos paramétricos para diseños de dos grupos (temas 3 y 4) la cuasivarianza

se representará como pues al trabajar con dos muestras necesitamos un subíndice para distinguir entre ambas, por ejemplo:

y , por este motivo se representa a la cuasivarianza con un acento circunflejo (que es este símbolo:^).
d de Cohen
El estadístico d de Cohen es una medida del tamaño del efecto como diferencia estandarizada entre las medias de dos grupos.

Su finalidad es cuantificar la relevancia de una diferencia observada o, en otras palabras, del efecto obtenido o influencia de una variable
sobre la otra. Dicho de otra forma, se trata de establecer si efectos, influencias o diferencias estadísticamente significativas son
relevantes para aplicación práctica de los resultados de la investigación.
INTERPRETACIÓN:
Con ayuda de un ejemplo, supongamos que en un estudio se analiza si existe diferencias en el auto-concepto entre sujetos activos y
no activos. Se encuentra que la media en el cuestionario de autoconcepto de los sujetos activos es de 23,7 y en los sujetos inactivos
22,41. El estadístico de contraste que se obtiene es t= 2,24 (p=0,025), lo que indica que existen diferencias significativas con un nivel
de significación de 0,05. La magnitud del efecto, con el estadístico de Cohen, es d=0,28 y cuantifica la distancia tipificada, en valor
absoluto, entre estas dos medias:
Este estadístico d se interpreta como si fuera una puntuación típica Z por lo que consultamos la tabla y observamos que la probabilidad
de obtener puntuaciones menores o iguales que Z=0,28 es 0,6103. Es decir, que el 61,03% de los sujetos inactivos tienen una
puntuación en autoconcepto inferior a la de los sujetos activos. Solo el 38,97% de los sujetos inactivos superan la media de autoconcepto
de los sujetos activos.

De la misma forma, y conforme a la siguiente representación, podríamos decir que el 61,03% de los sujetos activos tienen un
autoconcepto que supera la media de los sujetos inactivos y que solo el 38,97% de los sujetos activos quedan por debajo de la media
de los sujetos inactivos:

Ver tamaño del efecto.


Desviación típica
Para describir con detalle un conjunto de datos, no basta con conocer su media. Necesitamos tambien conocer la variablidad o dispersión
que tiene esta distribución de datos respecto de su media, con objeto de tener una visión más completa de la distribución: su tendencia
central y su variablidad.
Si este conjunto o destribución de datos se refiere a la población en su totalidad obtenemos la desviación típica poblacional: ; y si
por el contrario nos referimos a una parte o muestra de la población, obtenemos la desviación típica de la muestra: .
Su cálculo se obtiene a través de la siguiente fórmula:

Desviación típica insesgada


Véase Cuasi-desviación típica.
Diferencia significativa
Rechazar la hipótesis nula supone asumir (con un determinado riesgo representado por el nivel critco p) diferencias significativas.
En los contrastes de hipótesis, una diferencia es estadísticamente significativa cuando es poco probable que pueda atribuirse al
azar. Una diferencia estadísticamente significativa indica que hay evidencias de que la diferencia observada es real, que tiene una causa
y que esta causa no es producto de la casualidad, pero no que la diferencia sea grande o que sea importante, en términos prácticos.
Que una diferencia sea significativa no implica necesariamente que sea importante o relevante. Por ello conviene conocer también el
tamaño del efecto. (Ver).
Diseño factorial
Se trata de una investigación que consta de dos o más factores (o variables independientes) y cada factor con un determinado número
de niveles de forma que permite estudiar globalmente la influencia de estos factores sobre la variable dependiente o respuesta así como
el efecto de la interaccion entre ambos factores sobre la respuesta.
De esta forma un diseño (p x q) es una investigación en la que se utilizan dos factores, uno con p niveles y el otro con q niveles que
generarían p x q condiciones distintas; de forma similar un diseño (p x q x r) analiza la influencia de tres factores, uno con p niveles,
otro con q niveles y el tercero con r niveles. Porejemplo, en el estudio de la influencia del sexo (hombre o mujer), edadl (menor de 35;
entre 36 y 55; mayor de 56) y la experiencia laboral (junior, semi-senior y senior) sobre el salario de un determinado colectivo
profesional, tendríamos un diseño (2x3x3) que se analiza con un ANOVA de dos, tres factores, o más según cada caso.
Diseño intersujetos
Se representan por AxS, donde A representa al factor con sus n niveles o condiciones experimentales y S representa a los sujetos. En
este tipo de diseños se construyen o utilizan tantos grupos distintos de participantes como niveles tenga el factor, de tal modo que cada
grupo es sometido a un único nivel o condición, obteniendo, por lo tanto cada sujeto una única puntuación. Son por tanto, muestras
independientes
Diseño intrasujetos
Representado como: (AxS), donde A representa al factor con sus n niveles o condiciones experimentales y S representa a los sujetos.
A diferencia del diseño intersujetos -donde cada sujeto es sometido a una única condición y por lo tanto obtiene una única puntuación-
en este tipo de diseños los mismos participantes se someten a todas las condiciones experimentales, por lo que cada sujeto proporciona
tantas puntuaciones como niveles o condiciones conformen el factor.
Por ejempo, para analizar como afecta el paso del tiempo sobre la memoria, se puede seleccionar una muestra aleatoria formada por n
sujetos a los cuales se les pide que memoricen una lista de palabras durante un tiempo determinado. Después de una hora de finalizado
el tiempo de memorizaciónles les pasamos una prueba para evaluar la calidad del recuerdo, y la misma prueba se les vuelve a pasar
transcurrido un día, una semana y un mes. La variable independiente, o factor A, es el tiempo con cuatro niveles (una hora, un día, una
semana y un mes) que son los momentos en los que se mide la calidad del recuerdo. Y S es el número n de sujetos que son los mismos
para cada uno de los momentos, o niveles del factor A.
Una de las ventajas de este tipo de diseños es que cualquier otra variable que pueda influir en la calidad del recuerdo, como la edad o
el nivel de estudios, inteligencia, etc, se mantiene constante para cada sujeto dentro de cada nivel del factor.
Los diseños intrasujetos también se denominan diseños de medidas repetidas de muestras relacionadas.
Diseños de medidas repetidas
Ver diseños intrasujetos

Diseños ex post facto


A diferencia de los diseños experimentales, en los diseños ex post facto el investigador no puede manipular intencionalmente la variable
independiente, ni asignar aleatoriamente los sujetos a los diferentes niveles de la misma. En cambio, en este tipo de diseños, los sujetos
son seleccionados por poseer ya un determinado valor en dicha variable.
Uno de los procedimientos de análisis más empleados para este tipo de diseños es el Análisis de regresión, pudiendo ser aplicado
siempre que una variable cuantitativa (la variable dependiente o criterio), sea estudiada como una función de una variable o de una
combinación de varias variables independientes o predictoras. No obstante el Análisis de regresión también puede aplicarse en
condiciones experimentales, lo que le convierte en una técnica de amplias aplicaciones.
Distribución binomial
La distribución binomial es una distribución de probabilidad de una variable aleatoria discreta tipo Bernouilli y que describe el número
de resultados iguales que se producen al realizar n experimentos independientes entre sí, acerca de una variable aleatoria discreta tipo
Bernoilli. Por tanto:
• El experimento consiste en realizar n pruebas.
• En cada prueba solo pueden darse dos resultados posibles: cara-cruz; hombre-mujer; acierto-fallo, apto-no apto; etc, que reciben
los nombres genéricos de "éxito" "fracaso".
• La probabilidad del "éxito", que se representa por p, se mantiene constante en cada prueba.
Con estas condiciones, se define la variable aleatoria discreta X= "número de éxitos que se obtienen al realizar n pruebas" y la
distribución binomial permite calcullar la probabilidad de ocurrencia de que el número de éxitos, X, tome un valor concreto de X=k,
mediante la siguiente expresión:
P(X=k) = (Nk) pkqN−k.
Existe una familia de distribuciones binomiales que dependen de dos valores: N, número de ensayos y p: probabilidad del éxito, que es
constante para cada ensalo. Para indicar que una variable X tiene distribución binomial, se escribe: X~B(N,p). Con esta distribución
podemos dar respesta a las siguientes preguntas:
¿Cuál es la probabilidad de que en una familia de 7 hermanos, 6 sean del mismo sexo?.
¿Cuál es la probabilidad de que en una prueba de conocimientos de 25 preguntas con tres alternativas de respuesta, de las que solo
una se correcta, se acierten a 10 de ellas contestando al azar?.
¿Cuál es la probabilidad de obtener 8 caras al lanzar una moneda en 10 ocasiones?.
etc,
Distribución chi-cuadrado
Conocida también como ji-cuadrado de Pearson, es una distribución de probabilidad de una variable aleatoria continua que se resulta
de sumar los cuadrados de n puntuaciones típicas con distribución normal estandarizada o tipificada.
χ2=Z21+Z22+Z23+...+Z2n
La distribución chi-cuadrado es en realidad una familia de distribuciones, que depende del número, n, de variables aleatorias tipificadas
que se sumen. Como estas variables están elevadas al cuadrado, siempre adoptarán valores positivos y la suma de n valores positivos
es también un valor positivo por lo que la variable chi-cuadrado solo puede tomar valores positivos, entre 0 e "infinito" y cuya forma
depende de los grados de libertad, n-1.

Esta distribución forma parte de la estadística inferencial -para obtener intervalos de confianza- y para distintos tipos de contrastes de
hipòtesis.

Distribución de probabilidad
Ver Función de probabilidad
distribución en la muestra
Es la distribución que se obtiene con los datos concretos recolectaddos en una determinada muestra extraida de una determinada
población. Y puede adoptar cualquier forma, normal, uniforme, etc.
Distribución F
Conocida como distribución F de Snedecor o como distribución F de Fisher-Snedecor, es una distribución de probabilidad de una variable
aleatoria continua que se generan a partir del cociente entre dos variables con distribución chi-cuadrado, cada una de ellas con sus
correspondientes grados de libertad (gl).
Se utilizada en los contrastes de hipótesis de igualdad de varianzas de dos muestras independientes que provienen de poblaciones
con distribución normal. Y también en el análisis de varianza para contrastar si existen diferencias significativas entre las medias
poblacionales a partir de los datos obtenidos en dos o más muestras independientes o relacionadas. En ambos casos, se recurre al
estadístico F calculado como cociente entre dos estimaciones de la varianza.
La distribución F es, en realidad, una familia de distribuciones que solo pueden tomar valores positivos ya que su valor se obtiene a
partir del cociente entre dos variables chi-cuadrado que siempre son positivos, y cuya forma depende de los grados de libertad de las
variable chi-cuadrado del numerador y denominador, respectivamente.

Distribución muestral de la media


La distribución muestral de la media es normal o se aproxima a la normal (como la distribución t de Student) cuando se cumple, al
menos, una de las siguientes condiciones:
1. La variable se distribuye normalmente en la población.
2. El tamaño de la muestra es grande, en cuyo caso se aproxima a la normal. Y consideraremos las siguientes dos situaciones:
a) Si conocemos la varianza poblacional, σ2, (o su raíz cuadrada, la desviación típica, σ) entonces la distribución muestral de la media
es normal, siendo su media, μY, y error típico (desviación tipica de la distribución muestral de la media, σY¯¯¯) las siguientes:
μY=μσY=σn√
b) Pero si, como suele ser lo mas habitual en la práctica, se desconoce la varianza poblacional y se trabaja con muestras grandes, la
distribución muestral de la media es la distribución T de Studen (*), siendo su media, μY, y error típico (desviación tipica de la
distribución muestral de la media, σY¯¯¯) las siguientes:
μY=μσY=Sn−1n√=Snn−1√
Siendo Sn-1 la cuasidesviación típica de la muestra (estimador insesgado de la desviación típica poblacional, σ) y Sn, la desviación
típica de la muestra.
(*) A medida que el tamaño de la muestra aumenta, la distribución t se aproxma a la normal y cuanto más grande sea la muestra mejor es esa aproximación
(por el teorema central del límite). La tabla de la distribución T que se maneja en el texto proporciona información de los valores de la distribución T hasta 100
grados de libertad. Para valores mayores (n>100) la aproximación entre las dos distribuciones ya son prácticamente iguales por lo que se puden sustituir los
valores de T por los de la Z de la distribución normal tipificada.
Distribución muestral de un estadístico
La distribución muestral es una distribución teórica que se obtendría al considerar todas las posibles muestras, del mismo tamaño, que
se pueden seleccionar de una población concreta. En cada una de esas muestras de obtiene un estadístico descriptivo (v.gr. la media,
la proporción, la varinza, etc). El estadístico tendrá un valor distinto ya que depederá de los valores obstenidos en cada una de las
muestras. Bajo estas condiciones, "la distribución muestral es la distribución de probabilidad generada por los valores de ese
estadístico obtenido para cada una de las posibles muestras del mismo tamaño extraídas de la población de origen. A
cada uno de esos valores que puede tomar ese estadístico le corresponde una probabilidad concreta".
A partir del cumplimiento de determinadas condiciones, se sabe cómo es la de distribución muestral de la media, de la diferencia de
medias, de la proporción, de la varianza, del coeficiente de correlación, del cociente entre varianzas, etc. Es decir, cada estadístico tiene
una determinada distribución de probabilidad conocida, como la distribución normal, binomial, t de Student, chi-cuadrado, etc., que nos
permite determinar la probabilidad que se tiene de que el estadístico obtenido en la muestra se aproxime al parámetro de la población
(valor desconocido) que queremos estimar.
En todo caso, estas distribuciones muestrales tienen determinada variabilidad definida por su desviación típica que recibe el nombre
de error tipico.
Ver distribución muestral de la media.
Distribución normal tipificada o estándar
La distribución normal, también conocida como campana de Gauss, es la distribución de probabilidad de una variable aleatoria continua
que adopta la forma característica de campana. Existen multitud de variables (el peso, la altura, el CI, etc) que se distribuyen según

este modelo de Gauss. Cada una de estas distribuciones se caractarizan por su media, , y su desviación típica, .
Y todas ellas se puden transformar en una única distribucíón con media 0 y desviación típica 1, que se representa por N(0;1) y recibe
el nombre de distribución normal estándar o tipificada. Las tablas de la distribución normal permiten determinar la probabilidad de
obtener valores menores o iguales que una puntuación Y, determinada. Para ello, hay que tipificar la variable Y, que consiste en realizar
una transformación lineal, mediante la siguiente expresión:

Las nuevas puntuaciones Z, denominadas puntuaciones típicas, tienen media cero y desviación típica 1 y son las que dan origen a la
distribución normal tipificada. La tabla de la distribución normal nos informa de la probabilidad de encontrar valores menores o iguales
que una puntuación z determinada.

De igual forma, dadas dos puntuaciones z1 y z2, y localizadas en la tabla sus respectivas probabilidades P(Z<=Z1) y P(Z<=Z2),
podemos conocer la probabilidad de obtener puntuaciones comprendidas entre ambas, o lo que es los mismo, mayores o iguales que
Z1 y menores o iguales que Z2 de la siguiente forma:

Distribución poblacional
Es la distribución de los datos en la población. Puede ser una distribución normal, uniforme, asimétrica, etc.
Distribución t
La distribución t es una distribución de probabilidad de una variable aleatoria continua (que puede tomar cualquier valor positivo o
negativo) que se utiliza para el analizar si existen diferencias significativas entre dos medias poblacionales estimadas a partir de dos
muestras que provienen de poblaciones en las que se desconoce sus varianzas poblacionales que tienen que ser estimadas a partir de
los datos muestrales.
La distribución t es una familia de distribuciones simétricas respecto a su media, con
Media μ=0
y desviación típica: σ=nn−2
y cuya forma depende de los grados de libertad. No obstante puede observarse que a medida que aumenta n el valor de la desviación
típica se aproxima a 1, por lo que a medida que aumentan los grados de libertad, n, la distribución t se va aproximando a la distribución
normal de puntuaciones Z (distribución normal estándar) con media 0 y desviación típica 1.
Efecto de interacción (Diseño factorial)
En un diseño factorial, se dice que existe interacción entre los factores (o variables independientes) cuando el efecto de un factor
depende de los niveles del otro.
Por ejemplo, si se estudia la influencia de la edad y el sexo en el salario que reciben unos empleados por el desempeño del mismo
puesto y categoría profesional, se dice que hay interacción, si se encuentran diferencias significativas del salario entre hombres y
mujeres para distintos tramos de edad (figura de la izquierda) o de sexo (figura de la derecha), obteniendo una representación gráfica
como las siguientes:

Si la diferencia encontradas para diferentes tramos de edad (figura de la izquierda) o de sexos (figura de la derecha) es la misma,
entonces no existe efecto de interacción.

Ver Diseño factorial


Efectos fijos vs Efectos aleatorios
Los modelos de ANOVA's de EFECTOS FIJOS son aquellos en los que los distintos niveles del factor (o variable independiente) son
seleccionados específicamente por el experimentador con el fin de conocer los efectos que estos niveles concretos ejercen sobre la
variable dependiente o respuesta.
Los modelos de EFECTOS ALEATORIOS se presentan en otras situaciones en las que experimentador quiere analizar el efecto de un
factor con un número elevado de “posibles niveles” (por ej, dosis de un determinado fármaco) y para realizar el experimento debe
seleccionar una muestra aleatoria de todos estos posibles e incontables posibles niveles de dosis. En este caso el factor es de efectos
aleatorios.
En los diseños factoriales se pueden presentar experimentos con factores fijos y factores aleatorios que se denominan MODELOS MIXTOS.
Efectos principales (Diseño factorial)
En un diseño factorial es el estudio del efecto por separado de cada uno de los factores o variables independientes.
Por ejemplo, si se estudia la influencia de la edad y el sexo en el salario que reciben unos empleados por el desempeño del mismo
puesto y categoría profesional los efectos principales se refieren al estudio del efecto del sexo sobre el salario, por un lado, y el efecto
de la edad, por otro.
Ver Diseño factorial
Efectos simples (Diseño factorial)
Los efectos simples hacen referencia a la comparación entre sí de los niveles de un factor dentro de cada nivel del otro factor.
Por ejemplo, si se estudia la influencia de la edad (dividida en dos categorías: mayores de 40 años frente a los menores de esta edad)
y el sexo, en el salario que reciben unos empleados por el desempeño del mismo puesto y categoría profesional, los efectos simples
hacen referencia a las diferencias entre hombres y mujeres para cada uno de los distintos tramos de edad y la diferencia por edad entre
hombres y lo mismo entre mujeres. Por tanto, en esta situación tendriamos cuatro efectos simples:
• La diferencia entre hombres y mujeres, mayores de 40 años.
• La diferencia entre hombres y mujeres menores de 40 años.
• La diferencia entre los hombres mayores de 40 años y los hombres menores de 40 años.
• La diferencia entre mujeres mayores de 40 años y las mujeres menores de 40 años.
Hay tantos efectos simples como la suma de los niveles de cada factor, que en esta situación son 2+2=4, En general, para un diseño
pxqxr (tres factores, con p, q y r niveles, respectivamente) el número de efectos simples sería la suma de p+q+r.
Estos análisis son especialmente útiles para interpretar el efecto de la interacción, ya que si la diferencia entre hombres y mujeres
mayores de 40 años es significativamente distinta de la que existe entres hombres y mujeres menores de 40 años, entonces existe
interacción, obteniéndose una gráfica como las siguientes:

Ver Diseño factorial


Error de estimación
La estimación de un parámetro poblacional (como la media, la varianza o la correlación poblacional) está sujeta a una variación en
función de que se obtenga sobre una muestra u otra. A la diferencia entre el resultado obtenido en la muestra y el que se habría
obtenido si el estudio se hubiera realizado sobre toda la población se le conoce como error de estimación.
Error máximo de estimación
El error máximo de estimación es variable y será más o menos grande dependiendo del tamaño, n, de la muestra de estudio y del nivel
de confianza, que fija el valor de Z (o t, según como sea la distribución muestral).
En la estimación por intervalos de un determinado parámetro poblacional (v.gr. la media poblacional) el intervalo de confianza
corresponde al rango de valores entre los cuales se encontrará la media poblacional con una probabilidad determinada a priori y el error
máximo de estimación es la máximaa distancia desde el estadístico muestral a cualquiera de los límites. Por tando, y de forma más
concreta, el intervalo de confianza de la media poblacional se obtiene sumando y restando a la media de la muestra el error máximo
de estimación.
IC=Y¯¯¯± Emax Emax=Z σn√ ⇒ IC=Y ±Zσn√
Este error depende del tamaño de la muestra (n) y del nivel de confianza (Z), de forma que:
• Cuanto mayor sea el tamaño de la muestra, n, menor es el error.
• Cuanto mayor sea el nivel de confianza, 1-α, mayor es Z y el error.
Error típico
Es la desviación típica de la distribución muestral de un estadístico y su cálculo es imprescindible para la construcción de los intervalos
de confianza y de los estadísticos de contraste.
Se representa por la letra griega sigma minúscula con un subíndice que representa al estadístico, de la siguiente forma:
• Error típico de la media: σY¯¯¯
• Error típico de la proporción: σp
• Error típico de la pendiente de la ecuación de regresión: σB
• Error típico de la diferencia de medias: σY¯¯¯1−Y2
• Error típico de la correlación: σrXY
etc, etc.
Error típico de la media
Es la desviación típica de la distribución muestral de la media. El proceso de estimar la media de la población (µ) se apoya en el concepto
de la distribución muestral de la media.(Ver Distribución muestral de un estadístico).
Si la variable de estudio se distribuye normalmente, o, la muestra es grande (mayor de 30), se pueden presentar las siguientes dos
situaciones:
1.- Se desconoce la varianza poblacional: En este caso, la distribución muestral de la media es la t de Student. Y,el error típico se
obtiene a partir de la cuasi-desviación típica (estimador insesgado de la desviación típica poblacional) o de la desviación típica de la
muestra (estimador sesgado=, de acuerdo a las siguientes expresiones:
σY¯¯¯=Snn−1√
Sn es la desviación típica de la muestra o estimador sesgado de la desviación típica poblacional.
Por otra parte, la varianza y cuasi-varianza de la muestra están relacionadas mediante la siguiente expresión:
S2n−1=n S 2nn−1
El error típico de la media también tiene la siguiente expresión:
σY=Sn−1n√
Aquí, Sn-1, es la cuasi-desviación típica de la muestra, estimador insesgado de la desviación típica poblacional (y su cuadrado es la
varianza)
2.- Se conoce la varianza poblacional: Entonces, la distribución muestral es una distribución normal y el error típico de la media es:
σY¯¯¯=σn√
Donde n es el tamaño de la muestra y σ la desviación típica de la población.
Error tipo I
Es el error que se comete al rechazar una hipótesis nula cuando en realidad es verdadera. La probabilidad de cometer este error es
conocida y vale "alfa", el nivel de significación. Este error se comete cuando el estadístico toma un valor a la derecha del valor crítico,
Zc, que llevaría a rechazar la Ho que es verdadera.

Error tipo II
Es el error que se comete al no rechazar una hipótesis nula que en realidad es falsa. La probabilidad de cometer este error se representa
por "beta": ß y no es conocida de antemano aunque se puede calcular. Se comete cuando el estadístico de contraste se sitúa a la
izquierda del valor crítico, Zc, no rechazando una H0 que es falsa.
Su valor complementario es 1- ß, que corresponde a la potencia de contraste.

Estadística paramétrica
Técnicas de análisis estadísticos que se aplican cuando los datos no cumplen los supuestos que exigen las pruebas paramétricas.
Ver Pruebas paramétricas
Estadístico
Es un valor numérico que describe una característica de la muestra (como su tendencia central, su variablidad, su forma, etc). Por
tanto, la media cuando se refiere a los datos de una muestra es un estadístico de tendencia central. La varianza, la proporción, la
correlación, la pendiente de una recta de regresión, etc, son estadísticos si están referidos a los datos de una muestra.
Se representan con letras del alfabeto latino y son valores conocidos que se calculan a partir de los datos recogidos en la muestra.
(ver parámetro).
X¯¯¯; Y ; Medias de la variable X y media de la variable Y,
S2X : Varianza de la variable X en la muestra.
p: proporción observada en la muestra.
rXY: Correlación en la muestra.
Y=b0+b1 X Ecuación de regresión de Y sobre X obtenida en la muestra.
etc.

Estadístico de contraste
Es un valor numérico de una variable aleatoria continua (con una determinada función de probabilidad) que se obtiene a partir de los
datos proporcionados por la, o las, muestras y cuantifica la discrepancia entre la información empírica obtenida a partir de la muestra
(o muestras) utilizadas en la investigación frente a la discrepancia téorica formulada en la hipótesis nula.
Este valor, como se ha indicado, corresponde a una variable aleatoria que sigue una determinada distribución de probabilidad (normal,
t, chi cuadrado, F,…)
El valor numéricos, el cálculo, de este estadístico es una fase esencial en el Contraste de Hipótesis, pues permite rechazar o no
la Hipótesis nula planteada al comparar el valor obtenido a través de este estadístico con el valor crítico o bien, al comparar la
probabilidad asociada a dicho estadístico: el nivel p crítico, con el nivel de significación establecida. (Ver valor critico y nivle crítico p)
Si la información proporcionada por la muestra no es compatible con lo formulado en la hipótesis nula, se rechazará esta hipótesis. En
caso contrario, no disponemos de evidencia para rechazarla y se mantendrá como provisionalmente verdadera, hasta que nuevas
evidencias demuestren lo contrario.
Ver Hipótesis nula y alternativa; estadístico de contraste; nivel de significacion.
Estimación
Es cualquier técnica para conocer el valor aproximado de un parámetro poblacional, a partir del estadístico muestral correspondiente,
calculado con los datos recogidos en la muestra. Hay dos tipos de estimación: la estimación por puntos y la estimación por intervalos
Estimación por intervalos
A diferencia de la estimación puntual, con la estimación por intervalos se trata de determinar dos valores entre los cuáles se encontrará
el parámetro poblacional, con un determinado nivel de confianza. Esta estimación se realiza a patir del conocimiento de la distribución
muestral del estadístico que se utiliza como estimador del parámetro.
Estimación puntual
En la estimación puntual se utiliza el estadístico obtenido en la muestra como valor del parámetro poblacional. Conocido también como
método de los momentos (ideado por K. Pearson) este procedimiento entraña riesgos, pues no todos los estadísticos tienen la virtud de
ser buenos estimadores de los parámetros poblacionales y además es poco probable que el estadístico de una muestra concreta coincida
con el verdadero valor del parámetro poblacional. (ver también estimación por intervalos).
Estimador
Un estimador es un estadístico utilizado para conocer el valor aproximado de un parámetro desconocido de la población (¿),
representándose el estimador del parámetro poniendo un acento circunflejo (^) sobre el parámetro, quedando por tanto como: .
Por ejemplo, si dentro de la población de estudiantes de 15 años se desea conocer el nivel de habilidad media en la asignatura de
ciencias (el parámetro desconocido) se aplicarán test a un subconjunto representativo de estudiantes (la muestra) a través de los cuales
se pueda conocer el nivel de habilidad de cada alumno y, consiguientemente se pueda calcular la habilidad media de la muestra. Pues
bien, precisamente la media de la muestra podrá utilizarse como estimador de la habilidad media en ciencias de la población de
estudiantes de 15 años.
Propiedades de los estimadores:
Para cada parámetro pueden existir varios estimadores diferentes. En general, escogeremos el estimador que posea mejores
propiedades que los restantes, siendo éstas:
- Insesgado: su valor esperado o esperanza matemática debe coincidir con el parámetro que estima
- Eficiente, de tal manera que la distribución del estimador tenga poca variabilidad. Un estimador será mas eficiente cuanto menor
sea la variabilidad de su distribución muestral.
- Consistencia: de tal manera, que a medida que aumenta el tamaño de la muestra tiende a concentrarse en un rango cada vez más
estrecho alrededor de su parámetro. De este modo, su sesgo y su varianza tienden a cero a medida que se incrementa n.
- Suficiencia: un estimador será suficiente en la medida que al estimar el parámetro de ¿ utiliza toda la información muestral
relacionada con el parámetro.
Estimador eficiente
Es bueno que la distribución del estimador tenga poca variabilidad, en este sentido, diremos que un estimador es más eficiente que
otro estimador, si la varianza del primero es menor que la del segundo.
Estimador insesgado
Un estimador es insesgado cuando su esperanza matemática (valor esperado o media) coincide con el parámetro poblacional.
En el caso de la media se comprueba que la media de todas las posibles medias -calculadas en todas las posibles muestras del mismo
tipo y tamaño extraídas de una población- coincide con la media poblacional. Por tanto, la media de la muestra es un estimador
insesgado de la media poblacional (parámetro).
Experimento
Un experimento es un procedimiento mediante el cual se trata de comprobar (confirmar, verificar) una o varias hipótesis relacionadas
con un determinado fenómeno, mediante la manipulación de una o más variables que presumiblemente son su causa (factores).
En un experimento se consideran todas las variables relevantes que intervienen en el fenómeno, mediante la manipulación de las que
presumiblemente son su causa, el control de las variables extrañas y la aleatorización de las restantes. Estos procedimientos pueden
variar mucho según las disciplinas (no es igual en Física que en Psicología, por ejemplo), pero persiguen el mismo objetivo: excluir
explicaciones alternativas (diferentes a la variable manipulada) en la explicación de los resultados. Cada repetición del experimento se
llama prueba o ensayo.
Las distintas formas de realizar un experimento (en cuanto a distribución de unidades experimentales en condiciones o grupos) son
conocidas como diseños experimentales.
Ver Grupo de control y grupo experimental
F distribución
Ver distribución F
Factor
En el Análisis de varianza o ANOVA se denomina factor a la variable independiente, compuesta por un determinado número de niveles
(categorías), de este modo, lo que nos interesa estudiar es el efecto que generan estos niveles del factor sobre la variable objeto de
estudio. O dicho en otras palabras, se pretende estudiar si se observan diferencias entre las medias de los grupos correspondientes a
cada uno de los niveles del factor.
De este modo, en la medida que la varianza debida a los distintos niveles del factor (varianza intergrupos) sea mayor que la varianza
debida al error experimental (varianza intragrupos) se dirá que el factor ejerce un impacto significativo sobre la variable dependiente
objeto de estudio, o lo que es lo mismo, se observan diferencias significativas entre las medias de los grupos formados por cada uno
de los niveles del factor.
Función de densidad de probabilidad
La función de densidad de probabilidad, f(k), se aplica a las variables aleatorias continuas y representa el mismo concepto que
la función de probabilidad, f(k), de las variables aleatorias discretas que puedes leer más abajo, es decir, la probabilidad de
obtener un valor concreto,k, para la varialel aleatoria, X: f(k) = P(X= k).
Una variable aleatoria continua es aquella en la que existen infinitos valores posibles de forma que entre dos de ellos, por muy próximos
que estén, siempre podremos encontrar infinitos valores más. Ejemplos de variables aleatorias continuas son el peso, la altura, la
distancia, etc, de forma que entre dos cualesquiera como 20 y 21 cm, existen el 20,48 y 20,49 cm y, a su vez, entre estos el 20,481 y
20,489 y así hasta infinitos, por lo que la probabilidad de un valor concreto, como k = 21,458 cm es cero: f(21,458) = P(X=21,458) =
0,
Para este tipo de variables no es posible determinar la probabilidad -función de probabilidad, f(k)- de un valor concreto, k, de la variable
continua tal y como se hace con las variables aleatorias discretas. Lo que sí podemos calcular es la probabilidad acumulada hasta un
cierto valor mediantes su función de distribución,
F(k) = P(X<= k).
También podremos estudiaar la variación de la probabilidad acumulada en cada punto de la variable aleatoria y a estos cambios se
denominan densidad de probabilidad.
Las distribuciones normales, t de Student, chi-cuadrado y F de Snedecor, son ejemplos de funciones de densidad de variables aleatorias
continuas. La zona sombreada corresponde a F(0,52) = P(X<=0,52) cuyo valor se busca en las tablas de la distribución normal tipificada
o estándar.
Función de distribución
La función de distribución una variable aleatoria discrete, X, y escribiremos F(x) a la función que asocia a cada valor de la variable
aleatoria la probabilidad acumulada hasta ese valor, y se escribe:
F(k)=P(X≤k)
Un ejemplo de función de distribución discreta es la distribución binomial, que describe el número de aciertos en una serie de N
experimentos independientes de una variable dicotómica cuyos resultados posibles son "si" o "no"; "acierto" o "fallo", "hombre" o
"mujer" todos ellos con probabilidad de "acierto" p y probabilidad de "fallo" q = 1 − p, que se mantienen constantes en los N ensayos.
Su función de distribución es:
F(k)=P(X≤k)=∑kk=0(Nk) pk qN−k
Función de probabilidad
La función de probabilidad (o distribución de probabilidad) de una variable aleatoria discreta, X, es la función que asigna a cada suceso
o resultado posible que puede tomar la variable aleatoria la probabilidad de que dicho resultado se produzca.
Un ejemplo de función de probabilidad discreta es la distribución binomial, que describe el número de aciertos en una serie de N
experimentos independientes de una variable dicotómica cuyos resultados posibles son "si" o "no"; "acierto" o "fallo", "hombre" o
"mujer" todos ellos con probabilidad de "acierto" p y probabilidad de "fallo" q = 1 − p, que se mantienen constantes en los N ensayos.
Su función de probabilidad es:
f(k)=P(X=k)=(Nk) pk qN−4
Por tanto, a función de probabilidad, f(k), de la variable aleatoria, X, es la función que asigna a cada valor k de la variable X su
correspondiente probabilidad. Un ejemplo de representación gráfica de la función de probabilidad binomial es:

A medida que N aumenta y p no toma valores extremos, la forma de la distribución de probabilidad binomial se hace mas simétrica y
acampanada aproximándose a la distribución normal:
Grados de libertad
Los grados de libertad hacen referencia al número de datos de información independientes disponibles después de realizar un cálculo
numérico. Por ejemplo, si conocemos la media de n valores, podemos asignar valores a n-1 y el último quedará determinado
automáticamente para cumplir la condición de que la media sea el valor fijado. En este caso, el cálculo de la media se realiza con n-
1 grados de libertad.
Grupo de control y grupo experimental
Dichos grupos son elementos fundamentales en el diseño de experimentos constituyendo por tanto una pieza fundamental en el método
científico y en la experimentación
En efecto, en un experimento controlado, se realizan dos acciones idénticas. En uno de ellos — grupo experimental — el tratamiento o
factor testado es aplicado. En otro — grupo de control — el factor testado no es aplicado.
Por ejemplo, al testar un medicamento, es importante verificar cuidadosamente que los supuestos efectos de la droga se producen
solamente como consecuencia de la misma. Los investigadores controlan dicho efecto a través de un ensayo clínico, generalmente
compuesto por dos grupos idénticos de pacientes que serán comparados: uno de ellos (el grupo experimental) recibe una droga y el
otro (el grupo de control) recibe un placebo.
Ver Experimento
Hipótesis estadística
Las hipótesis estadísticas (hipótesis nula e hipótesis alternativa) se plantean para dar forma a la hipótesis científica y es una afirmación
referida a la población (o poblaciones) que puede someterse a contrastación empírica a partir de la información recogida en una o varias
muestras -según el tipo de diseño- representativas.
Hipótesis nula y alternativa
Se denomina hipótesis nula, Ho, a una afirmación sobre una o más características de la población que se supone provisionalmente
cierta. Sería la hipótesis equivalente a la "presunción de inocencia" que ampara a todo ciudadano de un estado de derecho y es la
hipótesis que se somete a contrastación empírica que implica iniciar una investigación para encontrar evidencias (los datos de la
investigación) que nos permitan rechazarla. Consiste, por tanto, en una afirmación sobre el valor concreto que toma un parámetro
(media, varianza, correlación, pendiente de la ecuación de regresión, etx) o de una diferencia entre dos, o más, parámetros
poblacionales, o sobre la forma de la distribución de probabilidad que una determinada variable adoptará en la población. Por este
motivo, la Ho siempre incluye SIEMPRE el signo =, que en un contraste unilateral iría acompañado de la correspondiente
desigualdad ≥o≤.
El nombre de "nula" indica que no existen diferencias "significativas" (ver diferencia significativa) entre el valor empírico obtendio a
partir de los datos de la muestra, y el valor teórico, que formulamos para la población. Con otras palabras: la hipótesis nula es la que
plantea una relación nula entre variables, el efecto nulo de una variable sobre otra, la diferencia nula entre grupos, etc.

La hipótesis alternativa, representada por H1, es la afirmación complementaria a la Ho y, por lo general, coincide con la hipótesis del
investigador cuyo objetivo es encontrar "diferencias significativas" (Ver diferencia significativa). En consecuencia, las hipótesis, nula y
alternativa, son exhaustivas y mutuamente excluyentes, es decir, que si a partir de la evidencia de los datos de la investigación, se
concluye rechazando la Ho, es porque existe un motivo, causa o explicación a la diferencia o relación encontrada y por eso se dice que
los resultados encontrados son "significativos".
Si los datos de la investigación aportan evidencias contra la Ho entonces se rechaza. Si los datos de la investigación no contradicen
decididamente a Ho, se continúa asumiendo como provisionalmente verdadera. La hipótesis Ho, nunca se acepta porque nunca se
considera probada. Simplemente se rechaza, o no, a la luz de la evidencia que proporcionan los datos de la muestra utilizada en la
investigación. Por tanto, en todo contraste de hipótesis solo hay dos conclusiones posibles: rechazar la Ho o no rechazar Ho con sus
respectivos errores.
Ver:
• Diferencia significativa.
• Potencia del contraste.
• Contraste de hipótesis.
Homocedasticidad
Este concepto significa “igualdad de varianzas” y es un supuesto que ha de cumplirse tanto para la regresión como para el Análisis de
Varianza (ANOVA) y hace referencia a la igualdad de varianzas de la variable dependiente para cada uno de los valores de la variable
independiente.
En la comparacion de grupos, la homocedasticidad implica que los grupos o muestras cuyas medias estamos comparando proceden de
poblaciones cuyas varianzas no difieren significativamente en lo que respecta a la variable independiente que forma parte del análisis.
En la regresión, la homocedasticidad se refiere a la igualdad de varianzas de las distribución de los valores de la variable Y para cada
uno de los valores de la variable X.
Existen diversos contrastes para evaluar la existencia de homocedasticidad, como son el Test de Cochran (para modelos equilibrados)
y el test de Barlett (que no parte del supuesto de modelos equilibrados). En dichos contrastes la Hipótesis nula es precisamente la de
homocedasticidad o igualdad de varianzas entre los distintos grupos, mientras que la Hipótesis alternativa propone la no igualdad de
las varianzas de los grupos, lo que en terminología estadística se denomina heterocedasticidad.
Indices de variabilidad o dispersión
Los índices de variabilidad o dispersión describen el grado de dispersión o hetereogeneidad que tienen un conjunto de puntuaciones.
Por ejemplo, en una muestra de sujetos nacidos en 1975, la edad medida en años es la misma para todos por lo que no existiría ninguna
variabilidad. Otras variables, como por ejemplo la altura, será distinta de unos a otros y presentaría cierto grado de variabilidad,
hetereogeneidad o dispersión (son términos similares),
Para describir la variabilidad de los datos de una variable cuantitativa, se utiliza
La amplitud total: diferencia entre la puntuación mayor y menor.
La varianza: que es la media de los cuadrados de las diferencias entre cada puntuación directa, X, respecto a su media. De otra forma,
es la sumas de cuadrados de todas las puntuaciones respecto a su media dividida entre N.
La desviación típica: La raiz cuadrada de la varianza.
La cuasi-varianza: Similar a la varianza pero dividiendo las sumas de cuadrados del numerador entre N-1, en lugar de N.
La cuasi-desviación típica: La raíz cuadrada de la cuasi-varianza.
La amplitud intercuartil: Es la diferencia entre el tercer cuartil (o percentil 75) y el primer cuartil (o percentil 25)
Ver estimación, estimador , varianza.
Inferencia estadística
Es la rama de la estadística que permite realizar afirmaciones sobre una población a partir de los datos obtenidos en alguna de las
muestras que se pueden obtener de la misma. De este modo, la inferencia estadística permite ir de lo concreto (la muestra) a lo general
(la población).
La inferencia estadística se basa en la estimación de parámetros y en el contraste de hipótesis.
Insesgado
Un estimador es insesgado cuando el valor esperado (la media) de ese estimador coincide con el parámetro a estimar. El sesgo es la
diferencia entre el valor esperado del estimador y el valor real del parámetro. Si esta diferencia es cero, se dice que el estimador es
insesgado.
De esta forma, la media es un estimador insesgado de la media poblacional porque:

Sin embargo, y por la misma razón, se demostraría que la varianza de la muestra es un estimador sesgado de la varianza poblacional.
El estimador insesgado de la varianza poblacional es la cuasi-varianza de la muestra.
Interacción
Ver Efecto de interacción
Intervalo de confianza
Los intervalos de confianza se utilizan para fijar los valores que puede tomar el parámetro poblacional que se quiere estimar. Se trata
de determinar dos valores entre los cuáles se encontrará el parámetro poblacional, con un determinado nivel de confianza.
Para el caso de la media y otros parámetros poblacionales, cuya distribucion muestral es normal o la T de Student, los intervalos se
construyen partiendo del valor del estimador puntual, que se utilizará como centro del intervalo, al que se le suma y resta el producto
de: el margen de confianza con el que deseamos trabajar por el error típico, obteniéndose, de esta manera, el límite superior e inferior
del intervalo de confianza.
En el caso de la media y proporción, la amplitud de un intervalo de confianza depende pues de estos dos factores:
• el nivel de confianza y
• el error típico de la distribución muestral del estadístico
Ver valor crítico, nivel crítico p, error típico, nivel de confianza, distribucion muestral,
La función de probabilidad
La función de probabilidad (o distribución de probabilidad) de una variable aleatoria discreta, X, es la función que asigna a cada suceso
o resultado posible que puede tomar la variable aleatoria la probabilidad de que dicho resultado se produzca. Se representa por f(x)

Es decir, la función de probabilidad f(k) de la variable aleatoria, X, es la función que asigna al valor k de la variable X su correspondiente
probabilidad.
Un ejemplo de distribución de probabilidad de una variable aleatoria discreta es la distribución binomial, cuya función de probabilidad
es:
McNemar (Estadístico de o prueba de McNemar)
La prueba de McNemar se utiliza en los diseños de dos muestras relacionadas para comprobar si un determinado "tratamiento" o variable
independiente produce algún cambio en la proporción de sujetos sometidos al mismo. Es muy habitual utilizarlo en las pruebas "antes-
después", o diseños intra-sujetos, cuando los que los sujetos actúan como su propio control.
Las hipótesis nula y alternativa se pueden formular señalando el sentido de la diferencia (contraste unilateral) o no (contraste bilateral),
sin embargo (y a diferencia de la prueba Z para esta misma hipótesis y diseño) el valor numérico resultante del estadístico chi-cuadrado,
siempre es positivo variando de 0 a infinito.
Z=b−cb+c√
El resultado de Z será cero cuando b = c, indicando que no existen diferencias, por lo que no se puede rechazar la Ho. Y a medida que
las frecuencias del numerador ( los valores de b y c) se van diferenciando, aumenta el resultado del estadístico de chi-cuadrado y, con
ello, la probabilidad de rechazar la Ho.

Por tanto, el resultado de chi-cuadrado únicamente nos indica si se ha producido o no un cambio pero no el sentido de la diferencia que
únicamente se puede valorar observano cómo se reparten las frecuencias en la tabla 2x2 de doble entrada.

Medida de discrepancia
Ver Estadístico de contraste

Modelo equilibrado (ANOVA)


Es aquel modelo en el que todos los grupos o muestras (definidos por cada uno de los niveles del factor) están compuestos por el mismo
número de sujetos.
Modelo no equilibrado (ANOVA)
Es aquel modelo en el que todos los grupos o muestras (definidos por cada uno de los niveles del factor) no están compuestos por el
mismo número de sujetos
Muestra
Es un subconjunto de n casos o individuos de una población de tamaño N que se obtiene con la intención de inferir algún parámetro de
la población.
Para cumplir esta función, la selección de sujetos de la muestra debe realizarse de acuerdo a unos procedimientos de muestreo que
garanticen que la muestra es representativa de la población de origen. La muestra representativa nos proporciona una información
similar a la que se obtendría en un estudio exhaustivo más amplio, pero con mayor rapidez y menor coste.
El número de sujetos que componen la muestra suele ser inferior que el de la población, pero suficiente para que la estimación de los
parámetros determinados lleve asociados Errores máximos de estimación no muy elevados. Para que el tamaño de la muestra sea
idóneo es preciso recurrir a su cálculo.
Muestras independientes vs dependientes
Las muestras pueden ser dependientes o independientes por la forma de seleccionarlas. Las muestras independientes son aquellas
en la que los individuos de una población no están relacionados con los de la otra población. Por ejemplo, cuando queremos probar la
eficacia de un determinado tratamiento para el control del colesterol y seleccionamos dos grupos, uno el experimental -que recibirá el
tratamiento- y el grupo control que no lo recibirá. Sin embargo, pudiera ocurrir que la influencia del tratatamiento sobre el colesterol,
se viera afectada por la influencia de otras variables no controladas, como el peso, la edad, la actividad fisica, etc.
Para ello, y como técnica de control de estas variables extrañas, podemos recurrir a sujetos distintos pero igualados en una tercera
variable, por ejemplo el peso, cuya influencia queremos controlar. En este caso, la eficacia de un determinado medicamento para
bajar el colesterol, se realizaría utilizando "n" pares de sujetos con igual peso, de forma que cada elemento del par se asignarán, uno
al grupo experimental y otro al grupo control. De esta forma aislamos la influencia del peso en los resultados. Si además del peso se
quiere controlar tambien la edad, deberemos formar pares de sujetos igualados por la misma edad y peso. Posterirmente, asignar de
forma aleatoria cada sujeto del par a cada una de las condiciones, experimental y control. En consecuencia, cuando las muestras se
seleccionan de manera que cada observación en una de ellas pueda asociarse naturalmente con una observación en la otra muestra, se
llaman muestras dependientes o relacionadas.
A medida que aumenta el número de variables extrañas que se desean controlar se hace más dificil la formación de pares, por lo que
las muestras relacionadas también se pueden generar utilizando una misma muestra de sujetos nos proporciona información en
dos (o más) momentos distintos. Por ejemplo, para analizar la eficacia de un determinado tratamiento para bajar el nivel de colesterol,
se toman medidas de la variable dependiente (el colesterol) antes del tratamiento y después del tratamiento. Cada par de observaciones
"antes" "después" proviene del mismo sujeto que es igual a sí mismo en todas esas otras variables extrañas que pueden influir en los
resultados: edad, peso, actividad fisica, etc., en los dos momentos "antes-después", de forma tal que cualquier diferencia en el nivel
de colesterol (la variabel dependiente) se debe al efecto del tratamiento (la variable independiente).
Estos son los estudios conocidos como "antes" vs "después" o "pre" vs "post", es decir en aquellas situaciones en las que se toman
observaciones de los mismos sujetos en momentos distintos.
Una de las consecuencias de utilizar muestras relacionadas es que las dos (o más) muestras tienen el mismo tamaño.
Ver diseños inter e intra-sujetos.
Muestreo
El muestreo es el procedimiento de seleccionar una muestra a partir de la población. La muestra debe ser representativa de la población,
recogiendo las características fundamentales que describen a la población, sus las similitudes y diferencias, es decir recogiendo sus
características fundamentales.
Existen dos procedimientos para la selección de muestras de poblaciones: el muestreo aleatorio y el muestreo no aleatorio.
En el muestreo aleatoria se incorpora el azar como proceso de selección y por tanto, todos los elementos de la población tienen alguna
oportunidad de ser seleccionados para formar parte de l muestra. Si la probabilidad correspondiente a cada sujeto de la población es
conocida de antemano, recibe el nombre de muestreo probabilístico, en caso contrario sería un muestreo no probabilístico.
Nivel de confianza
El nivel de confianza es una probabilidad referida a la aseveración de la inferencia o estimación realizada a partir del estadísticos
obtenido en una muestra. Su probabilidad asociada es 1-a.
• En la estimación por intervalos representa la probabilidad de que un parámetro se halle dentro del intervalo establecido.
• En el contraste de Hipótesis el nivel de confianza (1-a) representa la probabilidad para no rechazar la H0 siendo cierta.
El nivel de confianza a establecer es una decisión que ha de tomar el investigador (y, consiguientemente, lo mismo ocurre con su
complementario: a, el nivel de significación).
El nivel de confianza va ligada a la Región de no rechazo, que es aquella zona de la distribución muestral constituida por el conjunto de
muestras para las cuales se acepta H0.
Nivel de significación
El nivel de significación se representa con la letra griega α (alpha) y está asociado al contraste de una hipótesis estadística, siendo
su valor complementario al nivel de confianza (1- α),
Se define como la probabilidad (α) de tomar la decisión de rechazar la hipótesis nula cuando ésta es verdadera (error de tipo I). El
establecimiento de un nivel de significación (y consecuentemente, también el nivel de confianza) es una decisión que debe tomar el
investigador, no obstante, son valores comúnmente utilizados: 0,05 y 0,01.
El nivel de significación define la zona de rechazo, aquella zona de la distribución muestral constituida por el conjunto de muestras para
las cuales se rechaza la H0 al considerarse que la probabilidad de obtener tales muestras, siendo H0 cierta, es demasiado baja. De este
modo, en la medida que el nivel crítico p sea menor al nivel de significación (encontrándose, por tanto dicho valor en la zona de rechazo)
se aceptará la H1, rechazándose H0, indicando que este resultado es 'estadísticamente significativo' queriendo decir con ello que no es
probable que sea debido al azar.
Una "diferencia estadísticamente significativa" solamente indica que hay evidencias estadísticas de que la diferencia entre los datos
empíricos y la formulación teórica encontrada no puede atribuirse a la influencia del azar o la casualidad. Que la diferencia sea
estadísticamente significativa no es sinónimo de que esta diferencia sea grande, importante, en el sentido literal del término.
Nivel p-crítico
Partimos del hecho de que toda regla de decisión en las que se basa la toma de decisión respecto a rechazar o no lo hipóteis nula
conllevan un riesgo y este riesgo de establece a priori en lo que se denomina el nivel de significacion que se representa por "alfa". El
nivel crítico p corresponde también a una probabilidad que se calcula a partir del estadístico de contraste y es el valor de "alfa" mas
pequeño para rechazar la hipótesis nula a partir de la evidencia de los datos de nuestro estudio.
De otra forma, si suponemos que la hipótesis nula es cierta, el nivel crítico p nos indica la probabilidad de haber obtenido unos
determinados resultados en nuestra investigación a partir de los datos una muestra representativa de la población. Esta probabilidad
se determina recurriendo a la distribución muestral del estadístico e indica a la probabilidad de obtener ese valor del estadístico de
contraste, u otro más alejado de la Ho, bajo la condición de que Ho fuera cierta. Entonces, si esta probabilidad p, de que se presente una
determinado resultado, es pequeña, usted tendría dos formas de actuar: o bien ha ocurrido un "milagro" de producirse un resultado tan
extraordinaro, dado que la Ho es verdadera, o bien este resultado obtenido no es compatible con la Ho, porque es falsa y decido
rechazarla.
Por tanto, cuanto menor sea el valor de p mayor es el grado de incompatibilidad de los resultados de la muestra con lo formulado en
de la Ho, lo que conlleva a rechazarla. De esta forma, para tomar una decisión de rechazar o no la hipótesis nula, se compara este valor
crítico p con el nivel de significación "alfa" y si es menor tendremos que rechazar la hipótesis nula porque el resultado obtenido es muy
improbable. Esto implica que cuanto más pequeño sea el nivel crítico p más fuerte será la evidencia de que un determinado resultado
estadístico obtenido en nuestra investigación es signifivativo, es decir, no se ha producido por simple coincidencia, o por azar.
En algunas publicaciones y paquetes estadísticos también recibe el nombre de p-valor o valor-p.
Por ejemplo, para un estadístico Z=3,39 obtenido en un contraste unilateral derecho, el nivel crítico p es 0,0003.

Esto indica que, suponiendo cierta la Ho, la probabilidad de obtener unos resultados en la muestra tan alejados o más del valor formulado
en la Ho, es de 0,0003. Como este valor es menor que los niveles de significación utilizados habitualmente (0,05 o 0,01) rechazamos
la Ho.
Y para un estadístico Z=2,5 en un contraste bilateral, el nivel crítico p es la suma de las probabilidades de las dos colas: P(Z>= 2,5)
+P(Z<= -2,5) = 0,0124
Niveles de un factor
En la terminología de los ANOVA's, cada una de las categorías del factor o variable independiente
(Ver Factor y Análisis de varianza)
Ortogonal (factor, vector, elemento…)
El concepto ortogonal procede del álgebra de matrices, de este modo se dice que dos vectores son ortogonales si su producto escalar
es cero.
Con el fin de facilitar la comprensión de dicho concepto al alumno en la presente asignatura se señala que el concepto ortogonal equivale
a independiente. De este modo, si decimos que los efectos principales de dos factores en un diseño factorial son ortogonales, en realidad
estamos queriendo decir que son independientes.
Parámetro
Es un valor numérico que describe una característica de la población (como su tendencia central, su variablidad, su forma, etc). Por
tanto, la media cuando se refiere a los datos de una población es un parámetro de tendencia central. La varianza, la proporción, la
correlación, la pendiente de una recta de regresión, etc, son parámetros si están referidos a los datos de una muestra.
Se representan con letras del alfabeto griego y son valores desconocidos que se estiman a partir de sus estimadores: los estadísticos
de la muestra. (Ver estadístico)
μ: Media poblacional.
π: Proporción poblacional
σ2: Varianza poblacional.
ρXY: Correlación poblacional.
Y=β0+β1 X Ecuación de regresín poblacional,
etc.
Población
Se denomina Población o Universo al conjunto de todos los elementos que estamos estudiando, acerca de los cuales pretendemos sacar
conclusiones.
Con frecuencia el número de elementos o sujetos que compone una población es tan elevado que sería difícil estudiarla en su totalidad
Por esta razón se decide tomar un subconjunto de n elementos representativo de dicha población y que denominamos muestra.
La rama de la estadística que permite realizar afirmaciones sobre una población a partir de los datos obtenidos en alguna de las muestras
que se pueden obtener de la misma se denominará inferencia estadística.
Potencia del contraste
Es la decisión correcta de rechazar una hipótesis nula cuando es falsa. Su probabilidad se representa por "uno menos beta": 1- β. y
depende del "nivel de significación", del tamaño de la muestra y del tamaño del efecto.

Su valor complementario es el Error Tipo II: β.


La potencia es una probabilidad condicionada a una situación. Es la probabilidad condicionada de detectar un efecto (un suceso) cuando
existe una condición.
En el ámbito judicial la potencia es la probabilidad de declarar culpable al encausado cuando bajo la condición de que el acusado es
efectivamente culpable. Sin embargo, la condición es algo desconocido para el juez que tomará su decisión en función a los datos o
evidencias respecto a la hipótesis nula que es la presunción de inocencia. Así, las cuatro decisiones (dos correctas y dos incorrectas o
errores) son:
Nivel de confianza: Es una decisión correcta de NO rechazar la Ho cuando es verdadera (declarar No culpable al acusado cuando es
realmente inocente). Tiene una probabilidad de 1-α que recibe el nombre de nivel de confianza.
Error tipo I: Es el error que se comete cuando se rechaza la Ho siendo verdadera (declarar culpable al acusado cuando es realmente
inocente). Se representa por α y corresponde a una probabilidad que se fija de antemano por el investigador y recibe el nombre de nivel
de significación.
Potencia: Es una decisión correcta que corresponde a la probabilidad de rechazar una Ho cuando realmente es falsa (declarar culpable
al acusado cuando es realmente culpable). Se representa por 1-β.
Error tipo II: Es la decisión incorrecta que se produce cuando no se rechaza una Ho que es falsa (declarar No culpable al acusado
cuando es realmente culpable. La probabilidad de cometer este error se representa por β y es la complementaria a la potencia del
contraste.
Prueba de McNemar
Ver McNemar
Prueba omnibus (Diseño factorial)
Ver Diseño factorial
Pruebas a priori o planificadas
Ver comparaciones múltiples
Pruebas paramétricas y no paramétricas
Estas pruebas se basan en el cumplimiento de una serie de requisitos que hacen que la pruba sea más potente, proporcionando más
seguridad al tomar la decisión de rechazar, o no, la hipótesis nula planteada sobre un parámetro en la población. Dentro de esta
categoría se encuentran los procedimientos, tanto los intervalos de confianza como el cálculo de los estadísticos de contraste utilizados
para contrastar hipótesis sobre los parámetros poblacionales. Y también las pruebas t de contraste de hipótesis de una muestra, dos
muestras independientes o relacionadas, los ANOVAS, regresión simple y múltiple,
Las pruebas paramétricas poseen supuestos más rígidos y restrictivos que las no paramétricas. De este modo, tal y como se ha señalado
este tipo de procedimientos requieren que:
• La variable objeto de estudio sea de naturaleza cuantitativa (medida, al menos, con escala de intervalo)
• La variable se distribuya normalmene en la población.
• Las muestras deben ser grandes porque influirá en una mejor estimación
• Las varianzas de los grupos a comparar sean aproximadamente iguales.
A modo de ejemplo, la prueba T de Student de comparación de grupos exige que la variable dependiente sea de naturaleza cuantitativa,
que provienen de poblaciones con distribuciones aproximadamente normales y varianzas homogéneas. Aunque existen técnicas de
análisis de los datos para comprobar el cumplimento de estas condiciones, por lo general es más probable que estas condiciones se
cumplan cuando las muestras son grandes.
Por su parte, las pruebas no paramétricas se utilizan con variables de tipo nominal u ordinal, o bien cuando las escalas sean de tipo
intervalo/razón pero han sido recodificadas en variables de tipo nominal u ordinal y proceden de una población cuya distribución
poblacional no viene especificada asumiendo, a lo sumo, la distribución simétrica de la variable en la población.
Una consecuencia de todo esto es que, en igualdad de condiciones, las pruebas paramétricas son más potentes que las no paramétricas,
es decir, tienen mayor probabilidad de rechazar una hipótesis nula falsa aunque esto no debe suponer que las pruebas no paramétricas
no tengan su área de aplicación bajo determinadas circunstancias y su consecuente utilidad.
Pruebas post hoc, no planificadas o a posteriori
Ver Comparaciones múltiples
Puntuación típica Z
Se representa con la letra Z y representa la distancia que hay desde una puntuación directa a la media, expresada en número de
desviaciones típicas. Por ejemplo, en una distribución con media 8 y desviación típica 2, la puntuación directa 11 tiene como puntuación
típica:
Z=X−XSX=11−82=1,5
Que indica que la distancia desde la puntuación 11 a la media 8 es de 1,5 veces 2 (1,5 x 2=3), es decirr, que la puntuación 11 se
encuentra a 1,5 desviaciones típicas (que vale 2) por encima de la media, ya que el valor es positivo.
Las puntuaciones típicas pueden ser positivas (cuando son mayores que la media) o negativas (cuando son menores que la media) sin
acotar por el lado positivo ni negativo. En este mismo ejemplo, una puntuación Z=-1,5 corresponde a una puntuación que se encuentra
a 1,5 desviaciones típicas por debajo de la media que sería X=5.
Z=5−82=−1,5
Las tablas de la distribución normal tipificada de puntuaciones típicas Z, indican de la proporción de observaciones por debajo de una
puntuación concreta Z, P(Z≤z)

De esta forma, puede comprobarse que, aunque las puntuaciones Z pueden tomar cualquier valor positivo o negativo, la realidad es
que entre las puntuaciones, Z=-3,59 y Z=+3,59 de una distribución normal se encuentran el 99,73% de los datos.

Y de la misma forma, entre Z=-2 y Z=+2 se encuentra el 95,45% de los datos. Y entre Z=-1 y Z=+1
se encuentra el 68,26%
Región de rechazo
La región de rechazo o región crítica viene delimitada por los valores críticos y corresponde al conjunto de valores de la distribución de
probabilidad del estadístico de contraste para los que se rechaza la hipótesis nula.
Por ejemplo, en los diseños de una muestra, cuando se utiliza el estadístico Z en un contraste bilateral para un determinado valor
hipotético formulado para la media poblacional con un nivel de confianza del 95%, la región crítica viene delimitada por los valores que
se encuentran a la izquierda de -1,96 o a la derecha de +1,96 y que, en consecuencia, mantienen entre ellos una probabilidad de 0,95.
Y para un contraste unilateral derecho, la región de rechazo queda delimitada por el valor 1,64 que deja a su izquierda una probabilidad
de 0,95 (el nivel de confianza) y a su derecha una probabilidad de 0,05 (el nivel de significación "alfa"), como se represantaría en la
siguiente gráfica:

Regla de decisión
Asumiendo que la Ho es verdadera, el contraste de hipótesis trata de obtener, a partir de los datos recogidos en la investigación,
evidencias suficientes para rechazarla. La regla de decisión es el criterio para decidir si la Ho debe ser, o no, rechazada a partir de la
evidencia que proporcionan los datos.
Para ello hay que dividir la distribución muestral del estadístico de contraste utilizado (Z, T, F, Chi-cuadrado, son los utilizados en
nuestro temario) en dos zonas, que designaremos como zona de rechazo y zona de no rechazo (también llamada de aceptación). Esta
división se realiza a partir del establecimiento del nivel de confianza (o su complementario, el nivel de significación) y se concreta con
los valores críticos de la distribución de probabilidad correspondiente.
A modo de ejemplo, en un contraste bilateral en los que se apliquen los estadísticos Z o T que corresponden a distribuciones de
probabilidad simétricas, estas zonas vendrían delimitadas por dos valores críticos -iguales pero de signo contrario- representadas por
las siguientes gráficas.
Si el estadístico obtenido se encuentra dentro de la zona de no rechazo delimitado por los valores críticos entonces la Ho se mantiene
porque no hay evidencias suficientes para rechazara.
Si el estadístico obtenido supera estos valores críticos y se situa en la zona de rechazo, entonces la Ho se rechaza.

Robusto (estadístico)
Se dice que un estadístico o un análisis es robusto cuando no se ve especialmente afectado por el incumplimiento de un determinado
supuesto.
Así, por ejemplo, la normalidad de la distribución de las puntuaciones para cada una de las condiciones del factor es un supuesto que,
teóricamente, debería cumplirse en el análisis ANOVA, sin embargo en ocasiones podemos encontrar estudios donde se aplicó el ANOVA
como técnica de análisis sin cumplirse este supuesto. Esto se debe a que el ANOVA es robusto al incumplimiento del supuesto de
normalidad.
Significación estadística
Una diferencia estadísticamente significativa indica que hay evidencias de que la diferencia observada entre lo que indica la teoría
(recogido en la Ho) y la evidencia de los resultado obtenidos en la muestra es real, que tiene una explicación y que esta explicación no
es el azar o a la casualidad. Encontrar diferencias significativas en un contraste de hipótesis conlleva el rechazo de la hipótesis nula.
Cuando decimos que un resultado es significativo, estamos diciendo que si volvieramos a repetir la misma investigación en las mismas
circunstancias, pero con otra muestra distinta (aunque del mismo tipo y tamaño y representativa de la población general), llegariamos
a la misma conclusión, por lo que el resultado obtenido es poco probable que se deba a la "casualidad".
La significación estadística se cuantifica mediante el nivel crítico p que nos informa de la probabilidad de que siendo cierta la Ho,
lleguemos unos resultados como los obtenidos o más extremos. De esta forma, estableciendo como criterior de decisión los niveles de
significación en los valores de 0,05 o 0,01, si el nivel critico p es menor que el nivel de significación, rechazamos la Ho con ese nivel de
significación.
Ver nivel crítico p;
Simetría compuesta
La simetría compuesta integra dos de los supuestos que deben cumplirse en el ANOVA intrasujetos y que, además, son particulares de
este tipo de diseños (AxS):
• Las varianzas de las puntuaciones para los distintos niveles del factor deben ser iguales entre sí (homocedasticidad).
• Las covarianzas entre todos los niveles del factor deben ser iguales entre sí
Si representamos esta información en una matriz (tabla) el cumplimiento de este supuesto se manifestaría con claridad al observarse
dos elementos:
• Por una parte la diagonal principal (diagonal que va desde la esquina superior izquierda hasta la esquina inferior derecha) en la
que se representan las varianzas
• Por otra parte, las covarianzas en los demás elementos de la matriz
Se habla de simetría compuesta porque en el caso de cumplirse los dos supuestos referidos nos encontraríamos con una matriz simétrica,
en relación a la diagonal principal, y compuesta por dos únicos valores: el de la varianza y el de la covarianza.
T distribución
Ver distribución t
Tabla de contingencia
Es un tipo de tabla de doble entrada que se utiliza para registrar los datos de dos variables cualitativas con la finalidad de analizar la
relacion entre ambas variables. La dimensión de la tabla se representa por (FxC), donde F representa el número de categorias de la
variable que situamos en las filas y C el de categorías que situamos en la columna. En las celdas interiores de la tabla se encuentran
las frecuencias conjuntas, en la parte exterior las frecuencias marginales, y en el extremo inferior derecho la frecuencia total o tamaño
de la muestra.
A modo de ejemplo, la siguiente tabla presenta la distribución de frecuencias el nivel de estudios por sexo de una muestra de sujetos.
La variable "nivel de estudios" se ha registrado con los valores: obligatorios, medios y superiores, y la tabla tendría el siguiente aspecto:
Distribución del nivel de estudios por sexo
obligatorios Medios Superiores
Hombres 26 48 96
Mujeres 46 54 20
En esta tabla, los números interiores representan frecuencias de personas, de forma que el 26 corresponde a 26 personas que cumplen
con las siguientes dos condiciones: son hombres y con estudios obligatorios. De la misma forma, el número 54 indica que hay 54
mujeres con estudios medios.
Si sumamos por filas, tenemos, en la primera fila 26+48+96 = 150 hombres, y en la segunda fila 120 mujeres. En total 270 personas.
Si sumamos por columna, en la primera columna tenemos 72 personas con estudios obligatorios, de los que 26 son hombres y 46
mujeres, y de forma similar se procede con el resto de columnas para tener la siguiente:
Distribución del nivel de estudios por sexo

obligatorios Medios Superiores TOTAL

Hombres 26 48 96 150
Mujeres 46 54 20 120
TOTAL 72 102 116 270
Esta es una tabla de 3x2, es decir, de TRES columnas (definidas por el nivel de estudios) por DOS filas (correspondientes al sexo) a la
que se han añadido una nueva fila y columna que recogen las frecuencias marginales.
La celda inferior derecha es el TOTAL de observaciones, y corresponde a la suma de todas las frecuencias de la tabla 3x2 y debe
coincidir, tanto con la suma de las frecuencias de la fila de totales marginales como de la columna de totales marginales.
Con un simple examen visual se observa que los hombres tienen mayor nivel educativo que las mujeres pero, además, existen prubas
estadísticas para cuantificar la intensidad de esta relación, de tal forma que si estos datos provienen de un estudio realizado en unas
determinadas condiciones (por ejemplo, una empresa, una región, una época anterior, etc,) el resultado obtenido permite hacer
comparaciones con la obtenida en otra empresa, región o momento temporal.
Tamaño del efecto
Es un concepto relativamente nuevo en las Ciencias del Comportamiento. Se refiere al grado en que la Ho es falsa, es decir, el grado
en que el fenómeno concreto de estudio está presente en la población. Por tanto, es un procedimiento complementario a la prueba de
significación para establecer si resultados estadísticamente significativos son relevantes en el campo de aplicación de la
investigación.
El tamaño del efecto es un elemento de gran importancia en el análisis de potencia, ya que la potencia de todo contraste depende de
la magnitud del efecto que se quiere detectar de modo que cuando los efectos son grandes, la potencia del contraste incrementa.
Manteniendo constante el nivel de significación y el tamaño de la muestra, cuanto mayor sea el tamaño del efecto mayor es la potencia
estadística.
Ver: d de Cohen.
Teorema Central del Límite
Este teorema de especial importancia en el ámbito de estimación de parámetros y el contraste de hipótesis establece que: si una
población tiene una media µ y una varianza s2 finitas, la distribución de las medias muestrales de tamaño n extraídas de manera
aleatoria e independiente, se aproxima a la forma de una distribución normal con varianza s2/n y media µ conforme el tamaño n se va
incrementando
Universo
Ver Población
Valores críticos
Es el valor o valores dentro de la distribución muestral que se asocian directamente al nivel de significación α ("alfa") y marca la máxima
diferencia que podemos admitir, por simple azar, entre el valor teórico planteado en H0 y el valor obtenido en la muestra compatibles
con la hipótesis nula. Depediendo de cual sea la distribución muestral del estadístico de contraste (normal, t de Student, chi-cuadro o
F de Snedecor) los valores críticos corresponden a puntuaciones Z, t, X2 o F, respetivamente. Por ejemplo, el valor crítico de una
distribución chi-cuadrado con 22 grados de libertad para un contraste unilateral derecho con un nivel de significación 0,02 es 33,92.

Un procedimiento, a la hora de decidir si se rechazar o no la H0, es comparar el estadístico de contraste con el valor crítico de la
distribución muestral, de tal modo que si el estadístico de contraste es mayor (en valor absoluto) que valor crítico se rechazará la
H0 aceptándose H1. (Ver página 66 del texto).
Variable
En su acepción estadística, una variable es una representación numérica de una característica. Cuando efectuamos la medida de
una característica determinada, atribuimos números a los objetos según sea la cualidad o cuantía que presenten de dicha característica.
Esta representación numérica refleja el hecho de que los objetos varían respecto a la característica objeto de estudio, y por tanto
permite diferenciar unos objetos de otros. Las variables pueden ser:
• Cualitativas: cuando los números asignados representan cualidades, como el estado civil, barrio de residencia por el C.P, sexo,
etc.
• Cuasi-cuantitativas: cuando los números asignados representan cualidades que pueden ser ordenadas, como el nivel de
estudios, el nivel sociocultural, etc.
• Cuantitativas: cuando los números asignados representan cantidades. A su vez, estas variables cuantitativas pueden ser:
o Discretas: cuando entre dos números contiguos, no existen valores intermedios, como el número de aciertos en un examen
tipo test. Entre acertar 13 o 14 preguntas no existen valores intermedios
o Continuas: cuando entre dos números, por próximos que estén, siempre existen infinitos valores intermedios, como por
ejemplo el peso. Entre 5,67 y 5,68 gr siempre podemos encontrar valores intermedios 5,674 gr o 5,6739 gr.

Variable aleatoria
Una variable aleatoria es una función que asigna un número, y solo uno, a cada resultado de un experimento aleatorio. El
valor de la variable aleatoria puede cambiar de ensayo a ensayo cuando el experimento se repite sucesivamente. La variable aleatoria
puede ser discreta o continua.
Por ejemplo, el número de aciertos que se cometen al responder al azar a un test de conocimientos formado por N ítems con tres
alternativas de respuesta (de las que solo una es correcta) es una variable aleatoria que puede tomar cualquier valor discreto desde 0
(para el que no acierta ninguna pregunta) hasta N (para el que acierta todas). Toda variable aleatoria tiene asociado su distribución de
probabilidad (si la variable es discreta) o su función de densidad de probabilidad (si la variable aleatoria es continua)
Variable aleatoria de Bernouilli
Es aquella variable aleatoria que se origina en aquellos experimentos en los que sólo se pueden dar dos valores: hombre-mujer; cara-
cruz; salud-enfermedad; acierto-fallo, etc. El espacio muestral es binario y los valores numéricos asignados a cada suceso del espacio
muestral suelen ser 1 y 0.
Variable aleatoria discreta
Cuando la variable aleatoria, X, es un conjunto de valores numéricos definidos sobre un conjunto finito o infinito, pero en cualquier caso
numerable (susceptibles de ser contados) de casos posibles, decimos que la variable aleatoria es discreta. En este caso entre dos valores
consecutivos no existen valores intermedios, porque la variable aleatoria X toma valores únicamente en los puntos x1, x2,..., xn. con
probabilidades respectivas pi siendo nula la probabilidad de que tome cualquier otro valor. Los siguientes casos número de asignaturas
matriculadas por los alumnos de 1º de Psicología, la edad - contada en años- de estos alumnos, el número de ítems contestados
correctamente en un test, son ejemplos de variables discretas y los son también la mayoría de las situaciones que requieren un conteo.
Variable categórica
Llamada también variable cualitativa es aquella que se mide con escala nominal de tal forma que los valores que presenta corresponden
a categorías discretas. Estas categorías no pueden ser ordenadas y representan grupos diferentes, como, el tipo de religión, el sexo,
etc.
Variable chi-cuadrado
Es una variable continua definida como la suma de los cuadrados de una serie de variables con distribución normal estándar y cuya
distribución de probabilidad es la distribución chi-cuadrado. Concretamente
X2n=Z21+Z22+Z23+...Z2n
Ver distribución chi-cuadrado; variables
Variable criterio (Análisis de regresión)
En el contexto del Análisis de regresión se denomina variable criterio a la variable dependiente.
De este modo, el Análisis de regresión se aplica cuando una variable cuantitativa (la variable dependiente o criterio), es estudiada como
una función de una variable o de una combinación de varias variables independientes o predictoras.
Variable cualitativa
Véase Variable categórica.
Variable dependiente
Representada como Y se trata de la variable observada, medida y registrada en un experimento y que será objeto de análisis. Dicha
variable no queda bajo el control directo del experimentador. Por su nivel de medida puede ser, cuantitativa (medida con escala de
intervalo o de razón), cuasi-cuantitativa (mediad con escala ordinal) o nominal (medida con escala cualitativa). Esta última a su vez
puede ser dicotómica si solo puede tomar dos valores (hombre-mujer; verdadero-falso, si-no, etc) politómica, cuando puede tomar tres
o mas valores (la nacionalidad, el código postal, etc)
Variable dicotómica
Es un tipo especial de variable cualitativa, que sólo puede adoptar dos valores. Por ejemplo, la variable sexo o la variable "resultado
que se obtiene al lanzar una moneda". Toda variable continua es susceptible de ser "dicotomizada", por ejemplo, la variable "altura"
siendo una variable continua puede presentarse "dicotomizada" en altos y bajos.
Variable discreta
Una variable discreta es aquellas que toma unos valores concretos que pueden ser contados como 0, 1, 2, 3, 4, ...Si una variable puede
tomar solo un número finito de valores, decimos que es discreta. Como ejemplo de variable discreta está el número de respuestas
correctas contestadas en un test, el número de hijos de una familia y por lo general todas aquellas variables que requieren un conteo.
Variable F
Variable continua que se define como el cociente entre dos variables chi-cuadrado dividida cada una de ellas por sus respectivos grados
de libertad. Puede tomar cualquier valor positivo y tiene una función de densidad de probabilidad conocida como distribución F
Variable independiente
Representada por X, es la variable controlada o manipulada por el experimentador con el fin de analizar su efecto sobre la variable
dependiente u observada (Y).
Las variables presentes en una investigación se pueden clasificar de acuerdo a diferentes criterios. Desde un punto de vista metodológico
de pueden clasificar en dos grandes grupos
• Variables explicativas, son aquellas que están presentes en la formulación de la hipótesis, bien como variable independiente,
o causa, o bien como variable dependiente, o efecto, respuesta, criterio. Desde el punto de vista de la investigación y por la
capacidad de manipulación que el investigador tiene sobre ella, la variable independiente puede ser:
o Variables Activas: cuando puede ser manipulada directamente por el investigador, como la dosis de una determinada
droga o fármaco.
o Variables Asignadas: cuando no se puede manipular modificando sus valores conforme a nuestro interés porque están
ligadas a características personales o de la propia naturaleza del sujeto, como la nacionalidad, edad, género, etc. En este
caso, lo más que se puede hacer es seleccionar los valores de interés, por ejemplo distintas patologías.
• Variables extrañas. son aquellas otras variables, controladas o no por el investigador, pero que pueden afectar en los resutltados
obtenidos en la variable dependiente o respuesta.
Variable nominal
Es lo mismo que una variable categórica. Los valores o números que presenta una variable nominal corresponden a "nombres" o
etiquetas. Por ejemplo, la profesión es un tipo de variable nominal o categórica. Si una variable nominal sólo presenta dos categorías,
recibe el nombre de variable dicotómica.
Variable ordinal
Es un tipo de variable medida con escala ordinal y cuyos valores solo pueden ser ordenados no pudiendo establecerse distancias entre
valores. Por ejemplo, los números asignados a los candidatos que se presentan a una oposición en función de la puntuación obtenida
en la prueba forman una variable ordinal.
Variable predictora (Análisis de regresión)
En el contexto del Análisis de regresión se denomina variable predictora a la variable independiente.
De este modo, el Análisis de regresión se aplica cuando una variable cuantitativa (la variable dependiente o criterio), es estudiada como
una función de una variable o de una combinación de varias variables independientes o predictoras.
Variable t
Es una variable continua definida como el cociente entre una variable normal tipificada , z, y la raiz cuadrada de una variable chi-
cuadrado, dividida por sus grados de libertad. La variable t, así definida, puede tomar cualquier valor, positivo o negativo y tiene una
función de densidad de probabilidad conocida que recibe el nombre de distribución t de Student en honor de su descubridor, el
matemático Gosset que publicó sus trabajos con el seudónimo de Student
Variables aleatorias independientes
Dos variables aleatorias X e Y son independientes si los valores de X no influyen sobre los valores de Y, y viceversa, si los valores de Y
no influyen sobre los valores de X. Con otras palabras, dos variables X e Y son independientes si los valores de X no afectan a la
distribución de probabilidad de Y. Entonces se cumple que en la distribución de probabilidad conjunta f(xy)=f(x).g(y)
Varianza

La varianza, representada como es un índice de dispersión que permite determinar la dispersión o variablidad de los datos de variable
objeto de estudio. Matemáticamente se define como la media de los cuadrados de las distancias de cada puntuación a la media. Su
fórmula recoge la expresión anterior.

La varianza puede ser un estadístico, cuando se refiere a la variablidad de los datos de una muestra, o un parámetro, cuando se refiere

a la variabilidad de los datos de la población en cuyo caso se representa con la letra griega sigma minúscula :

Varianza insesgada
Véase Cuasi-varianza
Varianza intergrupos (ANOVA)
En el ANOVA o análisis de varianza se trata de la varianza atribuible al efecto de los distintos niveles de la variable independiente (o
factor) sobre la variable dependiente u objeto de estudio y cuantifica la dispersión de las medias de las muestras respecto a la media
total.
Es igual a la suma de cuadrados intergrupos dividida por su grados de liberta y su fórmula es:

que recuerda a la fórmula de una varianza. Cuanto mayor sea esta varianza, mayor será el efecto de la variable independiente o factor.
Varianza intragrupos (ANOVA)
En el ANOVA o análisis de varianza, la varianza intragrupos se refiere a la variabilidad existente entre las puntuaciones dentro de cada grupo. Se
denomina también varianza del error ya que se debe a la variabilidad producida por toda una serie de factores no controlados en el experimento.
Esta varianza es igual a la suma de cuadrados intragrupos dividida por sus grados de lilbertad.

Uno de los supuestos del ANOVA es el de homocedasticidad, que supone que las muestras provienen de poblaciones con la misma
varianza. (Ver homocedasticidad)

También podría gustarte