Error Tipico de La Media
Error Tipico de La Media
Error Tipico de La Media
ndice
1. Introduccin: estadstica descriptiva y estadstica inferencial: estadsticos y parmetros, poblaciones y muestras ............................................................ 2. Las distribuciones muestrales y el error tpico.................................................................... 3. El error tpico de la media................................................................................................... 4. Utilidad del error tpico de la media................................................................................... 4.1. Establecer entre qu limites (intervalos de confianza) se encuentra la media () de la poblacin (establecer parmetros poblacionales).............................................. 4.2. Establecer los intervalos de confianza de una proporcin ..........................................
3 3 5 6 6 8
4.3. Comparar la media de una muestra con la media de una poblacin............................ 10 4.4. Calcular el tamao N de la muestra para extrapolar los resultados a la poblacin ..... 12 5. Referencias bibliogrficas ................................................................................................... 13 Anexo: Los intervalos de confianza de la media y de las proporciones en Internet ............... 14
3 1. Introduccin: estadstica descriptiva y estadstica inferencial: estadsticos y parmetros, poblaciones y muestras Recordamos algunos conceptos bsicos: Una poblacin es un conjunto de elementos (sujetos, objetos) cuyos lmites los define el investigador; por ejemplo los alumnos de una universidad, o los de una sola facultad o los de todo el pas Una muestra es un nmero concreto de elementos extrados de una poblacin. Una muestra aleatoria es aquella en la que todos los sujetos (u objetos) han tenido la misma probabilidad de ser escogidos; las muestras aleatorias son las que mejor representan las caractersticas de la poblacin1. La estadstica descriptiva tiene por objeto describir las muestras: por ejemplo, la media aritmtica (una medida de tendencia central) y la desviacin tpica (una medida de dispersin) son estadsticos o medidas propias de la estadstica descriptiva: nos describen cmo es una muestra. La estadstica inferencial nos permite hacer inferencias, sacar conclusiones con respecto a una poblacin: a partir de los datos descriptivos de una muestra, deducimos los datos o medidas de la poblacin, que en este caso se denominan parmetros. Normalmente el investigador trabaja con muestras, grupos concretos a los cuales tiene acceso o que ha buscado y que puede medir en alguna caracterstica. Las poblaciones son en general inasequibles; se trabaja con pequeas muestras y se generalizan las conclusiones a las poblaciones a las que pertenecen las muestras. Lo que vamos a ver ahora tiene que ver sobre todo (no exclusivamente) con la generalizacin a la poblacin de los datos que encontramos en muestras concretas. 2. Las distribuciones muestrales y el error tpico Dos conceptos previos importantes son los de distribucin muestral y error tpico. En definitiva nos vamos a encontrar con una aplicacin de lo que ya sabemos de la distribucin normal y de las puntuaciones tpicas: en la distribucin normal conocemos las probabilidades de obtener una puntuacin superior o inferior a cualquier puntuacin tpica. Ahora se trata bsicamente de una aplicacin de esta relacin. Qu es una distribucin muestral lo podemos ver con facilidad con un caso concreto: 1 Imaginemos una poblacin de sujetos; por ejemplo los alumnos de una universidad. Los lmites de la poblacin (qu sujetos, u objetos, pertenecen a una poblacin) lo determina el que investiga. De la misma manera que ponemos como ejemplo de poblacin a los alumnos de una universidad, podramos decidir que la poblacin que vamos a estudiar son los alumnos de una sola facultad, o los alumnos de todas las universidades del pas. 2 De esta poblacin podemos extraer una muestra aleatoria de, por ejemplo, 30 sujetos. Muestra aleatoria quiere decir que todos los sujetos de la poblacin han tenido en principio la misma oportunidad de ser elegidos. Las muestras aleatorias son en principio las que mejor representan
1 Los diversos tipos de muestreo, aleatorio otros, y cmo llevarlos a cabo, pueden verse en muchos textos (como Hernndez Sampieri, Fernndez Collado y Baptista Lucio, 2000; Salkind, 1998) y en monografas especficas (como Rodrguez Osuna, 1993). Una breve exposicin de los tipos de muestras puede verse en Internet, en STATPAC INC (2003)
4 las caractersticas de la poblacin. Hay varios mtodos para elegir muestras aleatorias pero no los tratamos aqu. 3 De esta muestra podemos calcular la media. Seguimos extrayendo muestras aleatorias y calculando sus medias. 4 Al disponer de un nmero grande de medias tendramos una distribucin de estas medias; esa distribucin es una distribucin muestral: no se trata de una distribucin de puntuaciones individuales sino de medias de muestras. Un punto importante es que aunque las muestras no tengan una distribucin normal, las medias de estas muestras s tienden a seguir la distribucin normal. 5 La desviacin tpica de estas distribuciones muestrales se denomina error tpico y se puede estimar a partir de los datos de una muestra. Por lo tanto un error tpico es la desviacin tpica de una distribucin muestral, y se interpreta como cualquier desviacin tpica. Dos distribuciones muestrales, con sus errores tpicos, nos van a interesar de manera especial: 1) la distribucin muestral de las medias; 2) la distribucin muestral de las diferencias entre medias de la misma poblacin. Estas distribuciones muestrales son modelos tericos que a partir de los datos de una muestra nos van a permitir inferir conclusiones acerca de la poblacin a la que pertenece la muestra. Conociendo el error tpico de estas distribuciones podemos estimar entre qu limites se encuentra la media de la poblacin o si dos muestras proceden de poblaciones distintas con media distinta. Ahora nos centramos en el error tpico de la media. Conviene caer en la cuenta desde el principio de la utilidad del error tpico de la media. Es fcil obtener la media de una muestra en cualquier variable de inters, pero con frecuencia lo que nos interesa no es la media como dato descriptivo de una muestra, sino conocer o tener una idea de por dnde anda la media en la poblacin representada por esta muestra. La media de la poblacin no la vamos a conocer, pero s podremos estimar entre qu valores se encuentra. La media de una muestra podemos interpretarla como una estimacin (solamente una estimacin sujeta a error) de la media de la poblacin. Esta estimacin ser ms precisa: 1 Si la muestra es aleatoria porque en ese caso representa mejor las caractersticas de la poblacin 2 Si la muestra es grande (si la muestra comprendiera a toda la poblacin tendramos el dato exacto, no una estimacin). El error tpico, como es la desviacin tpica de todas las posibles muestras de esa poblacin, nos va a permitir localizar entre qu lmites se encuentra la media de la poblacin. Este planteamiento es semejante al que nos encontramos en los sondeos de opinin, como son las encuestas pre-electorales. Si el 48% de los sujetos entrevistados dice que va a votar a un determinado candidato, esto no quiere decir que el 48% exacto de la poblacin le vaya a votar. Sin embargo los datos obtenidos de una muestra nos van a permitir estimar un tanto por ciento mnimo probable y un tanto por ciento mximo probable de votantes a ese candidato: entre esos dos tantos por ciento se va a encontrar el tanto por ciento definitivo cuando todos hayan votado. De los datos de una muestra extrapolamos a la poblacin, por eso se trata de estadstica inferencial. De manera anloga podemos pensar en distribuciones muestrales de otros estadsticos como proporciones, medianas, coeficientes de correlacin, etc., y tambin en distribuciones muestrales de las diferencias entre proporciones, medianas, coeficientes de correlacin, etc., con aplicaciones semejantes a las que vamos a ver con respecto a la media que son las de utilidad ms inmediata y frecuente.
Estadstica inferencial: el error tpico de la media
5 3. El error tpico de la media Segn el teorema del lmite central, si de cualquier poblacin se extraen muestras aleatorias del mismo tamao N, al aumentar el nmero de muestras sus medias se distribuyen normalmente, con media y una desviacin tpica, o error tpico X = / N Esta distribucin muestral de las medias es independiente de la distribucin de la poblacin: aunque la distribucin en la poblacin no sea normal, las medias de las muestras aleatorias extradas de esa poblacin s tienden a tener una distribucin normal. El error tpico de la media (desviacin tpica de la distribucin muestral de las medias) podemos expresarlo de dos maneras:
X =
[1]
X =
[2]
En la frmula [1] la desviacin tpica del numerador se supone calculada dividiendo por N-1 la suma de cuadrados (o la suma de las puntuaciones diferenciales, X- X , elevadas previamente al cuadrado).
En la frmula [2] la desviacin tpica se ha calculado dividiendo por N, como es normal hacerlo cuando se calcula la desviacin tpica como dato descriptivo de la muestra. Ambas frmulas son equivalentes y dan el mismo resultado; la nica diferencia est en cundo se ha restado 1 a N.
En principio suponemos que la desviacin tpica de la muestra la hemos calculado dividiendo por N, como dato descriptivo de la dispersin en la muestra, por eso al calcular el error tpico de la media utilizaremos la frmula [2]. La desviacin tpica del numerador en ambas frmulas es la calculada en la muestra, pero debera ser la desviacin tpica calculada con todos los sujetos de la poblacin. Como desconocemos la desviacin tpica de la poblacin, utilizamos la de la muestra como una estimacin de la desviacin tpica de la poblacin. Observando la frmula del error tpico de la media podemos ver que: 1 Es claro que el error tpico de la media ser menor que la desviacin tpica de cualquier muestra: el cociente siempre ser menor que el numerador. Esto quiere decir que las medias de las muestras son ms estables y tienden a oscilar menos que las puntuaciones individuales; dicho de otra manera, las medias de muestras de la misma poblacin se parecen entre s ms que los sujetos (u objetos) de una muestra entre s. 2 Observando las frmulas vemos tambin que el error tpico de la media ser ms pequeo en la medida en que N sea grande: si aumentamos el denominador, disminuir el cociente. Es natural que al aumentar el nmero de sujetos (N) el error sea menor: la media de la muestra se aproximar ms a la media de la poblacin. Si N es muy grande, el error tiende a cero; y si N no comprende a una muestra sino a toda la poblacin, el error sera cero: en este caso la media de la poblacin coincide con la media de la muestra y no hay error muestral (o variacin esperable de muestra a muestra). 3 Por otra parte si la desviacin tpica de la muestra es grande, el error tpico estimado de la media ser tambin mayor: si aumentamos el numerador, el cociente ser mayor.
6 Tambin esto es lgico: una desviacin tpica grande en una muestra quiere decir que las diferencias entre los sujetos son mayores, y consecuentemente las medias de las diferentes muestras tambin diferirn ms entre s. 4. Utilidad del error tpico de la media Vamos a exponer dos usos del error tpico de la media. Aqu el ms importante es el primero, establecer los lmites probables (intervalos de confianza) entre los que se encuentra la media de la poblacin, un planteamiento tpico y frecuente en estadstica inferencial. Veremos tambin lo mismo aplicado a una proporcin, que es la media cuando se trata de datos dicotmicos (1 0). En segundo lugar el error tpico de la media nos permite comprobar si una muestra con una determinada media puede considerarse como perteneciente a una poblacin cuya media conocemos, es tambin de inters y es simplemente una aplicacin del anterior. Igualmente podemos aplicarlo si la media es una proporcin (una proporcin es la media cuando los datos son unos y ceros). Es conveniente exponerlo aqu brevemente, pero lo volveremos a encontrar al tratar del contraste de medias, pues all veremos un procedimiento ms sencillo. Son procedimientos equivalentes. Podemos aadir un tercer uso del error tpico de la media, que es determinar el nmero de sujetos que necesitamos en la muestra para extrapolar los resultados a la poblacin. Cuando a partir de los datos de una muestra nos interesa extrapolar los resultados a la poblacin (por ejemplo cuntos van a votar a un partido poltico en unas elecciones), lo hacemos con un margen de error (en cuyo clculo tenemos en cuenta el error tpico y nuestro nivel de confianza): si queremos un margen de error pequeo, necesitaremos ms sujetos por eso en las frmulas para determinar el nmero de sujetos de la muestra entrar el error tpico. Este punto lo veremos de manera ms sucinta, porque suele verse con ms detalle en otro contexto ms prctico, al tratar de las muestras, tipos de muestras, nmero de sujetos necesario segn distintas finalidades, etc. No sobra por ltimo repetir una observacin ya hecha: estamos tratando del error tpico de la media (o desviacin tpica de una hipottica distribucin de medias), pero de manera anloga podramos tratar de otros errores tpicos y con las mismas aplicaciones: de los coeficientes de correlacin, de las proporciones, y de cualquier otro estadstico. 4.1. Establecer entre qu limites (intervalos de confianza) se encuentra la media () de la poblacin (establecer parmetros poblacionales) La media de una muestra ( X ) es una estimacin de la media de la poblacin (); pero decir que es una estimacin quiere decir que est sujeta a error. La media exacta de la poblacin no la conocemos; pero s podemos estimar entre qu lmites extremos se encuentra, y esto a partir de la media de una muestra y del error tpico de la media. El error tpico de la media no es otra cosa que una estimacin de la desviacin tpica de las medias (de muestras de la misma poblacin), y se interpreta de la misma manera; as por ejemplo segn la distribucin normal, el 95% de las medias se encontrar entre -1.96 y + 1.96; aqu es propiamente X , el error tpico de la media. Si tenemos estos datos de una muestra: N = 30, X = 62.8 y = 7.9, tendremos que (frmula [2]):
X=
7 .9 = 1.47 30 1
El error tpico de la media (o desviacin tpica de las medias posibles) es en este caso igual a 1.47, y segn las probabilidades de la distribucin normal podremos afirmar que:
Estadstica inferencial: el error tpico de la media
7 Hay un 68% de probabilidades de que la media de la poblacin se encuentre entre la media de la muestra ms menos un error tpico: entre (62.8 - 1.47) y (62.8 + 1.47) = entre 61.33 y 64.27. Hay un 95% de probabilidades de que la media de la poblacin se encuentre entre la media de la muestra ms menos 1.96 errores tpicos: entre [62.8 - (1.96 x 1.47)] y [62.8 + (1.96 x 1.47)] = entre 59.92 y 65.68. Si deseamos mayor seguridad al establecer los lmites probables entre los que se encuentra la media de la poblacin, podemos tomar como lmite 2.57 errores tpicos, porque sabemos que entre la media ms menos 2.57 desviaciones tpicas se encuentra el 99% de los casos. En este caso: El lmite inferior de la media de la poblacin sera El lmite superior de la media de la poblacin sera [62.8 - (2.57 x 1.47)] = [62.8 + (2.57 x 1.47)] = 59.02 66.58
A estos lmites, o valores extremos, superior e inferior, de la media en la poblacin se les denomina intervalos de confianza, porque eso es precisamente lo que expresan: entre qu lmites podemos situar la media de la poblacin con un determinado grado de confianza o de seguridad (o de probabilidades de no equivocarnos). Los intervalos de confianza suelen denominarse en las encuestas de opinin mrgenes de error. Estos intervalos de confianza podemos establecerlos con diversos niveles de seguridad, que vendrn dados por el valor de z que escojamos, por lo que podemos expresarlos as: intervalos de confianza de la media = X (z)
[3]
La cantidad que sumamos y restamos a la media de la muestra podramos denominarla margen de error al estimar los lmites probables de la media en la poblacin y que podemos expresar de esta manera:
[4]
Como ya hemos indicado estos lmites o mrgenes de error sern ms ajustados cuando el nmero de sujetos sea mayor. Es til visualizar el efecto del tamao de la muestra en los intervalos de confianza (tabla 1). Queremos saber, por ejemplo, entre qu lmites se encuentra la media de la poblacin, estimada a partir de una muestra pequea (N = 10) y de una muestra grande (N = 500), y con un niveles de confianza de .05 (que corresponde a z = 1.96). En ambos casos suponemos en las muestras una media = 8 y una desviacin tpica = 2. N
10 500 Error tpico de la media Nivel de confianza .05 (z = 1.96) .05 (z = 1.96) Lmite mnimo de la media en la poblacin 8-(1.96)(.67) = 8-(1.96)(.09) = 6.68 7.82 Lmite mximo de la media en la poblacin 8+ (1.96)(.67)= 8+ (1.96)(.09) = 9.31 8.18
2 9 2
= .67
= 09
499
8
6 7 6.68 7.82 8.18 8 9 9.31 10
Lmites extremos de la media de la poblacin estimados a partir de N = 10 Lmites extremos de la media de la poblacin estimados a partir de N = 500
Con ms sujetos los lmites son ms ajustados, hay ms precisin; con 10 sujetos situamos la media de la poblacin entre 6.68 y 9.13 (una diferencia de 2.45 puntos), y con 500 sujetos entre 7.82 y 8.18 (una diferencia entre ambos lmites de slo .36).
Tambin con un nivel de confianza ms estricto (.01, que corresponde a z = 2.57, en vez de .05) tenemos una menor probabilidad de salir falsos profetas, ms seguridad, pero los lmites son ms amplios (una mayor seguridad pero menor precisin). Si en el ejemplo anterior utilizamos .01 en vez de .05 con 500 sujetos veremos la diferencia (tabla 2). N 500 500
Error tpico de la media Nivel de confianza Lmite mnimo de la media en la poblacin Lmite mximo de la media en la poblacin
2 499 2 499
= 09 = 09
8+ (1.96)(.09) = 8+ (2.57)(.09) =
8.18 8.23
Con una menor probabilidad de error (.01 en vez de .05) los lmites extremos de la media en la poblacin son 7.77 y 8.23, una diferencia de .46 en vez de .36 Tanto X como son los valores calculados en una muestra. Naturalmente el valor exacto de la media de la poblacin () no lo conocemos: puede estar en cualquier punto entre los valores extremos indicados. Tambin puede estar fuera de los lmites indicados, pero esto va siendo ms improbable cuando establecemos unos intervalos de confianza ms estrictos. Es normal operar con un nivel de confianza del 95% (o, lo que es lo mismo, con una probabilidad de error, al situar los lmites extremos de la media, de un 5%); en este caso z en la frmula [3] ser igual a 1.96; como se desprende de esta frmula, a mayor valor de z (mayor seguridad) los lmites sern ms extremos. Cuando calculamos la media de una muestra en una variable de inters Es til calcular adems entre qu lmites se encuentra la media de la poblacin? Con frecuencia nos bastar conocer la media de una muestra concreta como dato informativo, pero con frecuencia extrapolamos informalmente de la muestra a la poblacin. Siempre es til relativizar este tipo de informacin, y con mayor razn si de hecho (como es frecuente) estamos utilizando la media de una muestra como estimacin de la media de la poblacin2.
2 Una de las recomendaciones de la American Psychological Association es calcular siempre los intervalos de confianza (Wilkinson, Leland and Task Force on Statistical Inference APA Board of Scientific Affairs 1999; American Psychological Association, 2001).
9 Cuando los datos son dicotmicos (1 0) la media p es la proporcin de sujetos que responden s o que escogen la respuesta codificada con un 1. Si de 200 sujetos 120 responden s ( 1) a una pregunta y 80 responden no (0), la media p es igual a 120/200 = .60: el 60% de los sujetos (o una media del 60%) han respondido s. El error tpico de una proporcin es el mismo que el error tpico de cualquier media, solo que en este caso la media es p, la varianza es pq [proporcin de unos por proporcin de ceros] y la desviacin tpica es pq . La frmula del error tpico de una proporcin (p) ser por lo tanto: p =
pq N
por lo tanto
p =
pq N
[5]
En el ejemplo anterior tenemos que N = 200, p =120/200 = .60 y q =.40 por lo tanto el error tpico de la proporcin ser: p =
De manera anloga a lo que hemos visto en los intervalos de confianza de la media en variables continuas (frmulas 3 y 4), los intervalos de confianza de una proporcin p sern:
[6]
Ahora podemos hacernos esta pregunta: en esa muestra de 200 sujetos han respondido s 120 sujetos (una media de .60 o el 60%), pero cuntos respondern s en la poblacin representada por esa muestra? Ya podemos intuir la importancia de esta pregunta si pensamos en los sondeos pre-electorales; lo que interesa realmente no es conocer cuntos sujetos de esa muestra van a votar a un candidato, sino cuntos le votarn el da de las elecciones. La proporcin de votantes que dirn s a ese candidato (o la media de votantes) en la poblacin no la sabemos (habra que preguntar a todos y eso se har el da de las elecciones), pero s podemos estimar entre qu lmites mximo y mnimo se encuentra esa proporcin con un determinado nivel de confianza (o seguridad de acertar en la prediccin); es decir, podemos establecer los mrgenes de error. Para responder a esta pregunta calculamos los intervalos de confianza de la media (p = .60) con un nivel de confianza de .05 (un 5% de probabilidades de equivocarnos) que equivale a z = 1.96. La proporcin de los que dirn s a juzgar por los datos de esa muestra estar entre .60 menos 1.96 errores tpicos y .60 ms 1.96 errores tpicos: Lmite mnimo: .60 (1.96)(.0346) = .60 .0678 Lmite mximo: .60 + (1.96)(.0346) = .60 + .0678 = .5322 = .6678 (el 53%) (el 67%)
El margen de error en nuestra prediccin es .0678 (casi un 7% redondeando). En la muestra encuestada ha respondido s el 60%, pero en la poblacin representada por esa muestra esperamos que responda s entre un 53% y un 67%.
10 El ejemplo de los sondeos pre-electorales pone de relieve la importancia de calcular los intervalos de confianza de una proporcin (y es lo que se hace y comunica cuando se publican estas encuestas), pero estos intervalos de confianza son informativos casi en cualquier situacin. Cuando se hacen sondeos de opinin en grupos diversos (alumnos, padres de alumnos, grupos profesionales, etc.) prcticamente se tienen muestras (no responde toda la poblacin) pero los resultados suelen interpretarse como si todos hubieran respondido; lo realmente informativo es aportar los intervalos de confianza, o entre qu lmites se encuentran con toda probabilidad las respuestas si todos hubieran respondido. Cuando distintos grupos responden a la misma pregunta (s o no en este caso, pero puede tratarse tambin de respuestas con valores continuos) es til especificar el error tpico de la proporcin en cada muestra y los intervalos de confianza entre los que se encuentra la proporcin de ses (o unos) en las poblaciones representadas por esas muestras (ejemplo en la tabla 3, con un nivel de confianza de .05 z = 1.96).
Muestras de distinto tamao A, N = 300 B, N = 80 Proporcin ( %) en la muestra Intervalos de confianza en las poblaciones representadas por esas muestras
Error tpico
45 .0283 .0548
50
55 54
60 60 60
65 65
70
75
80
.60 .60
49 Tabla 3
71
En la tabla 3 podemos observar que en las muestras A y B responde afirmativamente la misma proporcin de sujetos (un 60%), pero al extrapolar los resultados a las poblaciones representadas por esas muestras el margen de error es mucho menor en la muestra A porque se trata de ms sujetos. Al hablar de extrapolar a la poblacin los resultados de una muestra (en este caso y en cualquier otro) hay que hacer una observacin importante. Estamos suponiendo que esa muestra es representativa de la poblacin, que no est sesgada, y es esto lo se intenta conseguir con las muestras aleatorias. Cuando ste no es el caso (responden los sujetos disponibles, los que quieren, etc.) siempre podemos pensar en la poblacin que pueda estar representada por esa muestra y ser cautelosos al generalizar los resultados. En cualquier caso siempre es ms seguro informar sobre los intervalos de confianza sin limitarnos a una proporcin o porcentaje aparentemente exacto.
11 Lo veremos con un ejemplo. Un profesor pone a sus alumnos una serie de problemas y obtiene estos resultados: N = 40, X = 12.6 y = 4.25. El profesor piensa que un resultado ptimo y posible hubiera sido obtener una media de 15, y se pregunta puede considerarse esta muestra de 40 alumnos como una muestra aleatoria de una poblacin cuya media fuera = 15? Este tipo de planteamientos puede tener su inters cuando la media de la poblacin es una hiptesis plausible o hay datos de otros estudios, etc. Vamos a suponer que el nivel de confianza que nos ponemos es de = .01 (que corresponde a z = 2.57; probabilidad de equivocarnos: 1% o menos; slo el 1% de los casos cae ms all de 2.57). Podemos solucionar el problema de dos maneras. 1 Nuestra muestra pertenece a una poblacin cuya media en principio desconocemos. Lo que s podemos hacer es estimar el lmite mximo de la media de la poblacin a la que pertenece nuestra muestra, tal como hemos visto antes, y con un riesgo mximo de error del 1%, tal como hemos fijado previamente. 1. Calculamos el error tpico de la media, X =
4.25 = 0.68 40 1
2. Cules sern los lmites superior e inferior de la media de la poblacin, con una probabilidad de error del 1%? El lmite superior ser X +(2.57)( X ) = 12.6 + (2.57)(.68) = 14.35 El lmite inferior ser X - (2.57)( X ) = 12.6 (2.57)(.68) = 10.85 Podemos considerar que nuestra muestra, con una media de 12.6, pertenece a una poblacin cuya media estar entre 10.85 y 14.34, y esto podemos afirmarlo con una probabilidad de error del 1%. 3. Nuestra conclusin es clara: nuestra muestra con media de 12.6 no pertenece a una poblacin hipottica cuya media fuera 15 porque el lmite mximo de la poblacin de nuestra media es 14.35 y no llega a 15, luego nuestra muestra pertenece a otra poblacin con otra media, cuyo lmite inferior no es 15. Podemos visualizar el resultado con un sencillo grfico:
10.85
14.35
15
Salta a la vista que la media de la poblacin de referencia es mayor que el lmite superior de la media de la poblacin representada por esa muestra. 2 De hecho el procedimiento utilizado habitualmente para comprobar si la media de una muestra difiere significativamente de la media de una poblacin suele ser otro que nos permite llegar a las mismas conclusiones. Nos basta calcular una puntuacin tpica (z), que nos dir en cuntos errores tpicos se aparta nuestra media de la media de la poblacin. El procedimiento y la frmula apropiada estn puestos y explicados como un caso ms del contraste de medias.
12
pq e (margen de error) = z N
[7]
En [8] conocemos todos los valores que nos interesan para calcular N z Este valor corresponde al nivel de confianza y lo establecemos nosotros; habitualmente utilizaremos un nivel de confianza del .05 y z = 1.96 ( z = 2.57 si nuestro nivel de confianza es de .01)
pq Es la varianza de la poblacin, no la varianza de la muestra. Esta varianza no la conocemos, pero como a mayor varianza en la poblacin har falta una muestra mayor, nos situamos en la situacin en que la varianza es la mxima posible; en este caso p = q = .50, y pq = .25, que es un valor constante. e Es el margen de error que estamos dispuestos a aceptar y tambin lo establece el investigador. Si por ejemplo estamos dispuestos a aceptar un margen de error del 5%, esto quiere decir que si en la muestra encuestada en esta caso responde s el 35%, en la poblacin esperamos que responda s entre el 30% y el 40%. ste 5% lo expresaremos en forma de proporcin (o tanto por uno): .05
Vemos de nuevo que si queremos un margen de error pequeo (e, el denominador en 8) necesitaremos una muestra mayor. Podemos ver la aplicacin de esta frmula [8] con un ejemplo. Vamos a hacer una encuesta para extrapolar los resultados a una poblacin mayor (muy grande, de tamao indefinido). El margen de error que estamos dispuestos a aceptar es del 5% (e = .05), de manera que si nos responden s el 50% de la muestra ya sabemos que en la poblacin el s estar entre el 45% y el 55% El nivel de confianza es del .05, que corresponde a z = 1.96 Necesitaremos una muestra de este tamao: N = (1.96 2 )(.25) = 384 sujetos .05 2
Si el margen de error mximo que nos interesa es del 3% (e = .03), la muestra necesaria sera de 1067 sujetos.
13 Hacemos algunas observaciones ya que el exponer y justificar brevemente estas frmulas tiene un valor complementario para entender mejor el concepto y utilidad del error tpico, pero no tratamos aqu de manera expresa sobre el tamao de la muestra, tipos de muestreos y cmo hacerlos, etc.3 a) Estas frmulas para calcular el tamao de la muestra son vlidas aun cuando las preguntas no sean dicotmicas (estamos utilizando el error tpico de una proporcin, cuya varianza mxima es pq = .25). b) Son vlidas cuando se hace un muestreo aleatorio simple; hay variantes cuando se utilizan otros tipos de muestreo (como el estratificado). c) Suponemos que la poblacin a la que se extrapolan los resultados es grande, de tamao indefinido y que podemos no conocer con exactitud. Con poblaciones menores y cuyo tamao conocemos hay frmulas ms ajustadas; ms o menos a partir de poblaciones en torno a los 30.000 sujetos el tamao necesario de la muestra no vara mucho; al aumentar el tamao de la poblacin no aumenta proporcionalmente el tamao necesario de la muestra.
5. Referencias bibliogrficas
AMERICAN PSYCHOLOGICAL ASSOCIATION (2001). Publication manual of the American Psychological Association (5th Edit). Washington D.C.: Author HERNNDEZ SAMPIERI, ROBERTO; FERNNDEZ COLLADO, CARLOS Y BAPTISTA LUCIO, PILAR (2000). Metodologa de la Investigacin. Segunda Edicin. Mxico: McGraw-Hill MORALES VALLEJO, PEDRO. Tamao necesario de la muestra: Cuntos sujetos necesitamos? http://www.upco.es/personal/peter/investigacion/Tama%F1oMuestra.pdf (ltima revisin, 23, Nov., 2006) RODRGUEZ OSUNA, JACINTO (1993). Mtodos de muestreo. Casos prcticos. Cuadernos metodolgicos. Madrid: Centro de Investigaciones Sociolgicas (CIS). SALKIND, NEIL J. (1998). Mtodos de Investigacin, 3 edicin, Mxico: Prentice-Hall STATPAC INC (2003) Questionnaires & Survey Design http://www.statpac.com/surveys/index.htm#toc (en Sampling Methods) WILKINSON, LELAND AND TASK FORCE ON STATISTICAL INFERENCE APA BOARD OF SCIENTIFIC AFFAIRS (1999) Statistical Methods in Psychology Journals: Guidelines and Explanations American Psychologist August 1999, Vol. 54, No. 8, 594604 (http://www.apa.org/journals/amp/amp548594.html).
3 Puede verse ms informacin en la bibliografa mencionada y en otras muchas publicaciones; sobre el tamao de la muestra necesario tambin con otras finalidades (construir una escala de actitudes, hacer un anlisis factorial, etc.) puede verse Morales (2006)
14