Metodologia de Analisis de Datos Cuantitativos Resumen
Metodologia de Analisis de Datos Cuantitativos Resumen
Metodologia de Analisis de Datos Cuantitativos Resumen
Niveles de medición.
t
En 1946 desarrolló su teoría de los niveles de medida
Stanley
Smith Fue psicólogo estadounidense, se ocupó del estudio de los efectos del ruido intenso en las aeronaves.
Postulo que la estructura del proceso de medición tiene cuatro niveles: la variable, el atributo, el valor y
Steven
la relación existente entre las variables. Definió el proceso de medición como la asignación de números a
s
objetos o hechos, según reglas de conjunto que diferenció en cuatro tipos distintos: nominal, ordinal,
intervalo y razón.
Una misma variable, puede ser medida de diferentes formas y así otorgar un nivel de información distinto. El nivel de
medición se refiere a la relación existente entre los valores que se les asignan a los atributos de una variable.
Tipos de escala:
Escala Nominal: Se utiliza cuando las observaciones se pueden clasificar en distintas categorías excluyentes
entre sí, y no es posible establecer ninguna relación de orden ni operar matemáticamente. Atributos
categóricos (sexo, estado civil, lugar de nacimiento, área de trabajo, actividad económica).
Escala Ordinal: Se aplica cuando las observaciones se pueden clasificar en distintas categorías excluyentes entre
sí, y es posible establecer una relación de orden, pero no operar matemáticamente. Ejemplo: nivel de ingresos,
nivel de estudios.
Escala de intervalo: Se usa cuando las observaciones poseen una unidad de medida que nos permite cuantificar
la distancia existente entre dos observaciones, pero el cero es arbitrario
Escala de razón: Se usa cuando las observaciones poseen una unidad de medida que nos permite cuantificar la
distancia existente entre dos observaciones, pero el cero es arbitrario.
Con los últimos tres casos (ordinal, intervalo y razón), se puede operar matemáticamente con los datos, lo cual nos
dará otros indicadores que nos permitirán establecer el comportamiento para la población o muestra que estamos
analizando.
Variables: Se las divide según criterios en función las características de los valores que estas puedan tomar. De
acuerdo al tipo de escala que se utilizan se puede clasificar en:
Cualitativas: se usan para identificar un atributo de un elemento. Se pueden emplear con la escala
nominal o la ordinal, y podrán ser numéricas o no. Los datos contenidos en estas se pueden sintetizar
observando los valores que toma la variable o la proporción que podrá existir entre estos.
Cuantitativas: requieren de valores numéricos para definir los datos. Se emplean con las escalas de
medición de intervalo o de razón.
Aspecto importante: criterio de clasificación en función a como es el conjunto de valores sobre el cual
éstas pueden tomar valores.
I. Variable continua puede tomar valores dentro de un intervalo continuo (altura de las personas relevadas.)
II. Variable discreta solo podrá tomar valores sobre un conjunto finito de valores.
Las categorías que surgen de esta clasificación tendrán, nombres arbitrarios que no involucran ningún tipo de
relaciones entre sí. Las categorías utilizadas para clasificar deben ser absolutas, es decir, comprender todas las
situaciones o casos posibles, y deben ser mutuamente excluyentes. Esto implica que las categorías no deben
superponerse entre sí, o sea que ningún caso corresponda a más de una categoría.
Para poder sistematizar los datos asignaremos números a las categorías. Dicha asignación será arbitraria y no implicará
que puedan realizarse operaciones matemáticas entre tales valores asignados.
Cuando podamos cuantificar la medida de la distancia entre dos elementos en la característica considerada,
trabajaremos con escalas de intervalo.
Datos: representación de atributos o variables que describen hechos, que al ser analizados y procesados, se
transforman en info.
Proceso de comparación: requiere de escalas de medición donde resulte posible situar cada posible valor que tomen los
datos. Dadas las diferentes características que estos números pueden poseer, vemos que existen diferentes tipos de
escalas de medición que facilitarán su posterior empleo y análisis.
Tipologías: La estadística es una ciencia que estudia un conjunto de datos obtenidos a partir de la observación, con el
propósito de realizar comparaciones, realizar estimaciones, posteriores análisis y obtener conclusiones. Es considerada
un instrumento valioso para organizar la información con una cierta dosis de incertidumbre.
Tipos de estadística:
Estadística descriptiva: Se la utiliza para recolectar, describir y resumir un conjunto de datos obtenidos, que se
pueden visualizar de manera numérica y gráfica, pero su uso se limita solo al empleo de la información obtenida,
por lo que a partir de ella no se puede realizar ningún tipo de generalización.
Estadística inferencial o deductiva: Sobre la base de los datos muestrales que maneja, resulta posible realizar
conclusiones y predicciones que incluyen a toda la población. Los resultados obtenidos a partir del análisis y de la
conclusión podrán ser extrapolados para realizar predicciones o pronósticos.
Aplicada: Está conformada por los dos tipos anteriormente. Su objetivo busca deducir resultados sobre un
universo, a partir de una muestra determinada.
Matemática: Es la aplicación de las matemáticas a la estadística, pero desde un punto de vista formal. Utiliza el
análisis matemático, el álgebra y las ecuaciones diferenciales.
Índices: sirve para hacer comparaciones, entre un año y otro, entre distintas variables o conjuntos de variables. Esto
implica consolidar información diferente en un solo número que nos dará una idea sobre la población que representa.
Práctica, primero, debe definirse un período, luego, se observan las mediciones y, finalmente, se hallan los números
índices simples, al dividir cada dato por el correspondiente del período de referencia, y multiplicar el valor obtenido por
100. Puede apreciarse cómo evoluciona el valor de una determinada variable.
Proporción: Cuando clasificamos a los individuos u objetos de estudio en función de alguna característica y les
asignamos categorías que cumplen con las condiciones de ser excluyentes y exhaustivas, usamos proporciones para
reflejar cuántos objetos del total se ubican en cada una de las categorías en función de los totales observados.
Frecuencia: Para medir la importancia relativa de los datos, consideramos la cantidad de veces que se repite en el
conjunto de datos. Si indicamos cuánto representa ese conteo respecto del total de observaciones del conjunto de
datos, decimos que se trata de una frecuencia absoluta. Habitualmente expresamos las proporciones en términos
porcentuales. Para calcular estos porcentajes, se multiplican las proporciones por 100. Otra forma para calcular es usar
razones. Una razón es el cociente de un número respecto de otro; en este caso, vemos que se comparan dos categorías
entre sí.
Escalas: es una clasificación acordada con el fin de describir la naturaleza de la información contenida dentro de los
números asignados a los objetos y, por lo tanto, dentro de una variable.
Existen cuatro escalas de medición: nominal, ordinal, de intervalo y de razón.
Medidas estadísticas descriptivas.
Técnica matemática que obtiene, organiza, presenta y emplea un conjunto de datos con el propósito de facilitar su uso,
apoyándose en tablas, medidas numéricas o gráficas. Permite calcular parámetros estadísticos como las medidas de
tendencia central y de dispersión, que describen en forma más completa el conjunto estudiado.
MEDIDA DE TENDENCIA CENTRAL O DE POSICION Una única medida o número que puede resumir toda la
información provista por un conjunto de datos. Indica un valor de referencia que proporciona una idea del valor
general de la variable analizada, para todos los datos de interés.
Población Conjunto de sujetos, objetos o fenómenos que se desea estudiar. Una muestra es un subconjunto
de la población. Será necesario considerar valores que sean representativos del conjunto de los datos: las medidas de
tendencia central. Las más importantes son:
a) Mediana (Me): es el valor que ocupa el lugar central entre todos los valores del conjunto de datos, cuando
estos están ordenados en forma creciente o decreciente. Es el punto medio geométrico de la distribución de
datos agrupados, o sea, el punto que divide a dicha distribución en dos mitades respecto de las frecuencias.
Esta medida de tendencia central es de gran utilidad cuando se desconocen las puntuaciones extremas, y se
considera la forma de la distribución de frecuencias.
b) Moda (Mo): es el dato que ocurre más veces, tiene la mayor frecuencia de repeticiones. Es uno de los
indicadores más sencillos disponibles e indica el valor de la variable que se repite más veces. Para determinarla,
solo es necesario contar con una tabla de frecuencias. Por ello, es la única medida de tendencia central o de
posición que se puede calcular para variables medidas en escala nominal.
c) Media aritmética (x): Es el valor promedio de las muestras y es independiente de las amplitudes de los
intervalos. Su fórmula es más complicada, consiste en sumar todos los valores y dividirlos, luego, por el número
total de datos. Esta medida recibe el nombre de media o promedio, y es el valor estadístico de tendencia
central más utilizado. Su confiabilidad depende de la forma de su distribución y de la existencia o no de valores
extremos. Por lo general, es una buena representación de un conjunto de datos, y puede ser considerada como
el punto de equilibrio del conjunto de mediciones efectuadas.
Cuantiles (cuartil, decil, percentil): Asociado al trabajo con la mediana, es útil trabajar con cuantiles. Existen tres tipos:
El cuartil es el resultado de la división entre cuatro partes iguales del conjunto dado;
El decil es el resultado de la división entre diez partes iguales
El percentil es el resultado de la división entre cien.
Las medidas cuantiles hacen referencia a valores análogos a la mediana, pero dividen al conjunto de datos (siempre
ordenado) en diferentes cantidades de secciones. En general, estos valores tienen sentido cuando analizamos un
número elevado de observaciones.
Medidas de dispersión: o medidas de variabilidad, se utilizarán para indicar dónde se ubica un conjunto de datos, de
manera que con una medida única se pueda resumir todo el conjunto. Este tipo se denomina medida de dispersión, ya
que informa sobre las diferencias que presentan los valores observados respecto de su posición y la distribución que
posea en la muestra analizada. Las más usadas:
o Amplitud de variación (A) o rango: Es una de las más sencillas de usar para conocer la densidad de los
datos, cuán concentrados y homogéneos se encuentran o qué tan variados son. Se la obtiene al restar,
de la puntuación más grande, la más pequeña
o Desviación media (Dm): Es una medida que tiene un significado intuitivo. Puede visualizarse al evaluar la
distancia entre cada observación o puntuación y la media aritmética. El promedio de estas distancias nos
dará una medida racional de la dispersión de los datos.
• Desviación estándar (σ): Es la más común, indica qué tan dispersos están los datos con respecto a la media.
Mientras mayor sea la desviación estándar, mayor será la dispersión de los datos. Se la utiliza para establecer
un valor de referencia y estimar la variación general de un proceso.
• Varianza (σ²): Es una de las básicas. Sirve para identificar a la media de las desviaciones cuadráticas de una
variable de carácter aleatorio, considerando el valor medio de ésta. Es la media aritmética del cuadrado de
las desviaciones respecto a la media de una distribución estadística.
Error de muestreo: o error muestral, se lo define como la diferencia que existe entre el valor real (parámetro) obtenido
con los valores de la población y el valor estimado, el cual se calcula con base en los valores de una muestra
determinada. En este caso, la muestra es también una estimación, y este error justamente se produce porque se usa
solo una parte de la población.
1) Error de medida: Es el que se comete al apreciar mal un valor, por fallas humanas o del instrumento de
medición. Comprende el error sistemático y al error aleatorio.
2) Error experimental: Es la desviación del valor medido de una magnitud física respecto al valor real de dicha
magnitud. En general, se puede decir que los errores experimentales son ineludibles y dependen básicamente
del procedimiento que se haya elegido y de la tecnología disponible para realizar la medición.
Probabilidad y variables aleatorias
El estudio de la probabilidad en la estadística es MUY importante, permite esclarecer el conocimiento y la información
numérica de representaciones, reduciendo las implicancias negativas de la incertidumbre en la conducta humana.
PROBABILIDAD: la mayor o menor posibilidad de que ocurra un determinado suceso. Para ello, se necesita analizar el
número total de sucesos posibles. La probabilidad es una medida de certidumbre limitada, no se puede predecir con
exactitud qué es lo que va a ocurrir
Probabilidad y variables aleatorias: la probabilidad de que salga el número dos es 1/6, y se calcula a través de la
siguiente fórmula:
P(A) = Número de casos favorables a A
Número de casos posibles
Entonces:
P(A) = 1/6 = 0,16
Donde P(A) significará la probabilidad de que se verifique el suceso A.
Si desea saber el porcentaje de probabilidades, se deberá multiplicar el P(A)- (0,16) por 100. El resultado será 16 %.
La importancia que posee la probabilidad radica en que a través de ella resulta posible ajustar los imponderables que
son fruto del azar, tanto en la vida cotidiana como en la ciencia.
Suceso elemental: Se denomina así a cada uno de los resultados obtenidos al realizar un
experimento.
Espacio muestral: Es el conjunto de todos los sucesos elementales obtenidos.
Cuando hablamos de probabilidad, tenemos que diferenciar los dos tipos de sucesos que pueden ocurrir:
Sucesos naturales: aquellos cuyo resultado podemos predecir
Sucesos por azar: aquellos cuyos resultados podemos conocer, pero no predecir. Los sucesos por azar se pueden
clasificar en: suceso seguro (aquel que ocurrirá sin lugar a dudas) y suceso imposible (el que no puede ocurrir).
La probabilidad es igual a cero cuando el suceso es imposible, e igual a uno cuando el suceso es seguro.
Función de probabilidad: Se trata de una aplicación entre el conjunto de resultados y el conjunto de números reales,
que asignará a cada suceso la probabilidad de que se verifique.
VARIABLE ALEATORIA: resultado numérico de un experimento aleatorio. Si realizamos una asignación, cualquiera sea
esta, que transforme el resultado de un experimento aleatorio en números, estaremos generando una variable
aleatoria. La variable aleatoria tendrá una probabilidad asociada con la ocurrencia de cada valor de esta.
Dos tipos de variables aleatorias:
o Variable aleatoria discreta: aquella cuyo conjunto de valores posibles es discreto (finito o numerable)
o Variable aleatoria continua: aquella cuyo soporte o conjunto de valores posibles no es discreto, sino un
conjunto de números reales.
Una variable aleatoria será una regla bien definida para asignar valores numéricos a todos los resultados
probables de un experimento.
A cada valor de una variable aleatoria corresponderá una probabilidad. Ese conjunto de todos los valores
posibles recibirá el nombre de función o distribución de probabilidad de la variable aleatoria.
Las variables aleatorias nos permitirán manejar modelos estadísticos, para poder describir los posibles
resultados de un experimento aleatorio, asignando probabilidades a aquellos sucesos que nos interesen.
Inducción estadística y parámetros estadísticos
El razonamiento en estadística: En filosofía resulta habitual considerar que existen dos tipos básicos de razonamiento: la
deducción: que es una inferencia desde las causas hacia los efectos (es decir, desde lo universal hacia lo particular), y la
inducción: que es un procedimiento que consiste en partir de leyes generales se establecen aspectos particulares (es
decir, se recorre el camino inverso).
Inducción estadística: Proceso basado en el razonamiento que se produce al analizar, por medio de la observación
sobre las mediciones efectuadas, ver y clarificar ciertas situaciones particulares con el propósito de obtener una
conclusión.
Se aplica y trabaja, la lógica inductiva, de manera de buscar la forma de medir las probabilidades y determinar que una
conclusión sea verdadera. Así, comprobamos que el razonamiento inductivo buscará obtener conclusiones partiendo de
suposiciones o hipótesis, abarcando ciertos datos específicos.
Inferencia estadística:
El verbo inferir hace referencia a la deducción que se realiza respecto a algo que se observa o de lo que se tiene
conocimiento.
Para poder realizar una inferencia estadística, se han desarrollado técnicas y procedimientos específicos a efectos
de generalizar datos relacionados con los parámetros de una población, con base en la información contenida en una
muestra representativa de dicha población. En el enfoque clásico vemos que existen dos métodos de inferencia: la
estimación y la prueba o contraste de hipótesis.
Inferencia estadística la podremos apreciar al ver cómo se trabaja “estadísticamente” resolviendo problemas o
incógnitas relacionadas para estimar un valor poblacional y la emisión de un juicio en relación con alguna hipótesis
relativa a los parámetros establecidos. Para el caso de estudio, la inferencia se efectúa al especificar cuál será el valor de
sueldo promedio estimado sobre la base de una muestra.
Estimación Es el conjunto de técnicas que permiten dar un valor de un parámetro de una población a partir de
los datos proporcionados por una muestra. Puede realizarse de dos formas: la puntual y la intervalar (por intervalos).
Para realizarla, es necesario proponer estimaciones de los valores de los parámetros, debido a que resulta
imposible estudiar a toda la población. Dichas estimaciones estarán sujetas a un error, que es la diferencia entre el valor
del parámetro de la población y el valor del estadístico de la muestra utilizado como estimador. La probabilidad de
cometer este error puede calcularse a efectos de mantener o descartar la estimación en función de la precisión que el
estudio requiera.
Estimación puntual: se usa un solo valor de la muestra para estimar el valor desconocido. Al valor usado se lo
denomina estimador. Se puede utilizar para ello la media, la proporción o la desviación típica.
El caso más común de empleo es la media (x), cuya fórmula es:
Estimación intervalar: para realizarse, deben fijarse ciertos límites a efectos de establecer un porcentaje “de
confianza” para que el intervalo contenga al parámetro estimado. Una estimación del intervalo de confianza es
un rango de números (intervalo) construido alrededor de la estimación puntual. El intervalo de confianza (IC) se
construye de manera que la probabilidad del parámetro de la población se localice dentro del intervalo
conocido. Es decir, el IC nos va a ayudar a determinar un intervalo dentro del cual, con una determinada
probabilidad, se va a localizar el parámetro que buscamos.
IC = media + - margen de error
Por lo tanto, una estimación intervalar dependerá de lo siguiente:
1. El tamaño de la muestra: dependiendo de la cantidad de datos recopilados, se acercará más o menos
al verdadero parámetro.
2. Nivel de confianza: Establecerá en que porcentaje nuestra estimación será cierta, normalmente,
entre el 95-99%
3. Margen de error: Nos indicara la probabilidad de que el valor buscado este fuera de nuestro
intervalo.
4. Estimación de la muestra: Sera la media, la varianza o lo que se determine y de ello dependerá el
estadístico que será el pivote para el cálculo de intervalo.
Se pueden tomar muestras de n elementos de una población de media µ, con una desviación estándar σ, y cada
una de esas muestras tendrá una media. Este aspecto será importante dado que la media de cada una de las
muestras coincidirá con la media de toda la población, µx = µ.
Si el tamaño de las muestras es lo suficientemente grande, o la distribución poblacional es normal, la
distribución de medias muestrales será una distribución normal (o gaussiana) con media μ y una desviación
típica dada por la siguiente expresión:
Donde σx: desviación de la media poblacional, σx: desviación de cada una de las medias y n: tamaño de la
muestra.
Valor Z: El valor Z es un concepto que debemos tener en cuenta para el trabajo con intervalos, que es un tema
que veremos con más detalle un poco más adelante. Dada una variable X, un valor de Z describirá la posición de una
observación determinada en relación a la media que se establezca y se realizará en unidades de desviación estándar.
Un valor Z negativo indica que la observación está por debajo de la media; mientras que un valor Z
positivo indica que la observación se encuentra por encima del valor de la media. En otras palabras, también se
lo conoce como la “certeza” de que el valor buscado se encuentra en el intervalo especificado.
Parámetros estadísticos: Un parámetro en estadística es un número que sintetiza la gran cantidad de datos
que pueden derivarse del estudio de una variable. El cálculo de este parámetro estará bien definido y se hará
normalmente mediante la aplicación de una fórmula aritmética.
Los parámetros estadísticos responden, entonces, al propósito esencial de la estadística, que es crear un
modelo o imagen abreviada de la realidad.
El estudio de una gran cantidad de datos individuales de una población puede ser muy costoso y complicado. Por lo
tanto, resulta necesario realizar un resumen que permita:
tener una idea global de la población seleccionada;
poder compararla con otras;
comprobar su ajuste a un modelo ideal;
realizar estimaciones sobre datos desconocidos de esta;
obtener conclusiones para, en definitiva, tomar decisiones.
Estas serán las tareas esenciales a las que contribuyen los parámetros estadísticos.
Principales parámetros:
Medidas de posición: Comprende los valores que se caracterizan por la posición que ocupan dentro del rango de
valores posibles, que son: medidas de tendencia central (media, moda y mediana) y de posición no central
(cuartiles, deciles, etc.).
Medidas de dispersión: Resumen la heterogeneidad de los datos analizados y se dividen en: medidas de
dispersión absoluta (varianza y deviación típica) y de dispersión relativa (coeficiente de variación).
Medidas de forma: Depende de la gráfica de la distribución. Entre ellas, vemos que se encuentran los
coeficientes de asimetría, curtosis, etc.
Otros parámetros: Se usan para situaciones o análisis muy concretos. Ellos son: proporciones, números índice,
etc.
Distribuciones de probabilidad
La distribución de probabilidad describirá el comportamiento de una variable aleatoria dentro de un intervalo de
valores, que serán los posibles resultados que pueden producirse. Recordemos que una variable aleatoria podrá ser
discreta o continua. Una variable aleatoria discreta es aquella que se representa con números enteros y está
caracterizada por el límite de valores que puede tomar. Una variable aleatoria continua puede tomar cualquier valor
dentro del límite establecido.
Características de la distribución normal (forma): su gráfica es simétrica con respecto a la media y su ancho viene dado
por la desviación estándar. A su vez, en la gráfica se ve reflejada la distribución de la probabilidad de la variable en
estudio.
Es una campana simétrica con respecto a su eje de simetría.
La curva tiene un solo pico (es unimodal).
La media de una población distribuida cae en la mayoría de los casos en el centro de la curva normal.
Debido a la simetría de la distribución normal de probabilidad, la mediana y la moda de la distribución se
encuentran también en el centro; consecuentemente, para una curva normal, la media, la mediana y la moda
poseen el mismo valor.
Los dos extremos de la distribución normal de probabilidad se extienden indefinidamente y nunca tocan el eje
horizontal. Parámetros: La distribución está caracterizada por dos parámetros: la media y la varianza. La media
(μ) es el parámetro de localización de la distribución.
Construcción de intervalos de confianza
La construcción de intervalos de confianza dependerá de varios factores. La probabilidad de éxito de la
estimación se la representa 1 - α y se la denomina nivel de confianza, donde α será el error aleatorio o nivel de
significación, que se entiende como una medida de las posibilidades de fallar en la estimación mediante un intervalo
determinado. El nivel de confianza y la amplitud del intervalo varían conjuntamente, de forma que un intervalo más
amplio tendrá más probabilidad de acierto (mayor nivel de confianza), mientras que, para un intervalo más pequeño,
que ofrece una estimación más precisa, aumentará su probabilidad de error.
La construcción de intervalos de confianza podrá realizarse para una población o para dos poblaciones.
Error estándar: Es el error debido a la estimación de la media poblacional a partir de las medias muestrales. Es
una estimación de cuanto varía el valor de una estadística de prueba de muestra a muestra. Se calcula tomando
la desviación estándar de la distribución de muestreo para la estadística de prueba.
Desviación estándar: es la medida de dispersión que indica que tan dispersos están los datos con respecto a la
media. Se la representa con el símbolo o (sigma) y se la utiliza para representar la desviación estándar de una
población, mientras que s se utiliza para representar la desviación estándar de la muestra.
Procedimiento para encontrar un intervalo de confianza (IC)
1. Se tratará de determinar el intervalo (LI, LS), en donde LI es el límite inferior y LS es el límite superior. El
parámetro para estimar se simbolizará con la letra griega sigma θ; entonces:
El intervalo de confianza estará conformado por un conjunto de valores delimitados por un límite inferior de
confianza (LI) y un límite superior de confianza (LS). Para hallar estos límites, se deberá calcular la media muestral,
que se la empleará como estimación puntual. Después se le deberá sumar una determinada cantidad para hallar el
límite superior de confianza y se le restará la misma cantidad a efectos de poder hallar el límite inferior de confianza.
Podemos expresar que el IC nos ayudará a determinar un intervalo dentro del cual, con una cierta probabilidad, se
encontrará el parámetro que buscamos. IC = media + - margen de error
Donde σx: desviación de la media poblacional, σx: desviación de cada una de las medias y n: tamaño de la muestra.
El IC será 45,2 – 74,7. Consecuentemente, se puede concluir que la media poblacional estará comprendida entre ambos
valores con una certeza del 99%.
Diferencia de medias entre dos poblaciones
Comparación de medias:
Se puede comparar la media de dos o más grupos con el propósito de determinar si la diferencia que existe entre
los distintos grupos resultará significativa desde el punto de vista estadístico.
Como no es posible conocer la verdadera diferencia de los valores promedio de las medias aritméticas μ1 y μ2
de dos poblaciones, las cuales fueron extraídas aleatoriamente de sus respectivas muestras, se la podrá estimar en
forma aproximada. Para ello, será necesario realizar una estimación construyendo un intervalo de confianza (IC), que
estará compuesto por un par de valores, entre los cuales se encontrará el parámetro por estimar, con una cierta
confianza determinada.
Como el IC se construirá con los datos de las muestras, se podrá obtener también información complementaria
que facilitará que la inferencia estadística que vayamos a realizar sea más consistente y confiable. Por lo tanto, el
análisis de ese intervalo, así como el contraste de hipótesis estadísticas, serán dos de las más importantes herramientas
de las que dispondremos para poder realizar inferencias estadísticas.
Cuando se tiene interés en conocer las diferencias entre las medias de una variable en dos poblaciones distintas
se procede a comparar las medias de las muestras. Para realizarse, se deberán aceptar los siguientes
condicionamientos:
Condición n.° 1: se analizarán muestras grandes.
Condición n.° 2: ambas varianzas son conocidas.
Condición n.° 3: se efectuará una selección independiente de ambas muestras.
El estadístico Z descrito a continuación se distribuirá en forma normal y se podrá obtener los límites del intervalo de
confianza.Para hacer una inferencia sobre la diferencia de dos medias poblacionales μ1 - μ2 de dos poblaciones X1 y X2
a partir de la información de dos muestras, se toma de la población X1 una muestra n1 y de la población X2 una muestra
n2.
Como se puede obtener mucha información del intervalo de confianza (IC), tenemos que, considerando las varianzas de
ambas poblaciones iguales, un IC de μ1 - μ2 de nivel de confianza (1 - α):
Diferencia significativa: Cuando los datos muestras suficiente evidencia respecto de que existen ciertas
diferencias en las poblaciones, ya sean grandes o pequeñas.
Diferencia no significativa: Cuando la diferencia entre dos muestras es pequeña, de forma que sea del mismo
orden de magnitud que la que se observa en muestras de una misma población.
Una diferencia será de interés en la práctica si supera o no una determinada magnitud de acuerdo
con las necesidades de los analistas. El ancho del intervalo de confianza mostrará la incertidumbre
que tenemos sobre las poblaciones a partir de la información que nos proveerá la muestra. La
amplitud de los intervalos dependerá obviamente del tamaño de las muestras. A un menor
tamaño de muestra, más ancho tendrá el intervalo, aumentando la posibilidad de que contenga al
valor 0. En ese caso se podrá expresar que la diferencia no es significativa. Si una diferencia entre
dos poblaciones es grande, será también más fácil que encontremos diferencias significativas en
las muestras. Pero si la diferencia entre las poblaciones es pequeña, será más difícil detectarlo,
salvo que las muestras que se tomen sean muy grandes.
IC = {20 + 29,2}
Por lo tanto, podemos expresar como conclusión que, bajo las condiciones establecidas, por
encontrarse en el cero comprendido dentro del IC, no existen diferencias relevantes entre ambos
rodamientos.