Tarea 2 Temas Estadísticos

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 8

UNIVERSIDAD MARIANO GALVEZ DE GUATEMALA

CHIQUIMULA, CHIQUIMULA

Catedra:
Estadística I

Catedrática:
Reynaldo Marroquín

Ciclo:
IV Semestre.

Medidas de Variabilidad

Nombre:
Estuardo Francisco
Méndez Ventura.
Sección:
A
Carné:
1390-17-17967

24 de julio del 2020


Temas Estadísticos
Medidas de variabilidad
La variabilidad de una muestra desempeña un papel importante en el análisis de
datos. La variabilidad de procesos y productos es un hecho real en los sistemas
científicos y de ingeniería: el control o la reducción de la variabilidad de un proceso
a menudo es una fuente de mayores dificultades.
Incluso en problemas pequeños de análisis de datos el éxito de un método
estadístico específico podría depender de la magnitud de la variabilidad entre las
observaciones en la muestra.
Rango y desviación estándar de la muestra
Así como hay muchas medidas de tendencia central o de localización, hay muchas
medidas de dispersión o variabilidad. Quizá la más simple sea el rango de la
muestra Xmáx - Xmín. El rango puede ser muy útil y se examina con amplitud en el
capítulo 17 sobre control estadístico de calidad. La medida muestral de dispersión
que se utiliza más a menudo es la desviación estándar de la muestra.
Nuevamente denotemos con x1,x2,..., xn los valores de la muestra.
La varianza de la muestra, denotada con s2, está dada por

La desviación estándar de la muestra, denotada con s, es la raíz cuadrada positiva


de s2, es decir,

Debe de quedarnos claro que la desviación estándar de la muestra es una medida


de variabilidad. La cantidad n-1 a menudo se denomina grados de libertad
asociados con la varianza estimada.
Entonces, el cálculo de la varianza de una muestra no implica n desviaciones
cuadradas independientes de la media x.
En un ejemplo que se estudia ampliamente en el capítulo 10, un ingeniero se
interesa en probar el “sesgo” en un medidor de pH. Los datos se recaban con el
medidor mediante la medición del pH de una sustancia neutra (pH = 7.0). Se toma
una muestra de tamaño 10 y se obtienen los siguientes resultados:
7.07 7.00 7.10 6.97 7.00 7.03 7.01 7.01 6.98 7.08.
La media de la muestra x está dada por
X= 7.07 7.00 + 7.10 . . . 7.08 = 7.0250
10

La varianza de la muestra s2 está dada por:


s² = 7.07 −7.025 ²+ 7.00 −7.025 ²+ 7.10 −7.025 ²+ …+ 7.08 −7.025 ² = 0.001939
9
Como resultado, la desviación estándar de la muestra está dada por
s= √0.001939 = 0.044.

Así que la desviación estándar de la muestra es 0.0440 con n - 1 = 9 grados de


libertad.

¿Cuál es la medida de variabilidad más importante?


Como indicamos antes, el rango de la muestra tiene aplicaciones en el área del
control estadístico de la calidad. Quizás el lector considere que es redundante
utilizar la varianza de la muestra y la desviación estándar de la muestra. Ambas
medidas reflejan el mismo concepto en la variabilidad de la medición, pero la
desviación estándar de la muestra mide la variabilidad en unidades lineales; en
tanto que la varianza muestral se mide en unidades cuadradas. Ambas
desempeñan papeles importantes en el uso de los métodos estadísticos. Mucho
de lo que se logra en el contexto de la inferencia estadística implica la obtención
de conclusiones acerca de las características de poblaciones. Entre tales
características son constantes los denominados parámetros de la población. Dos
parámetros importantes son la media de la población y la varianza de la población.
La varianza de la muestra desempeña un papel explícito en los métodos
estadísticos que se utilizan para obtener inferencias sobre la varianza de la
población. La desviación estándar de la muestra desempeña un papel
importante, junto con la media de la muestra, en las inferencias que se realizan
acerca de la media de la población. En general, la varianza se considera más en la
teoría inferencial, mientras que la desviación estándar se utiliza más en
aplicaciones.
Datos discretos y continuos
La inferencia estadística a través del análisis de estudios observacionales o de
diseños experimentales se utiliza en muchas áreas científicas. Los datos reunidos
pueden ser discretos o continuos, según el área de aplicación. Por ejemplo, un
ingeniero químico podría estar interesado en un experimento que lo lleve a
condiciones en que se maximice la producción. Aquí, por supuesto, la producción
se expresaría en porcentaje, o gramos/libra, medida en un continuo. Por otro lado,
un toxicólogo que realice un experimento de combinación de fármacos quizás
encuentre datos que son binarios por naturaleza (es decir, el paciente responde o
no lo hace).
Con frecuencia la medición que se utiliza en el
análisis es la proporción muestral. En efecto, la situación binaria implica dos
categorías. Si en los datos hay n unidades y x se define como el número que cae
en la categoría 1, entonces n - x cae en la categoría 2. Así, x/n es la proporción
muestral en la categoría 1 y 1 - x/n es la proporción muestral en la categoría 2. En
la aplicación biomédica, por ejemplo, 50 pacientes representarían las unidades de
la muestra y si, después de que se les suministra el medicamento, 20 de los 50
experimentaran mejoría en sus malestares estomacales (que son comunes en los
50), entonces 20/50 0.4 sería la proporción muestral para la cual el medicamento
tuvo éxito, y 1 - 0.4 = 0.6 sería la proporción muestral para la cual el fármaco no
tuvo éxito. En realidad, la medición numérica fundamental para datos binarios por
lo general se denota con 0 o con 1. Éste es el caso de nuestro ejemplo médico, en
el que un resultado exitoso se denota con un 1 y uno no exitoso con un 0.
Entonces, la proporción muestral es en realidad una media muestral de unos y
ceros. Para la categoría de éxitos.

¿Qué clases de problemas se resuelven en situaciones con datos binarios?


Los tipos de problemas que enfrentan científicos e ingenieros que usan datos
binarios no son muy difíciles, a diferencia de aquellos en los que las mediciones
de interés son las continuas. Sin embargo, se utilizan técnicas diferentes debido a
que las propiedades estadísticas de las proporciones muestrales son bastante
diferentes de las medias muestrales que resultan de los promedios tomados de
poblaciones continuas.
Modelado estadístico, inspección científica y diagnósticos gráficos
A menudo, el resultado final de un análisis estadístico es la estimación de los
parámetros de un modelo postulado. Éste es un proceso natural para los
científicos y los ingenieros, ya que con frecuencia usan modelos. Un modelo
estadístico no es determinista, es más bien un modelo que conlleva algunos
aspectos probabilísticos. A menudo una forma de modelo es la base de las
suposiciones que hace el analista. En el ejemplo 1.2 el científico podría desear
determinar, a través de la información de la muestra, algún nivel de distinción
entre las poblaciones tratadas con nitrógeno y las poblaciones no tratadas. El
análisis podría requerir cierto modelo para los datos; por ejemplo, que las dos
muestras provengan de distribuciones normales o gaussianas.
Es evidente que quienes utilizan métodos estadísticos no pueden generar la
información o los datos experimentales suficientes para describir a la totalidad de
la población. Pero es frecuente que se utilicen los conjuntos de datos para
aprender sobre ciertas propiedades de la población.
Con frecuencia el resumen gráfico de un conjunto de datos puede proporcionar
información sobre el sistema del que se obtuvieron los datos. Nos limitamos a
presentar algunas gráficas sencillas, pero a menudo efectivas, que complementan
el estudio de poblaciones estadísticas.
Diagrama de dispersión
Las medias y la variabilidad muestrales se describen bien en el diagrama de
dispersión.
En otras palabras, un modelo se puede escribir como

La forma funcional la elige el científico. A veces el análisis de datos puede sugerir


que se cambie el modelo. Entonces el analista de datos “considera” un modelo
que se pueda alterar después de hacer cierto análisis. El uso de un modelo
empírico va acompañado por la teoría de estimación, donde β0, β1y β2 se estiman
a partir de los datos. Además, la inferencia estadística se puede, entonces, utilizar
para determinar lo adecuado del modelo.

Diagrama de dispersión de la resistencia a la tensión y los porcentajes de algodón.


Aquí se hacen evidentes dos puntos de las dos ilustraciones de datos: 1) el tipo de
modelo que se emplea para describir los datos a menudo depende del objetivo del
experimento, y 2) la estructura del modelo debería aprovechar el insumo científico
no estadístico. La selección de un modelo representa una suposición fundamental
sobre la que se basa la inferencia estadística resultante.
A menudo las gráficas ilustran información que permite que los resultados de la
inferencia estadística formal se comuniquen mejor al científico o al ingeniero. A
veces las gráficas o el análisis exploratorio de los datos pueden enseñar al
analista información que no se obtiene del análisis formal. Las gráficas pueden
resaltar la violación de suposiciones que de otra forma no se notarían.
secciones se presentan algunas herramientas gráficas que son útiles para el
análisis exploratorio o descriptivo de los datos.
Diagrama de tallo y hojas
Cuando se obtienen datos de poblaciones grandes, puede ser de gran utilidad el
diagrama de tallo y hojas para poder estudiar el comportamiento de una manera
más clara.
Comience por dividir cada observación en dos partes: una para el tallo y otra para
las hojas, de manera que el tallo represente el dígito entero que antecede al
decimal y la hoja corresponda a la parte decimal del número. En otras palabras,
para el número 3.7 el dígito 3 se designa al tallo y el 7 a la hoja. Para nuestros
datos los cuatro tallos 1, 2, 3 y 4 se listan verticalmente del lado izquierdo de la
tabla 1.5, en tanto que las hojas se registran en el lado derecho correspondiente al
valor del tallo adecuado. Entonces, la hoja 6 del número 1.6 se registra enfrente
del tallo 1; la hoja 5 del número 2.5 enfrente del tallo 2; y así sucesivamente. El
número de hojas registrado junto a cada tallo se anota debajo de la columna de
frecuencia.
Por lo general elegimos entre 5 y 20 tallos. Cuanto más pequeña sea la cantidad
de datos disponibles, más pequeña será nuestra elección del número de tallos.
El diagrama de tallo y hojas representa una manera eficaz de resumir los datos.
Otra forma consiste en el uso de la distribución de frecuencias, donde los datos,
agrupados en diferentes clases o intervalos, se pueden construir contando las
hojas que pertenecen a cada tallo y considerando que cada tallo define un
intervalo de clase.
Histograma
Una tabla que lista las frecuencias relativas se denomina distribución de
frecuencias relativas.
La información que brinda una distribución de frecuencias relativas en forma
tabular es más fácil de entender si se presenta en forma gráfica. Con los puntos
medios de cada intervalo y las frecuencias relativas correspondientes construimos
un histograma de frecuencias relativas (figura 1.6).

Se dice que una distribución es simétrica si se puede


doblar a lo largo de un eje vertical de manera que ambos
lados coincidan. Si una distribución carece de simetría
respecto de un eje vertical, se dice que está sesgada.
Por lo tanto, si nuestro objetivo principal al observar los
datos es determinar la forma general o la forma de la
distribución, rara vez será necesario construir un
histograma de frecuencias relativas.
Gráfica de caja y bigote o gráfica de caja
La información de estas graficas no pretende ser una prueba formal de valores
extremos, más bien se considera una herramienta de diagnóstico.
Otra presentación que es útil para reflejar propiedades de una muestra es la
gráfica de caja y bigote, la cual encierra el rango intercuartil de los datos en una
caja que contiene la mediana representada. El rango intercuartil tiene como
extremos el percentil 75 (cuartil superior) y el percentil 25 (cuartil inferior). Además
de la caja se prolongan “bigotes”, que indican las observaciones alejadas en la
muestra. Para muestras razonablemente grandes la presentación indica el centro
de localización, la variabilidad y el grado de asimetría.
Además, una variación denominada gráfica de caja puede ofrecer al observador
información respecto de cuáles observaciones son valores extremos. Los valores
extremos son observaciones que se consideran inusualmente alejadas de la masa
de datos.

La figura 1.9 muestra la gráfica de caja y bigote de los datos, la cual describe las
observaciones 0.72 y 0.85 como valores extremos moderados en la cola inferior;
en tanto que la observación 2.55 es un valor extremo moderado en la cola
superior. En este ejemplo el rango intercuartil es 0.365, y 1.5 veces el rango
intercuartil es 0.5475. Por otro lado, la figura 1.10 presenta un diagrama de tallo y
hojas.

También podría gustarte