Natural Resources Biometrics
Natural Resources Biometrics
BIOMETRICS
Diane Kiernan
SUNY College of Environmental Science
and Forestry
SUNY College of Environmental Science and
Forestry
Natural Resources Biometrics
Diane Kiernan
This text is disseminated via the Open Education Resource (OER) LibreTexts Project (https://LibreTexts.org) and like the hundreds
of other texts available within this powerful platform, it is freely available for reading, printing and "consuming." Most, but not all,
pages in the library have licenses that may allow individuals to make changes, save, and print this book. Carefully
consult the applicable license(s) before pursuing such effects.
Instructors can adopt existing LibreTexts texts or Remix them to quickly build course-specific resources to meet the needs of their
students. Unlike traditional textbooks, LibreTexts’ web based origins allow powerful integration of advanced features and new
technologies to support learning.
The LibreTexts mission is to unite students, faculty and scholars in a cooperative effort to develop an easy-to-use online platform
for the construction, customization, and dissemination of OER content to reduce the burdens of unreasonable textbook costs to our
students and society. The LibreTexts project is a multi-institutional collaborative venture to develop the next generation of open-
access texts to improve postsecondary education at all levels of higher learning by developing an Open Access Resource
environment. The project currently consists of 14 independently operating and interconnected libraries that are constantly being
optimized by students, faculty, and outside experts to supplant conventional paper-based books. These free textbook alternatives are
organized within a central environment that is both vertically (from advance to basic level) and horizontally (across different fields)
integrated.
The LibreTexts libraries are Powered by NICE CXOne and are supported by the Department of Education Open Textbook Pilot
Project, the UC Davis Office of the Provost, the UC Davis Library, the California State University Affordable Learning Solutions
Program, and Merlot. This material is based upon work supported by the National Science Foundation under Grant No. 1246120,
1525057, and 1413739.
Any opinions, findings, and conclusions or recommendations expressed in this material are those of the author(s) and do not
necessarily reflect the views of the National Science Foundation nor the US Department of Education.
Have questions or comments? For information about adoptions or adaptions contact [email protected]. More information on our
activities can be found via Facebook (https://facebook.com/Libretexts), Twitter (https://twitter.com/libretexts), or our blog
(http://Blog.Libretexts.org).
This text was compiled on 01/18/2024
TABLE OF CONTENTS
Licensing
Materia Frontal
TitlePage
InfoPage
Tabla de Contenidos
Licencias
3: Prueba de Hipótesis
3.1: Los fundamentos de las pruebas de hipótesis
3.2: Prueba de hipótesis sobre la media poblacional cuando se conoce la desviación estándar de la población
3.3: Prueba de hipótesis sobre la media poblacional cuando se desconoce la desviación estándar de la población
3.4: Prueba de hipótesis para una proporción poblacional
3.5: Prueba de Hipótesis sobre una Varianza
3.6: Armando todo usando el método clásico
1 https://espanol.libretexts.org/@go/page/159981
7.3: Modelo poblacional
7.4: Solución de software
Index
Glossary
Detailed Licensing
Volver Materia
Índice
Glosario
Licenciamiento Detallado
2 https://espanol.libretexts.org/@go/page/159981
Licensing
A detailed breakdown of this resource's licensing can be found in Back Matter/Detailed Licensing.
1 https://espanol.libretexts.org/@go/page/159982
CHAPTER OVERVIEW
Materia Frontal
TitlePage
InfoPage
Tabla de Contenidos
Licencias
This page titled Materia Frontal is shared under a not declared license and was authored, remixed, and/or curated by Diane Kiernan (OpenSUNY)
.
1
Colegio SUNY de Ciencias Ambientales y
Forestales
Biometría de Recursos Naturales
Diane Kiernan
This page titled TitlePage is shared under a not declared license and was authored, remixed, and/or curated by Diane Kiernan (OpenSUNY) .
TitlePage by Diane Kiernan has no license indicated.
This text is disseminated via the Open Education Resource (OER) LibreTexts Project (https://LibreTexts.org) and like the hundreds
of other texts available within this powerful platform, it is freely available for reading, printing and "consuming." Most, but not all,
pages in the library have licenses that may allow individuals to make changes, save, and print this book. Carefully
consult the applicable license(s) before pursuing such effects.
Instructors can adopt existing LibreTexts texts or Remix them to quickly build course-specific resources to meet the needs of their
students. Unlike traditional textbooks, LibreTexts’ web based origins allow powerful integration of advanced features and new
technologies to support learning.
The LibreTexts mission is to unite students, faculty and scholars in a cooperative effort to develop an easy-to-use online platform
for the construction, customization, and dissemination of OER content to reduce the burdens of unreasonable textbook costs to our
students and society. The LibreTexts project is a multi-institutional collaborative venture to develop the next generation of open-
access texts to improve postsecondary education at all levels of higher learning by developing an Open Access Resource
environment. The project currently consists of 14 independently operating and interconnected libraries that are constantly being
optimized by students, faculty, and outside experts to supplant conventional paper-based books. These free textbook alternatives are
organized within a central environment that is both vertically (from advance to basic level) and horizontally (across different fields)
integrated.
The LibreTexts libraries are Powered by NICE CXOne and are supported by the Department of Education Open Textbook Pilot
Project, the UC Davis Office of the Provost, the UC Davis Library, the California State University Affordable Learning Solutions
Program, and Merlot. This material is based upon work supported by the National Science Foundation under Grant No. 1246120,
1525057, and 1413739.
Any opinions, findings, and conclusions or recommendations expressed in this material are those of the author(s) and do not
necessarily reflect the views of the National Science Foundation nor the US Department of Education.
Have questions or comments? For information about adoptions or adaptions contact [email protected]. More information on our
activities can be found via Facebook (https://facebook.com/Libretexts), Twitter (https://twitter.com/libretexts), or our blog
(http://Blog.Libretexts.org).
This text was compiled on 01/18/2024
This page titled InfoPage is shared under a not declared license and was authored, remixed, and/or curated by Diane Kiernan (OpenSUNY) .
TABLE OF CONTENTS
Licensing
Materia Frontal
TitlePage
InfoPage
Tabla de Contenidos
Licencias
3: Prueba de Hipótesis
3.1: Los fundamentos de las pruebas de hipótesis
3.2: Prueba de hipótesis sobre la media poblacional cuando se conoce la desviación estándar de la población
3.3: Prueba de hipótesis sobre la media poblacional cuando se desconoce la desviación estándar de la población
3.4: Prueba de hipótesis para una proporción poblacional
3.5: Prueba de Hipótesis sobre una Varianza
3.6: Armando todo usando el método clásico
1 https://espanol.libretexts.org/@go/page/149458
7.3: Modelo poblacional
7.4: Solución de software
Index
Glossary
Detailed Licensing
Volver Materia
Índice
Glosario
Licenciamiento Detallado
Tabla de Contenidos is shared under a not declared license and was authored, remixed, and/or curated by LibreTexts.
2 https://espanol.libretexts.org/@go/page/149458
Licencias
A detailed breakdown of this resource's licensing can be found in Back Matter/Detailed Licensing.
Licencias is shared under a not declared license and was authored, remixed, and/or curated by LibreTexts.
1 https://espanol.libretexts.org/@go/page/149459
CHAPTER OVERVIEW
This page titled 1: Estadística descriptiva y distribución normal is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or
curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit
history is available upon request.
1
1.1: Estadística Descriptiva
Una población es el grupo a estudiar, y los datos poblacionales son una recopilación de todos los elementos de la población. Por
ejemplo:
Todos los peces en Long Lake.
Todos los lagos del Parque Adirondack.
Todos los osos pardos en el Parque Nacional Yellowstone.
Una muestra es un subconjunto de datos extraídos de la población de interés. Por ejemplo:
100 peces muestreados aleatoriamente de Long Lake.
25 lagos seleccionados al azar del Parque Adirondack.
60 osos grizzly con un rango local en el Parque Nacional Yellowstone.
Image35759.PNG
Las variables son las características que nos interesan. Por ejemplo:
La longitud de los peces en Long Lake.
El pH de los lagos en el Parque Adirondack.
El peso de los osos pardos en el Parque Nacional Yellowstone.
Las variables se dividen en dos grupos principales: cualitativas y cuantitativas. Las variables cualitativas tienen valores que son
atributos o categorías. Las operaciones matemáticas no pueden aplicarse a variables cualitativas. Ejemplos de variables cualitativas
son el género, la raza y el color de los pétalos. Las variables cuantitativas tienen valores que suelen ser numéricos, como las
mediciones. Las operaciones matemáticas se pueden aplicar a estos datos. Ejemplos de variables cuantitativas son la edad, la talla y
la longitud. Las variables cuantitativas se pueden desglosar en dos categorías más: variables discretas y continuas. Las variables
discretas tienen un número finito o contable de valores posibles. Piense en las variables discretas como “gallinas”. Las gallinas
pueden poner 1 huevo, o 2 huevos, o 13 huevos... Hay un número limitado y definible de valores que la variable podría asumir.
958.png
Las variables continuas tienen un número infinito de valores posibles. Piense en las variables continuas como “vacas”. Las vacas
pueden dar 4.6713245 galones de leche, o 7.0918754 galones de leche, o 13.272698 galones de leche... Hay un número casi infinito
de valores que una variable continua podría asumir.
948.png
Ejemplo1.1.1:
Medidas Descriptivas
Las medidas descriptivas de las poblaciones se denominan parámetros y generalmente se escriben con letras griegas. La media
poblacional esμ (mu). La varianza poblacional esσ (sigma cuadrada) y la desviación estándar poblacional esσ (sigma). Las
2
1.1.1 https://espanol.libretexts.org/@go/page/149481
medidas descriptivas de las muestras se denominan estadísticas y generalmente se escriben con letras romanas. La media de la
muestra esx̄ (barra x). La varianza muestral ess y la desviación estándar de la muestra ess . Se utilizan estadísticas de muestra para
2
estimar parámetros poblacionales desconocidos. En esta sección, examinaremos estadísticas descriptivas en términos de medidas de
centro y medidas de dispersión. Estas estadísticas descriptivas nos ayudan a identificar el centro y la difusión de los datos.
Medidas de Centro
Media
La media aritmética de una variable, a menudo llamada promedio, se calcula sumando todos los valores y dividiendo por el número
total de valores. La media poblacional está representada por la letra griegaμ (mu). La media de la muestra está representada porx̄
(barra x). La media muestral suele ser la mejor estimación imparcial de la media poblacional. Sin embargo, la media está
influenciada por valores extremos (valores atípicos) y puede no ser la mejor medida del centro con datos fuertemente sesgados. Las
siguientes ecuaciones calculan la media poblacional y la media muestral.
$$\ mu =\ frac {\ sum x_i} {N}\]
$$\ bar x =\ frac {\ sum x_i} {n}\]
dondex es un elemento en el conjunto de datos,N es el número de elementos en la población, yn es el número de elementos en el
i
Ejemplo1.1.2: mean
Mediana
La mediana de una variable es el valor medio del conjunto de datos cuando los datos se ordenan en orden de menor a mayor.
Divide los datos en dos mitades iguales con 50% de los datos por debajo de la mediana y 50% por encima de la mediana. La
mediana es resistente a la influencia de valores atípicos, y puede ser una mejor medida del centro con datos fuertemente sesgados.
Image35835.PNG
1.1.2 https://espanol.libretexts.org/@go/page/149481
Modo
El modo es el valor que ocurre con mayor frecuencia y se usa comúnmente con datos cualitativos ya que los valores son
categóricos. Los datos categóricos no se pueden sumar, restar, multiplicar o dividir, por lo que no se pueden calcular la media y la
mediana. El modo es menos utilizado con datos cuantitativos como medida del centro. A veces cada valor ocurre solo una vez y el
modo no será significativo.
Comprender la relación entre la media y la mediana es importante. Nos da una idea de la distribución de la variable. Por ejemplo, si
la distribución está sesgada a la derecha (sesgada positivamente), la media aumentará para dar cuenta de las pocas observaciones
más grandes que tiran la distribución hacia la derecha. La mediana se verá menos afectada por estos valores extremadamente
grandes, por lo que en esta situación, la media será mayor que la mediana. En una distribución simétrica, la media, la mediana y el
modo serán todos similares en valor. Si la distribución está sesgada a la izquierda (sesgada negativamente), la media disminuirá
para dar cuenta de las pocas observaciones más pequeñas que tiran de la distribución hacia la izquierda. Nuevamente, la mediana se
verá menos afectada por estas observaciones extremadamente pequeñas, y en esta situación, la media será menor que la mediana.
Image35846.PNG
Medidas de Dispersión
Las medidas del centro miran los valores promedio o medios de un conjunto de datos. Las medidas de dispersión observan la
propagación o variación de los datos. La variación se refiere a la cantidad que los valores varían entre ellos. Los valores en un
conjunto de datos que están relativamente cerca entre sí tienen menores medidas de variación. Los valores que se encuentran más
separados tienen mayores medidas de variación.
Examine los dos histogramas a continuación. Ambos grupos tienen el mismo peso medio, pero los valores del Grupo A están más
dispersos en comparación con los valores del Grupo B. Ambos grupos tienen un peso promedio de 267 lb pero los pesos del Grupo
A son más variables.
860.png
Rango
El rango de una variable es el valor más grande menos el valor más pequeño. Es la medida más simple y utiliza sólo estos dos
valores en un conjunto de datos cuantitativos.
Varianza
La varianza utiliza la diferencia entre cada valor y su media aritmética. Las diferencias son cuadradas para hacer frente a las
diferencias positivas y negativas. La varianza muestral (s ) es un estimador imparcial de la varianza poblacional (σ ), con n-1
2 2
grados de libertad.
Grados de libertad: En general, los grados de libertad para una estimación son iguales al número de valores menos el número de
parámetros estimados en ruta a la estimación en cuestión.
La varianza muestral es imparcial debido a la diferencia en el denominador. Si usáramos “n” en el denominador en lugar de “n —
1”, subestimaríamos consistentemente la verdadera varianza poblacional. Para corregir este sesgo, el denominador se modifica a “n
— 1”.
1.1.3 https://espanol.libretexts.org/@go/page/149481
Definición: varianza poblacional
$$\ sigma ^2 =\ frac {\ sum (x_i-\ mu) ^2} {N}\]
Desviación estándar
La desviación estándar es la raíz cuadrada de la varianza (tanto población como muestra). Mientras que la varianza muestral es el
estimador positivo e imparcial para la varianza poblacional, las unidades para la varianza son cuadradas. La desviación estándar es
un método común para describir numéricamente la distribución de una variable. La desviación estándar de la población es σ
(sigma) y la desviación estándar de la muestra es s.
Ejemplo1.1.7:
Calcular la desviación estándar de los datos de la muestra: 3, 5, 7 con una media muestral de 5.
Solución
La media muestral (x̄) es 5, utilizando la definición de desviación estándar
$$s =\ sqrt {\ frac {(3-5) ^2+ (5-5) ^2+ (7-5) ^2} {3-1}} =\ sqrt {4} = 2\]
1.1.4 https://espanol.libretexts.org/@go/page/149481
La media muestral (x̄) es una variable aleatoria con su propia distribución de probabilidad llamada distribución muestral de la
media muestral. La distribución de la media muestral tendrá una media igual a µ y una desviación estándar igual a s
√n
Nota
El error estándar s
√n
es la desviación estándar de todas las medias de muestra posibles.
En realidad, solo tomaríamos una muestra, pero necesitamos entender y cuantificar la variabilidad muestra a muestra que ocurre en
el proceso de muestreo.
El error estándar es la desviación estándar de las medias de la muestra y se puede expresar de diferentes maneras.
$s_ {\ bar x} =\ sqrt {\ frac {s^2} {n}} =\ frac {s} {\ sqrt {n}}\]
Nota
Ejemplo1.1.8:
√6
Si aumenta el tamaño de la muestra a 10, la media de la muestra se distribuirá normalmente con una media de 8 lb y una
desviación estándar (error estándar) de = 0.822 lb.
2.6
√10
Observe cómo el error estándar disminuye a medida que aumenta el tamaño de la muestra.
El Teorema del Límite Central (CLT) establece que la distribución muestral de las medias muestrales se aproximará a una
distribución normal a medida que aumente el tamaño de la muestra. Si no tenemos una distribución normal, o no sabemos nada de
nuestra distribución de nuestra variable aleatoria, el CLT nos dice que la distribución de los x̄ se volverá normal a medida que n
aumente. ¿Qué tan grande tiene que ser n? Una regla general nos dice que n ≥ 30.
Nota
El Teorema del Límite Central nos dice que independientemente de la forma de nuestra población, la distribución muestral de
la media muestral será normal a medida que aumente el tamaño de la muestra.
Coeficiente de variación
Comparar las desviaciones estándar entre diferentes poblaciones o muestras es difícil porque la desviación estándar depende de las
unidades de medida. El coeficiente de variación expresa la desviación estándar como porcentaje de la media de la muestra o
población. Es una medida sin unidades.
Definición: CV de Población
Definición: cv de muestra
Ejemplo1.1.9:
Los biólogos pesqueros estudiaban la longitud y el peso del salmón del Pacífico. Tomaron una muestra aleatoria y calcularon la
media y la desviación estándar para la longitud y el peso (dados a continuación). Si bien las desviaciones estándar son
1.1.5 https://espanol.libretexts.org/@go/page/149481
similares, las diferencias en unidades entre longitudes y pesos dificultan la comparación de la variabilidad. El cálculo del
coeficiente de variación para cada variable permite a los biólogos determinar qué variable tiene la mayor desviación estándar.
Largo 63 cm 19.97 cm
685.png 678.png
Existe una mayor variabilidad en el peso del salmón del Pacífico en comparación con la longitud.
Variabilidad
La variabilidad se describe de muchas maneras diferentes. La desviación estándar mide la variabilidad punto a punto dentro de
una muestra, es decir, la variación entre unidades de muestreo individuales. El coeficiente de variación también mide la
variabilidad punto a punto pero sobre una base relativa (relativa a la media), y no está influenciado por las unidades de medida. El
error estándar mide la variabilidad de muestra a muestra, es decir, la variación entre muestras repetidas en el proceso de
muestreo. Normalmente, solo tenemos una muestra y el error estándar nos permite cuantificar la incertidumbre en nuestro proceso
de muestreo.
Cuadro 1. Datos de muestra sobre el número de troncos caídos por acre del bosque de Heiburg.
(1) Media de la muestra: 654.png
(2) Mediana = 35
(3) Varianza:
644.png
(5) Rango: 55 — 5 = 50
(6) Coeficiente de variación:
625.png
Soluciones de Software
Minitab
Abra Minitab e ingrese datos en la hoja de cálculo. Seleccione ESTADO>Estadísticas descriptivas y verifique todas las estadísticas
requeridas.
008_1.tif 008_2.tif
1.1.6 https://espanol.libretexts.org/@go/page/149481
Datos 35.00 45.00 55.00 25.00
Excel
Abre Excel e ingresa los datos en la primera columna de la hoja de cálculo. Seleccionar datos>Análisis de datos>Estadística
Descriptiva. Para el Rango de Entrada, seleccione los datos en la columna A. Marque “Etiquetas en Primera Fila” y “Estadísticas
de Resumen”. También marque “Rango de salida” y seleccione la ubicación para la salida.
009_2.tif
009_1.tif
Datos
Media 32.27273
Mediana 35
Modo 25
Curtosis -0.73643
Asimetría -0.05982
Rango 50
Mínimo 5
Máximo 55
Suma 355
Contar 11
Representación Gráfica
La organización y el resumen de los datos se pueden hacer gráficamente, así como numéricamente. Las tablas y gráficas permiten
una rápida visión general de la información recopilada y apoyan la presentación de los datos utilizados en el proyecto. Si bien hay
multitud de gráficos disponibles, este capítulo se centrará en algunas herramientas específicas de uso común.
Gráficos circulares
Los gráficos circulares son una buena herramienta visual que permite al lector ver rápidamente la relación entre categorías. Es
importante etiquetar claramente cada categoría, y agregar la frecuencia o frecuencia relativa suele ser útil. Sin embargo, demasiadas
categorías pueden resultar confusas. Tenga cuidado de poner demasiada información en un gráfico circular. El primer gráfico
circular da una idea clara de la representación de los tipos de peces en relación con toda la muestra. El segundo gráfico circular es
más difícil de interpretar, con demasiadas categorías. Es importante seleccionar el mejor gráfico a la hora de presentar la
información al lector.
542.png
Figura 5. Comparación de un gráfico de barras para datos cualitativos y un histograma para datos cuantitativos.
En ambos casos, el ancho igual de las barras y el eje y están claramente definidos. Con datos cualitativos, cada categoría está
representada por una barra específica. Con datos continuos, los límites de clase inferior y superior deben definirse con anchos de
1.1.7 https://espanol.libretexts.org/@go/page/149481
clase iguales. No debe haber brechas entre clases y cada observación debe caer en una, y sólo una, clase.
Parcelas de caja
Las gráficas de caja utilizan el resumen de 5 números (valores mínimo y máximo con los tres cuartiles) para ilustrar el centro, la
dispersión y la distribución de sus datos. Cuando se emparejan con histogramas, dan una excelente descripción, tanto numérica
como gráfica, de los datos.
Con datos simétricos, la distribución es acampanada y algo simétrica. En la gráfica de caja, vemos que Q1 y Q3 son
aproximadamente equidistantes de la mediana, al igual que los valores mínimo y máximo. Además, ambos bigotes (líneas que se
extienden desde las cajas) son aproximadamente iguales en longitud.
012_2.tif
012_1.tif
Con distribuciones derechas sesgadas, vemos que el histograma parece “tirado” a la derecha. En la gráfica de caja, Q3 está más
lejos de la mediana, al igual que el valor máximo, y el bigote derecho es más largo que el bigote izquierdo.
014_2.tif
014_1.tif
This page titled 1.1: Estadística Descriptiva is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane
Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available
upon request.
1.1: Descriptive Statistics by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-
resources-biometrics.
1.1.8 https://espanol.libretexts.org/@go/page/149481
1.2: Distribución de probabilidad
Una vez que hayamos organizado y resumido sus datos de muestra, el siguiente paso es identificar la distribución subyacente de
nuestra variable aleatoria. Las probabilidades de cálculo para variables aleatorias continuas se complican por el hecho de que hay
un número infinito de valores posibles que nuestra variable aleatoria puede asumir, por lo que la probabilidad de observar un valor
particular para una variable aleatoria es cero. Por lo tanto, para encontrar las probabilidades asociadas a una variable aleatoria
continua, utilizamos una función de densidad de probabilidad (PDF).
Un PDF es una ecuación utilizada para encontrar probabilidades para variables aleatorias continuas. El PDF debe cumplir con las
siguientes dos reglas:
1. El área bajo la curva debe ser igual a uno (sobre todos los valores posibles de la variable aleatoria).
2. Las probabilidades deben ser iguales o mayores que cero para todos los valores posibles de la variable aleatoria.
El área bajo la curva de la función de densidad de probabilidad en algún intervalo representa la probabilidad de observar esos
valores de la variable aleatoria en ese intervalo.
La distribución normal
Muchas variables aleatorias continuas tienen una distribución en forma de campana o algo simétrica. Esta es una distribución
normal. En otras palabras, la distribución de probabilidad de su histograma de frecuencia relativa sigue una curva normal. La curva
es en forma de campana, simétrica alrededor de la media y definida por µ y σ (la media y desviación estándar).
Kiernan_media015.png
07_fig05b
1.2.1 https://espanol.libretexts.org/@go/page/149482
Mesa Normal Estándar
La tabla normal estándar da probabilidades asociadas con puntuaciones Z específicas.
La tabla que utilizamos es acumulativa desde la izquierda.
El lado negativo es para todas las puntuaciones Z menores que cero (todos los valores menores que la media).
El lado positivo es para todas las puntuaciones Z mayores que cero (todos los valores mayores que la media).
No todas las mesas normales estándar funcionan de la misma manera.
Ejemplo1.2.1:
Ejemplo1.2.2:
Para encontrar una puntuación Z para la que el área a la derecha sea del 5%:
Dado que la tabla es acumulativa desde la izquierda, se debe utilizar el complemento del 5%.
1.000– 0.05 = 0.9500 (1.2.2)
Image36062.PNG
Ejemplo1.2.3 :
Para encontrar puntuaciones Z que limiten el 95% medio:
Image36080.PNG
Figura 14. El 95% medio del área bajo una curva normal.
1.2.2 https://espanol.libretexts.org/@go/page/149482
Soluciones
El 95% medio tiene 2.5% a la derecha y 2.5% a la izquierda.
Usa la simetría de la curva.
Mira tu mesa normal estándar. Dado que la tabla es acumulativa desde la izquierda, es más fácil encontrar primero el área a
la izquierda.
Encuentra el área de 0.025 en el lado negativo de la mesa.
El puntaje Z para el área a la izquierda es de -1.96.
Dado que la curva es simétrica, la puntuación Z para el área a la derecha es de 1.96.
Puntajes Z comunes
Hay muchos puntajes Z de uso común:
Z.05= 1.645 y el área entre -1.645 y 1.645 es 90%
Z.025= 1.96 y el área entre -1.96 y 1.96 es 95%
Z.005= 2.575 y el área entre -2.575 y 2.575 es 99%
Por ejemplo, si una variable aleatoria normalmente distribuida tiene un μ = 6 y σ = 2, entonces un valor de x = 7 corresponde a una
puntuación Z de 0.5.
7 −6
Z = = 0.5 (1.2.4)
2
Esto te dice que 7 es la mitad de una desviación estándar por encima de su media. Podemos usar esta relación para encontrar
probabilidades para cualquier variable aleatoria normal.
07_fig33
Ejemplo1.2.4:
Los pesos de la población de venados adultos normalmente se distribuyen con µ = 110 lbs. y σ = 29.7 lb. Como biólogo
determinas que un peso menor a 82 lbs. no es saludable y quieres saber qué proporción de tu población no es saludable.
P (x<82)
Image36098.PNG
1.2.3 https://espanol.libretexts.org/@go/page/149482
Figura 17. Área bajo una curva normal estándar para P (z<-0.94).
Ir a la tabla normal estándar (lado negativo) y encontrar el área asociada con una puntuación Z de -0.94.
Este es un problema de “área a la izquierda” por lo que puedes leer directamente de la tabla para obtener la probabilidad.
P (x < 82) = 0.1736 (1.2.7)
Aproximadamente 17.36% de la población de venados adultos tiene bajo peso, O un venado elegido al azar tendrá una
probabilidad de 17.36% de pesar menos de 82 lb.
Ejemplo1.2.5:
Estadísticas del Centro Climático Regional del Medio Oeste indican que Jones City, que cuenta con un gran refugio de vida
silvestre, obtiene un promedio de 36.7 pulg. de lluvia cada año con una desviación estándar de 5.1 pulg. La cantidad de lluvia
se distribuye normalmente. ¿Durante qué porcentaje de los años Jones City obtiene más de 40 pulg. de lluvia?
P (x > 40) (1.2.8)
Image36118.PNG
Evaluar la normalidad
Si se desconoce la distribución y el tamaño de la muestra no es mayor a 30 (Teorema de Límite Central), tenemos que evaluar el
supuesto de normalidad. Nuestro método principal es la gráfica de probabilidad normal. Esta gráfica grafica los datos observados,
clasificados en orden ascendente, contra la puntuación Z “esperada” de ese rango. Si los datos de la muestra fueran tomados de una
variable aleatoria normalmente distribuida, entonces la gráfica sería aproximadamente lineal.
Examine la siguiente gráfica de probabilidad. La línea central es la relación que esperaríamos ver si los datos fueron dibujados a
partir de una distribución perfectamente normal. Observe cómo los datos observados (puntos rojos) siguen vagamente esta relación
lineal. Minitab también calcula una prueba de Anderson-Darling para evaluar la normalidad. La hipótesis nula para esta prueba es
que los datos de la muestra han sido extraídos de una población normalmente distribuida. Un valor p mayor a 0.05 apoya la
suposición de normalidad.
314.png
Figura 19. Una gráfica de probabilidad normal generada usando Minitab 16.
Compare el histograma y la gráfica de probabilidad normal en este siguiente ejemplo. El histograma indica una distribución
derecha sesgada.
304.png
Figura 20. Histograma y gráfica de probabilidad normal para datos de derecha sesgada.
Los datos observados no siguen un patrón lineal y el valor p para la prueba A-D es menor a 0.005 lo que indica una distribución
poblacional no normal.
La normalidad no puede ser asumida. Siempre debes verificar esta suposición. Recuerda, las probabilidades que estamos
encontrando provienen de la tabla NORMAL estándar. Si nuestros datos NO están distribuidos normalmente, entonces estas
probabilidades NO APLICAN.
¿Sabes si la población se distribuye normalmente?
¿Tiene un tamaño de muestra lo suficientemente grande (n≥30)? ¿Recuerdas el teorema del límite central?
¿Construyó una gráfica de probabilidad normal?
1.2.4 https://espanol.libretexts.org/@go/page/149482
This page titled 1.2: Distribución de probabilidad is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by
Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is
available upon request.
1.2: Probability Distribution by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-
resources-biometrics.
1.2.5 https://espanol.libretexts.org/@go/page/149482
CHAPTER OVERVIEW
This page titled 2: Distribuciones de muestreo e intervalos de confianza is shared under a CC BY-NC-SA 3.0 license and was authored, remixed,
and/or curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed
edit history is available upon request.
1
2.1: Distribución por muestreo de la media muestral
Las pruebas inferenciales utilizan la media muestral (x̄) para estimar la media poblacional (μ ). Normalmente, utilizamos los datos
de una sola muestra, pero hay muchas muestras posibles del mismo tamaño que podrían extraerse de esa población. Como vimos en
el capítulo anterior, la media muestral (x̄) es una variable aleatoria con distribución propia.
La distribución de la media muestral tendrá una media igual a µ.
Tendrá una desviación estándar (error estándar) igual a σ
√n
Debido a que nuestras inferencias sobre la media poblacional se basan en la media de la muestra, nos enfocamos en la distribución
de la media muestral. ¿Es normal? ¿Y si nuestra población normalmente no está distribuida o no sabemos nada sobre la
distribución de nuestra población?
Entonces, si no tenemos una distribución normal, o no sabemos nada de nuestra distribución, el CLT nos dice que la distribución de
las medias muestrales (x̄ ) se volverá normal distribuida a medida que n (tamaño de la muestra) aumente. ¿Qué tan grande tiene que
ser n? Una regla general nos dice que n ≥ 30.
El Teorema del Límite Central nos dice que independientemente de la forma de nuestra población, la distribución muestral de la
media muestral será normal a medida que aumente el tamaño de la muestra.
Estás estudiando el número de árboles de cavidad en el Bosque Nacional Monongahela para hábitat de vida silvestre. Tiene un
tamaño de muestra de n = 950 árboles y, de esos árboles, x = 238 árboles con cavidades. Calcular la proporción muestral.
Un árbol de forma natural hueco en la base del árbol. (CC BY 2.0; Lauren “Lolly” Weinhold).
Solución
Esta es una simple aplicación de la ecuación\ ref {sampleproption}:
238
^ =
p = 0.25
950
2.1.1 https://espanol.libretexts.org/@go/page/149447
La distribución de la proporción muestral tiene una media de $$\ mu_ {\ hat {p}} = p\]
y tiene una desviación estándar de $$\ sigma_ {\ hat {p}} =\ sqrt {\ frac {p (1-p)} {n}}.\]
La proporción muestral se distribuye normalmente sin es muy grande y nop^ es cercana a 0 o 1. También podemos utilizar la
siguiente relación para evaluar la normalidad cuando el parámetro que se estima es p, la proporción poblacional:
^(1 − p
np ^) ≥ 10 (2.1.2)
This page titled 2.1: Distribución por muestreo de la media muestral is shared under a CC BY-NC-SA 3.0 license and was authored, remixed,
and/or curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed
edit history is available upon request.
2.1: Sampling Distribution of the Sample Mean by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source:
https://milneopentextbooks.org/natural-resources-biometrics.
2.1.2 https://espanol.libretexts.org/@go/page/149447
2.2: Intervalos de confianza
En el capítulo anterior aprendimos que las poblaciones se caracterizan por medidas descriptivas llamadas parámetros. Las inferencias sobre los parámetros se basan en estadísticas de
muestra. Ahora queremos estimar los parámetros poblacionales y evaluar la confiabilidad de nuestras estimaciones con base en nuestro conocimiento de las distribuciones de muestreo
de estas estadísticas.
Estimaciones de puntos
Comenzamos con una estimación puntual. Se trata de un valor único calculado a partir de los datos de la muestra que se utiliza para estimar el parámetro poblacional de interés.
La media muestral (x̄) es una estimación puntual de la media poblacional (μ ).
La proporción muestral (p^ ) es la estimación puntual de la proporción poblacional (p).
Utilizamos estimaciones puntuales para construir intervalos de confianza para parámetros desconocidos.
Un intervalo de confianza es un intervalo de valores en lugar de una estimación de un solo punto.
El nivel de confianza corresponde a la proporción esperada de intervalos que contendrán el parámetro si se construyen muchos intervalos de confianza del mismo tamaño de
muestra de la misma población.
Nuestra incertidumbre se refiere a si nuestro intervalo de confianza particular es uno de los que realmente contiene el verdadero valor del parámetro.
Estamos 95% seguros de que nuestro intervalo contiene el peso medio del oso de la población.
Si creamos 100 intervalos de confianza del mismo tamaño a partir de una misma población, esperaríamos que 95 de ellos contengan el parámetro verdadero (el peso medio
poblacional). También esperamos que cinco de los intervalos no contendrían el parámetro.
o
^−E < p < p
p ^+E (2.2.2)
Intervalos de Confianza sobre la Media (μ) cuando se conoce la Desviación Estándar de la Población (σ)
Un intervalo de confianza toma la forma de: ±margen de error estimado de punto.
La estimación del punto
La estimación puntual proviene de los datos de la muestra.
Para estimar la media poblacional (μ ), utilice la media muestral (x̄) como estimación puntual.
El margen de error
Depende del nivel de confianza, el tamaño de la muestra y la desviación estándar de la población.
Se calcula comoE = Z × α
σ
√n
dondeZ está el valor crítico de la tabla normal estándar asociada con α (el nivel de significancia).
α
2 2
El valor críticoZ α
2.2.1 https://espanol.libretexts.org/@go/page/149448
3168.png
Figura2.2.1 : El área media del 95% bajo una curva normal estándar.
El nivel de significancia (α) se divide en mitades porque estamos mirando el 95% medio del área bajo la curva.
Acude a tu tabla normal estándar y encuentra el área de 0.025 en el cuerpo de valores.
¿Cuál es el puntaje Z para esa área?
Las puntuaciones Z de ± 1.96 son las puntuaciones Z críticas para un intervalo de confianza del 95%.
3159.png
Pasos
Construcción de un intervalo de confianza sobreμ cuándoσ se conoce:
1. Z (valor crítico)
α
2. E = Z × α(margen de error)
σ
2 √n
Los investigadores han estado estudiando la carga p en Jones Lake durante muchos años. Se sabe que la claridad media del agua (usando un disco Secchi) se distribuye
normalmente con una desviación estándar poblacional de σ = 15.4 pulg. Se tomó una muestra aleatoria de 22 mediciones en diversos puntos del lago con una media muestral de x̄
= 57.8 pulg. Los investigadores quieren que construyas un intervalo de confianza del 95% para μ, la claridad media del agua.
2)E = Z α ×
σ
=1.96 × 15.4
= 6.435
2 √n √22
2)E = Z α
×
σ
√n
=2.575 × 15.4
√22
= 8.454
2
Soluciones de Software
Minitab
Puede usar Minitab para construir este intervalo de confianza del 95% (Excel no construye intervalos de confianza sobre la media cuando se conoce la desviación estándar de la
población). Seleccionar Estadística básica>1-Muestra Z. Ingresa la desviación estándar de la población conocida y selecciona el nivel de confianza requerido.
030_2.tif
030_1.tif
2.2.2 https://espanol.libretexts.org/@go/page/149448
Intervalos de confianza sobre la Media (μ) cuando la Desviación Estándar de la Población (σ) es Desconocida
Por lo general, en la vida real muchas veces no conocemos la desviación estándar de la población (σ). Podemos utilizar la desviación estándar de la muestra en lugar de σ. Sin
embargo, debido a este cambio, no podemos usar la distribución normal estándar para encontrar los valores críticos necesarios para construir un intervalo de confianza.
La distribución t de Student se creó para situaciones en las que σ era desconocida. Gosset trabajó como ingeniero de control de calidad para Guinness Brewery en Dublín. Encontró
errores en sus pruebas y sabía que se debía al uso de s en lugar de σ. Creó esta distribución para hacer frente al problema de una desviación estándar poblacional desconocida y
pequeños tamaños muestrales. A continuación se muestra una porción de la tabla t.
3032.png
Ejemplo2.2.4
Solución
Grados de libertad (abajo de la columna de la izquierda) es igual a n-1 = 12
α = 0.05 y α/2 = 0.025
Bajar la columna 0.025 a 12 df
t = 2.179
α
Los valores críticos de la distribución t de los estudiantes se acercan a los valores críticos de la distribución normal estándar a medida que aumenta el tamaño de la muestra (n).
3002.png
2. E = t α
×
√n
s
3. x̄ ± E
Ejemplo2.2.5:
Investigadores que estudian los efectos de la lluvia ácida en las montañas Adirondack recolectaron muestras de agua de 22 lagos. Midieron el pH (acidez) del agua y quieren
construir un intervalo de confianza del 99% sobre el pH medio del lago para esta región. La media muestral es 6.4438 con una desviación estándar muestral de 0.7120. No saben
nada sobre la distribución del pH de esta población, y la muestra es pequeña (n<30), por lo que miran una gráfica de probabilidad normal.
2970.png
2)E = t α
×
√n
s
=2.831 × 0.7120
√22
= 0.4297
2
2)E = t α
×
√n
s
=1.71221 × 0.7120
√22
0.2612
2
Soluciones de Software
Minitab
Para Minitab, ingrese los datos en la hoja de cálculo y seleccione Estadísticas básicas y prueba t de 1 muestra.
035_2.tif 035_1.tif
2.2.3 https://espanol.libretexts.org/@go/page/149448
T de una muestra: pH
Ejemplo adicional:
Excel
Para Excel, ingrese los datos en la hoja de cálculo y seleccione estadísticas descriptivas. Consulta Estadísticas de Resumen y selecciona el nivel y la confianza.
034_2.tif 034_1.tif
Media 6.442909
Mediana 6.4925
Modo #N /A
Curtosis -0.5007
Asimetría -0.60591
Rango 2.338
Mínimo 5.113
Máximo 7.451
Suma 141.744
Contar 22
Excel te da la media muestral en la primera línea (6.442909) y el margen de error en la última línea (0.26121). Debe completar el cálculo usted mismo para obtener el intervalo
(6.442909±0.26121).
2
−−−−−
^(1−p
p ^)
2. E = Z α
×√
n
(margen de error)
2
Ejemplo2.2.6:
Un botánico ha producido una nueva variedad de soja híbrida que es mejor capaz de soportar la sequía. Ella quiere construir un intervalo de confianza del 95% sobre la tasa de
germinación (porcentaje de germinación). Ella seleccionó al azar 500 semillas y encontró que 421 han germinado.
Solución
Primero, compute la estimación del punto
x 421
^ =
p = = 0.842 (2.2.4)
n 500
Comprobar normalidad:
$$n\ times\ hat {p}\ times (1-\ hat {p})\ ge 10 = 500\ times 0.842\ times (1-0.842) =66,5\]
Se puede asumir una distribución normal.
Ahora construye el intervalo de confianza:
1)Z α
= 1.96
2
−−−−− −−−−−−−−−
^(1−p
p ^) 0.842(1−0.842)
2)E = Z α ×√
n
=1.96 × √ 500
= 0.032
2
2.2.4 https://espanol.libretexts.org/@go/page/149448
El intervalo de confianza del 95% para la tasa de germinación es (81.0%, 87.4%).
Podemos estar 95% seguros de que este intervalo contiene la verdadera tasa de germinación para esta población.
Soluciones de Software
Minitab
Puede usar Minitab para calcular el intervalo de confianza. Seleccione estado>Estados básicos>1-proporción. Seleccione los datos resumidos e ingrese el número de eventos (421) y el
número de ensayos (500). Haga clic en Opciones y seleccione el nivel de confianza correcto. Verificar “prueba e intervalo basado en la distribución normal” si se ha verificado el
supuesto de normalidad.
036_1.tif 036_2.tif
Excel
Excel no computa intervalos de confianza para estimar la proporción poblacional.
2. E = Z α
×
σ
√n
2
3. x̄ ± E
Si no, sigue estos 3 pasos:
Intervalo de confianza sobre la media poblacional (µ) cuando σ es Desconocida
1. t valor crítico con n-1 df de la distribución t de estudiante
α
2. E = t α
×
s
√n
2
3. x̄ ± E
Si quieres construir un intervalo de confianza sobre la proporción de población, sigue estos 3 pasos:
Intervalo de confianza sobre la proporción
1. Z valor crítico de la tabla normal estándar
α
2
−−−−−
^ ^
p (1−p )
2. E = Z α
×√
n
2
3. p^ ± E
Recuerda que se debe verificar el supuesto de normalidad.
This page titled 2.2: Intervalos de confianza is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane Kiernan (OpenSUNY) via source content that was edited to
the style and standards of the LibreTexts platform; a detailed edit history is available upon request.
2.2: Confidence Intervals by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-resources-biometrics.
2.2.5 https://espanol.libretexts.org/@go/page/149448
CHAPTER OVERVIEW
3: Prueba de Hipótesis
3.1: Los fundamentos de las pruebas de hipótesis
3.2: Prueba de hipótesis sobre la media poblacional cuando se conoce la desviación estándar de la población
3.3: Prueba de hipótesis sobre la media poblacional cuando se desconoce la desviación estándar de la población
3.4: Prueba de hipótesis para una proporción poblacional
3.5: Prueba de Hipótesis sobre una Varianza
3.6: Armando todo usando el método clásico
This page titled 3: Prueba de Hipótesis is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane Kiernan
(OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon
request.
1
3.1: Los fundamentos de las pruebas de hipótesis
En los dos capítulos anteriores se introdujeron métodos para organizar y resumir los datos de la muestra y utilizar estadísticas de
muestra para estimar los parámetros de la población. Este capítulo introduce el siguiente tema importante de la estadística
inferencial: la prueba de hipótesis.
Nota
Una hipótesis es una afirmación o afirmación sobre una propiedad de una población.
Una hipótesis es una afirmación o afirmación sobre una característica de una población de interés para nosotros. Una prueba de
hipótesis es una forma de usar nuestras estadísticas de muestra para probar una afirmación específica.
Ejemplo3.1.1:
Se sabe que el peso promedio de la población es de 157 lb. Queremos probar la afirmación de que el peso medio ha
aumentado.
Ejemplo3.1.2:
Hace dos años, la proporción de plantas infectadas era de 37%. Creemos que un tratamiento ha ayudado, y queremos probar la
afirmación de que ha habido una reducción en la proporción de plantas infectadas.
3.1.1 https://espanol.libretexts.org/@go/page/149470
Z o t bajo el supuesto de que la hipótesis nula es verdadera. Se utiliza para decidir si la diferencia entre el estadístico muestral y la
afirmación hipotética es significativa.
El valor p es el área bajo la curva a la izquierda o derecha del estadístico de prueba. Se compara con el nivel de significancia (α).
El valor crítico es el valor que define la zona de rechazo (los valores estadísticos de prueba que conducirían al rechazo de la
hipótesis nula). Se define por el nivel de significación.
El nivel de significancia (α) es la probabilidad de que el estadístico de prueba caiga en la región crítica cuando la hipótesis nula
sea verdadera. Este nivel lo establece el investigador.
La conclusión es la decisión final de la prueba de hipótesis. La conclusión siempre debe ser claramente enunciada, comunicando la
decisión con base en los componentes de la prueba. Es importante darse cuenta de que nunca probamos ni aceptamos la hipótesis
nula. Nos limitamos a decir que la evidencia muestral no es lo suficientemente fuerte como para garantizar el rechazo de la
hipótesis nula. La conclusión se compone de dos partes:
1) Rechazar o no rechazar la hipótesis nula, y 2) hay o no hay pruebas suficientes para apoyar la afirmación alternativa.
Opción 1) Rechazar la hipótesis nula (H0). Esto significa que tienes suficiente evidencia estadística para apoyar el reclamo
alternativo (H1).
Opción 2) No rechazar la hipótesis nula (H0). Esto significa que NO tienes pruebas suficientes para apoyar la reclamación
alternativa (H1).
Otra forma de pensar sobre las pruebas de hipótesis es compararlo con el sistema de justicia estadounidense. Un acusado es
inocente hasta que se demuestre su culpabilidad (hipótesis nula, inocente). El procurador trata de probar que el acusado es culpable
(Hipótesis alternativa—culpable). Hay dos posibles conclusiones a las que puede llegar el jurado. En primer lugar, el acusado es
culpable (Rechazar la hipótesis nula). Segundo, el demandado no es culpable (No rechazar la hipótesis nula). ¡Esto NO es lo mismo
que decir que el acusado es inocente! En el primer caso, el fiscal contaba con pruebas suficientes para rechazar la hipótesis nula
(inocente) y apoyar la demanda alternativa (culpable). En el segundo caso, el fiscal NO contaba con pruebas suficientes para
rechazar la hipótesis nula (inocente) y apoyar la afirmación alternativa de culpabilidad.
Ejemplo3.1.3:
Un silvicultor que estudia el crecimiento del diámetro del pino rojo cree que el crecimiento del diámetro medio será diferente si
se aplica un tratamiento de fertilización al rodal.
Ho: μ = 1.2 pulgadas./ año
H1: μ ≠ 1.2 in./ año
Esta es una pregunta de dos caras, ya que el silvicultor no indica si el crecimiento del diámetro medio poblacional aumentará o
disminuirá.
3.1.2 https://espanol.libretexts.org/@go/page/149470
Una prueba del lado derecho
Esto prueba si el parámetro de población es igual a, versus mayor que, algún valor específico.
Ho: μ = 12 vs. H1: μ > 12
La región crítica se encuentra en la cola derecha y el valor crítico es un valor positivo que define la zona de rechazo.
Image36349.PNG
Figura 2. La zona de rechazo para una prueba de hipótesis del lado derecho.
Ejemplo3.1.4:
Un biólogo considera que ha habido un incremento en el número medio de lagos infectados con milenilo, una especie invasora,
desde el último estudio hace cinco años.
Ho: μ = 15 lagos
H1: μ >15 lagos
Esta es una pregunta del lado derecho, ya que el biólogo considera que ha habido un incremento en la población media del
número de lagos infectados.
Figura 3. La zona de rechazo para una prueba de hipótesis del lado izquierdo.
Ejemplo3.1.5:
La investigación de un científico indica que ha habido un cambio en la proporción de personas que apoyan ciertas políticas
ambientales. Quiere poner a prueba la afirmación de que ha habido una reducción en la proporción de personas que apoyan
estas políticas.
Ho: p = 0.57
H1: p < 0.57
Esta es una pregunta del lado izquierdo, ya que el científico considera que ha habido una reducción en la verdadera proporción
poblacional.
Estadísticamente Significativo
Cuando los resultados observados (la estadística muestral) son improbables (una probabilidad baja) bajo el supuesto de que la
hipótesis nula es verdadera, decimos que el resultado es estadísticamente significativo, y rechazamos la hipótesis nula. Este
resultado depende del nivel de significancia, el estadístico muestral, el tamaño de la muestra y si se trata de una hipótesis
alternativa de uno o dos lados.
Tipos de Errores
Al probar, llegamos a la conclusión de rechazar la hipótesis nula o no rechazar la hipótesis nula. Tales conclusiones son a veces
correctas y a veces incorrectas (incluso cuando hemos seguido todos los procedimientos correctos). Utilizamos datos de muestra
incompletos para llegar a una conclusión y siempre existe la posibilidad de llegar a una conclusión equivocada. Hay cuatro
conclusiones posibles a alcanzar a partir de las pruebas de hipótesis. De los cuatro resultados posibles, dos son correctos y dos NO
son correctos.
4298.png
3.1.3 https://espanol.libretexts.org/@go/page/149470
Un error de Tipo I es cuando rechazamos la hipótesis nula cuando es verdadera. El símbolo α (alfa) se utiliza para representar los
errores de Tipo I. Este es el mismo alfa que usamos como nivel de significancia. Al establecer alfa lo más bajo razonablemente
posible, tratamos de controlar el error Tipo I a través del nivel de significancia.
Un error de Tipo II es cuando fallamos en rechazar la hipótesis nula cuando es falsa. El símbolo β (beta) se utiliza para
representar los errores de Tipo II.
En general, los errores de Tipo I se consideran más graves. Un paso en el procedimiento de prueba de hipótesis implica seleccionar
el nivel de significancia (α), que es la probabilidad de rechazar la hipótesis nula cuando es correcta. Para que el investigador pueda
seleccionar el nivel de significancia que minimice los errores de Tipo I. Sin embargo, existe una relación matemática entre α, β y n
(tamaño muestral).
A medida que α aumenta, β disminuye
A medida que α disminuye, β aumenta
A medida que aumenta el tamaño de la muestra (n), tanto α como β disminuyen
La inclinación natural es seleccionar el valor más pequeño posible para α, pensando en minimizar la posibilidad de causar un error
Tipo I. Desafortunadamente, esto obliga a aumentar los errores de Tipo II. Al hacer que la zona de rechazo sea demasiado pequeña,
es posible que no se rechace la hipótesis nula, cuando, de hecho, es falsa. Por lo general, seleccionamos el mejor tamaño de
muestra y nivel de significancia, ajustando automáticamente β.
Image36377.PNG
Poder de la prueba
Un error tipo II (β) es la probabilidad de no rechazar una hipótesis nula falsa. De ello se deduce que 1-β es la probabilidad de
rechazar una hipótesis nula falsa. Esta probabilidad se identifica como el poder de la prueba, y a menudo se usa para medir la
efectividad de la prueba al reconocer que una hipótesis nula es falsa.
La probabilidad de que a un nivel fijo α prueba de significancia rechace H0, cuando un valor alternativo particular del
parámetro es verdadero se llama la potencia de la prueba.
La potencia también está directamente relacionada con el tamaño de la muestra. Por ejemplo, supongamos que la hipótesis nula es
que el peso medio del pescado es 8.7 lb. Dados los datos de la muestra, un nivel de significancia del 5%, y un peso alternativo de
9.2 lb., podemos calcular la potencia de la prueba para rechazar μ = 8.7 lb. Si tenemos un tamaño de muestra pequeño, la potencia
será baja. Sin embargo, al aumentar el tamaño de la muestra se incrementará la potencia de la prueba. Aumentar el nivel de
significación también aumentará el poder. Una prueba de significancia del 5% tendrá una mayor probabilidad de rechazar la
hipótesis nula que una prueba de 1% porque la fuerza de evidencia requerida para el rechazo es menor. Disminuir la desviación
estándar tiene el mismo efecto que aumentar el tamaño de la muestra: hay más información sobre μ.
This page titled 3.1: Los fundamentos de las pruebas de hipótesis is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or
curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit
history is available upon request.
3.1: The Fundamentals of Hypothesis Testing by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source:
https://milneopentextbooks.org/natural-resources-biometrics.
3.1.4 https://espanol.libretexts.org/@go/page/149470
3.2: Prueba de hipótesis sobre la media poblacional cuando se conoce la desviación
estándar de la población
Prueba de Hipótesis sobre la Media de Población (μ) cuando se conoce la Desviación Estándar de la Población (σ)
Vamos a examinar dos formas equivalentes de realizar una prueba de hipótesis: el enfoque clásico y el enfoque del valor p. El
enfoque clásico se basa en desviaciones estándar. Este método compara el estadístico de prueba (Z-score) con un valor crítico (Z-
score) de la tabla normal estándar. Si el estadístico de prueba cae en la zona de rechazo, se rechaza la hipótesis nula. El enfoque del
valor p se basa en el área bajo la curva normal. Este método compara el área asociada con el estadístico de prueba con alfa (α), el
nivel de significancia (que también es el área bajo la curva normal). Si el valor p es menor que alfa, rechazaría la hipótesis nula.
El método clásico para probar una afirmación sobre la media poblacional (μ) cuando se conoce la desviación
estándar de la población (σ)
Un silvicultor que estudia el crecimiento del diámetro del pino rojo cree que el crecimiento del diámetro medio será diferente
del crecimiento medio conocido de 1.35 pulgadas/año si se aplica un tratamiento de fertilización al rodal. Realiza su
experimento, recoge datos de una muestra de 32 parcelas y obtiene un crecimiento de diámetro medio muestral de 1.6
pulgadas. /año. Se sabe que la desviación estándar poblacional para este rodal es de 0.46 pulg. /año. ¿Tiene pruebas suficientes
para apoyar su afirmación?
Solución
Paso 1) Indicar las hipótesis nulas y alternativas.
Ho: μ = 1.35 pulg. /año
H1: μ ≠ 1.35 pulg. /año
Paso 2) Indicar el nivel de significancia y el valor crítico.
Escogeremos un nivel de significancia del 5% (α = 0.05).
Para una pregunta de dos caras, necesitamos un valor crítico de dos caras: Z α/2 y + Z α/2.
El nivel de significancia se divide por 2 (ya que solo estamos probando “no iguales”). Debemos tener dos zonas de rechazo
que puedan lidiar ya sea con un resultado mayor o menor que (a la derecha (+) o a la izquierda (-)).
Necesitamos encontrar la puntuación Z asociada con el área de 0.025. Las áreas rojas son iguales a α/2 = 0.05/2 = 0.025 o
2.5% del área bajo la curva normal.
Entra en el cuerpo de valores y encuentra la puntuación Z negativa asociada con el área 0.025.
Image36387.PNG
3.2.1 https://espanol.libretexts.org/@go/page/149487
El valor crítico negativo es -1.96. Dado que la curva es simétrica, sabemos que el valor crítico positivo es 1.96.
±1.96 son los valores críticos. Estos valores configuran la zona de rechazo. Si el estadístico de prueba cae dentro de estas
zonas rojas de rechazo, rechazamos la hipótesis nula.
Paso 3) Calentar el estadístico de prueba.
El estadístico de prueba es el número de desviaciones estándar que la media muestra es de la media conocida. También es
una puntuación Z, al igual que el valor crítico.
$$z =\ frac {\ bar {x} -\ mu} {\ frac {\ sigma} {\ sqrt {n}}}\]
Para este problema, el estadístico de prueba es
$$z =\ frac {1.6-1.35} {\ frac {0.46} {\ sqrt {32}}} =3.07\]
Paso 4) Exponer una conclusión.
Comparar el estadístico de prueba con el valor crítico. Si el estadístico de prueba cae en las zonas de rechazo, rechace la
hipótesis nula. Es decir, si el estadístico de prueba es mayor que +1.96 o menor que -1.96, rechace la hipótesis nula.
Image36395.PNG
Figura 2. Los valores críticos para una prueba bilateral cuando α = 0.05.
En este problema, el estadístico de prueba cae en la zona roja de rechazo. El estadístico de prueba de 3.07 es mayor que el
valor crítico de 1.96.Rechazaremos la hipótesis nula. Tenemos evidencia suficiente para sustentar la afirmación de que el
crecimiento del diámetro medio es diferente de (no igual a) 1.35 in. /año.
Un investigador considera que ha habido un incremento en el tamaño promedio de la finca en su estado desde el último estudio
hace cinco años. El estudio anterior reportó un tamaño medio de 450 acres con una desviación estándar poblacional (σ) de 167
acres. Muestrea 45 granjas y obtiene una media muestral de 485.8 acres. ¿Hay suficiente información para apoyar su
afirmación?
Solución
Paso 1) Indicar las hipótesis nulas y alternativas.
Ho: μ = 450 acres
H1: μ >450 acres
Paso 2) Indicar el nivel de significancia y el valor crítico.
Escogeremos un nivel de significancia del 5% (α = 0.05).
Para una pregunta unilateral, necesitamos un valor crítico positivo unilateral Zα.
El nivel de significación está todo en el lado derecho (la zona de rechazo está justo en el lado derecho).
Necesitamos encontrar la puntuación Z asociada con el área del 5% en la cola derecha.
Image36403.PNG
Figura 3. Zona de rechazo para una prueba de hipótesis del lado derecho.
Entra en el cuerpo de valores en la tabla normal estándar y encuentra la puntuación Z que separa el 95% inferior del 5%
superior.
El valor crítico es 1.645. Este valor configura la zona de rechazo.
Paso 3) Calentar el estadístico de prueba.
El estadístico de prueba es el número de desviaciones estándar que la media muestra es de la media conocida. También es
una puntuación Z, al igual que el valor crítico.
$$z =\ frac {\ bar {x} -\ mu} {\ frac {\ sigma} {\ sqrt {n}}}\]
Para este problema, el estadístico de prueba es
$$z =\ frac {485.8-450} {\ frac {167} {\ sqrt {45}}} =1.44\]
3.2.2 https://espanol.libretexts.org/@go/page/149487
Paso 4) Exponer una conclusión.
Comparar el estadístico de prueba con el valor crítico.
Image36415.PNG
Figura 4. El valor crítico para una prueba del lado derecho cuando α = 0.05.
El estadístico de prueba no cae en la zona de rechazo. Es menor que el valor crítico.
No podemos rechazar la hipótesis nula. No contamos con pruebas suficientes que respalden la afirmación de que el tamaño
medio de la granja ha aumentado de 450 acres.
Un investigador considera que ha habido una reducción en el número medio de horas que los estudiantes universitarios pasan
preparándose para los exámenes finales. Un estudio nacional afirmó que los estudiantes de una universidad de 4 años pasan un
promedio de 23 horas preparándose para 5 exámenes finales cada semestre con una desviación estándar poblacional de 7.3
horas. El investigador muestreó 227 estudiantes y encontró una muestra de tiempo medio de estudio de 19.6 horas. ¿Esto indica
que el tiempo promedio de estudio para los exámenes finales ha disminuido? Utilizar un nivel de significancia del 1% para
probar esta afirmación.
Solución
Paso 1) Indicar las hipótesis nulas y alternativas.
Ho: μ = 23 horas
H1: μ < 23 horas
Paso 2) Indicar el nivel de significancia y el valor crítico.
Esta es una prueba del lado izquierdo así que alfa (0.01) está todo en la cola izquierda.
Image36427.PNG
Figura 9. La zona de rechazo para una prueba de hipótesis del lado izquierdo.
Entra en el cuerpo de valores en la tabla normal estándar y encuentra la puntuación Z que define el 1% inferior del área.
El valor crítico es -2.33. Este valor configura la zona de rechazo.
Paso 3) Calentar el estadístico de prueba.
El estadístico de prueba es el número de desviaciones estándar que la media muestra es de la media conocida. También es
una puntuación Z, al igual que el valor crítico.
$$z =\ frac {\ bar {x} -\ mu} {\ frac {\ sigma} {\ sqrt {n}}}\]
Para este problema, el estadístico de prueba es
$$z=\ frac {19.6-23} {\ frac {7.3} {\ sqrt {277}}}\]
Paso 4) Exponer una conclusión.
Comparar el estadístico de prueba con el valor crítico.
Image36438.PNG
Figura 10. El valor crítico para una prueba del lado izquierdo cuando α = 0.01.
El estadístico de prueba cae en la zona de rechazo. El estadístico de prueba de -7.02 es menor que el valor crítico de -2.33.
Rechazamos la hipótesis nula. Contamos con pruebas suficientes para apoyar la afirmación de que el tiempo medio de estudio
del examen final ha disminuido por debajo de las 23 horas.
3.2.3 https://espanol.libretexts.org/@go/page/149487
nivel de significancia), rechazaríamos la hipótesis nula. Los cálculos para el valor p dependen de si se trata de una prueba de una o
dos caras.
Pasos para una prueba de hipótesis usando valores p:
Indicar las hipótesis nulas y alternativas.
Determinar el nivel de significación.
Calcular el estadístico de prueba y encontrar el área asociada a ella (este es el valor p).
Compara el valor p con alfa (α) y establece una conclusión.
En lugar de comparar el estadístico de la prueba de puntaje Z con el valor crítico de la puntuación Z, como en el método clásico,
comparamos el área del estadístico de prueba con el área del nivel de significancia.
Cálculo de valores P
Si se trata de una prueba a dos caras (la reivindicación alternativa es ≠), el valor p es igual a dos veces la probabilidad del valor
absoluto del estadístico de prueba. Si la prueba es una prueba del lado izquierdo (la reivindicación alternativa es “<”), entonces el
valor p es igual al área a la izquierda del estadístico de prueba. Si la prueba es una prueba del lado derecho (la reivindicación
alternativa es “>”), entonces el valor p es igual al área a la derecha del estadístico de prueba.
Veamos de nuevo el Ejemplo 6.
Un silvicultor que estudia el crecimiento del diámetro del pino rojo cree que el crecimiento del diámetro medio será diferente del
crecimiento medio conocido de 1.35 pulg. /año si se aplica un tratamiento de fertilización al rodal. Realiza su experimento, recoge
datos de una muestra de 32 parcelas y obtiene un crecimiento de diámetro medio muestral de 1.6 pulgadas. /año. Se sabe que la
desviación estándar poblacional para este rodal es de 0.46 pulg. /año. ¿Tiene pruebas suficientes para apoyar su afirmación?
Paso 1) Indicar las hipótesis nulas y alternativas.
Ho: μ = 1.35 pulg. /año
H1: μ ≠ 1.35 pulg. /año
Paso 2) Indicar el nivel de significación.
Escogeremos un nivel de significancia del 5% (α = 0.05).
Paso 3) Calentar el estadístico de prueba.
Para este problema, el estadístico de prueba es:
$$z=\ frac {1.6-1.35} {\ frac {0.46} {\ sqrt {32}}} =3.07\]
El valor p es dos veces el área del valor absoluto del estadístico de prueba (porque la reivindicación alternativa es “no igual”).
Image36447.PNG
3.2.4 https://espanol.libretexts.org/@go/page/149487
Un investigador considera que ha habido un incremento en el tamaño promedio de la finca en su estado desde el último estudio
hace cinco años. El estudio anterior reportó un tamaño medio de 450 acres con una desviación estándar poblacional (σ) de 167
acres. Muestrea 45 granjas y obtiene una media muestral de 485.8 acres. ¿Hay suficiente información para apoyar su afirmación?
Paso 1) Indicar las hipótesis nulas y alternativas.
Ho: μ = 450 acres
H1: μ >450 acres
Paso 2) Indicar el nivel de significación.
Escogeremos un nivel de significancia del 5% (α = 0.05).
Paso 3) Calentar el estadístico de prueba.
Para este problema, el estadístico de prueba es
$$z=\ frac {485.8-450} {\ frac {167} {\ sqrt {45}}} =1.44\]
El valor p es el área a la derecha de la puntuación Z 1.44 (el área rayada).
Esto es igual a 1 — 0.9251 = 0.0749.
El valor p es 0.0749.
Image36455.PNG
Figura 12. El valor p comparado con el nivel de significancia para una prueba del lado derecho.
Paso 4) Comparar el valor p con alfa y declarar una conclusión.
Utilice la Regla de Decisión.
En este problema, el valor p (0.0749) es mayor que alfa (0.05), por lo que fallamos al Rechazar el H0.
El área del estadístico de prueba es mayor que el área de alfa (α).
No podemos rechazar la hipótesis nula. No contamos con pruebas suficientes que respalden la afirmación de que el tamaño medio
de la finca ha aumentado.
Veamos de nuevo el Ejemplo 8.
Un investigador considera que ha habido una reducción en el número medio de horas que los estudiantes universitarios pasan
preparándose para los exámenes finales. Un estudio nacional afirmó que los estudiantes de una universidad de 4 años pasan un
promedio de 23 horas preparándose para 5 exámenes finales cada semestre con una desviación estándar poblacional de 7.3 horas.
El investigador muestreó 227 estudiantes y encontró una muestra de tiempo medio de estudio de 19.6 horas. ¿Esto indica que el
tiempo promedio de estudio para los exámenes finales ha disminuido? Utilizar un nivel de significancia del 1% para probar esta
afirmación.
Paso 1) Indicar las hipótesis nulas y alternativas.
H0: μ = 23 horas
H1: μ < 23 horas
Paso 2) Indicar el nivel de significación.
Esta es una prueba del lado izquierdo así que alfa (0.01) está todo en la cola izquierda.
Paso 3) Calentar el estadístico de prueba.
Para este problema, el estadístico de prueba es
$$z=\ frac {19.6-23} {\ frac {7.3} {\ sqrt {227}}} =-7.02\]
El valor p es el área a la izquierda del estadístico de prueba (la pequeña área negra a la izquierda de -7.02). El puntaje Z de -7.02 no
está en la tabla normal estándar. La probabilidad más pequeña en la tabla es 0.0002. Sabemos que el área para el puntaje Z -7.02 es
menor que esta área (probabilidad). Por lo tanto, el valor p es <0.0002.
Image36463.PNG
Figura 13. El valor p comparado con el nivel de significancia para una prueba del lado izquierdo.
3.2.5 https://espanol.libretexts.org/@go/page/149487
Paso 4) Comparar el valor p con alfa y declarar una conclusión.
Utilice la Regla de Decisión.
En este problema, el valor p (p<0.0002) es menor que alfa (0.01), por lo que Rechazamos el H0.
El área del estadístico de prueba es mucho menor que el área de alfa (α).
Rechazamos la hipótesis nula. Contamos con pruebas suficientes para apoyar la afirmación de que el tiempo medio de estudio del
examen final ha disminuido por debajo de las 23 horas.
Tanto el método clásico como el método del valor p para probar una hipótesis llegarán a la misma conclusión. En el método
clásico, la puntuación Z crítica es el número en el eje z que define el nivel de significancia (α). El estadístico de prueba convierte la
media de la muestra en unidades de desviación estándar (una puntuación Z). Si el estadístico de prueba cae en la zona de rechazo
definida por el valor crítico, rechazaremos la hipótesis nula. En este enfoque, se comparan dos puntuaciones Z, que son números en
el eje z. En el enfoque del valor p, el valor p es el área asociada al estadístico de prueba. En este método, comparamos α (que
también es área bajo la curva) con el valor p. Si el valor p es menor que α, rechazamos la hipótesis nula. El valor p es la
probabilidad de observar tal media muestral cuando la hipótesis nula es verdadera. Si la probabilidad es demasiado pequeña (menor
que el nivel de significancia), entonces creemos que tenemos suficiente evidencia estadística para rechazar la hipótesis nula y
apoyar la afirmación alternativa.
Soluciones de Software
Minitab
(refiriéndose al Ej. 8)
052_1.tif
052_2.tif
Z de una muestra
99% Superior
Excel
Excel no ofrece pruebas de hipótesis de 1 muestra.
This page titled 3.2: Prueba de hipótesis sobre la media poblacional cuando se conoce la desviación estándar de la población is shared under a CC
BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style
and standards of the LibreTexts platform; a detailed edit history is available upon request.
3.2: Hypothesis Test about the Population Mean when the Population Standard Deviation is Known by Diane Kiernan is licensed CC
BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-resources-biometrics.
3.2.6 https://espanol.libretexts.org/@go/page/149487
3.3: Prueba de hipótesis sobre la media poblacional cuando se desconoce la
desviación estándar de la población
Prueba de hipótesis sobre la media poblacional (μ) cuando la desviación estándar de la población (σ)
es desconocida
Frecuentemente, se desconoce la desviación estándar poblacional (σ). Podemos estimar la desviación estándar poblacional (σ) con
la desviación estándar de la muestra. Sin embargo, el estadístico de prueba ya no seguirá la distribución normal estándar. Debemos
confiar en la distribución t del estudiante con n-1 grados de libertad. Debido a que usamos la desviación estándar de la muestra, el
estadístico de prueba cambiará de una puntuación Z a una puntuación t.
$$z=\ frac {\ bar {x} -\ mu} {\ frac {\ sigma} {\ sqrt {n}}}\ largoderrow t =\ frac {\ bar {x} -\ mu} {\ frac {s} {\ sqrt {n}}}\]
Los pasos para una prueba de hipótesis son los mismos que cubrimos en la Sección 2.
Exponer las hipótesis nulas y alternativas.
Anotar el nivel de significancia y el valor crítico.
Calcular el estadístico de prueba.
Exponer una conclusión.
Al igual que con la prueba de hipótesis de la sección anterior, los datos para esta prueba deben ser de una muestra aleatoria y
requiere o bien que la población de la que se extrajo la muestra sea normal o que el tamaño de la muestra sea suficientemente
grande (n≥30). Una prueba t es robusta, por lo que pequeñas desviaciones de la normalidad no afectarán adversamente los
resultados de la prueba. Dicho esto, si el tamaño de la muestra es menor a 30, siempre es bueno verificar el supuesto de normalidad
a través de una gráfica de probabilidad normal.
Todavía tendremos los mismos tres pares de hipótesis nulas y alternativas y todavía podemos usar el enfoque clásico o el enfoque
del valor p.
4071.png
Seleccionar el valor crítico correcto de la tabla de distribución t del estudiante depende de tres factores: el tipo de prueba (hipótesis
alternativa unilateral o bilateral), el tamaño de la muestra y el nivel de significancia.
Para una prueba bilateral (hipótesis alternativa “no igual”), el valor crítico (tα/2), se determina por alfa (α), el nivel de significancia,
dividido por dos, para tratar la posibilidad de que el resultado pueda ser menor que OR mayor que el valor conocido.
Si tu nivel de significancia fuera 0.05, usarías la columna 0.025 para encontrar el valor crítico correcto (0.05/2 = 0.025).
Si tu nivel de significancia fuera 0.01, usarías la columna 0.005 para encontrar el valor crítico correcto (0.01/2 = 0.005).
Para una prueba unilateral (hipótesis alternativa “menor que” o “mayor que”), el valor crítico (tα), está determinado por alfa (α), el
nivel de significancia, siendo todo en un lado.
Si tu nivel de significancia era 0.05, usarías la columna 0.05 para encontrar el valor crítico correcto para una pregunta del lado
izquierdo o derecho. Si estás haciendo una pregunta “menos que” (del lado izquierdo, tu valor crítico será negativo. Si estás
haciendo una pregunta “mayor que” (pregunta del lado derecho), tu valor crítico será positivo.
Ejemplo3.3.1
Encuentre el valor crítico que usaría para probar la afirmación de que μ ≠ 112 con un tamaño de muestra de 18 y un nivel de
significancia del 5%.
Solución
En este caso, el valor crítico (t ) sería 2.110. Esta es una pregunta bilateral (≠) así que dividirías alfa por 2 (0.05/2 = 0.025) y
α/2
3.3.1 https://espanol.libretexts.org/@go/page/149478
Ejemplo3.3.2
¿Cuál sería el valor crítico si quisieras probar ese μ < 112 para los mismos datos?
Solución
En este caso, el valor crítico sería 1.740. Esta es una pregunta unilateral (<) por lo que alfa se dividiría por 1 (0.05/1 = 0.05).
Bajarías por la columna 0.05 con 17 grados de libertad para obtener el valor crítico correcto.
En 2005, el nivel medio de pH de la lluvia en un condado del norte de Nueva York fue de 5.41. Un biólogo cree que la acidez
de la lluvia ha cambiado. Toma una muestra aleatoria de 11 fechas de lluvia en 2010 y obtiene los siguientes datos. Utilizar un
nivel de significancia del 1% para poner a prueba su afirmación.
4.70, 5.63, 5.02, 5.78, 4.99, 5.91, 5.76, 5.54, 5.25, 5.18, 5.01
El tamaño muestral es pequeño y no sabemos nada sobre la distribución de la población, por lo que examinamos una parcela de
probabilidad normal. La distribución se ve normal por lo que continuaremos con nuestra prueba.
4060.png
√11
Figura 16. Los valores críticos para una prueba bilateral cuando α = 0.01.
El estadístico de prueba no cae en la zona de rechazo.
No lograremos rechazar la hipótesis nula. No tenemos pruebas suficientes que respalden la afirmación de que el pH medio de
la lluvia ha cambiado.
3.3.2 https://espanol.libretexts.org/@go/page/149478
Ejemplo3.3.4:A One-sided Test
El cadmio, un metal pesado, es tóxico para los animales. Los hongos, sin embargo, son capaces de absorber y acumular cadmio
a altas concentraciones. El gobierno ha establecido límites de seguridad para el cadmio en vegetales secos en 0.5 ppm. Los
biólogos creen que el nivel medio de cadmio en hongos que crecen cerca de minas de franjas es mayor que el límite
recomendado de 0.5 ppm, impactando negativamente a los animales que viven en este ecosistema. Una muestra aleatoria de 51
hongos dio una media muestral de 0.59 ppm con una desviación estándar de la muestra de 0.29 ppm. Utilizar un nivel de
significancia del 5% para probar la afirmación de que el nivel medio de cadmio es mayor que el límite aceptable de 0.5 ppm.
El tamaño de la muestra es mayor a 30 por lo que se asegura una distribución normal de las medias.
Solución
Paso 1) Exponer las hipótesis nulas y alternativas.
Ho: μ = 0.5 ppm
H1: μ > 0.5 ppm
Paso 2) Exponer el nivel de significancia y el valor crítico.
Esta es una pregunta del lado derecho así que alfa está todo en la cola derecha.
Image36622.PNG
Figura 17. Zona de rechazo para una prueba del lado derecho.
t α se encuentra bajando la columna 0.05 con 50 grados de libertad.
t α = 1.676
Paso 3) Calcular el estadístico de prueba.
El estadístico de prueba es un puntaje t.
x̄ − μ
t = (3.3.2)
s
√n
√51
Figura 18. Valor crítico para una prueba del lado derecho cuando α = 0.05.
El estadístico de prueba cae en la zona de rechazo. Rechazaremos la hipótesis nula. Tenemos pruebas suficientes para apoyar la
afirmación de que el nivel medio de cadmio es mayor que el límite de seguridad aceptable.
PERO, ¿qué pasa si el nivel de significancia cambia a 1%?
El valor crítico se encuentra ahora bajando la columna 0.01 con 50 grados de libertad. El valor crítico es 2.403. El estadístico
de prueba es ahora MENOS QUE el valor crítico. El estadístico de prueba no cae en la zona de rechazo. La conclusión va a
cambiar. NO contamos con pruebas suficientes que respalden la afirmación de que el nivel medio de cadmio es mayor que el
límite de seguridad aceptable de 0.5 ppm.
Nota
El nivel de significancia es la probabilidad que usted, como investigador, establece para decidir si hay suficiente evidencia
estadística para sustentar la afirmación alternativa. Se debe establecer antes de que comience el experimento.
3.3.3 https://espanol.libretexts.org/@go/page/149478
Enfoque de valor P
También podemos usar el enfoque del valor p para una prueba de hipótesis sobre la media cuando se desconoce la desviación
estándar de la población (σ). Sin embargo, al usar la tabla t de un estudiante, solo podemos estimar el rango del valor p, no un valor
específico como cuando se usa la tabla normal estándar. La tabla t del estudiante tiene área (probabilidad) a través de la fila
superior de la tabla, con puntajes t en el cuerpo de la tabla.
Para encontrar el valor p (el área asociada al estadístico de prueba), se iría a la fila con el número de grados de libertad.
Cruza esa fila hasta encontrar los dos valores entre los que se encuentra tu estadística de prueba, luego sube esas columnas para
encontrar el rango estimado para el valor p.
Ejemplo3.3.5
Conclusión
Si tu nivel de significancia es 5%, rechazarías la hipótesis nula ya que el valor p (0.01-0.02) es menor que alfa (α) de 0.05.
Si tu nivel de significancia es 1%, no lograrías rechazar la hipótesis nula ya que el valor p (0.01-0.02) es mayor que alfa (α) de
0.01.
Los paquetes de software suelen generar valores p. Es fácil usar la Regla de Decisión para responder a tu pregunta de investigación
por el método p-value.
Soluciones de Software
Minitab
(refiriéndose al Ex. 12)
060_1.tif 060_2.tif
T de una muestra
Prueba de mu = 0.5 vs. > 0.5
95% Inferior
Excel
Excel no ofrece pruebas de hipótesis de 1 muestra.
This page titled 3.3: Prueba de hipótesis sobre la media poblacional cuando se desconoce la desviación estándar de la población is shared under a
CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane Kiernan (OpenSUNY) via source content that was edited to the
style and standards of the LibreTexts platform; a detailed edit history is available upon request.
3.3: Hypothesis Test about the Population Mean when the Population Standard Deviation is Unknown by Diane Kiernan is licensed CC
BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-resources-biometrics.
3.3.4 https://espanol.libretexts.org/@go/page/149478
3.4: Prueba de hipótesis para una proporción poblacional
Prueba de hipótesis para una proporción poblacional (p)
Frecuentemente, el parámetro que estamos probando es la proporción poblacional.
Estamos estudiando la proporción de árboles con cavidades para hábitat de vida silvestre.
Necesitamos saber si la proporción de personas que apoyan materiales de construcción ecológicos ha cambiado.
¿La proporción de lobos que murieron el año pasado en Yellowstone ha aumentado con respecto al año anterior?
Recordemos que la mejor estimación puntual de p, la proporción poblacional, viene dada por
x
p
^ = (3.4.1)
n
donde x es el número de individuos en la muestra con la característica estudiada y n es el tamaño de la muestra. La distribución
muestral de p es aproximadamente normal con una mediaμ = p y una desviación estándar
^
p
−−−−−− −
p(1 − p)
σ^ = √ (3.4.2)
p
n
cuando np (1 — p) ≥10. Podemos usar tanto el enfoque clásico como el enfoque del valor p para las pruebas.
Los pasos para una prueba de hipótesis son los mismos que cubrimos en la Sección 2.
Indicar las hipótesis nulas y alternativas.
Indicar el nivel de significancia y el valor crítico.
Compute el estadístico de prueba.
Exponer una conclusión.
El estadístico de prueba sigue la distribución normal estándar. Observe que el error estándar (el denominador) usa p en lugar de p,
que se utilizó al construir un intervalo de confianza sobre la proporción poblacional. En una prueba de hipótesis, se asume que la
hipótesis nula es verdadera, por lo que se utiliza la proporción conocida.
p
^−p
z = (3.4.3)
−−−−−− −
p(1 − p)
√
n
El valor crítico proviene de la tabla normal estándar, al igual que en la Sección 2. Todavía usaremos los mismos tres pares de
hipótesis nulas y alternativas que usamos en las secciones anteriores, pero el parámetro ahora es p en lugar de μ:
5013.png
Para una prueba bilateral, alfa se dividirá por 2 dando un valor crítico ± Zα/2.
Para una prueba del lado izquierdo, alfa estará todo en la cola izquierda dando un valor crítico — Zα.
Para una prueba del lado derecho, alfa estará todo en la cola derecha dando un valor crítico Zα.
Ejemplo3.4.1
botánico ha producido una nueva variedad de planta híbrida de soja que es mejor capaz de soportar la sequía que otras
variedades. El botánico sabe que la germinación de semillas para las plantas parentales es de 75%, pero no conoce la
germinación de semillas para el nuevo híbrido. Prueba la afirmación de que es diferente a las plantas parentales. Para probar
esta afirmación, se prueban 450 semillas de la planta híbrida y 321 han germinado. Utilizar un nivel de significancia del 5%
para probar esta afirmación de que la tasa de germinación es diferente de 75%.
Solución
Paso 1) Indicar las hipótesis nulas y alternativas.
Ho: p = 0.75
H1: p ≠ 0.75
Paso 2) Indicar el nivel de significancia y el valor crítico.
3.4.1 https://espanol.libretexts.org/@go/page/149479
Esta es una pregunta bilateral por lo que alfa se divide por 2.
Alfa es 0.05 por lo que los valores críticos son ± Zα/2 = ± Z.025.
Mirar en el lado negativo de la tabla normal estándar, en el cuerpo de valores para 0.025.
Los valores críticos son ± 1.96.
Paso 3) Calcular el estadístico de prueba.
El estadístico de prueba es el número de desviaciones estándar que la media muestra es de la media conocida. También es
una puntuación Z, al igual que el valor crítico.
^−p
p
z = −−−−−− − (3.4.4)
p(1 − p)
√
n
Figura 19. Valores críticos para una prueba bilateral cuando α = 0.05.
El estadístico de prueba no cae en la zona de rechazo. No podemos rechazar la hipótesis nula. No contamos con pruebas
suficientes que respalden la afirmación de que la tasa de germinación de la planta híbrida es diferente a la de las plantas
parentales.
Respondamos a esta pregunta usando el enfoque del valor p. Recuerde, para una hipótesis alternativa bilateral (“no igual”), el
valor p es dos veces el área del estadístico de prueba. El estadístico de prueba es -1.81 y queremos encontrar el área a la
izquierda de -1.81 de la tabla normal estándar.
En la página negativa, encuentra el puntaje Z -1.81. Encuentra el área asociada a esta puntuación Z.
El área = 0.0351.
Esta es una prueba bilateral así que multiplica el área por 2 para obtener el valor p = 0.0351 x 2 = 0.0702.
Ahora compara el valor p con alfa. La Regla de Decisión establece que si el valor p es menor que alfa, rechace el H0. En este
caso, el valor p (0.0702) es mayor que alfa (0.05) por lo que no lograremos rechazar H0. No contamos con pruebas suficientes
que respalden la afirmación de que la tasa de germinación de la planta híbrida es diferente a la de las plantas parentales.
Ejemplo3.4.2:
Eres biólogo que estudia el hábitat de vida silvestre en el Bosque Nacional Monongahela. Las cavidades en árboles más viejos
proporcionan un excelente hábitat para una variedad de aves y pequeños mamíferos. Un estudio hace cinco años afirmó que
32% de los árboles de este bosque tenían cavidades adecuadas para este tipo de vida silvestre. Usted cree que la proporción de
árboles de cavidad ha aumentado. Muestrea 196 árboles y encuentras que 79 árboles tienen cavidades. ¿Esta evidencia respalda
su afirmación de que ha habido un incremento en la proporción de árboles de cavidad?
Utilizar un nivel de significancia del 10% para probar esta afirmación.
Solución
Paso 1) Indicar las hipótesis nulas y alternativas.
Ho: p = 0.32
H1: p > 0.32
Paso 2) Indicar el nivel de significancia y el valor crítico.
3.4.2 https://espanol.libretexts.org/@go/page/149479
Esta es una pregunta unilateral por lo que alfa se divide por 1.
Alfa es 0.10 por lo que el valor crítico es Zα = Z .10
Mirar en el lado positivo de la tabla normal estándar, en el cuerpo de valores para 0.90.
El valor crítico es 1.28.
Image36682.PNG
Figura 20. Valor crítico para una prueba del lado derecho donde α = 0.10.
Paso 3) Calcular el estadístico de prueba.
El estadístico de prueba es el número de desviaciones estándar la proporción muestral es de la proporción conocida.
También es una puntuación Z, al igual que el valor crítico.
p
^−p
z = −−−−−− − (3.4.6)
p(1 − p)
√
n
Soluciones de Software
Minitab
(refiriéndose al Ej. 15)
065_1.tif
065_2.tif
90% Inferior
3.4.3 https://espanol.libretexts.org/@go/page/149479
Excel
Excel no ofrece pruebas de hipótesis de 1 muestra.
This page titled 3.4: Prueba de hipótesis para una proporción poblacional is shared under a CC BY-NC-SA 3.0 license and was authored, remixed,
and/or curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed
edit history is available upon request.
3.4: Hypothesis Test for a Population Proportion by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source:
https://milneopentextbooks.org/natural-resources-biometrics.
3.4.4 https://espanol.libretexts.org/@go/page/149479
3.5: Prueba de Hipótesis sobre una Varianza
Prueba de hipótesis sobre una varianza
Cuando las personas piensan en la inferencia estadística, suelen pensar en inferencias que involucran medias o proporciones
poblacionales. Sin embargo, el parámetro poblacional particular necesario para responder a las preguntas prácticas de un
experimentador varía de una situación a otra, y a veces la variabilidad de una población es más importante que su media. Por lo
tanto, la calidad del producto a menudo se define en términos de baja variabilidad.
La varianza muestral se s puede utilizar para inferencias relativas a una varianza poblacional σ . Para una muestra aleatoria de n
2 2
mediciones extraídas de una población normal con media μ y varianza σ , el valor s proporciona una estimación puntual para
2 2
2
(n−1)s
σ
2
. Además, la cantidad σ
2
sigue una distribución de Chi-cuadrado (χ ), condf 2
= n– 1 .
Las propiedades de la distribución Chi-cuadrado (χ ) son: 2
A diferencia de las distribuciones Z y t, los valores en una distribución chi-cuadrada son todos positivos.
La distribución chi-cuadrada es asimétrica, a diferencia de las distribuciones Z y t.
Hay muchas distribuciones de chi-cuadrado. Obtenemos uno particular especificando los grados de libertad(df = n– 1)
Image36711.PNG
Hipótesis nula:H 0 : σ
2
=σ
2
0
(constante)
Hipótesis alternativa:
Ha : σ
2
>σ
0
2
(de una cola), rechazarH si se observaχ 0
2
>χ
2
U
(valor de cola superior en α).
Ha : σ
2
<σ
0
2
(de una cola), rechazarH si se observaχ 0
2
<χ
2
L
(valor de cola inferior en α).
Ha : σ
2
≠σ
0
2
(de dos colas), rechazarH si se observaχ 0
2
>χ
2
U
oχ < χ en α/2.
2 2
L
Ejemplo3.5.1:
Un silvicultor quiere controlar un sotobosque denso de arce rayado que está interfiriendo con la regeneración deseable de la
madera dura usando un soplador de niebla para aplicar un tratamiento herbicida. Ella quiere asegurarse de que el tratamiento
tenga una tasa de aplicación consistente, es decir, baja variabilidad no superior a 0.25 gal. /acre (0.06 gal.2). Recolecta datos de
muestra (n = 11) sobre este tipo de soplador de niebla y obtiene una varianza de muestra de 0.064 gal.2 Usando un nivel de
significancia del 5%, prueba la afirmación de que la varianza es significativamente mayor a 0.06 gal.2
2
H0 : σ = 0.06
2
H1 : σ > 0.06
El valor crítico es 18.307. Cualquier estadística de prueba mayor que este valor provocará que rechaces la hipótesis nula.
El estadístico de prueba es
$$\ chi^2 =\ frac {(n-1) S^2} {\ sigma_ {0} ^ {2}} =\ frac {(11-1) 0.064} {0.06} =10.667\]
No podemos rechazar la hipótesis nula. El silvicultor NO cuenta con evidencia suficiente para sustentar la afirmación de que la
varianza es mayor a 0.06 gal.2 También se puede estimar el valor p utilizando el mismo método que para la tabla t de
estudiante. Cruza la fila para obtener grados de libertad hasta encontrar los dos valores entre los que se encuentra tu estadística
de prueba. En este caso pasando por la fila 10, los dos valores de tabla son 4.865 y 15.987. Ahora sube esas dos columnas a la
3.5.1 https://espanol.libretexts.org/@go/page/149488
fila superior para estimar el valor p (0.1-0.9). El valor p es mayor que 0.1 y menor que 0.9. Ambos son mayores que el nivel de
significancia (0.05) haciendo que no rechacemos la hipótesis nula.
Soluciones de Software
Minitab
(refiriéndose al Ex. 16)
067_1.tif
067_2.tif
Método
Test
Excel
Excel no ofrece χ pruebas de 1 muestra.
2
This page titled 3.5: Prueba de Hipótesis sobre una Varianza is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or
curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit
history is available upon request.
3.5: Hypothesis Test about a Variance by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source:
https://milneopentextbooks.org/natural-resources-biometrics.
3.5.2 https://espanol.libretexts.org/@go/page/149488
3.6: Armando todo usando el método clásico
Poniéndolo todo junto usando el método clásico
Para probar una reclamación sobre μ cuando σ es conocida
Escribir las hipótesis nulas y alternativas.
Anote el nivel de significancia y obtenga el valor crítico de la tabla normal estándar.
Compute el estadístico de prueba.
x̄ − μ
z = (3.6.1)
σ
√n
√n
This page titled 3.6: Armando todo usando el método clásico is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or
curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit
history is available upon request.
3.6: Putting it all Together Using the Classical Method by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source:
https://milneopentextbooks.org/natural-resources-biometrics.
3.6.1 https://espanol.libretexts.org/@go/page/149469
CHAPTER OVERVIEW
This page titled 4: Inferencias sobre las diferencias de dos poblaciones is shared under a CC BY-NC-SA 3.0 license and was authored, remixed,
and/or curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed
edit history is available upon request.
1
4.1: Inferencias sobre dos medias con muestras independientes (asumiendo
varianzas desiguales)
Hasta este punto, hemos discutido inferencias respecto a un solo parámetro poblacional (e.g., μ, p,σ ). Se han utilizado datos de
2
muestra para construir intervalos de confianza para estimar la media o proporción poblacional y para probar hipótesis sobre la
media y proporción poblacional. En ambos capítulos, todos los ejemplos implicaban el uso de una muestra para formar una
inferencia sobre una población. Con frecuencia, necesitamos comparar dos conjuntos de datos y hacer inferencias sobre dos
poblaciones. Este capítulo trata de inferencias sobre dos medias, proporciones o varianzas. Por ejemplo:
Estás estudiando el hábitat del pavo y quieres ver si el número medio de gallinas de cría es diferente en Nueva York en
comparación con Pensilvania.
Se desea determinar si el tratamiento utilizado en el lago Skaneateles ha reducido el número de plantas de milenrama en los
últimos tres años.
¿Es mayor la proporción de personas que apoyan la energía alternativa en California en comparación con Nueva York?
¿La variabilidad en la aplicación es diferente entre dos sopladores de niebla?
Estas preguntas pueden ser respondidas comparando las diferencias de:
Promedio del número de gallinas en NY al número medio de gallinas en PA.
Número de plantas en 2007 al número de plantas en 2010.
Proporción de personas en CA con respecto a la proporción de personas en NY.
Variancias entre los sopladores de niebla.
Este capítulo se compone de cinco secciones. La primera y segunda secciones examinan inferencias sobre dos medias con dos
muestras independientes. La tercera sección examina las inferencias sobre medias con dos muestras dependientes, la cuarta sección
examina las inferencias sobre dos proporciones y la quinta sección examina las inferencias entre dos varianzas.
Inferencias sobre Dos Medias con Muestras Independientes (Suponiendo Varianzas Desiguales)
El uso de muestras independientes significa que no hay relación entre los grupos. Los valores en una muestra no tienen asociación
con los valores de la otra muestra. Por ejemplo, queremos ver si la vida media de los colibríes en Carolina del Sur es diferente de la
vida media en Carolina del Norte. Estas poblaciones no están relacionadas, y las muestras son independientes. Nos fijamos en la
diferencia de los medios independientes.
En el Capítulo 3, hicimos una prueba t de una muestra donde comparamos la media de la muestra (x̄) con la media hipotética (μ).
Esperamosx̄ que esté cerca de μ. Utilizamos la media de la muestra, la desviación estándar de la muestra y el tamaño de la muestra
para la prueba de una muestra.
Con una prueba t de dos muestras, comparamos las medias de la población entre sí y nuevamente miramos la diferencia. Esperamos
¯ −x
x1
¯ que esté cerca deμ – μ . El estadístico de prueba utilizará tanto las medias de la muestra, las desviaciones estándar de la
2 1 2
√n
como medida de la desviación estándar (el error estándar).
Podemos reescribir
2
f racs sqrtn f iladerecha sqrt f rac s n (4.1.1)
.
El numerador del estadístico de prueba será(x¯ ¯
1 − x2 ) − (μ1 − μ2 )
−−−−−−
2 2
s s
Esto tiene una desviación estándar de√ 1
n1
+
2
n2
.
Una prueba t de dos muestras sigue los mismos cuatro pasos que vimos en el Capítulo 3.
Escribir las hipótesis nulas y alternativas.
Indicar el nivel de significancia y encontrar el valor crítico. El valor crítico, a partir de la distribución t del estudiante, tiene el
menor de n1-1 y n2 -1 grados de libertad.
Calcular el estadístico de prueba.
Comparar el estadístico de prueba con el valor crítico y exponer una conclusión.
4.1.1 https://espanol.libretexts.org/@go/page/149508
Aún deben cumplirse los supuestos que vimos en el Capítulo 3. Ambas muestras provienen de muestras aleatorias independientes.
Las poblaciones deben estar normalmente distribuidas, o ambas tienen tamaños de muestra suficientemente grandes (n1 y n2 ≥ 30).
También utilizaremos los mismos tres pares de hipótesis nulas y alternativas.
5820.png
Esta estadística de prueba sigue la distribución t del estudiante con los grados de libertad ajustados por
2 2
S S
1 2 2
( + )
n1 n2
df = (4.1.3)
2 2
1 S1 1 S2
( )2 + ( )2
n1 −1 n1 n2 −1 n2
Una alternativa más simple para determinar grados de libertad cuando se trabaja un problema de mano larga es utilizar el menor de
n1-1 o n2-1 como los grados de libertad. Este método da como resultado un valor menor para los grados de libertad y, por lo tanto,
un valor crítico mayor. Esto hace que la prueba sea más conservadora, requiriendo más evidencia para rechazar la hipótesis nula.
Ejemplo4.1.1:
Un silvicultor está estudiando el número de árboles de cavidad en rodales viejos en Adirondack Park en el norte de Nueva
York. Quiere saber si existe una diferencia significativa entre el número medio de árboles de cavidad en el Parque Adirondack
y los antiguos rodales de crecimiento en el Bosque Nacional Monongahela. Recolecta dos muestras aleatorias independientes
de cada bosque. Utilizar un nivel de significancia del 5% para probar esta afirmación.
n1 = 51 gradas n2 = 56 gradas
x
¯1 = 39.6 x
¯2 = 43.9
s1 = 9.4 s2 = 10.7
4.1.2 https://espanol.libretexts.org/@go/page/149508
Rechazamos la hipótesis nula. Tenemos pruebas suficientes para apoyar la afirmación de que existe una diferencia en el
número medio de árboles de cavidad entre el Parque Adirondack y el Bosque Nacional Monongahela.
n1
+
2
n2
El intervalo de confianza toma la forma de la estimación de puntos más o menos el error estándar de las diferencias.
−−−−−−−−
2 2
s s
1 2
x
¯1 − x
¯2 ± t α √ + (4.1.5)
2
n1 n2
Utilizaremos los mismos tres pasos para construir un intervalo de confianza sobre la diferencia de las medias.
1. valor críticot α
2
−−−−−−
2 2
s1 s2
2. E = t α √
n1
+
n2
2
3. x¯
1 −x
¯2 ± E
Ejemplo4.1.2:
Volvamos a ver el número medio de árboles de cavidad en viejos rodales de crecimiento. El silvicultor quiere saber si existe
una diferencia entre el número medio de árboles de cavidad en rodales viejos de crecimiento en los bosques de Adirondack y
en el Bosque de Monongahela. Podemos responder a esta pregunta construyendo un intervalo de confianza sobre la diferencia
de las medias.
1)t α = 2.009
2
−−−−−−
2 2 −−− −−−−−−
s s 2 2
2)E = t α √
n1
1
+
n2
2
= 2.009 √
9.4
51
+
10.7
56
= 3.904
2
3)x¯ 1
¯2 ± 3.904
−x
El intervalo de confianza del 95% para la diferencia de las medias es (-8.204, -0.396).
Podemos estar 95% seguros de que este intervalo contiene la diferencia media en el número de árboles de cavidad entre las dos
ubicaciones. PERO, esto no responde a la pregunta que hizo el silvicultor. ¿Hay alguna diferencia en el número medio de
árboles de cavidad entre los bosques de Adirondack y Monongahela? Para responder a esto, debemos mirar las interpretaciones
del intervalo de confianza.
4.1.3 https://espanol.libretexts.org/@go/page/149508
Si el intervalo de confianza contiene cero (va de valores negativos a positivos), NO encontramos diferencia significativa entre
los grupos.
En este problema, el intervalo de confianza es (-8.204, -0.396). Todos tenemos valores negativos, por lo que podemos concluir que
existe una diferencia significativa en el número medio de árboles de cavidad Y que el número medio de árboles de cavidad en los
bosques de Adirondack es significativamente menor que el número medio de árboles de cavidad en el bosque de Monongahela. El
intervalo de confianza da una estimación de la diferencia media en el número de árboles de cavidad entre los dos bosques. Hay, en
promedio, 0.396 a 8.204 árboles de cavidad menos en el Parque Adirondack que el Bosque de Monongahela.
Enfoque de valor P
También podemos usar el enfoque del valor p para responder a la pregunta. Recuerde, el valor p es el área bajo la curva normal
asociada con el estadístico de prueba. Este ejemplo es una prueba bilateral (H1: μ1 ≠ μ2) por lo que el valor p, cuando se calcula a
mano, se multiplicará por dos.
El estadístico de prueba es igual a -2.213, por lo que el valor p es dos veces el área a la izquierda de -2.213. Solo podemos estimar
el valor p usando la tabla t del estudiante. Usando el menor de n1— 1 o n2— 1 como grados de libertad, tenemos 50 grados de
libertad. Ve a través de la fila 50 en la tabla t del estudiante hasta que encuentres el valor absoluto del estadístico de prueba. En este
caso, 2.213 cae entre 2.109 y 2.403. Subir a la parte superior de cada una de esas columnas te da la estimación del valor p (entre
0.02 y 0.01).
5801.png
Ejemplo4.1.3:
Los investigadores están estudiando la relación entre las actividades madereras en los bosques del norte y los hábitats de
anfibios. Se compararon los niveles de humedad entre los hábitats de crecimiento antiguo y poscosecha. Los investigadores
creen que el hábitat poscosecha tiene un menor nivel de humedad. Recolectaron datos sobre los niveles de humedad de dos
muestras aleatorias independientes. Pruebe su afirmación usando un nivel de significancia del 5%.
n1 = 26 n2 = 31
El estadístico de prueba no cae en la zona de rechazo. No podemos rechazar la hipótesis nula. No hay evidencia suficiente que
respalde la afirmación de que el nivel de humedad es significativamente menor en el hábitat poscosecha.
Ahora responde a esta pregunta construyendo un intervalo de confianza del 90% sobre la diferencia de las medias.
1)t α
= 1.708
2
−−−−−−
2 2 −−− −−−−−−
s s 2 2
2) E =t α √
1
n1
+
2
n2
= 1.708 √
0.12
26
+
0.17
31
= 0.0658
2
4.1.4 https://espanol.libretexts.org/@go/page/149508
3)x¯1 −x
¯2 ± E = (0.62 − 0.56) ± 0.0658
El intervalo de confianza del 90% para la diferencia de las medias es (-0.0058, 0.1258). Los valores en el intervalo de
confianza van de negativos a positivos, lo que indica que no hay diferencias significativas en los niveles medios de humedad
entre los rodales de crecimiento viejo y poscosecha.
Soluciones de Software
Minitab
073_1.tif
073_2.tif
El valor p (0.064) es mayor que el nivel de confianza por lo que fallamos en rechazar la hipótesis nula.
Ejemplo adicional: www.youtube.com/ watch? v=7PIB -GVIXFO.
Excel
072_1.tif
072_2.tif
Variable 1 Variable 2
Observaciones 26 31
df 54
t Stat 1.557361
El valor p de una cola (0.063809) es mayor que el nivel de significancia, por lo tanto, fallamos en rechazar la hipótesis nula.
This page titled 4.1: Inferencias sobre dos medias con muestras independientes (asumiendo varianzas desiguales) is shared under a CC BY-NC-
SA 3.0 license and was authored, remixed, and/or curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and
standards of the LibreTexts platform; a detailed edit history is available upon request.
4.1.5 https://espanol.libretexts.org/@go/page/149508
4.1: Inferences about Two Means with Independent Samples (Assuming Unequal Variances) by Diane Kiernan is licensed CC BY-NC-
SA 3.0. Original source: https://milneopentextbooks.org/natural-resources-biometrics.
4.1.6 https://espanol.libretexts.org/@go/page/149508
4.2: Prueba t de dos muestras agrupadas (Suponiendo varianzas iguales)
Prueba t de dos muestras agrupadas (Suponiendo varianzas iguales)
En el apartado anterior, hicimos el supuesto de varianzas desiguales entre nuestras dos poblaciones. El estadístico de la prueba t de
Welch no asume que las varianzas poblacionales son iguales y se puede utilizar independientemente de que las varianzas
poblacionales sean iguales o no. La prueba que asume varianzas iguales de población se conoce como la prueba t agrupada. El
agrupamiento se refiere a encontrar un promedio ponderado de las dos varianzas de muestra independientes.
El estadístico de prueba agrupado utiliza un promedio ponderado de las dos varianzas de la muestra.
2 2
(n1 − 1)S + (n2 − 1)S n1 − 1 n2 − 1
2 1 2 2 2
Sp = =( )S +( )S (4.2.1)
1 2
n1 + n2 − 2 n1 + n2 − 2 n1 + n2 − 2
Sin = n , entoncesS = ( s + (1/2)s , el promedio de las dos varianzas muestrales. Pero siempre que n1≠ n2, els basado en
1 2
2
p
1
2
2
1
2
2
2
La ventaja de este estadístico de prueba es que sigue exactamente la distribución t del estudiante con n1+ n2— 2 grados de libertad.
¯ ¯ ¯ ¯
X1 − X2 X1 − X2
t = −−−−−−−− −− = −−−−−− (4.2.2)
2 1 1 1 1
√ Sp ( + ) Sp √ +
n1 n2 n1 n2
El procedimiento de prueba de hipótesis seguirá los mismos pasos que el apartado anterior.
Puede ser difícil verificar que dos varianzas poblacionales puedan ser iguales con base en los datos de la muestra. La prueba F se
usa comúnmente para probar varianzas pero no es robusta. Las pequeñas desviaciones de la normalidad impactan en gran medida el
resultado haciendo que los resultados de la prueba F sean poco confiables. Puede ser difícil decidir si un resultado significativo de
una prueba F se debe a las diferencias en las varianzas o no normalidad. Debido a esto, muchos investigadores confían en la t de
Welch al comparar dos medias.
Ejemplo4.2.1:
Se midió el crecimiento de plántulas de pino en dos sustratos diferentes. Queremos saber si el crecimiento fue mejor en el
sustrato 2. Se midió el crecimiento (en cm/año) y se incluyó en la siguiente tabla. α = 0.05
Sustrato 1 Sustrato 2
3.2 4.5
4.5 6.2
3.8 5.8
4.0 6.0
3.7 7.1
3.2 6.8
4.1 7.2
Solución
H0 : μ1 = μ2
H1 : μ1 < μ2
2 2
(7 − 1)0.474 + (7 − 1)0.936
2
Sp = = 0.55 (4.2.3)
7 +7 −2
4.2.1 https://espanol.libretexts.org/@go/page/149507
Esta es una prueba unilateral conn + n – 2 = 12 grados de libertad. El valor crítico es -1.782. El estadístico de prueba es
1 2
usandon 1 + n2 – 2 grados de libertad. Entonces respondamos la misma pregunta con un intervalo de confianza del 90%.
−−−−−−−−− −
1 1
(3.79 − 6.23) ± 1.782 √ 0.55( + ) = (−2.44 ± 0.7064) = (−3.146, −1.734) (4.2.6)
7 7
Todos los valores negativos indican que existe una diferencia significativa entre el crecimiento medio para los dos sustratos y
que el crecimiento en el sustrato 1 es significativamente menor que el crecimiento en el sustrato 2 con reducción en el
crecimiento que va de 1.734 a 3.146 cm/año.
Soluciones de Software
Minitab
075_1.tif
075_2.tif
El valor p (0.000) es menor que el nivel de significancia (0.05). Rechazaremos la hipótesis nula.
Excel
074_1.tif
074_2.tif
Variable 1 Variable 2
Observaciones 7 7
df 12
4.2.2 https://espanol.libretexts.org/@go/page/149507
t Stat -6.16108
Esta es una prueba unilateral (mayor que) así que usa el valor P de(T ≤ t) una cola 2.43E-05. El valor p (0.0000243) es menor que
el nivel de significancia (0.05). Rechazaremos la hipótesis nula.
This page titled 4.2: Prueba t de dos muestras agrupadas (Suponiendo varianzas iguales) is shared under a CC BY-NC-SA 3.0 license and was
authored, remixed, and/or curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts
platform; a detailed edit history is available upon request.
4.2: Pooled Two-sampled t-test (Assuming Equal Variances) by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source:
https://milneopentextbooks.org/natural-resources-biometrics.
4.2.3 https://espanol.libretexts.org/@go/page/149507
4.3: Inferencias sobre dos medias con muestras dependientes: pares coincidentes
Inferencias sobre dos medias con muestras dependientes: pares coincidentes
Las muestras dependientes ocurren cuando existe una relación entre las muestras. Los datos consisten en pares emparejados de
muestras aleatorias. Un método de muestreo depende cuando se utilizan los valores seleccionados para una muestra para determinar
los valores en la segunda muestra. Las mediciones de antes y después de una población, como personas, lagos o animales, son un
ejemplo de muestras dependientes. Los objetos de su muestra se miden dos veces; las mediciones se toman en cierto momento y
luego se vuelven a tomar en una fecha posterior. La dependencia también ocurre cuando los objetos están relacionados, como ojos
o llantas en un automóvil. El emparejamiento no es un problema; es una oportunidad para usar la información que se produce con
ambas mediciones.
Antes de comenzar su trabajo, debe decidir si sus muestras son dependientes. Si lo son, puedes aprovechar este hecho. Puede
utilizar esta coincidencia para responder mejor a sus preguntas de investigación. Los datos de emparejamiento reducen la
variabilidad de las mediciones, lo que aumenta la precisión de nuestras conclusiones estadísticas.
Utilizamos la diferencia (la resta) de los pares de datos en nuestro análisis. Para cada par, restamos los valores:
d1 = antes1 — después de 1
d2 = antes de 2 — después de 2
d3 = antes de 3 — después de 3
...
Estamos creando una nueva variable aleatoria d (diferencias), y es importante mantener el signo, ya sea positivo o negativo.
Podemos calcular d,̄ la media muestral de las diferencias, y sd, la desviación estándar muestral de las diferencias de la siguiente
manera:
∑ di
¯
d = (4.3.1)
n
−−−−−−−− −
¯ 2
∑(d − d )
sd =√ (4.3.2)
n−1
Así como usamos la media de la muestra y la desviación estándar de la muestra en una prueba t de una muestra, utilizaremos la
media de la muestra y la desviación estándar de la muestra de las diferencias para probar los pares emparejados. Aún debe
verificarse el supuesto de normalidad. Las diferencias deben distribuirse normalmente o el tamaño de la muestra debe ser lo
suficientemente grande (n ≥ 30).
Podemos hacer una prueba de hipótesis utilizando datos de pares coincidentes siguiendo los mismos métodos que usamos en el
capítulo anterior.
Escribir las hipótesis nulas y alternativas.
Indicar el nivel de significancia y encontrar el valor crítico.
Computar un estadístico de prueba.
Comparar el estadístico de prueba con el valor crítico y exponer una conclusión.
Ya que estamos utilizando las diferencias entre los pares de datos, identificamos esto en nuestras hipótesis nulas y alternativas:
H : μd = 0 . La media de las diferencias es igual a cero; no hay diferencia en los valores de “antes y después”.
0
Usaremos los mismos tres pares de hipótesis nulas y alternativas que usamos en el capítulo anterior.
5719.png
4.3.1 https://espanol.libretexts.org/@go/page/149524
La conclusión siempre debe responder a la pregunta que se está haciendo en la hipótesis alternativa.
Rechazar elH . Hay pruebas suficientes para sustentar la afirmación alternativa.
0
Ejemplo4.3.1:
Un biólogo ambiental quiere saber si la claridad del agua en el lago Owasco está mejorando. Utilizando un disco Secchi, toma
medidas en ubicaciones específicas en fechas específicas durante el transcurso del año. Luego repite las mediciones en los
mismos lugares y en las mismas fechas cinco años después. Obtiene los siguientes resultados:
5/11 38 52 -14
6/7 58 60 -2
6/24 65 72 -7
7/8 74 72 2
7/27 56 54 2
8/31 36 48 -12
9/30 56 58 -2
10/12 52 60 -8
Usando un nivel de significancia del 5%, pruebe la afirmación del biólogo de que la claridad del agua está mejorando.
Solución
Los datos se emparejan por fecha con dos mediciones tomadas en cada punto con cinco años de diferencia. Utilizaremos las
diferencias (columna derecha) para ver si ha habido una mejora significativa en la claridad del agua. Usando su calculadora,
Minitab o Excel, calcule los estadísticos descriptivos sobre las diferencias para obtener la media de la muestra y la desviación
estándar de la muestra de las diferencias.
¯
d = −5.125 (4.3.4)
sd = 6.081 (4.3.5)
4.3.2 https://espanol.libretexts.org/@go/page/149524
4) Comparar el estadístico de prueba con el valor crítico y exponer una conclusión.
El estadístico de prueba (-2.38) es menor que el valor crítico (-1.895). Cae en la zona de rechazo.
Image36979.PNG
Construir e interpretar un intervalo de confianza sobre las diferencias de los datos para pares coincidentes
Una prueba de hipótesis para datos de pares coincidentes es muy similar a una prueba t de una muestra. PERO, podemos responder
a la misma pregunta construyendo un intervalo de confianza sobre la media de las diferencias. Este proceso es igual que los
intervalos de confianza del Capítulo 2.
1. Encuentra el valor crítico.
2. Compute el margen de error.
3. Estimación puntual ± margen de error.
Para los datos de pares coincidentes, el valor crítico proviene de la distribución t del estudiante con n — 1 grados de libertad. El
margen de error utiliza la desviación estándar muestral de las diferencias (sd) y la estimación puntual esd¯ , la media de las
diferencias.
Para un intervalo de confianza (1 — α) * 100% para la media de las diferencias
sd
¯
d ±t α
( −) (4.3.6)
2
√n
Dondet α
se usa porque los intervalos de confianza son siempre de dos lados.
2
Ejemplo4.3.2:
Veamos nuevamente al biólogo que estudia la claridad del agua en el lago Owasco. Ella quiere poner a prueba la afirmación de
que la claridad del agua ha mejorado. Podemos responder a esta pregunta construyendo un intervalo de confianza sobre la
media de las diferencias.
Solución
1)t α
= 2.365
2
4.3.3 https://espanol.libretexts.org/@go/page/149524
sd
2)E = t α
(
√n
) = 2.365(
6.081
√8
) = 5.085
2
(−10.21 ≤ μd ≤ −0.04)
Podemos estar 95% seguros de que este intervalo contiene la verdadera media de las diferencias en la claridad del agua entre
los dos periodos de tiempo. PERO, esto no responde directamente a la pregunta sobre la mejora de la claridad del agua. Para
ello, utilizamos las interpretaciones que se dan a continuación.
Ejemplo4.3.3:
Los biólogos están estudiando la migración de alces en el oeste de Estados Unidos y quieren saber si la interestatal de cuatro
carriles que se construyó hace diez años ha perturbado la migración de alces a la zona de alimentación invernal. Se recolectó
una muestra aleatoria de nueve distritos silvestres en las áreas de alimentación invernal. Estos datos se compararon con una
muestra aleatoria recolectada de las mismas nueve áreas antes de que se construyera la carretera. Utilizar un nivel de
significancia del 1% para probar esta afirmación.
Distrito 1 2 3 4 5 6 7 8 9
Antes 11.6 18.7 15.9 20.6 10.1 17.4 7.2 12.2 11.7
Después 10.0 21.6 13.9 22.8 11.5 16.2 8.1 10.8 9.6
¯
d = 0.100 (4.3.7)
sd = 1.946 (4.3.8)
H0 : μd = 0
H1 : μd ≠ 0
Determinar los valores críticos: Esta es una pregunta bilateral (alternativa ≠) por lo que los valores críticos son ±3.355.
Compute el estadístico de prueba:
¯
d − μd 0.100 − 0
t = − = – = 0.1542 (4.3.9)
sd / √n 1.946/ √9
Ahora compare el valor crítico con el estadístico de prueba y exponga una conclusión. El estadístico de prueba NO es mayor
que 3.355 o menor que -3.355 (no cae en las zonas de rechazo). No podemos rechazar la hipótesis nula. No hay pruebas
suficientes que respalden la afirmación de que la carretera ha interferido con la migración de alces (sin diferencia antes ni
después de la autopista).
4.3.4 https://espanol.libretexts.org/@go/page/149524
Ahora construya un intervalo de confianza del 99% y responda a la pregunta.
1)t α = 3.355
2
sd –
2)E = t α
(
√n
) = 3.355(1.946/ √9) = 2.176
2
Soluciones de Software
Minitab
080_1.tif
080_2.tif
Minitab da el estadístico de prueba de 0.15 y el valor p de 0.881. También da un intervalo de confianza del 99% para la diferencia
de las medias (-2.077, 2.277). Todos los resultados apoyan no rechazar la hipótesis nula.
Excel
079_1.tif
079_2.tif
Antes Después
Observaciones 9 9
df 8
t Stat 0.15415
4.3.5 https://espanol.libretexts.org/@go/page/149524
El estadístico de prueba es 0.15415. Esta es una pregunta de dos caras por lo que podemos usarP (T ≤ t) two-tail = 0.881309. El
valor p NO es menor que el nivel de significancia del 1% por lo que fallaremos en rechazar la hipótesis nula.
This page titled 4.3: Inferencias sobre dos medias con muestras dependientes: pares coincidentes is shared under a CC BY-NC-SA 3.0 license and
was authored, remixed, and/or curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the
LibreTexts platform; a detailed edit history is available upon request.
4.3: Inferences about Two Means with Dependent Samples—Matched Pairs by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original
source: https://milneopentextbooks.org/natural-resources-biometrics.
4.3.6 https://espanol.libretexts.org/@go/page/149524
4.4: Inferencias sobre Dos Proporciones de Población
Inferencias sobre Dos Proporciones de Población
Podemos aplicar los mismos métodos que acabamos de aprender con medios a nuestros problemas de proporción de dos muestras.
Tenemos dos poblaciones con dos muestras y queremos comparar las proporciones poblacionales.
¿La proporción de lagos en Nueva York con especies invasoras es diferente de la proporción de lagos en Michigan con especies
invasoras?
¿La proporción de empresas constructoras que utilizan madera certificada es mayor en el noreste que en el sureste?
Una prueba de dos proporciones poblacionales es muy similar a una prueba de dos medias, excepto que el parámetro de interés es
ahora “p” en lugar de “µ”. Con una prueba de proporción de una muestra, usamosp^ = como estimación puntual de p.
x
Esperamos que p esté cerca de p. Con una prueba de dos proporciones, tendremos dos p's, y esperamos que (p, 1 — 2) esté cerca
de ( p 1 — p 2). El estadístico de prueba da cuenta de ambas muestras.
Con una prueba de proporción de una muestra, el estadístico de prueba es
$$z =\ frac {\ hat p - p} {\ sqrt {\ frac {p (1-p)} {n}}}\]
y tiene una distribución normal estándar aproximada.
Para una prueba de proporción de dos muestras, esperaríamos que el estadístico de prueba sea
$$z=\ frac {(\ hat {p_1} -\ hat {p_2}) - (p_1-p_2)} {\ sqrt {\ frac {p_1 (1-p_1)} {n_1} +\ frac {p_2 (1-p_2)} {n_2}}}\]
SIN EMBARGO, la hipótesis nula será que p 1 = p 2. Debido a que se supone que el H0 es verdadero, la prueba asume que p 1 = p
2. Entonces podemos suponer que p 1 = p 2 es igual a p, una proporción poblacional común. Debemos calcular una estimación
agrupada de p (su desconocida) utilizando nuestros datos de muestra.
$$\ bar p =\ frac {x_1+x_2} {n_1+n_2}\]
El estadístico de prueba toma entonces la forma de
$$z=\ frac {(\ hat {p_1} -\ hat {p_2}) - (p_1-p_2)} {\ sqrt {\ frac {\ bar p (1-\ bar p)} {n_1} +\ frac {\ bar p (1-\ bar p)} {n_2}}\\]
La prueba de hipótesis sigue los mismos pasos que hemos visto en secciones anteriores:
Exponer las hipótesis nulas y alternativas
Determinar el nivel de significancia y determinar el valor crítico
Compute el estadístico de prueba
Comparar el valor crítico y el estadístico de prueba y exponer una conclusión
Los supuestos que establecemos para una prueba de proporción de una muestra siguen siendo ciertos para ambas muestras. Ambas
deben ser muestras aleatorias de poblaciones normalmente distribuidas que satisfagan las siguientes afirmaciones:
n(p)(1– p) ≥ 10
Ejemplo4.4.1:
Un investigador considera que una mayor proporción de empresas constructoras en el noreste están utilizando madera
certificada en proyectos de construcción de viviendas en comparación con las empresas del sureste. Ella recolectó una muestra
aleatoria de 173 empresas del sureste y encontró que 86 utilizaron al menos 30% madera certificada. Ella recolectó otra
muestra aleatoria de 115 empresas del noreste y encontró que 68 utilizaron al menos 30% madera certificada. Pruebe la
4.4.1 https://espanol.libretexts.org/@go/page/149517
afirmación del investigador de que una mayor proporción de empresas en el noreste utilizan al menos 30% de madera
certificada en comparación con el sureste. α = 0.05.
Sureste Noreste
n1 = 173 n2 = 115
x1 = 86 x2 = 68
Solución
Escribe las hipótesis nulas y alternativas:
H0 : p1 = p2 op 1– p2 = 0
H1 : p1 < p2
El valor crítico proviene de la tabla normal estándar. Se trata de una prueba unilateral, por lo que el alfa está todo en la cola
izquierda. El valor crítico es -1.645.
Compute las estimaciones puntuales
$$\ sombrero {p_1} =\ frac {86} {173} =0.497\]
$$\ sombrero {p_2} =\ frac {68} {115} = 0.591\]
Ahora computa p̄
$$\ bar p =\ frac {x_1+x_2} {n_1+n_2} =\ frac {86+68} {173+115} = 0.535\]
El estadístico de prueba es
$$z=\ frac {(\ hat {p_1} -\ hat {p_2}) - (p_1-p_2)} {\ sqrt {\ frac {\ bar p (1-\ bar p)} {n_1} +\ frac {\ bar p (1-\ bar p)} {n_2}}
=\ frac {(0.497-0.591) -0} {\ sqrt {\ frac {0.535 (1-0.535)} {173} +\ frac {0.535 (1-0.535)} {115}} = -1.57\]
Ahora compare el valor crítico con el estadístico de prueba y exponga una conclusión.
Image37084.PNG
n1
1
+
2
n2
2
y el valor
críticoz
α/2
proviene de la tabla normal estándar.
El intervalo de confianza toma la forma de la estimación puntual ± el margen de error.
4.4.2 https://espanol.libretexts.org/@go/page/149517
$$ (\ hat {p_1} -\ hat {p_2})\ pm z_ {\ alpha/2}\ sqrt {\ frac {\ hat {p_1} (1-\ hat {p_1})} {n_1} +\ frac {\ hat {p_2} (1-\ hat
{p_2})} {n_2}}\]
Utilizaremos los mismos tres pasos para construir un intervalo de confianza sobre la diferencia de las proporciones. Observe la
estimación del error estándar de las diferencias. No confiamos en la estimación agrupada de p al construir intervalos de confianza
para estimar la diferencia en proporciones. Esto se debe a que no estamos haciendo ninguna suposición respecto a la igualdad de p
1 y p 2, como hicimos en la prueba de hipótesis.
1) valor críticoz α/2
−−−−−−−−−−−−−
^ (1−p
p ^ ) ^ (1−p
p ^
2)E = z α/2
√ 1
n1
1
+
2
n2
2
3)(p^
1
^2 ) ± E
−p
Volvamos a revisar el Ex. 6, pero esta vez construiremos un intervalo de confianza sobre la diferencia entre las dos proporciones.
Ejemplo4.4.2:
El investigador afirma que una mayor proporción de empresas del noreste utilizan al menos 30% de madera certificada en
comparación con las empresas del sureste. Podemos probar esta afirmación construyendo un intervalo de confianza del 90%
sobre la diferencia de las proporciones.
1) valor críticoz α/2
= 1.645
−−−−−−−−−−−−−
^ ^ ^ ^
−−−−−−−−−−−−−−−−−−−−−
p1 (1−p1 ) p2 (1−p2 0.497(1−0.497) 0.591(1−0.591)
2)E = z α/2
√
n1
+
n2
= 1.645 √
173
+
115
= 0.098
3)(p^ 1
^2 ) ± E = (0.497 − 0.591) ± 0.098
−p
El intervalo de confianza del 90% sobre la diferencia de las proporciones es (-0.192, 0.004).
PERO, esto no responde a la pregunta que hizo el investigador. Debemos utilizar una de las tres interpretaciones vistas en el
apartado anterior. En este problema, el intervalo de confianza contiene cero. Por lo tanto, podemos concluir que no existe
diferencia significativa entre las proporciones de empresas que utilizan madera certificada en el noreste y en el sureste.
Ejemplo4.4.3:
Un hidrólogo está estudiando el uso de los Mejores Planes de Manejo (BMP) en rodales forestales manejados para proteger
zonas ribereñas. Recopila información de 62 rodales que contaban con un plan de manejo por parte de un silvicultor y
encuentra que 47 rodales habían implementado correctamente BMP para proteger las zonas ribereñas. Recolectó información
de 58 rodales que no tenían plan de manejo y encontró que 26 de ellos habían implementado correctamente BMP para zonas
ribereñas. ¿Estos datos sugieren que existe una diferencia significativa en la proporción de rodales con y sin planes de manejo
que tenían BMP correctas para zonas ribereñas? α = 0.05.
x1 = 47 x2 = 26
n1 = 62 n2 = 58
Respondamos a esta pregunta en ambos sentidos usando primero una prueba de hipótesis y luego construyendo un intervalo de
confianza sobre la diferencia de las proporciones.
H0 : p1 = p2 op 1– p2 = 0
H1 : p1 ≠ p2
4.4.3 https://espanol.libretexts.org/@go/page/149517
El estadístico de prueba es mayor a 1.96 y cae en la zona de rechazo. Existe evidencia suficiente para apoyar la afirmación de
que existe una diferencia significativa en la proporción de BMP correctamente implementadas con y sin planes de manejo.
Ahora calcule el valor p y compárelo con el nivel de significancia. El valor p es dos veces el área bajo la curva a la derecha de
3.48. Busque el área (en la tabla normal estándar) asociada a una puntuación Z de 3.48. El área a la derecha de 3.48 es 1 —
0.9997 = 0.0003. El valor p es 2 x 0.0003 = 0.0006.
El valor p es menor a 0.05. Rechazaremos la hipótesis nula y apoyaremos la afirmación de que las proporciones son diferentes.
Ahora, responda a esta pregunta usando un intervalo de confianza.
1) valor críticoz α/2 = 1.96
−−−−−−−−−−−−−−
^ (1−p
^ ) ^ (1−p
^ )
−−−−−−−−−−−−−−−−−−−−−
p p 0.758(1−0.758) 0.448(1−0.448)
2)E = z α/2
√
1
n1
1
+
2
n2
2
= 1.96 √
62
+
58
= 0.1666
3)p^1
^2 ± E = (0.758, −0.448) ± 0.1666
−p
El intervalo de confianza del 95% sobre la diferencia de las proporciones es (0.143, 0.477). El intervalo de confianza contiene
todos los valores positivos, diciéndole que existe una diferencia significativa entre las proporciones Y el primer grupo (BMP
utilizados con planes de manejo) es significativamente mayor que el segundo grupo (BMP sin planes). Este intervalo de
confianza estima la diferencia en proporciones. Para este problema, podemos decir que las BMP correctamente implementadas
con un plan ocurren en mayor proporción (14.3% a 44.7%) en comparación con las implementadas sin un plan de gestión.
Soluciones de Software
Minitab
084_1.tif
084_2.tif
Muestra X N Muestra p
1 47 62 0.758065
2 26 58 0.448276
El valor p es igual a 0.001 lo que nos dice que rechacemos la hipótesis nula. Existe una diferencia significativa en la proporción de
BMP correctamente implementadas con y sin planes de manejo. También se da el intervalo de confianza para la diferencia en
proporciones (0.143223, 0.476355) lo que nos permite estimar la diferencia.
Excel
Excel no analiza datos a partir de proporciones.
This page titled 4.4: Inferencias sobre Dos Proporciones de Población is shared under a CC BY-NC-SA 3.0 license and was authored, remixed,
and/or curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed
edit history is available upon request.
4.4: Inferences about Two Population Proportions by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source:
https://milneopentextbooks.org/natural-resources-biometrics.
4.4.4 https://espanol.libretexts.org/@go/page/149517
4.5: Prueba F para comparar dos varianzas de población
Prueba F para comparar dos varianzas de población
Una aplicación importante de una prueba para la igualdad de dos varianzas poblacionales es para verificar la validez del supuesto
de igual varianza(σ = σ ) para una prueba t de dos muestras. Primero planteamos la hipótesis de dos poblaciones de mediciones
2
1
2
2
que normalmente están distribuidas. Se etiquetan estas poblaciones como 1 y 2, respectivamente. Nos interesa comparar la varianza
de la población 1(σ ) con la varianza de la población 2(σ ).
2
1 2
2
Cuando se han extraído muestras aleatorias independientes de las poblaciones respectivas, la proporción
$$\ frac {S^2_1/S_2^2} {\ sigma_1^2/\ sigma ^2_2}\]
posee una distribución de probabilidad en muestreo repetido que se denomina distribución F y sus propiedades son:
A diferencia de Z y t, pero comoχ , F puede asumir solo valores positivos.
2
La distribución F, a diferencia de las distribuciones Z y t, pero al igual que la distribución (\ chi^2\), es no simétrica.
Hay muchas distribuciones F, y cada una tiene una forma diferente. Especificamos uno particular designando los grados de
libertad asociados conS yS . Denotamos estas cantidades pordf ydf , respectivamente.
2
1
2
2 1 2
Image37109.GIF
Figura 5. La distribución F.
Nota: Una prueba estadística de la hipótesis nulaσ = σ utiliza el estadístico de pruebaS /S . Puede requerir región de rechazo
2
1
2
2
2
1
2
2
de cola superior o inferior, dependiendo de qué varianza de la muestra sea mayor. Para paliar esta situación, tenemos la libertad de
designar a la población con mayor varianza muestral como población 1 (es decir, utilizada como numerador de la razónS /S ). 2
1
2
2
Por esta convención, la región de rechazo sólo se localiza en la cola superior de la distribución F.
Hipótesis nula:H 0 : σ
1
2
=σ
2
2
Hipótesis alternativa:
Ha : σ
2
1
>σ
2
2
(de una cola), rechazarH si el F observado > Fα 0
Ha : σ
2
1
≠σ
2
2
(de dos colas), rechazarH si el F observado > Fα/2.
0
2
S
Estadística de prueba:F =
1
2
asumiendoS 1
2
>S
2
2
,
S
2
donde el valor crítico F en la región de rechazo se basa en 2 grados de libertaddf 1 = n1 – 1 (asociados con numeradorS ) y 2
1
Ejemplo4.5.1:
Un silvicultor quiere comparar dos soplantes de niebla diferentes para una aplicación consistente. Ella quiere usar el soplador
de niebla con la varianza más pequeña, lo que significa una aplicación más consistente. Ella quiere probar que la varianza de
Tipo A (0.087 gal.2) es significativamente mayor que la varianza del Tipo B (0.073 gal.2) usando α = 0.05.
Tipo A Tipo B
S
1
2
= 0.087 S
2
2
=0.073
n1 = 16 n2 = 21
Solución
2 2
H0 : σ =σ
1 2
2 2
H1 : σ >σ
1 2
4.5.1 https://espanol.libretexts.org/@go/page/149516
El estadístico de prueba no es mayor que el valor crítico (no cae en la zona de rechazo) por lo que fallamos en rechazar la
hipótesis nula. Si bien la varianza del Tipo B es matemáticamente menor que la varianza del Tipo A, no es estadísticamente
menor. No hay evidencia estadística suficiente para apoyar la afirmación de que la varianza del Tipo A es significativamente
mayor que la varianza del Tipo B. Ambos sopladores de niebla entregarán el químico con igual consistencia.
Soluciones de Software
Minitab
087_1.tif
087_2.tif
Método
Estadísticas
1 16 0.295 0.087
2 21 0.270 0.073
Excel
086_1.tif
086_2.tif
Tipo A Tipo B
Observaciones 16 21
df 15 20
F 1.185483
This page titled 4.5: Prueba F para comparar dos varianzas de población is shared under a CC BY-NC-SA 3.0 license and was authored, remixed,
and/or curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed
edit history is available upon request.
4.5.2 https://espanol.libretexts.org/@go/page/149516
4.5: F-Test for Comparing Two Population Variances by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source:
https://milneopentextbooks.org/natural-resources-biometrics.
4.5.3 https://espanol.libretexts.org/@go/page/149516
4.6: Resumen
Las preguntas sobre las diferencias entre dos muestras se pueden responder de varias maneras: prueba de hipótesis, enfoque de
valor p o enfoque de intervalo de confianza. En todos los casos, deberá exponer claramente su pregunta, el nivel de significación
seleccionado y la conclusión.
Si elige el enfoque de prueba de hipótesis, debe comparar el valor crítico con el estadístico de prueba. Si el estadístico de prueba
cae en la zona de rechazo establecida por el valor crítico, entonces rechazarás la hipótesis nula y apoyarás la afirmación alternativa.
Si usa el enfoque de valor p, debe calcular el estadístico de prueba y encontrar el área asociada a ese valor. Para una prueba de dos
caras, el valor p es dos veces el área del valor absoluto del estadístico de prueba. Para una prueba unilateral, el valor p es el área a
la izquierda o derecha del estadístico de prueba. La regla de decisión establece: Si el valor p es menor que α (nivel de
significancia), rechace la hipótesis nula y apoye la afirmación alternativa.
El enfoque del intervalo de confianza construye un intervalo sobre la diferencia de las medias o proporciones. Si el intervalo
contiene cero, entonces se puede concluir que no hay diferencia entre los dos grupos. Si el intervalo contiene todos los valores
positivos, se puede concluir que el grupo 1 es significativamente mayor que el grupo 2. Si el intervalo contiene todos los números
negativos, se puede concluir que el grupo 2 es significativamente mayor que el grupo 1.
En todos los enfoques se requiere una conclusión clara y concisa. DEBES responder a la pregunta que se está haciendo indicando
los resultados de su enfoque.
This page titled 4.6: Resumen is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane Kiernan
(OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon
request.
4.6: Summary by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-resources-
biometrics.
4.6.1 https://espanol.libretexts.org/@go/page/149525
CHAPTER OVERVIEW
This page titled 5: Análisis de varianza unidireccional is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by
Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is
available upon request.
1
5.1: Análisis de varianza
Análisis de varianza
Anteriormente, hemos probado hipótesis sobre dos medias poblacionales. Este capítulo examina métodos para comparar más de
dos medias. El análisis de varianza (ANOVA) es un método inferencial utilizado para probar la igualdad de tres o más medias
poblacionales.
H0 : μ1 = μ2 = μ3 = ⋅ = μk
Este método también se conoce como ANOVA de factor único porque utilizamos una sola propiedad, o característica, para
categorizar las poblaciones. Esta característica a veces se denomina tratamiento o factor.
Nota
Un tratamiento (o factor) es una propiedad, o característica, que nos permite distinguir las diferentes poblaciones entre sí.
Los objetos del ANOVA son (1) estimar las medias de tratamiento, y las diferencias de medias de tratamiento; (2) probar hipótesis
para la significación estadística de comparaciones de medias de tratamiento, donde “tratamiento” o “factor” es la característica que
distingue a las poblaciones.
Por ejemplo, un biólogo podría comparar el efecto que tres herbicidas diferentes pueden tener en la producción de semillas de una
especie invasora en un ambiente forestal. El biólogo querría estimar la producción media anual de semillas bajo los tres
tratamientos diferentes, mientras que también probaría para ver qué tratamiento da como resultado la menor producción anual de
semillas. Las hipótesis nulas y alternativas son:
Sería tentador probar esta hipótesis nulaH : μ = μ = μ comparando las medias poblacionales de dos a la vez. Si continuamos
0 1 2 3
H0 : μ1 = μ2 Y H0 : μ1 = μ3 Y H0 : μ2 = μ3
H1 : μ1 ≠ μ2 H1 : μ1 ≠ μ3 H1 : μ2 ≠ μ3
Si usáramos un nivel de significancia del 5%, cada prueba tendría una probabilidad de un error Tipo I (rechazando la hipótesis nula
cuando es verdadera) de α = 0.05. Cada prueba tendría un 95% de probabilidad de no rechazar correctamente la hipótesis nula. La
probabilidad de que las tres pruebas no rechacen correctamente la hipótesis nula es 0.953 = 0.86. Existe una probabilidad de 1 —
0.953 = 0.14 (14%) de que al menos una prueba conduzca a un rechazo incorrecto de la hipótesis nula. Una probabilidad de 14% de
un error de Tipo I es mucho mayor que el alfa deseado de 5% (recuerde: α es lo mismo que el error de Tipo I). A medida que
aumenta el número de poblaciones, también aumenta la probabilidad de cometer un error de Tipo I usando múltiples pruebas t. El
análisis de varianza nos permite probar la hipótesis nula (todas las medias son iguales) contra la hipótesis alternativa (al menos una
media es diferente) con un valor especificado de α.
Los supuestos para ANOVA son (1) las observaciones en cada grupo de tratamiento representan una muestra aleatoria de esa
población; (2) cada una de las poblaciones se distribuye normalmente; (3) las varianzas poblacionales para cada grupo de
tratamiento son homogéneas (es decir, Image37184.PNG). Podemos probar fácilmente la normalidad de las muestras creando una gráfica
de probabilidad normal, sin embargo, verificar varianzas homogéneas puede ser más difícil. Una regla general es la siguiente: Se
puede usar ANOVA unidireccional si la desviación estándar de la muestra más grande no es más del doble de la desviación
estándar de la muestra más pequeña.
En el capítulo anterior, se utilizó una prueba t de dos muestras para comparar las medias de dos muestras independientes con una
varianza común. Los datos de la muestra se utilizan para calcular el estadístico de prueba:
2 2
x
¯1 − x
¯2 (n1 − 1)S + (n2 − 1)S
t =
−−−−−−−−
dondeS
2
p =
1 2
1 1 n1 + n2 − 2
sp √ +
n1 n2
5.1.1 https://espanol.libretexts.org/@go/page/149500
es la estimación agrupada de la varianza poblacional común σ2. Para probar más de dos poblaciones, debemos extender esta idea
de varianza agrupada para incluir todas las muestras como se muestra a continuación:
$$s^2_w=\ frac {(n_1-1) s_1^2 + (n_2-1) s_2^2 +... + (n_k - 1) s_k^2} {n_1+n_2+... +n_k-k}\]
dondes representa la estimación agrupada de la varianza comúnσ , y mide la variabilidad de las observaciones dentro de las
2
w
2
diferentes poblaciones independientemente de que H 0 sea verdad o no. Esto a menudo se conoce como la varianza dentro de las
muestras (variación debida al error).
Si la hipótesis nula ES verdadera (todas las medias son iguales), entonces todas las poblaciones son iguales, con una mediaμ y
varianza comunesσ . En lugar de seleccionar aleatoriamente diferentes muestras de diferentes poblaciones, en realidad estamos
2
dibujando k muestras diferentes de una población. Sabemos que la distribución muestral para k medias basadas en n observaciones
2
tendrá mediaμx̄ y varianza (error estándar cuadrado). Dado que hemos dibujado k muestras de n observaciones cada una,
σ
n
2
n
) por
$$\ dfrac {\ sum (\ bar {x_1} -\ mu_ {\ bar x}) ^2} {k-1} =\ dfrac {\ sum\ bar {x_i} ^1 -\ dfrac {[\ sum\ bar {x_i}] ^2} {k}} {k-1}
=\ frac {\ sigma^2} {n}\]
En consecuencia, n veces la varianza muestral de las medias estima σ2. Designamos esta cantidad como SB2 tal que
$$S_B^2 = n*\ dfrac {\ sum (\ bar {x_i} -\ mu_ {\ bar x}) ^2} {k-1} =n*\ dfrac {\ sum\ bar {x_i} ^2 -\ dfrac {[\ bar {x_i}] ^2}
{k}} {k-1}\]
donde tambiénS es una estimación imparcial de la varianza comúnσ , SIH ES VERDADERO. Esto a menudo se conoce como
2
B
2
0
relación deS /S como estadística de prueba para probar la hipótesis nula queH : μ = μ = μ = … = μ , la cual sigue una
B
2 2
W
0 1 2 3 k
distribución F con grados de libertaddf = k– 1 y\(df_2= N –k\) (donde k es el número de poblaciones y N es el número total de
1
observaciones (N = n + n + … + n ). El numerador del estadístico de prueba mide la variación entre medias muestrales. La
1 2 k
estimación de la varianza en el denominador depende únicamente de las varianzas de la muestra y no se ve afectada por las
diferencias entre las medias de la muestra.
Cuando la hipótesis nula es verdadera, la relación deS yS será cercana a 1. Cuando la hipótesis nula es falsa,S tenderá a ser
2
B
2
W
2
B
mayor queS debido a las diferencias entre las poblaciones. Rechazaremos la hipótesis nula si el estadístico de prueba F es mayor
2
W
que el valor crítico F en un nivel dado de significancia (o si el valor p es menor que el nivel de significancia).
Las tablas son un formato conveniente para resumir los resultados clave en los cálculos ANOVA. La siguiente tabla ANOVA
unidireccional ilustra los cálculos requeridos y las relaciones entre los diversos elementos de la tabla ANOVA.
8636.png
5.1.2 https://espanol.libretexts.org/@go/page/149500
Ejemplo5.1.1:
Un ambientalista quiso determinar si la acidez media de la lluvia difería entre Alaska, Florida y Texas. Seleccionó al azar seis
fechas de lluvia en cada sitio obtuvo los siguientes datos:
8997.png
15.4372 observado es mayor que el valor crítico F de 3.68, rechazamos la hipótesis nula. Hay pruebas suficientes para afirmar
que al menos uno de los medios es diferente.
Soluciones de Software
Minitab
093_1.tif
093_2.tif
Fuente DF SS MS F P
Total 17 4.638
5.1.3 https://espanol.libretexts.org/@go/page/149500
IC del 95% individuales para la media basada en STDev agrupadas
—-+———+———+———+——
El valor p (0.000) es menor que el nivel de significancia (0.05) por lo que rechazaremos la hipótesis nula.
Excel
092_1.tif
092_2.tif
RESUMEN
ANOVA
Fuente de
SS df MS F valor p F crit
variación
Dentro de los
1.517 15 0.101133
Grupos
Total 4.638378 17
El valor p (0.000229) es menor que alfa (0.05) por lo que rechazamos la hipótesis nula. Hay pruebas suficientes para sustentar la
afirmación de que al menos uno de los medios es diferente.
Una vez que hemos rechazado la hipótesis nula y encontrado que al menos una de las medias de tratamiento es diferente, el
siguiente paso es identificar esas diferencias. Existen dos enfoques que se pueden utilizar para responder a este tipo de preguntas:
los contrastes y las comparaciones múltiples.
Los contrastes solo se pueden usar cuando hay expectativas claras ANTES de comenzar un experimento, y estos se reflejan en el
diseño experimental. Los contrastes son comparaciones planificadas. Por ejemplo, los venados mulos son tratados con el
medicamento A, el medicamento B o un placebo para tratar una infección. Los tres tratamientos no son simétricos. El placebo está
destinado a proporcionar una línea de base con la que se puedan comparar los otros fármacos. Los contrastes son más poderosos
que las comparaciones múltiples porque son más específicos. Son más capaces de captar una diferencia significativa. Los
contrastes no siempre están fácilmente disponibles en los paquetes de software estadístico (cuando lo están, a menudo es necesario
asignar los coeficientes), o pueden limitarse a comparar cada muestra con un control.
Se deben usar comparaciones múltiples cuando no hay expectativas justificadas. Son pruebas de significación aposteriori, por
pares. Por ejemplo, comparamos el kilometraje de gasolina para seis marcas de vehículos todo terreno. No tenemos conocimiento
previo para esperar que ningún vehículo funcione de manera diferente al resto. Aquí se deben realizar comparaciones por pares,
pero solo si una prueba ANOVA en los seis vehículos rechazó primero la hipótesis nula.
5.1.4 https://espanol.libretexts.org/@go/page/149500
NO es apropiado utilizar una prueba de contraste cuando las comparaciones sugeridas aparecen solo después de que se
hayan recopilado los datos. Nos vamos a centrar en comparaciones múltiples en lugar de contrastes planificados.
This page titled 5.1: Análisis de varianza is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane
Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available
upon request.
5.1: Analysis of Variance by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-
resources-biometrics.
5.1.5 https://espanol.libretexts.org/@go/page/149500
5.2: Comparaciones múltiples
Cuando la hipótesis nula es rechazada por la prueba F, creemos que existen diferencias significativas entre las k medias
poblacionales. Entonces, ¿cuáles son diferentes? El método de comparación múltiple es la manera de identificar cuáles de las
medias son diferentes mientras se controla el error experimental (el riesgo acumulado asociado a una familia de comparaciones).
Hay muchos métodos de comparación múltiples disponibles.
En La Prueba de Diferencia Menos Significativa, cada hipótesis individual se prueba con el estadístico t de estudiante. Cuando la
probabilidad de error Tipo I se establece en algún valor y la varianza s2 tiene v grados de libertad, la hipótesis nula es rechazada
para cualquier valor observado tal que |to|>tα/2, v. Es una versión abreviada de la realización de todas las posibles pruebas t por
pares. Este método tiene una tasa de error débil en cuanto al experimento. El LSD protegido de Fisher es algo mejor para controlar
este problema.
La desigualdad Bonferroni es una alternativa conservadora cuando el software no está disponible. Al realizar n comparaciones,
αe≤ n αc por lo tanto αc = αe/n En otras palabras, divida el nivel de significancia experimental por el número de comparaciones
múltiples para obtener el nivel de significancia en comparación. El procedimiento de Bonferroni se basa en el cálculo de intervalos
de confianza para las diferencias entre cada par posible de μ. El valor crítico para los intervalos de confianza proviene de una tabla
con (N — k) grados de libertad y k (k — 1) /2 número de intervalos. Si un intervalo en particular no contiene cero, las dos medias
se declaran significativamente diferentes entre sí. Un intervalo que contiene cero indica que las dos medias NO son
significativamente diferentes.
El procedimiento de Dunnett se creó para estudios donde uno de los tratamientos actúa como tratamiento control para algunos o
todos los tratamientos restantes. Se utiliza principalmente si el interés del estudio es determinar si las respuestas medias para los
tratamientos difieren de las del testigo. Al igual que Bonferroni, se crean intervalos de confianza para estimar la diferencia entre
dos medias de tratamiento con una tabla específica de valores críticos utilizados para controlar la tasa de error experimental. El
error estándar de la diferencia es Image37382.PNG.
La prueba de Scheffe es también un método conservador para todas las posibles comparaciones simultáneas sugeridas por los
datos. Esta prueba equipara el estadístico F del ANOVA con el estadístico de la prueba t. Desde t2 = F entonces t = √F, podemos
sustituir √F (αe, v1, v2) por t (αe, v2) por la estadística de Scheffe.
La prueba de Tukey proporciona una fuerte sensación de tasa de error experimental para todas las comparaciones por pares de
medias de tratamiento. Esta prueba también se conoce como la Diferencia Honestamente Significativa. Esta prueba ordena los
tratamientos de menor a mayor y utiliza la estadística de rango studentizado
ȳ (largest) − ȳ (smallest)
q = −−−−−−− (5.2.1)
√M SE/r
Se utiliza la diferencia absoluta de las dos medias porque la ubicación de las dos medias en la diferencia calculada es arbitraria, con
el signo de la diferencia dependiendo de qué media se use primero. Para replicaciones desiguales, se utiliza en su lugar la
aproximación Tukey-Kramer.
La prueba Student-Newman-Keuls (SNK) es una prueba de rango múltiple basada en el estadístico de rango studentizado como el
de Tukey, el valor crítico se basa en un par particular de medias que se prueban dentro de todo el conjunto de medias ordenadas. Se
utilizan dos o más rangos entre medias para los criterios de prueba. Si bien es similar a la de Tukey en términos de estadística de
prueba, tiene tasas de error débiles en cuanto a experimentos.
Las pruebas de Bonferroni, Dunnett y Scheffe son las más conservadoras, lo que significa que la diferencia entre las dos medias
debe ser mayor antes de concluir una diferencia significativa. Las pruebas LSD y SNK son las menos conservadoras. La prueba de
Tukey está en el medio. Robert Kuehl, autor de Design of Experiments: Statistical Principles of Research Design and Analysis
(2000), afirma que el método Tukey brinda la mejor protección contra errores de decisión, junto con una fuerte inferencia sobre la
magnitud y dirección de las diferencias.
Volvamos a nuestra pregunta sobre la acidez media de la lluvia en Alaska, Florida y Texas. Las hipótesis nulas y alternativas fueron
las siguientes:
5.2.1 https://espanol.libretexts.org/@go/page/149499
El valor p para la prueba F fue de 0.000229, lo que es menor que nuestro nivel de significancia del 5%. Rechazamos la hipótesis
nula y tuvimos pruebas suficientes para apoyar la afirmación de que al menos una de las medias era significativamente diferente de
otra. Utilizaremos los métodos de Bonferroni y Tukey para múltiples comparaciones con el fin de determinar qué media (s) es
diferente (s).
−−−−−−−−−−−−−
M SE M SE
F or μk−1 − μk : (xk−1
¯ −x
¯k ) ± (Bonf erronit critical value)√ +
nk−1 nk
Donde MSE es de la tabla de análisis de varianza y el valor crítico de t de Bonferroni proviene de la Tabla Bonferroni que se da a
continuación. El valor crítico de Bonferroni t, en lugar del valor crítico t de student, combinado con el uso del MSE se utiliza para
lograr un nivel de confianza simultáneo de al menos 95% para todos los intervalos computados. Se juzga que las dos medias son
significativamente diferentes si el intervalo correspondiente no incluye cero.
8535.png
−−−−−−−−−−−−− −
0.1011 0.1011
F orμA − μT : (5.033 − 5.537) ± (2.69)√ + = (−0.9978, −0.0102)
6 6
−−−−−−−−−−−−− −
0.1011 0.1011
F orμF − μT : (4.517 − 5.537) ± (2.69)√ + = (−1.5138, 0.5262)
6 6
El primer intervalo de confianza contiene todos los valores positivos. Esto le dice que hay una diferencia significativa entre las dos
medias y que el pH medio de lluvia para Alaska es significativamente mayor que el pH medio de lluvia para Florida.
El segundo intervalo de confianza contiene todos los valores negativos. Esto le dice que hay una diferencia significativa entre las
dos medias y que el pH medio de lluvia de Alaska es significativamente menor que el pH medio de lluvia de Texas.
El tercer intervalo de confianza también contiene todos los valores negativos. Esto le dice que hay una diferencia significativa entre
las dos medias y que el pH medio de lluvia de Florida es significativamente menor que el pH medio de lluvia de Texas.
Los tres estados tienen niveles significativamente diferentes de pH de lluvia. Texas tiene el pH de lluvia más alto, luego Alaska
seguido de Florida, que tiene el nivel medio de pH de lluvia más bajo. Puede utilizar los intervalos de confianza para estimar la
diferencia media entre los estados. Por ejemplo, el pH promedio de lluvia en Texas oscila entre 0.5262 y 1.5138 más alto que el pH
promedio de lluvia en Florida.
Ahora usemos el método Tukey para múltiples comparaciones. Vamos a dejar que el software calcule los valores por nosotros.
Excel no hace múltiples comparaciones así que vamos a confiar en la salida de Minitab.
095.tif
Fuente DF SS MS F P
Total 17 4.638
5.2.2 https://espanol.libretexts.org/@go/page/149499
S = 0.3180 R-Sq = 67.29% R-Sq (adj) = 62.93%
Ya hemos visto esta parte de la salida antes. Ahora queremos enfocarnos en el Método de Agrupación de Información Usando
Tukey. Los tres estados tienen letras diferentes que indican que el pH medio de la lluvia para cada estado es significativamente
diferente. También se listan de mayor a menor. Es fácil ver que Texas tiene el pH medio de lluvia más alto mientras que Florida
tiene el más bajo.
Texas 6 5.5367 A
Alaska 6 5.0333 B
Florida 6 4.516 C
Este siguiente conjunto de intervalos de confianza es similar a los intervalos de confianza de Bonferroni. Estiman la diferencia de
cada par de medias. El nivel del intervalo de confianza individual se establece en 97.97% en lugar de 95%, controlando así la tasa
de error experimental.
———+———+———+———+
———+———+———+———+
El primer emparejamiento es Florida — Alaska, lo que resulta en un intervalo de (-0.9931, -0.0402). El intervalo tiene todos los
valores negativos que indican que Florida es significativamente menor que Alaska. El segundo emparejamiento es Texas —
Alaska, que resulta en un intervalo de (0.0269, 0.9798). El intervalo tiene todos los valores positivos que indican que Texas es
mayor que Alaska. El tercer emparejamiento es Texas — Florida, lo que resulta en un intervalo de (0.5435, 1.4965). Todos los
valores positivos indican que Texas es mayor que Florida.
Los intervalos son similares a los intervalos de Bonferroni con diferencias de ancho debido a los métodos utilizados. En ambos
casos se llega a las mismas conclusiones.
Cuando usamos ANOVA unidireccional y concluimos que las diferencias entre las medias son significativas, no podemos estar
absolutamente seguros de que el factor dado sea responsable de las diferencias. Es posible que la variación de algún otro factor
desconocido sea la responsable. Una forma de reducir el efecto de factores extraños es diseñar un experimento para que tenga un
diseño completamente aleatorio. Esto significa que cada elemento tiene igual probabilidad de recibir algún tratamiento o pertenecer
5.2.3 https://espanol.libretexts.org/@go/page/149499
a cualquier grupo diferente. En general, los buenos resultados requieren que el experimento sea cuidadosamente diseñado y
ejecutado.
Ejemplo adicional:
https://youtu.be/BMyYXc8cWHs
This page titled 5.2: Comparaciones múltiples is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane
Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available
upon request.
5.2: Multiple Comparisons by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-
resources-biometrics.
5.2.4 https://espanol.libretexts.org/@go/page/149499
CHAPTER OVERVIEW
This page titled 6: Análisis bidireccional de varianza is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by
Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is
available upon request.
1
6.1: Efectos principales y efecto de interacción
En el capítulo anterior se utilizó ANOVA unidireccional para analizar datos de tres o más poblaciones utilizando la hipótesis nula
de que todas las medias eran iguales (sin efecto de tratamiento). Por ejemplo, un biólogo quiere comparar el crecimiento medio
para tres niveles diferentes de fertilizante. Un ANOVA unidireccional prueba para ver si al menos uno de los medios de tratamiento
es significativamente diferente de los demás. Si se rechaza la hipótesis nula, se puede usar un método de comparación múltiple,
como el de Tukey, para identificar qué medias son diferentes, y el intervalo de confianza se puede usar para estimar la diferencia
entre las diferentes medias.
Supongamos que el biólogo quiere hacer esta misma pregunta pero con dos especies diferentes de plantas mientras sigue probando
los tres diferentes niveles de fertilizante. El biólogo necesita investigar no solo el crecimiento promedio entre las dos especies
(efecto principal A) y el crecimiento promedio para los tres niveles de fertilizante (efecto principal B), sino también la interacción
o relación entre los dos factores de especie y fertilizante. El análisis bidireccional de varianza permite al biólogo responder a la
pregunta sobre el crecimiento afectado por especies y niveles de fertilizante, y dar cuenta de la variación debida a ambos factores
simultáneamente.
Nuestro examen de ANOVA de una vía se realizó en el contexto de un diseño completamente al azar donde los tratamientos se
asignan aleatoriamente a cada sujeto (o unidad experimental). Ahora consideramos el análisis en el que dos factores pueden
explicar la variabilidad en la variable respuesta. Recuerde que podemos tratar los factores controlándolos, fijándolos en niveles
específicos, y aplicando aleatoriamente los tratamientos para minimizar el efecto de las variables incontroladas sobre la variable de
respuesta. Con dos factores, necesitamos un experimento factorial.
aumentar la precisión para las estimaciones de los medios de tratamiento. El aumento de la replicación disminuyes = 2
s
r
y
6.1.1 https://espanol.libretexts.org/@go/page/149549
cambios en el nivel del Factor A resultan en diferentes cambios en el valor de la variable de respuesta para los diferentes niveles
del Factor B, decimos que existe un efecto de interacción entre los factores. Considera el siguiente ejemplo para ayudar a aclarar
esta idea de interacción.
Ejemplo6.1.1:
El Factor A tiene dos niveles y el Factor B tiene dos niveles. En el cuadro izquierdo, cuando el Factor A está en el nivel 1, el
Factor B cambia en 3 unidades. Cuando el Factor A está en el nivel 2, el Factor B vuelve a cambiar en 3 unidades. De igual
manera, cuando el Factor B está en el nivel 1, el Factor A cambia en 2 unidades. Cuando el Factor B está en el nivel 2, el
Factor A vuelve a cambiar en 2 unidades. No hay interacción. El cambio en la respuesta promedio real cuando el nivel de
cualquiera de los factores cambia de 1 a 2 es el mismo para cada nivel del otro factor. En este caso, los cambios en los niveles
de los dos factores afectan la respuesta promedio verdadera por separado, o de manera aditiva.
Supuestos
Nota: Asunción básica
Las observaciones sobre cualquier tratamiento en particular se seleccionan independientemente de una distribución normal con
varianza σ2 (la misma varianza para cada tratamiento), y las muestras de diferentes tratamientos son independientes entre sí.
Podemos utilizar gráficas de probabilidad normal para satisfacer el supuesto de normalidad para cada tratamiento. El requisito de
varianzas iguales es más difícil de confirmar, pero generalmente podemos verificar asegurándonos de que la desviación estándar de
la muestra más grande no sea más del doble de la desviación estándar de la muestra más pequeña.
Aunque no es un requisito para ANOVA de dos vías, tener un número igual de observaciones en cada tratamiento, denominado
diseño de equilibrio, aumenta la potencia de la prueba. Sin embargo, las repeticiones desiguales (un diseño desequilibrado), son
muy comunes. Algunos paquetes de software estadístico (como Excel) solo funcionarán con diseños equilibrados. Minitab
proporcionará el análisis correcto para diseños balanceados y desequilibrados en el componente Modelo Lineal General bajo
análisis estadístico ANOVA. No obstante, en aras de la simplicidad, nos centraremos en diseños equilibrados en este capítulo.
6.1.2 https://espanol.libretexts.org/@go/page/149549
Sumas de Cuadrados y Tabla ANOVA
En el capítulo anterior, se introdujo la idea de sumas de cuadrados para dividir la variación por tratamiento y variación aleatoria. La
relación es la siguiente:
SST o = SST r + SSE (6.1.1)
Ahora particionamos la variación aún más para reflejar los efectos principales (Factor A y Factor B) y el término de interacción:
SST o = SSA + SSB + SSAB + SSE (6.1.2)
donde
1. SsTo es la suma total de cuadrados, con los grados asociados de libertad klm — 1
2. SSA es el factor A principal efecto sumas de cuadrados, con grados asociados de libertad k — 1
3. SSB es el factor B principal efecto sumas de cuadrados, con grados asociados de libertad l — 1
4. SSAB es la suma de interacción de cuadrados, con grados de libertad asociados (k — 1) (l — 1)
5. SSE es la suma del error de cuadrados, con grados de libertad asociados kl (m — 1)
Como vimos en el capítulo anterior, la magnitud de la SSE está completamente relacionada con la cantidad de variabilidad
subyacente en las distribuciones que se muestrean. No tiene nada que ver con los valores de las diversas respuestas medias
verdaderas. SSAB refleja en parte la variabilidad subyacente, pero su valor también se ve afectado por si existe o no una
interacción entre los factores; cuanto mayor sea la interacción, mayor será el valor de SSAB.
La siguiente tabla ANOVA ilustra la relación entre las sumas de cuadrados para cada componente y el estadístico F resultante para
probar las tres hipótesis nulas y alternativas para un ANOVA bidireccional.
1. H : No hay interacción entre factores
0
Si hay una interacción significativa, entonces ignore los siguientes dos conjuntos de hipótesis para los efectos principales. Una
interacción significativa te dice que el cambio en la verdadera respuesta promedio para un nivel de Factor A depende del nivel de
Factor B. El efecto de los cambios simultáneos no se puede determinar examinando los efectos principales por separado. Si NO hay
una interacción significativa, entonces proceda a probar los efectos principales. Las sumas de cuadrados del Factor A reflejarán la
variación aleatoria y cualquier diferencia entre las respuestas promedio verdaderas para diferentes niveles del Factor A. De manera
similar, las sumas de cuadrados del Factor B reflejarán la variación aleatoria y las respuestas promedio verdaderas para los
diferentes niveles del Factor B.
la mejor estimación deσ . Observe que en cada caso, el MSE es el denominador en el estadístico de prueba y el numerador es la
2
suma media de cuadrados para cada factor principal y término de interacción. El estadístico F se encuentra en la columna final de
6.1.3 https://espanol.libretexts.org/@go/page/149549
esta tabla y se utiliza para responder a las tres hipótesis alternativas. Por lo general, los valores p asociados a cada estadístico F
también se presentan en una tabla ANOVA. Utilizarás la Regla de Decisión para determinar el resultado de cada uno de los tres
pares de hipótesis.
Si el valor p es menor que α (nivel de significancia), rechazará la hipótesis nula.
Cuando realizamos un ANOVA bidireccional, siempre probamos primero la hipótesis con respecto al efecto de interacción. Si se
rechaza la hipótesis nula de no interacción, NO interpretamos los resultados de las hipótesis que involucran los efectos principales.
Si el término de interacción NO es significativo, entonces examinamos los dos efectos principales por separado. Veamos un
ejemplo.
Ejemplo6.1.2:
Se realizó un experimento para evaluar los efectos de la variedad de plantas de soya (factor A, con k = 3 niveles) y la densidad
de siembra (factor B, con l = 4 niveles — 5, 10, 15 y 20 mil plantas por hectárea) sobre el rendimiento. Cada uno de los 12
tratamientos (k * l) se aplicó aleatoriamente a m = 3 parcelas (klm = 36 observaciones totales). Utilice un ANOVA
bidireccional para evaluar los efectos a un nivel de significancia del 5%.
Cuadro 3. Datos observados para tres variedades de plantas de soya a cuatro densidades.
Siempre es importante observar los rendimientos promedio de la muestra para cada tratamiento, cada nivel de factor A y cada
nivel de factor B.
Cuadro 4. Tabla de resumen.
Densidad
Rendimiento
promedio de la
Variedad 5 10 15 20
muestra para cada
nivel de factor A
Rendimiento
promedio de la
11.46 14.39 15.77 13.92 13.88
muestra para cada
nivel de factor B
Por ejemplo, 11.32 es el rendimiento promedio para la variedad #1 sobre todos los niveles de densidades de siembra. El valor
11.46 es el rendimiento promedio para parcelas sembradas con 5,000 plantas en todas las variedades. La gran media es 13.88.
A continuación se presenta la tabla ANOVA.
Cuadro 5. Tabla ANOVA de dos vías.
Fuente DF SS MSS F P
6.1.4 https://espanol.libretexts.org/@go/page/149549
Fuente DF SS MSS F P
total 35
El valor p para la prueba para una interacción significativa entre factores es 0.562. Este valor p es mayor al 5% (α), por lo tanto
fallamos en rechazar la hipótesis nula. No hay evidencia de una interacción significativa entre variedad y densidad. Por lo que
es conveniente realizar más pruebas respecto a la presencia de los efectos principales.
H0 : No hay efecto del Factor A (variedad) sobre la variable de respuesta
H1 : Hay un efecto del Factor A en la variable de respuesta
El estadístico F:
M SA 163.887
FA = = = 100.48 (6.1.4)
M SE 1.631
El valor p (<0.001) es menor que 0.05 por lo que rechazaremos la hipótesis nula. Existe una diferencia significativa en el
rendimiento entre las tres variedades.
H0 : No hay efecto del Factor B (densidad) sobre la variable de respuesta
H1 : Hay un efecto del Factor B en la variable de respuesta
El estadístico F:
M SB 28.969
FA = = = 17.76 (6.1.5)
M SE 1.631
El valor p (<0.001) es menor que 0.05 por lo que rechazaremos la hipótesis nula. Hay una diferencia significativa en el
rendimiento entre las cuatro densidades de siembra.
This page titled 6.1: Efectos principales y efecto de interacción is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or
curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit
history is available upon request.
6.1: Main Effects and Interaction Effect by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source:
https://milneopentextbooks.org/natural-resources-biometrics.
6.1.5 https://espanol.libretexts.org/@go/page/149549
6.2: Comparaciones múltiples
El siguiente paso es examinar las múltiples comparaciones para cada efecto principal para determinar las diferencias. Procederemos
como hicimos con las comparaciones múltiples de ANOVA unidireccionales examinando la Agrupación de Tukey para cada efecto
principal. Para el factor A, se presentan la variedad, las medias de la muestra y las letras de agrupación para identificar aquellas
variedades que son significativamente diferentes de otras variedades. Las variedades 1 y 2 no son significativamente diferentes
entre sí, ambas produciendo rendimientos similares. La variedad 3 produjo rendimientos significativamente mayores que ambas
variedades 1 y 2.
3 12 18.117 A
2 12 12.208 B
1 12 11.317 B
Algunas de las densidades también son significativamente diferentes. Seguiremos el mismo procedimiento para determinar las
diferencias.
15 9 15.756 A
10 9 14.389 A B
20 9 13.922 B
5 9 11.456 C
La Información de Agrupación nos muestra que una densidad de siembra de 15,000 plantas/parcela da como resultado el mayor
rendimiento. Sin embargo, no hay diferencia significativa en el rendimiento entre 10,000 y 15,000 plantas/parcela o entre 10,000 y
20,000 plantas/parcela. Las parcelas con 5,000 plantas/parcela dan como resultado los rendimientos más bajos y estos rendimientos
son significativamente menores que todas las demás densidades probadas.
Las parcelas de efectos principales también ilustran las diferencias en el rendimiento entre las tres variedades y las cuatro
densidades.
9662.png
Ejemplo6.2.1:
Un investigador se interesó por los efectos de cuatro niveles de fertilización (testigo, 100 lb., 150 lb., y 200 lb.) y cuatro niveles
de riego (A, B, C y D) sobre el rendimiento de biomasa. Las dieciséis posibles combinaciones de tratamiento se asignaron
aleatoriamente a 80 parcelas (5 parcelas por cada tratamiento). A continuación se enumeran los rendimientos totales de
biomasa para cada tratamiento.
Fertilizante
6.2.1 https://espanol.libretexts.org/@go/page/149542
2700,2801,2720, 2390, 3250, 3151, 3170, 3300, 3300, 3235, 3025, 3165, 3500, 3455, 3100, 3600,
A
2890 3290 3120 3250
3101, 3035, 3205, 3007, 2700, 2935, 2250, 2495, 3050, 3110, 3033, 3195, 3100, 3235, 3005, 3095,
B
3100 2850 4250 3050
C 101, 97, 106, 142, 99 400, 302, 296, 315, 390 630, 624, 595, 675, 595 400, 325, 200, 375, 390
D 121, 174, 88, 100, 76 100, 125, 91, 222, 219 60, 28, 112, 89, 67 201, 223, 195, 120, 180
Cuadro 6. Datos observados para cuatro niveles de riego y cuatro niveles de fertilizante.
El factor A (nivel de riego) tiene k = 4 niveles y el factor B (fertilizante) tiene l = 4 niveles. Hay m = 5 repeticiones y 80
observaciones totales. Este es un diseño equilibrado ya que el número de réplicas es igual. A continuación se presenta la tabla
ANOVA.
Fuente DF SS MSS F P
total 79 166878812
El valor p para la prueba para una interacción significativa entre factores es <0.001. Este valor p es inferior al 5%, por lo tanto
rechazamos la hipótesis nula. Existe evidencia de una interacción significativa entre el fertilizante y el riego. Dado que el
término de interacción es significativo, no investigamos la presencia de los efectos principales. Ahora debemos examinar
múltiples comparaciones para los 16 tratamientos (cada combinación de fertilizante y nivel de riego) para determinar las
diferencias en el rendimiento, ayudadas por la parcela factorial.
200 A 5 3381.00 A
150 B 5 3327.60 A
100 A 5 3232.20 A
150 A 5 3169.00 A
200 B 5 3097.00 A
C B 5 3089.60 A
C A 5 2700.20 B
100 B 5 2646.00 B
150 C 5 623.80 C
6.2.2 https://espanol.libretexts.org/@go/page/149542
100 C 5 340.60 C D
200 C 5 338.00 C D
200 D 5 183.80 D
100 D 5 151.40 D
C D 5 111.80 D
C C 5 109.00 D
150 D 5 71.20 D
La gráfica factorial permite visualizar las diferencias entre los 16 tratamientos. Las gráficas factoriales pueden presentar la
información de dos maneras, cada una con un factor diferente en el eje x. En la primera parcela, el nivel de fertilizante está en
el eje x. Existe una clara distinción en los rendimientos promedio para los diferentes tratamientos. Los niveles de riego A y B
parecen estar produciendo mayores rendimientos en todos los niveles de fertilizantes en comparación con los niveles de riego
C y D. En la segunda parcela, el nivel de riego está en el eje x. Todos los niveles de fertilizante parecen dar como resultado
mayores rendimientos para los niveles de riego A y B en comparación con C y D.
9631.png
6.2.3 https://espanol.libretexts.org/@go/page/149542
Figura 6. Parcela de interacción.
La tercera gráfica no muestra interacción significativa y muestra que la respuesta promedio no depende del nivel de factor A.
9588.png
This page titled 6.2: Comparaciones múltiples is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane
Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available
upon request.
6.2: Multiple Comparisons by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-
resources-biometrics.
6.2.4 https://espanol.libretexts.org/@go/page/149542
6.3: Resumen y solución de software
Resumen
El análisis bidireccional de varianza permite examinar el efecto de dos factores simultáneamente sobre la respuesta promedio. La
interacción de estos dos factores es siempre el punto de partida para el ANOVA bidireccional. Si el término de interacción es
significativo, entonces ignorarás los efectos principales y te enfocarás únicamente en los tratamientos únicos (combinaciones de los
diferentes niveles de los dos factores). Si el término de interacción no es significativo, entonces es apropiado investigar la presencia
del efecto principal de la variable de respuesta por separado.
Soluciones de Software
Minitab
113_1.tif
113_2.tif
riego fijo 4 A, B, C, D
Total 79 166878812
A 20 3120.60 A
B 20 3040.05 A
C 20 352.85 B
D 20 129.55 C
6.3.1 https://espanol.libretexts.org/@go/page/149541
fert N Media Agrupación
150 20 1797.90 A
200 20 1749.95 A
100 20 1592.55 B
C 20 1502.65 B
200 A 5 3381.00 A
150 B 5 3327.60 A
100 A 5 3232.20 A
150 A 5 3169.00 A
200 B 5 3097.00 A
C B 5 3089.60 A
C A 5 2700.20 B
100 B 5 2646.00 B
150 C 5 623.80 C
100 C 5 340.60 C D
200 C 5 338.00 C D
200 D 5 183.80 D
100 D 5 151.40 D
C D 5 111.80 D
C C 5 109.00 D
150 D 5 71.20 D
Excel
112_1.tif
112_2.tif
AA
Contar 5 5 5 5 20
AB
Contar 5 5 5 5 20
6.3.2 https://espanol.libretexts.org/@go/page/149541
Promedio 3089.6 2646 3327.6 3097 3040.05
AC
Contar 5 5 5 5 20
ANUNCIO
Contar 5 5 5 5 20
Total
Contar 20 20 20 20
ANOVA
Fuente de
SS df MS F valor p F crit
Variación
Total 1.67E+08 79
This page titled 6.3: Resumen y solución de software is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by
Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is
available upon request.
6.3: Summary And Software Solution by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source:
https://milneopentextbooks.org/natural-resources-biometrics.
6.3.3 https://espanol.libretexts.org/@go/page/149541
CHAPTER OVERVIEW
This page titled 7: Correlación y Regresión Lineal Simple is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated
by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is
available upon request.
1
7.1: Correlación
En muchos estudios, medimos más de una variable para cada individuo. Por ejemplo, medimos la precipitación y el crecimiento de
las plantas, o el número de jóvenes con hábitat de anidación, o la erosión del suelo y el volumen de agua. Recopilamos pares de
datos y en lugar de examinar cada variable por separado (datos univariados), queremos encontrar formas de describir datos
bivariados, en los que se midan dos variables sobre cada sujeto de nuestra muestra. Dados estos datos, comenzamos por
determinar si existe una relación entre estas dos variables. A medida que cambian los valores de una variable, ¿vemos los cambios
correspondientes en la otra variable?
Podemos describir la relación entre estas dos variables gráfica y numéricamente. Comenzamos por considerar el concepto de
correlación.
Definición: Correlación
La correlación se define como la asociación estadística entre dos variables.
Existe una correlación entre dos variables cuando una de ellas está relacionada de alguna manera con la otra. Una gráfica de
dispersión es el mejor lugar para comenzar. Un diagrama de dispersión (o diagrama de dispersión) es un gráfico de los datos de
muestra emparejados (x, y) con un eje x horizontal y un eje y vertical. Cada par individual (x, y) se traza como un solo punto.
11280.png
7.1.1 https://espanol.libretexts.org/@go/page/149568
Figura 5. Gráfica de dispersión de crecimiento versus área.
dondex̄ ys son la media de la muestra y la desviación estándar de la muestra de las x,ȳ ys son la media y desviación estándar de
x y
las y.
Un cálculo alternativo del coeficiente de correlación es:
Sxy
r = (7.1.2)
−−−−−−
√Sxx Syy
donde
$$S_ {xx} =\ suma x^2 -\ dfrac {(\ suma x) ^2} {n}\]
$$S_ {xy} =\ sum xy -\ dfrac {(\ sum x) (\ sum y)} {n}\]
$$S_ {yy} =\ suma y^2 -\ dfrac {(\ suma x) ^2} {n}\]
El coeficiente de correlación lineal también se conoce como coeficiente de correlación de momento producto de Pearson en honor a
Karl Pearson, quien originalmente lo desarrolló. Esta estadística describe numéricamente cuán fuerte es la relación lineal o recta
entre las dos variables y la dirección, positiva o negativa.
Las propiedades de “r”:
Siempre está entre -1 y +1.
Es una medida sin unidades por lo que “r” sería el mismo valor ya sea que midiera las dos variables en libras y pulgadas o en
gramos y centímetros.
Los valores positivos de “r” están asociados con relaciones positivas.
Los valores negativos de “r” están asociados con relaciones negativas.
Nota
La correlación no es causalidad!!! El hecho de que dos variables estén correlacionadas no significa que una variable haga que
otra variable cambie.
Examine estos dos diagramas de dispersión siguientes. Ambos conjuntos de datos tienen un r = 0.01, pero son muy diferentes. La
gráfica 1 muestra poca relación lineal entre las variables x e y. La gráfica 2 muestra una fuerte relación no lineal. El coeficiente de
correlación lineal de Pearson solo mide la fuerza y dirección de una relación lineal. Ignorar la gráfica de dispersión podría resultar
en un grave error al describir la relación entre dos variables.
11196.png
7.1.2 https://espanol.libretexts.org/@go/page/149568
Cuando investigues la relación entre dos variables, siempre comienza con una gráfica de dispersión. Esta gráfica permite buscar
patrones (tanto lineales como no lineales). El siguiente paso es describir cuantitativamente la fuerza y dirección de la relación lineal
usando “r”. Una vez que haya establecido que existe una relación lineal, puede dar el siguiente paso en la construcción de modelos.
This page titled 7.1: Correlación is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane Kiernan
(OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon
request.
7.1: Correlation by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-resources-
biometrics.
7.1.3 https://espanol.libretexts.org/@go/page/149568
7.2: Regresión lineal simple
Una vez que hemos identificado dos variables que están correlacionadas, nos gustaría modelar esta relación. Queremos utilizar una
variable como predictora o variable explicativa para explicar la otra variable, la variable de respuesta o dependiente. Para ello,
necesitamos una buena relación entre nuestras dos variables. El modelo puede entonces ser utilizado para predecir cambios en
nuestra variable de respuesta. Una fuerte relación entre la variable predictora y la variable de respuesta conduce a un buen modelo.
11187.png
Nuestro modelo tomará la forma dey^ = b + b x donde b 0 es la intercepción y, b 1 es la pendiente, x es la variable predictora e y
0 1
una estimación del valor medio de la variable de respuesta para cualquier valor de la variable predictora.
La intercepción y es el valor predicho para la respuesta (y) cuando x = 0. La pendiente describe el cambio en y para cada cambio de
unidad en x. Veamos este ejemplo para aclarar la interpretación de la pendiente e interceptar.
Ejemplo7.2.1:
Un hidrólogo crea un modelo para predecir el flujo volumétrico de una corriente en un puente que cruza con una variable
predictora de lluvia diaria en pulgadas.
Contestar
^ = 1.6 + 29x
y
La intercepción y de 1.6 se puede interpretar de esta manera: En un día sin precipitaciones, habrá 1.6 gal. de agua/min.
fluyendo en el arroyo en ese cruce de puente. El desnivel nos dice que si lloviera una pulgada ese día el flujo en el arroyo
aumentaría 29 gal adicionales. /min. Si lloviera 2 pulgadas ese día, el flujo aumentaría 58 gal adicionales. /min.
Ejemplo7.2.2:
¿Cuál sería el flujo promedio de la corriente si lloviera 0.45 pulgadas ese día?
Contestar
^ = 1.6 + 29x = 1.6 + 29(0.45) = 14.65gal. /min
y
7.2.1 https://espanol.libretexts.org/@go/page/149569
$$Residual = Observado — Predicho\]
Por ejemplo, si quisieras predecir la cincha torácica de un oso negro dado su peso, podrías usar el siguiente modelo.
Contorno de pecho = 13.2 +0.43 peso
La cincha torácica predicha de un oso que pesaba 120 lb es de 64.8 pulgadas.
Contorno de pecho = 13.2 + 0.43 (120) = 64.8 pulgadas.
Pero una cincha de pecho de oso medida (valor observado) para un oso que pesaba 120 lb fue en realidad de 62.1 pulgadas.
El residual sería de 62.1 — 64.8 = -2.7 in.
Un residuo negativo indica que el modelo está sobreprediciendo. Un residuo positivo indica que el modelo está subprediciendo. En
esta instancia, el modelo sobrepredijo la cincha torácica de un oso que en realidad pesaba 120 lb.
Image37921.PNG
Figura 10. Gráfica de dispersión con modelo de regresión que ilustra un valor residual.
Este error aleatorio (residual) toma en cuenta todos los factores impredecibles y desconocidos que no están incluidos en el modelo.
Una línea de regresión de mínimos cuadrados ordinaria minimiza la suma de los errores cuadrados entre los valores observados y
predichos para crear una línea de mejor ajuste. Las diferencias entre los valores observados y pronosticados son cuadradas para
hacer frente a las diferencias positivas y negativas.
Coeficiente de Determinación
Después de ajustar nuestra línea de regresión (computar b 0 y b 1), solemos desear saber qué tan bien se ajusta el modelo a nuestros
datos. Para determinar esto, necesitamos pensar en la idea de análisis de varianza. En ANOVA, partidimos la variación usando
sumas de cuadrados para poder identificar un efecto de tratamiento opuesto a la variación aleatoria que ocurrió en nuestros datos.
La idea es la misma para la regresión. Queremos particionar la variabilidad total en dos partes: la variación debida a la regresión y
la variación por error aleatorio. Y nuevamente vamos a calcular sumas de cuadrados para ayudarnos a hacer esto.
Supongamos que la variabilidad total en las mediciones de la muestra sobre la media de la muestra se denota por∑(y − ȳ ) , i
2
llamadas las sumas de cuadrados de variabilidad total sobre la media (SST). La diferencia al cuadrado entre el valor predichoy^
y la media de la muestra se denota por∑(y^ − ȳ ) , llamadas las sumas de cuadrados por regresión (SSR). La SSR representa la
i
2
variabilidad explicada por la línea de regresión. Finalmente, la variabilidad que no puede ser explicada por la línea de regresión se
llama las sumas de cuadrados por error (SSE) y se denota con∑(y − y^) . La SSE es en realidad el residual cuadrado.
i
2
∑(yi − ȳ )
2
=∑(y^ i
2
− ȳ ) +∑(y^
i
2
− ȳ )
11168.png
Figura 11. Una ilustración de la relación entre la media de las y y el valor predicho y observado de una y específica.
Las sumas de cuadrados y las sumas medias de los cuadrados (al igual que ANOVA) se presentan típicamente en la tabla de análisis
de regresión de varianza. La relación de las sumas medias de cuadrados para la regresión (MSR) y las sumas medias de cuadrados
para el error (MSE) forman un estadístico de prueba F utilizado para probar el modelo de regresión.
La relación entre estas sumas de cuadrados se define como
$$Total\ Variación = Explicada\ Variación + Inexplicada\ Variación\]
Cuanto mayor sea la variación explicada, mejor será el modelo en la predicción. Cuanto mayor sea la variación inexplicable, peor
será el modelo en la predicción. Una medida cuantitativa del poder explicativo de un modelo esR , el Coeficiente de 2
Determinación:
$$R^2 =\ dfrac {Explicado\ Variación} {Total\ Variación}\]
El Coeficiente de Determinación mide la variación porcentual en la variable de respuesta (y) que se explica por el modelo.
Los valores van de 0 a 1.
UnR cercano a cero indica un modelo con muy poco poder explicativo.
2
7.2.2 https://espanol.libretexts.org/@go/page/149569
UnR cercano a uno indica un modelo con más poder explicativo.
2
3. El error de término aleatorio los valores ε son independientes, tienen una media de 0 y una varianza comúnσ , independiente de
2
x, y normalmente se distribuyen.
Podemos usar gráficas residuales para verificar una varianza constante, así como para asegurarnos de que el modelo lineal es de
hecho adecuado. Una gráfica residual es una gráfica de dispersión del valor residual (= observado — valores predichos) versus el
valor predicho o ajustado (como se usa en la gráfica residual). El eje horizontal central se establece en cero. Una propiedad de los
residuos es que suman a cero y tienen una media de cero. Una gráfica residual debe estar libre de cualquier patrón y los residuos
deben aparecer como una dispersión aleatoria de puntos alrededor de cero.
Una gráfica residual sin apariencia de ningún patrón indica que los supuestos del modelo están satisfechos para estos datos.
11155.png
Figura 14. Una gráfica residual que indica la necesidad de un modelo de orden superior.
Una gráfica de probabilidad normal nos permite comprobar que los errores se distribuyen normalmente. Se grafica los residuos
contra el valor esperado del residual como si hubiera venido de una distribución normal. Recordemos que cuando los residuos se
distribuyen normalmente, seguirán un patrón de línea recta, inclinándose hacia arriba.
Esta parcela no es inusual y no indica ninguna no normalidad con los residuos.
11121.png
Figura 16. Una gráfica de probabilidad normal, que ilustra la distribución no normal.
Las violaciones más graves de la normalidad suelen aparecer en las colas de la distribución porque aquí es donde la distribución
normal se diferencia más de otros tipos de distribuciones con una media y propagación similares. La curvatura en uno o ambos
extremos de una gráfica de probabilidad normal es indicativa de no normalidad.
7.2.3 https://espanol.libretexts.org/@go/page/149569
This page titled 7.2: Regresión lineal simple is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane
Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available
upon request.
7.2: Simple Linear Regression by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-
resources-biometrics.
7.2.4 https://espanol.libretexts.org/@go/page/149569
7.3: Modelo poblacional
Nuestro modelo de regresión se basa en una muestra de n observaciones bivariadas extraídas de una mayor población de
mediciones.
$$\ hat y = b_0 +b_1x\]
Utilizamos las medias y desviaciones estándar de nuestros datos de muestra para calcular la pendiente (b 1) y la intersección y (b 0)
con el fin de crear una línea de regresión ordinaria de mínimos cuadrados. Pero queremos describir la relación entre y y x en la
población, no solo dentro de nuestros datos de muestra. Queremos construir un modelo poblacional. Ahora pensaremos en la línea
de mínimos cuadrados calculada a partir de una muestra como estimación de la línea de regresión verdadera para la población.
poblacional.
En nuestra población, podría haber muchas respuestas diferentes por un valor de x. En regresión lineal simple, el modelo asume
que para cada valor de x los valores observados de la variable de respuesta y se distribuyen normalmente con una media que
depende de x. Utilizamos μy para representar estas medias. También asumimos que todos estos medios se encuentran en una línea
recta cuando se trazan contra x (una línea de medias).
Figura 17. El modelo estadístico para regresión lineal; la respuesta media es una función de línea recta de la variable predictora.
Los datos de la muestra se ajustan entonces al modelo estadístico:
Datos = ajuste + residual
$$y_i = (\ beta_0 +\ beta_1x_i) +\ epsilon_i\]
donde los errores (εi) son independientes y normalmente distribuidos N (0, σ). La regresión lineal también asume la misma
varianza de y (σ es la misma para todos los valores de x). Usamos ε (épsilon griego) para representar la parte residual del modelo
estadístico. Una respuesta y es la suma de su media y desviación de probabilidad εde la media. Las desviaciones ε representan el
“ruido” en los datos. Es decir, el ruido es la variación en y debido a otras causas que impiden que la observada (x, y) forme una
línea perfectamente recta.
Los datos de muestra utilizados para la regresión son los valores observados de y y x. La respuesta y a una x dada es una variable
aleatoria, y el modelo de regresión describe la media y desviación estándar de esta variable aleatoria y. La intersección β0, la
pendiente β1 y la desviación estándar σ de y son los parámetros desconocidos del modelo de regresión y deben estimarse a partir de
los datos de la muestra.
El valor de y de la línea de regresión de mínimos cuadrados es realmente una predicción del valor medio de y (μy) para un valor
dado de x.
La línea de regresión de mínimos cuadrados (y^ = b + b x ) obtenida de los datos de la muestra es la mejor estimación de la
0 1
7.3.1 https://espanol.libretexts.org/@go/page/149561
y es una estimación imparcial para la respuesta media μy
b 0 es una estimación imparcial para la intercepción β0
b 1 es una estimación imparcial para la pendiente β1
Estimación de parámetros
Una vez que tenemos estimaciones de β0 y β1 (a partir de nuestros datos de muestra b 0 y b 1), la relación lineal determina las
estimaciones de μy para todos los valores de x en nuestra población, no solo para los valores observados de x. Ahora queremos
utilizar la línea de mínimos cuadrados como base para la inferencia sobre una población de la que se extrajo nuestra muestra.
Los supuestos del modelo nos dicen que b 0 y b1 normalmente se distribuyen con medias β0 y β1 con desviaciones estándar que
pueden estimarse a partir de los datos. Los procedimientos de inferencia sobre la línea de regresión poblacional serán similares a
los descritos en el capítulo anterior para las medias. Como siempre, es importante examinar los datos en busca de valores atípicos y
observaciones influyentes.
Para ello, necesitamos estimar σ, el error estándar de regresión. Esta es la desviación estándar de los errores del modelo. Mide la
variación de y sobre la línea de regresión poblacional. Usaremos los residuales para calcular este valor. Recuerde, el valor predicho
de y (p) para una x específica es el punto en la línea de regresión. Es la estimación imparcial de la respuesta media (μy) para esa x.
El residuo es:
residual = observado — predicho
$$\ épsilon_i = y_i —\ hat {y} = y_i - (b_0+b_1x)\]
El residual e i corresponde a la desviación del modeloϵ donde∑ ϵ
i i =0 con una media de 0. El error estándar de regresión s es una
estimación imparcial de σ.
$$s=\ sqrt {\ dfrac {\ suma residual^2} {n-2}} =\ sqrt {\ dfrac {\ sum (y_i-\ hat {y_i}) ^2} {n-2}}\]
La cantidad s es la estimación del error estándar de regresión (σ) y a menudos se denomina error cuadrático medio (MSE). Un
2
pequeño valor de s sugiere que los valores observados de y caen cerca de la línea de regresión verdadera y la líneay^ = b + b x 0 1
$$\ sigma_ {\ hat {\ beta_1}} =\ sigma\ sqrt {\ frac {1} {n} +\ dfrac {\ bar x ^2} {\ sum (x_i -\ bar x) ^2}}\]
El error estándar para la estimación deβ 1
Podemos construir intervalos de confianza para la pendiente de regresión e interceptar de la misma manera que lo hicimos al
estimar la media poblacional.
Un intervalo de confianza paraβ 0 : b0 ± tα/2 S Eb0
dondeSE b0 ySE
b1 son los errores estándar para la intersección y y la pendiente, respectivamente.
También podemos probar la hipótesisH : β = 0 . Cuando sustituimosβ = 0 en el modelo, el término x cae y nos quedamos con
0 1 1
μ = β . Esto nos dice que la media de y NO varía con x. En otras palabras, no existe una relación de línea recta entre x e y y la
y 0
7.3.2 https://espanol.libretexts.org/@go/page/149561
Prueba de hipótesis paraβ 1
H0 : β1 = 0
H1 : β1 ≠ 0
Ejemplo7.3.1:
El índice de integridad biótica (IBI) es una medida de la calidad del agua en los arroyos. Como gerente de los recursos
naturales en esta región, debe monitorear, rastrear y predecir los cambios en la calidad del agua. Se desea crear un modelo de
regresión lineal simple que le permita predecir cambios en IBI en área boscosa. La siguiente tabla muestra datos de una región
forestal costera y da los datos para IBI y área boscosa en kilómetros cuadrados. Que el área forestal sea la variable predictora
(x) e IBI sea la variable de respuesta (y).
11090.png
.
Ahora usemos Minitab para calcular el modelo de regresión. La salida aparece a continuación.
Análisis de varianza
Fuente DF SS MS F P
7.3.3 https://espanol.libretexts.org/@go/page/149561
Regresión 1 12089 12089 56.32 0.000
Total 49 22392
Las estimaciones para β0 y β1 son 31.6 y 0.574, respectivamente. Podemos interpretar la intersección y para significar que
cuando hay cero área boscosa, el IBI será igual a 31.6. Por cada kilómetro cuadrado adicional de área boscosa agregada, el IBI
aumentará en 0.574 unidades.
El coeficiente de determinación, R2, es 54.0%. Esto significa que 54% de la variación en IBI se explica por este modelo.
Aproximadamente el 46% de la variación en el IBI se debe a otros factores o variación aleatoria. Nos gustaría que R2 fuera lo
más alto posible (valor máximo del 100%).
Las gráficas de probabilidad residual y normal no indican ningún problema.
11070.png
H0: β1 =0 H1: β1 ≠ 0
Análisis de varianza
Fuente DF SS MS F P
Total 49 22392
7.3.4 https://espanol.libretexts.org/@go/page/149561
El estadístico de prueba t es 7.50 con un valor p asociado de 0.000. El valor p es menor que el nivel de significancia (5%) por
lo que rechazaremos la hipótesis nula. La pendiente es significativamente diferente de cero. El mismo resultado se puede
encontrar a partir del estadístico de prueba F de 56.32 (7.5052 = 56.32). El valor p es el mismo (0.000) que la conclusión.
Ahora que hemos creado un modelo de regresión construido sobre una relación significativa entre la variable predictora y la
variable de respuesta, estamos listos para usar el modelo para
estimar el valor promedio de y para un valor dado de x
predecir un valor particular de y para un valor dado de x
Examinemos la primera opción. Los datos muestrales de n pares que se extrajeron de una población se utilizaron para calcular los
coeficientes de regresión b 0 y b1 para nuestro modelo, y nos da el valor promedio de y para un valor específico de x a través de
nuestro modelo poblacionalμ = β + β x
y 0 1
. Por cada valor específico de x, hay un promedio y (μ y), que cae sobre la ecuación de línea recta (una línea de medias). Recuerde,
que puede haber muchos valores observados diferentes de la y para una x particular, y se supone que estos valores tienen una
distribución normal con una media igual aβ + β x y una varianza de σ2. Dado que los valores calculados de b 0 y b1 varían de
0 1
una muestra a otra, cada nueva muestra puede producir una ecuación de regresión ligeramente diferente. Cada nuevo modelo se
puede utilizar para estimar un valor de y para un valor de x. ¿Qué tan lejos estará nuestro estimadory^ = b + b x de la verdadera
0 1
población media para ese valor de x? Esto depende, como siempre, de la variabilidad en nuestro estimador, medida por el error
estándar.
Se puede demostrar que el valor estimado de y cuando x = x 0 (algún valor especificado de x), es un estimador imparcial de la
media poblacional, y que p se distribuye normalmente con un error estándar de
$SE_ {\ sombrero\ mu} = s\ sqrt {\ frac {1} {n} +\ frac {(x_0-\ bar x) ^2} {\ sum (x_i -\ bar x) ^2}}\]
Podemos construir un intervalo de confianza para estimar mejor este parámetro (μy) siguiendo el mismo procedimiento ilustrado
anteriormente en este capítulo.
$$\ hat {\ mu_y}\ pm t_ {\ alpha/2} SE_ {\ sombrero\ mu}\]
donde el valor crítico tα/2 proviene de la tabla t estudiantil con (n — 2) grados de libertad.
El software estadístico, como Minitab, calculará los intervalos de confianza por usted. Usando los datos del ejemplo anterior,
utilizaremos Minitab para calcular el intervalo de confianza del 95% para la respuesta media para un área boscosa promedio de 32
km.
Si muestreaste muchas áreas que promediaron 32 km. de superficie boscosa, tu estimación del IBI promedio sería de 45.1562 a
54.7429.
Puede repetir este proceso muchas veces para varios valores diferentes de x y trazar los intervalos de confianza para la respuesta
media.
x IC 95%
20 (37.13, 48.88)
40 (50.22, 58.86)
60 (61.43, 70.61)
80 (70.98, 84.02)
11060.png
7.3.5 https://espanol.libretexts.org/@go/page/149561
Figura 20. Intervalos de confianza del 95% para la respuesta media.
Observe cómo varía el ancho del intervalo de confianza del 95% para los diferentes valores de x. Dado que el ancho del intervalo
de confianza es más estrecho para los valores centrales de x, se deduce que μy se estima con mayor precisión para los valores de x
en esta área. A medida que avanza hacia los límites extremos de los datos, el ancho de los intervalos aumenta, lo que indica que
sería imprudente extrapolar más allá de los límites de los datos utilizados para crear este modelo.
Intervalos de predicción
¿Y si quieres predecir un valor particular de y cuándox = x ? O, ¿quizás quieres predecir la siguiente medición para un valor dado
0
de x? Este problema difiere de construir un intervalo de confianza paraμ . En lugar de construir un intervalo de confianza para
y
estimar un parámetro de población, necesitamos construir un intervalo de predicción. Elegir predecir un valor particular de y
incurre en algún error adicional en la predicción debido a la desviación de y de la línea de medias. Examine la figura a
continuación. Se puede ver que el error en la predicción tiene dos componentes:
1. El error en el uso de la línea ajustada para estimar la línea de medias
2. El error causado por la desviación de y de la línea de medias, medido porσ 2
136.tif
Puede repetir este proceso muchas veces para varios valores diferentes de x y trazar los intervalos de predicción para la respuesta
media.
x 95% PI
20 (13.01, 73.11)
40 (24.77, 84.31)
60 (36.21, 95.83)
80 (47.33, 107.67)
Observe que las bandas de intervalo de predicción son más anchas que las bandas de intervalo de confianza correspondientes,
reflejando el hecho de que estamos predicando el valor de una variable aleatoria en lugar de estimar un parámetro de población.
Esperaríamos que las predicciones para un valor individual fueran más variables que las estimaciones de un valor promedio.
10592.png
7.3.6 https://espanol.libretexts.org/@go/page/149561
recíproca. Incluir términos de orden superior en x también puede ayudar a linealizar la relación entre x e y. A continuación se
muestran algunas formas comunes de diagramas de dispersión y posibles opciones para transformaciones. Sin embargo, la elección
de la transformación suele ser más una cuestión de prueba y error que de reglas establecidas.
CH7DataRelationship4
CH7DataRelationship3
CH7DataRelationship2
CH7DataRelationship1
Ejemplo7.3.2:
Un silvicultor necesita crear un modelo de regresión lineal simple para predecir el volumen del árbol usando diámetro a la
altura del pecho (dbh) para arces azucareros. Recolecta dbh y volumen para 236 arces azucareros y parcelas volumen versus
dbh. A continuación se muestra la gráfica de dispersión, el coeficiente de correlación y la salida de regresión de Minitab.
10541.png
Análisis de varianza
Fuente DF SS MS F P
El R2 es 79.9% lo que indica un modelo bastante fuerte y la pendiente es significativamente diferente de cero. Sin embargo,
tanto la gráfica residual como la gráfica de probabilidad normal residual indican serios problemas con este modelo. Una
transformación puede ayudar a crear una relación más lineal entre volumen y dbh.
10531.png
Figura 26. Gráficas de dispersión de log natural de volumen versus dbh y log natural de volumen versus log natural de dbh.
El resultado del análisis de regresión de Minitab se da a continuación.
7.3.7 https://espanol.libretexts.org/@go/page/149561
Análisis de Regresión: LnVol vs LnDBh
La ecuación de regresión es LnVol = — 2.86 + 2.44 LnDBh
Análisis de varianza
Fuente DF SS MS F P
10512.png
This page titled 7.3: Modelo poblacional is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane
Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available
upon request.
7.3: Population Model by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-resources-
biometrics.
7.3.8 https://espanol.libretexts.org/@go/page/149561
7.4: Solución de software
Minitab
145_1.tif
145_2.tif
Excel
143_1.tif
143_2.tif
143_3.tif
144.tif
This page titled 7.4: Solución de software is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane
Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available
upon request.
7.4: Software Solution by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-resources-
biometrics.
7.4.1 https://espanol.libretexts.org/@go/page/149560
CHAPTER OVERVIEW
This page titled 8: Regresión Lineal Múltiple is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane
Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available
upon request.
1
8.1: Regresiones Múltiples
Con frecuencia sucede que una variable dependiente (y) en la que nos interesa está relacionada con más de una variable
independiente. Si se puede estimar esta relación, puede permitirnos hacer predicciones más precisas de la variable dependiente de
lo que sería posible mediante una simple regresión lineal. Las regresiones basadas en más de una variable independiente se
denominan regresiones múltiples.
La regresión lineal múltiple es una extensión de la regresión lineal simple y muchas de las ideas que examinamos en regresión
lineal simple se trasladan al ajuste de regresión múltiple. Por ejemplo, las gráficas de dispersión, la correlación y el método de
mínimos cuadrados siguen siendo componentes esenciales para una regresión múltiple.
Por ejemplo, un índice de idoneidad del hábitat (utilizado para evaluar el impacto en el hábitat de la vida silvestre de los cambios
en el uso de la tierra) para el urogallo volado podría estar relacionado con tres factores:
x 1 = densidad del tallo
x 2 = porcentaje de coníferas
x 3 = cantidad de materia herbácea del sotobosque
Un investigador recopilaría datos sobre estas variables y utilizaría los datos de la muestra para construir una ecuación de regresión
que relacionara estas tres variables con la respuesta. El investigador tendrá dudas sobre su modelo similar a un modelo de regresión
lineal simple.
¿Qué tan fuerte es la relación entre y y las tres variables predictoras?
¿Qué tan bien encaja el modelo?
¿Se han violado algunas suposiciones importantes?
¿Qué tan buenas son las estimaciones y predicciones?
El modelo de regresión lineal general toma la forma de
$y_i =\ beta_0+\ beta_1x_1+\ beta_2x_2 +... +\ beta_kx_k+\ épsilon\]
con el valor medio de y dado como
μy = β0 + β1 x1 + β2 x2 +. . . +βk xk (8.1.1)
donde:
y es la variable de respuesta aleatoria y μy es el valor medio de y,
β0, β1, β2 y βk son los parámetros a estimar con base en los datos de la muestra,
x 1, x 2,..., x k son las variables predictoras que se suponen no aleatorias o fijas y medidas sin error, y k es el número de
variables predictoras,
y ε es el error aleatorio, que permite que cada respuesta se desvíe del valor promedio de y. Se supone que los errores son
independientes, tienen una media de cero y una varianza común (σ2), y se distribuyen normalmente.
Como puede ver, el modelo de regresión múltiple y los supuestos son muy similares a los de un modelo de regresión lineal simple
con una variable predictora. Examinar las parcelas residuales y las gráficas de probabilidad normal para los residuos es clave para
verificar los supuestos.
Correlación
Al igual que con la regresión lineal simple, siempre debemos comenzar con una gráfica de dispersión de la variable de respuesta
versus cada variable predictora. También se deben calcular los coeficientes de correlación lineal para cada par. En lugar de calcular
la correlación de cada par individualmente, podemos crear una matriz de correlación, que muestra la correlación lineal entre cada
par de variables bajo consideración en un modelo de regresión lineal múltiple.
13236.png
8.1.1 https://espanol.libretexts.org/@go/page/149538
tienen una relación lineal fuerte y positiva con r = 0.816, lo cual es estadísticamente significativo porque p = 0.000. También
podemos ver que las variables predictoras x1 y x3 tienen una relación lineal positiva moderadamente fuerte (r = 0.588) que es
significativa (p = 0.001).
Hay muchas razones diferentes para seleccionar qué variables explicativas incluir en nuestro modelo (ver Desarrollo y Selección
del Modelo), sin embargo, frecuentemente elegimos las que tienen una correlación lineal alta con la variable de respuesta, pero
debemos tener cuidado. No queremos incluir variables explicativas que estén altamente correlacionadas entre sí. Necesitamos ser
conscientes de cualquier multicolinealidad entre las variables predictoras.
La multicolinealidad existe entre dos variables explicativas si tienen una fuerte relación lineal.
Por ejemplo, si estamos tratando de predecir la presión arterial de una persona, una variable predictora sería el peso y otra variable
predictora sería la dieta. Ambas variables predictoras están altamente correlacionadas con la presión arterial (ya que el peso
aumenta la presión arterial típicamente aumenta, y a medida que la dieta aumenta la presión arterial también aumenta). Pero, ambas
variables predictoras también están altamente correlacionadas entre sí. Ambas variables predictoras están transmitiendo
esencialmente la misma información a la hora de explicar la presión arterial. Incluir ambos en el modelo puede generar problemas a
la hora de estimar los coeficientes, ya que la multicolinealidad incrementa los errores estándar de los coeficientes. Esto significa
que los coeficientes para algunas variables pueden no ser significativamente diferentes de cero, mientras que sin multicolinealidad
y con errores estándar más bajos, los mismos coeficientes podrían haberse encontrado significativos. Las formas de probar la
multicolinealidad no están cubiertas en este texto, sin embargo, una regla general es desconfiar de una correlación lineal de menos
de -0.7 y mayor de 0.7 entre dos variables predictoras. Siempre examine la matriz de correlación para las relaciones entre las
variables predictoras para evitar problemas de multicolinealidad.
Estimación
Los procedimientos de estimación e inferencia también son muy similares a la regresión lineal simple. Así como usamos nuestros
datos de muestra para estimar β0 y β1 para nuestro modelo de regresión lineal simple, vamos a extender este proceso para estimar
todos los coeficientes para nuestros modelos de regresión múltiple.
Con el modelo poblacional más simple
x $$\ mu_y =\ beta_0+\ beta_1x\]
β1 es la pendiente y le dice al usuario cuál sería el cambio en la respuesta a medida que cambia la variable predictora. Con
múltiples variables predictoras, y por lo tanto múltiples parámetros a estimar, los coeficientes β1, β2, β3 y así sucesivamente se
denominan pendientes parciales o coeficientes de regresión parcial. La pendiente parcial βi mide el cambio en y para un cambio de
una unidad en x i cuando todas las demás variables independientes se mantienen constantes. Estos coeficientes de regresión
deben estimarse a partir de los datos de la muestra para obtener la forma general de la ecuación de regresión múltiple estimada
y
^ = b0 + b1 x1 + b2 x2 + b3 x3 +. . . +bk xk (8.1.2)
y el modelo poblacional
μy = β0 + β1 x1 + β2 x2 + β3 x3 +. . . +βk xk (8.1.3)
8.1.2 https://espanol.libretexts.org/@go/page/149538
Cuadro 2. Tabla ANOVA.
Donde k es el número de variables predictoras y n es el número de observaciones.
La mejor estimación de la variación aleatoriaσ —la variación que no se explica por las variables predictoras— sigue siendo s2, el
2
AjustadoR 2
En regresión lineal simple, se utilizó la relación entre la variación explicada y la variación total como medida del ajuste del modelo:
2
Explained V ariation SSR SSE
R = = =1− (8.1.5)
T otal V ariation SST o SST o
Observe a partir de esta definición que el valor del coeficiente de determinación nunca podrá disminuir con la adición de más
variables al modelo de regresión. Por lo tanto, seR puede inflar artificialmente a medida que se incluyen más variables
2
(significativas o no) en el modelo. Una medida alternativa de fuerza del modelo de regresión se ajusta para grados de libertad
mediante el uso de cuadrados medios en lugar de sumas de cuadrados:
2
(n − 1)(1 − R ) M SE
2
R (adj) = 1 − = (1 − ) (8.1.6)
(n − p) SST o/(n − 1)
ElR valor ajustado representa el porcentaje de variación en la variable de respuesta explicado por las variables independientes,
2
corregidas por grados de libertad. A diferenciaR , el ajustadoR no tenderá a aumentar a medida que se agregan variables y
2 2
tenderá a estabilizarse alrededor de algún límite superior a medida que se agreguen variables.
Pruebas de significación
Recordemos en el capítulo anterior probamos para ver si y y x estaban linealmente relacionados mediante pruebas
H0 : β1 = 0 H1 : β1 ≠ 0
con la prueba t (o la prueba F equivalente). En regresión lineal múltiple, hay varias pendientes parciales y la prueba t y la prueba F
ya no son equivalentes. Nuestra pregunta cambia: ¿La ecuación de regresión que utiliza información proporcionada por las
variables predictoras x1, x2, x3,..., xk, es mejor que el predictor simple 13615.png (el valor medio de respuesta), que no se basa en
ninguna de estas variables independientes?
H0 : β1 = β2 = β3 = … = βk = 0
H 1 : At least one of β1 , β2 , β3 , … βk ≠ 0
El estadístico de prueba F se utiliza para responder a esta pregunta y se encuentra en la tabla ANOVA.
M SR
F = (8.1.7)
M SE
8.1.3 https://espanol.libretexts.org/@go/page/149538
H0 : β = 0 H1 : β ≠ 0
i i
Ejemplo8.1.1:
Un investigador recopiló datos en un proyecto para predecir el crecimiento anual por acre de bosques boreales de tierras altas
en el sur de Canadá. Ellos plantearon la hipótesis de que el crecimiento volumétrico del pie cúbico (y) es una función del área
basal del rodal por acre (x 1), el porcentaje de esa área basal en el abeto negro (x 2), y el índice de sitio del rodal para el abeto
negro (x 3). α = 0.05.
132151.png
Cuadro 3. Datos observados para pies cúbicos, área basal del rodal, porcentaje de área basal en abeto negro e índice de sitio.
Se crearon diagramas de dispersión de la variable de respuesta versus cada variable predictora junto con una matriz de correlación.
13205.png
Figura 1. Gráficas de dispersión de pies cúbicos versus área basal, porcentaje de área basal en abeto negro e índice de sitio.
13195.png
Resumen de Model
8.1.4 https://espanol.libretexts.org/@go/page/149538
S = 3.17736 R-Sq = 95.53% R-Sq (adj) = 94.97%
Análisis de varianza
Total 27 5418.86
El estadístico de prueba F (y el valor p asociado) se utiliza para responder a esta pregunta y se encuentra en la tabla ANOVA. Para
este ejemplo, F = 170.918 con un valor p de 0.00000. El valor p es menor que nuestro nivel de significancia (0.0000<0.05) por lo
que rechazaremos la hipótesis nula. Al menos una de las variables predictoras contribuye significativamente a la predicción del
volumen.
Los coeficientes para las tres variables predictoras son todos positivos, lo que indica que a medida que aumentan el volumen del pie
cúbico también aumentará. Por ejemplo, si mantenemos constantes los valores de SI y %BA Bspruce, esta ecuación nos dice que a
medida que el área basal aumenta en 1 pie cuadrado, el volumen aumentará 0.591004 pies cúbicos adicionales. Los signos de estos
coeficientes son lógicos, y lo que esperaríamos. El R 2 ajustado también es muy alto en 94.97%.
El siguiente paso es examinar las pruebas t individuales para cada variable predictora. Las estadísticas de prueba y los valores p
asociados se encuentran en la salida de Minitab y se repiten a continuación:
Coeficientes
Las variables predictoras Ba/ac y %BA Bspruce tienen estadísticas t de 13.7647 y 9.3311 y valores p de 0.0000, lo que indica que
ambas están contribuyendo significativamente a la predicción del volumen. Sin embargo, el SI tiene un estadístico t de 0.7991 con
un valor p de 0.432. Esta variable no contribuye significativamente a la predicción del volumen de pies cúbicos.
Este resultado puede sorprenderte ya que SI tuvo la segunda relación más fuerte con el volumen, pero no te olvides de la
correlación entre SI y Ba/ac (r = 0.588). La variable predictora Ba/ac tuvo la relación lineal más fuerte con el volumen, y usando
las sumas secuenciales de cuadrados, podemos ver que Ba/ac ya está representando 70% de la variación en el volumen de pies
cúbicos (3611.17/5176.56 = 0.6976). La información del SI puede ser demasiado similar a la información en BA/ac, y el SI solo
explica alrededor del 13% de la variación del volumen (686.37/5176.56 = 0.1326) dado que Ba/AC ya está en el modelo.
El siguiente paso es examinar las gráficas de probabilidad residual y normal. Un único valor atípico es evidente en las parcelas por
lo demás aceptables.
13186.png
8.1.5 https://espanol.libretexts.org/@go/page/149538
Análisis de Regresión General: CuFT versus Ba/AC, %BA Bspruce
Ecuación de regresión
CuFt = -19.1142 + 0.615531 Ba/ac + 0.515122 %BA Bspruce
Coeficientes
Resumen de Model
Análisis de varianza
Total 27 5418.86
Repetiremos los pasos seguidos con nuestro primer modelo. Comenzamos por probar de nuevo las siguientes hipótesis:
H0 : β1 = β2 = β3 = 0
H1 : At least one of β1 , β2 , β3 ≠ 0
Este modelo reducido tiene un estadístico F igual a 259.814 y un valor p de 0.0000. Rechazaremos la hipótesis nula. Al menos una
de las variables predictoras contribuye significativamente a la predicción del volumen. Los coeficientes siguen siendo positivos
(como esperábamos) pero los valores han cambiado para dar cuenta del modelo diferente.
Las pruebas t individuales para cada coeficiente (repetido a continuación) muestran que ambas variables predictoras son
significativamente diferentes de cero y contribuyen a la predicción del volumen.
Coeficientes
Observe que el R2 ajustado ha aumentado de 94.97% a 95.04% indicando un ajuste ligeramente mejor a los datos. El error estándar
de regresión también ha cambiado para mejor, disminuyendo de 3.17736 a 3.15431 indicando una variación ligeramente menor de
los datos observados al modelo.
131751.png
This page titled 8.1: Regresiones Múltiples is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane
Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available
8.1.6 https://espanol.libretexts.org/@go/page/149538
upon request.
8.1: Multiple Regressions by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-
resources-biometrics.
8.1.7 https://espanol.libretexts.org/@go/page/149538
8.2: Solución de software
Desarrollo y selección de modelos
Hay muchas razones diferentes para crear un modelo de regresión lineal múltiple y su propósito influye directamente en cómo se
crea el modelo. A continuación se enumeran varios de los usos más comunes para un modelo de regresión:
1. Describir el comportamiento de su variable de respuesta
2. Predecir una respuesta o estimar la respuesta promedio
3. Estimando los parámetros (β0, β1, β2,...)
4. Desarrollo de un modelo preciso del proceso
Dependiendo de su objetivo para crear un modelo de regresión, su metodología puede variar cuando se trata de selección, retención
y eliminación de variables.
Cuando el objeto es una descripción simple de su variable de respuesta, normalmente le preocupa menos eliminar variables no
significativas. La mejor representación de la variable respuesta, en términos de sumas residuales mínimas de cuadrados, es el
modelo completo, que incluye todas las variables predictoras disponibles del conjunto de datos. Es menos importante que las
variables estén relacionadas causalmente o que el modelo sea realista.
Una razón común para crear un modelo de regresión es para la predicción y estimación. Un investigador quiere ser capaz de definir
eventos dentro del espacio x de los datos que fueron recolectados para este modelo, y se asume que el sistema continuará
funcionando como lo hizo cuando se recolectaron los datos. Se debe incluir cualquier variable predictora medible que contenga
información sobre la variable de respuesta. Por esta razón, las variables no significativas pueden ser conservadas en el modelo. Sin
embargo, las ecuaciones de regresión con menos variables son más fáciles de usar y tienen una ventaja económica en términos de
recolección de datos. Adicionalmente, existe una mayor confianza unida a los modelos que contienen solo variables significativas.
Si el objetivo es estimar los parámetros del modelo, será más cauteloso al considerar la eliminación de variables. Se quiere evitar
introducir un sesgo eliminando una variable que tenga información predictiva sobre la respuesta. Sin embargo, existe una ventaja
estadística en términos de varianza reducida de las estimaciones de parámetros si se eliminan las variables verdaderamente no
relacionadas con la variable de respuesta.
Construir un modelo realista del proceso que estás estudiando es a menudo un objetivo principal de mucha investigación. Es
importante identificar las variables que están vinculadas a la respuesta a través de alguna relación causal. Si bien se puede
identificar qué variables tienen una fuerte correlación con la respuesta, esto solo sirve como indicador de qué variables requieren un
estudio adicional. El objetivo principal es desarrollar un modelo cuya forma funcional refleje de manera realista el comportamiento
de un sistema.
La siguiente figura es una estrategia para construir un modelo de regresión.
153_1.tif
Soluciones de Software
Minitab
155_1.tif
155_2.tif
155_3.tif
Excel
154_1.tif
154_2.tif
154_3.tif
8.2.1 https://espanol.libretexts.org/@go/page/149545
154_4.tif
This page titled 8.2: Solución de software is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane
Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available
upon request.
8.2: Software Solution by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-resources-
biometrics.
8.2.2 https://espanol.libretexts.org/@go/page/149545
8.3: Sección 3-
Su página se ha creado.
Borre este contenido y añada el suyo.
Editar página
Haga clic en el botón Editar página de su barra de usuario. Verá la estructura sugerida para su contenido. Agregue su
contenido y pulse Guardar.
Consejos:
Arrastrar y soltar
Arrastre uno o más archivos de imagen desde su equipo y suéltelos en la ventana del navegador para añadirlos a su página.
Clasificaciones
Las etiquetas se utilizan para vincular páginas entre sí a través de temas comunes. Las etiquetas también se utilizan como
marcadores para la organización dinámica de contenido en el framework de CXone Expert.
This page titled 8.3: Sección 3- is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane Kiernan
(OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon
request.
8.3.1 https://espanol.libretexts.org/@go/page/149552
8.4: Sección 4-
Su página se ha creado.
Borre este contenido y añada el suyo.
Editar página
Haga clic en el botón Editar página de su barra de usuario. Verá la estructura sugerida para su contenido. Agregue su
contenido y pulse Guardar.
Consejos:
Arrastrar y soltar
Arrastre uno o más archivos de imagen desde su equipo y suéltelos en la ventana del navegador para añadirlos a su página.
Clasificaciones
Las etiquetas se utilizan para vincular páginas entre sí a través de temas comunes. Las etiquetas también se utilizan como
marcadores para la organización dinámica de contenido en el framework de CXone Expert.
This page titled 8.4: Sección 4- is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane Kiernan
(OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon
request.
8.4.1 https://espanol.libretexts.org/@go/page/149537
8.5: Sección 5-
Su página se ha creado.
Borre este contenido y añada el suyo.
Editar página
Haga clic en el botón Editar página de su barra de usuario. Verá la estructura sugerida para su contenido. Agregue su
contenido y pulse Guardar.
Consejos:
Arrastrar y soltar
Arrastre uno o más archivos de imagen desde su equipo y suéltelos en la ventana del navegador para añadirlos a su página.
Clasificaciones
Las etiquetas se utilizan para vincular páginas entre sí a través de temas comunes. Las etiquetas también se utilizan como
marcadores para la organización dinámica de contenido en el framework de CXone Expert.
This page titled 8.5: Sección 5- is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane Kiernan
(OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon
request.
8.5.1 https://espanol.libretexts.org/@go/page/149544
8.6: Sección 6-
Su página se ha creado.
Borre este contenido y añada el suyo.
Editar página
Haga clic en el botón Editar página de su barra de usuario. Verá la estructura sugerida para su contenido. Agregue su
contenido y pulse Guardar.
Consejos:
Arrastrar y soltar
Arrastre uno o más archivos de imagen desde su equipo y suéltelos en la ventana del navegador para añadirlos a su página.
Clasificaciones
Las etiquetas se utilizan para vincular páginas entre sí a través de temas comunes. Las etiquetas también se utilizan como
marcadores para la organización dinámica de contenido en el framework de CXone Expert.
This page titled 8.6: Sección 6- is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane Kiernan
(OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon
request.
8.6.1 https://espanol.libretexts.org/@go/page/149551
CHAPTER OVERVIEW
This page titled 9: Modelado de crecimiento, rendimiento e índice de sitio is shared under a CC BY-NC-SA 3.0 license and was authored,
remixed, and/or curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a
detailed edit history is available upon request.
1
9.1: Modelos de Crecimiento y Rendimiento
Las decisiones de manejo de los recursos forestales y naturales a menudo se basan en información recopilada sobre las condiciones
de recursos pasados y presentes. Esta información nos proporciona no solo detalles actuales sobre la madera que manejamos (por
ejemplo, volumen, distribución del diámetro) sino que también nos permite rastrear los cambios en el crecimiento, la mortalidad y
el crecimiento interno a lo largo del tiempo. Utilizamos esta información para hacer predicciones de crecimiento y rendimiento
futuros basados en nuestros objetivos de gestión. Las técnicas para pronosticar la dinámica de los rodales se denominan
colectivamente modelos de crecimiento y rendimiento. Los modelos de crecimiento y rendimiento son relaciones entre la cantidad
de rendimiento o crecimiento y los muchos factores diferentes que explican o predicen este crecimiento.
Antes de continuar con nuestro examen de los modelos de crecimiento y rendimiento, revisemos algunos términos básicos.
Rendimiento: volumen total disponible para la cosecha en un momento dado
Crecimiento: diferencia de volumen entre el inicio y el final de un periodo de tiempo especificado (V2 — V1)
Crecimiento anual: cuando el crecimiento se divide por número de años en el periodo de crecimiento
Modelo: una función matemática utilizada para relacionar las tasas de crecimiento observadas o el rendimiento con las
variables de árbol, rodal y sitio medidas
Estimación: un proceso estadístico de obtención de coeficientes para modelos que describen las tasas de crecimiento o
rendimiento en función de las variables de árbol, rodal y sitio medidas
Evaluación: considerando cómo, dónde y por quién debe ser utilizado el modelo, cómo operan el modelo y sus componentes, y
la calidad del diseño del sistema y su realidad biológica
Verificación: el proceso de confirmar que el modelo funciona correctamente con respecto al modelo conceptual. En otras
palabras, la verificación asegura que no haya fallas en la lógica de programación o algoritmos, y que no haya sesgo en el
cálculo (errores sistemáticos).
Validación: comprueba la exactitud y consistencia del modelo y prueba el modelo para ver qué tan bien refleja el sistema real,
si es posible, utilizando un conjunto de datos independiente
Simulación: usando un programa de computadora para simular un modelo abstracto de un sistema en particular. Utilizamos un
modelo de crecimiento para estimar el desarrollo de rodales a través del tiempo en condiciones alternativas o prácticas
silvícolas.
Calibración: el proceso de modificación del modelo para tener en cuenta las condiciones locales que pueden diferir de aquellas
en las que se basó el modelo
Monitoreo: comprobando continuamente la salida de simulación del sistema para identificar cualquier defecto del modelo
Modelo determinista: un modelo en el que los resultados se determinan a través de relaciones conocidas entre estados y
eventos, sin margen de variación aleatoria. En la silvicultura, un modelo determinista proporciona una estimación del
crecimiento promedio de rodal, y dadas las mismas condiciones iniciales, un modelo determinista siempre predecirá el mismo
resultado.
Modelo estocástico: un modelo que intenta ilustrar la variación natural en un sistema proporcionando diferentes predicciones
(cada una con una probabilidad específica de ocurrencia) dadas las mismas condiciones iniciales. Un modelo estocástico
requiere múltiples corridas para proporcionar estimaciones de la variabilidad de las predicciones.
Modelo de proceso: un modelo que intenta simular procesos biológicos que convierten dióxido de carbono, nutrientes y
humedad en biomasa a través de la fotosíntesis
Modelo de sucesión: un modelo que intenta modelar la sucesión de especies, pero generalmente no puede proporcionar
información confiable sobre el rendimiento de la madera
Modelos
Los modelos de crecimiento y rendimiento se establecen típicamente como ecuaciones matemáticas y pueden ser implícitos o
explícitos en forma. Un modelo implícito define las variables en la ecuación pero la relación específica no se cuantifica. Por
ejemplo,
V = f (BA, Ht ) (9.1.1)
donde V es volumen (ft3/ac), BA es densidad (área basal en ft2), Ht es altura total del árbol. Este modelo dice que el volumen es
una función de (depende de) la densidad y la altura, pero no pone un valor numérico en el volumen para valores específicos de área
basal y altura. Esta ecuación se vuelve explícita cuando especificamos la relación como
9.1.1 https://espanol.libretexts.org/@go/page/149582
\[ln(V) = -0.723 + 0.781*ln(BA)+ 0.922 ln(H_t)\]
Los modelos de crecimiento y rendimiento pueden ser ecuaciones lineales o no lineales. En este modelo lineal, todas las variables
independientes de X1 y X2 solo se elevan a la primera potencia.
9.1.2 https://espanol.libretexts.org/@go/page/149582
donde m es la relación de movimiento, g es el incremento de diámetro periódico promedio para esa clase específica e i es el
intervalo de clase de diámetro. Veamos un ejemplo.
Supongamos para una clase DBH específica que g es 1.2 pulg. e i (intervalo de clase) es 2.0 pulg.
1.2
m = x1000 = 60 (9.1.6)
2.0
Esto significa que 60% de los árboles en esa clase de diámetro se moverán hasta la siguiente clase de diámetro, y 40% permanecerá
en esta clase. Si el intervalo de clase de diámetro fuera de una pulgada, la relación de movimiento sería diferente.
1.2
m = x100 = 120 (9.1.7)
1.0
En este caso, todos los árboles de esta clase de diámetro se moverían hacia arriba al menos una clase de tamaño y el 20% de ellos
subirían dos clases de tamaño.
9.1.3 https://espanol.libretexts.org/@go/page/149582
interno se puede ingresar o simular manualmente usando una función de crecimiento interno automático. La ecuación de
crecimiento estima anualmente un diámetro para cada árbol de muestra y actualiza la relación de copa del árbol (Miner et al. 1988).
Crecimiento anual del diámetro = crecimiento potencial*modificador de competencia
El crecimiento potencial se define como el crecimiento del 10% superior de los árboles de mayor crecimiento y se predice usando
la siguiente ecuación:
(−b2 ∗D)
P otential growth = b1 ∗ SI ∗ [1.0 − e ] (9.1.8)
donde,
crecimiento potencial se define como el crecimiento potencial anual del área basal de un árbol (pies cuadrados. /año)
b 1 y b 2 son coeficientes específicos de especie
SI es índice de sitio (índice edad 50 años) y
D es diámetro actual del árbol en.
El modificador de competencia es un índice limitado de 0 a 1, y se encuentra por:
Modificador de competencia =e −b3 ∗BA
donde Y = volumen total de tablar-pie (International1/4- regla) para un camión cargado de troncos
N = número de troncos de 16 pies en el camión
W = peso total de la carga (lb.)
Observe que no hay ninguna intercepción y en el modelo. Cuando no hay registros en el camión, no hay volumen a estimar.
9.1.4 https://espanol.libretexts.org/@go/page/149582
2 2
d h h
= b0 + b1 ( ) + b2 ( ) (9.1.10)
2 2
dbh H H
Las variables predictoras son la relación, y la relación al cuadrado, de cualquier altura a altura total.
3.1579
dt
R = 1 − 0.32354( ) (9.1.13)
2.7115
dbh
2
DBW = −17.67910 + 0.06684db h H (9.1.15)
Predicción de Biomasa
Un enfoque común para predecir el peso de la biomasa de los árboles ha sido usar una fórmula logarítmica de variables combinadas
(por ejemplo, Edwards y McNab 1979). La relación observada entre estas variables es típicamente no lineal, por lo que se necesita
una transformación logarítmica o logarítmica natural para linealizar la relación.
2
log Y = b0 + b1 log db h H (9.1.16)
ln wt = b0 + b1 ln dbh (9.1.17)
9.1.5 https://espanol.libretexts.org/@go/page/149582
b0 b1
wt = e db h (9.1.18)
Estimación de rendimiento
MacKinney y Chaiken (1939) fueron los primeros en utilizar regresión múltiple, con densidad de rodal como variable predictora,
para predecir el rendimiento de los pinos loblolly.
1
log Y = b0 + b1 + b2 S + b3 log SDI + b4 C (9.1.20)
A
donde
Y = rendimiento (cu. ft. /ac)
A = edad del stand
S = índice del sitio
SDI = índice de densidad de pie
C = índice de composición (pino loblolly ba/BA total)
donde
Y 0 = volumen inicial (pies cúbicos. /ac)
BA 0 = área basal inicial (pies cuadrados /ac)
t = intervalo de tiempo transcurrido (años desde la condición inicial)
Y = volumen predicho (cu. ft. /ac) t años después de la observación de las condiciones iniciales Y 0 y BA 0 en el tiempo t 0
This page titled 9.1: Modelos de Crecimiento y Rendimiento is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or
curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit
history is available upon request.
9.1: Growth and Yield Models by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-
resources-biometrics.
9.1.6 https://espanol.libretexts.org/@go/page/149582
9.2: Índice del sitio
Índice del sitio
El sitio es definido por la Society of American Foresters (1971) como “un área considerada en términos de su propio entorno,
particularmente porque esto determina el tipo y calidad de la vegetación que la zona puede portar”. Los administradores forestales
y de recursos naturales utilizan la medición del sitio para identificar la productividad potencial de un rodal forestal y proporcionar
un marco comparativo de referencia para las opciones de manejo. El potencial productivo o la capacidad de un sitio a menudo se
conoce como calidad del sitio.
La calidad del sitio se puede medir directa o indirectamente. La medición directa de la productividad de un rodal se puede medir
analizando variables como nutrientes del suelo, humedad, regímenes de temperatura, luz disponible, pendiente y aspecto. Un
método de estimación de productividad basado en las características permanentes del suelo y la topografía se puede utilizar en
cualquier sitio y es adecuado en áreas donde actualmente no existen rodales forestales. El índice de sitio del suelo es un ejemplo de
dicho índice. Sin embargo, dichos índices son específicos de ubicación y no deben ser utilizados fuera de la región geográfica en la
que fueron desarrollados. Desafortunadamente, la información de factores ambientales no siempre está disponible y los
administradores de recursos naturales deben utilizar métodos alternativos.
Los registros históricos de rendimiento también proporcionan evidencia directa de la productividad de un sitio al promediar los
rendimientos en múltiples rotaciones o ciclos de corte. Desafortunadamente, hay datos limitados a largo plazo disponibles, y los
rendimientos pueden verse afectados por la composición de las especies, la densidad de rodal, las plagas, la edad de rotación y la
genética. En consecuencia, con frecuencia se utilizan métodos indirectos de medición de la calidad del sitio, siendo los más
comunes la relación entre la altura del árbol y la edad del árbol.
El uso de datos de altura del soporte es una manera fácil y confiable de cuantificar la calidad del sitio. Teóricamente, el crecimiento
en altura es sensible a las diferencias en la calidad del sitio y el desarrollo de altura de árboles más grandes en un rodal de edad
uniforme rara vez se ve afectado por la densidad de rodales Adicionalmente, el potencial de producción en volumen está
fuertemente correlacionado con la tasa de crecimiento en altura. Esta medida de la calidad del sitio se denomina índice de sitio y es
la altura total promedio de árboles codominantes seleccionados en un sitio con una edad de referencia o índice particular. Si se
mide un rodal que se encuentra en una edad índice, la altura promedio de los árboles dominantes y codominantes es el índice del
sitio. Es la medida cuantitativa más aceptada de la calidad del sitio en Estados Unidos para rodales de edades pares (Avery y
Burkhart 1994).
El objetivo del método de índice de sitio es seleccionar el patrón de desarrollo de altura que se puede esperar que siga el rodal
durante el resto de su vida útil (no para predecir la altura del rodal a la edad índice). La mayoría de los métodos de evaluación de la
calidad del sitio basados en la altura utilizan curvas de índice Las curvas de índice de sitio son una familia de patrones de desarrollo
de estatura referenciados por la edad a la altura del pecho o la edad total Por ejemplo, las curvas de índice de sitio para plantaciones
generalmente se basan en la edad total (años desde que se plantaron), donde la edad a la altura del pecho se usa frecuentemente
para rodales naturales por conveniencia. Si se utilizara la edad total en esta situación, se debe agregar el número de años requeridos
para que un árbol crezca desde una plántula hasta la DBH. Las curvas de índice de sitio pueden ser curvas anamórficas o
polimórficas. Las curvas anamórficas (más comunes) son una familia de curvas con la misma forma pero diferentes intercepciones.
Las curvas polimórficas son una familia de curvas con diferentes formas e intercepciones.
El índice de edad para este método suele ser la culminación del crecimiento medio anual. En la parte occidental de Estados Unidos,
100 años se usa comúnmente como edad de referencia con 50 años en la parte oriental de este país. Sin embargo, las curvas de
índice del sitio pueden basarse en cualquier edad del índice que se necesite. Coile y Schumacher (1964) crearon una familia de
curvas anamórficas de índice de sitio para la plantación de pino loblolly con una edad índice de 25 años. La siguiente familia de
curvas de índice de sitio anamórfico para un pino sureño se basa en una edad de referencia de 50 años.
Sitio%20index.png
9.2.1 https://espanol.libretexts.org/@go/page/149589
donde H d es la altura de los árboles dominantes y codominantes, A es la edad del rodal, y b 0 y b 1 son coeficientes a estimar. La
transformación variable es necesaria si se va a utilizar regresión lineal para ajustar el modelo. Una transformación común es
−1
ln Hd = b0 + b1 A (9.2.2)
donde S es el índice del sitio, H es la altura total del árbol y A es la edad promedio. La curva de índice de sitio se crea ajustando el
modelo a datos de rodales de diferentes calidades y edades del sitio, asegurando que todas las clases de índice de sitio necesarias
estén igualmente representadas en todas las edades. Es importante no sesgar la curva mediante el uso de un rango de datos
incompleto.
Los datos para el desarrollo de ecuaciones de índice de sitio pueden provenir de la medición de la altura y edad de los árboles o
rodales de parcelas de inventario temporales o permanentes o del análisis de tallos. Los datos de las parcelas de inventario se
utilizan normalmente solo para las curvas anamórficas y el sesgo de muestreo puede ocurrir cuando los sitios pobres están
sobrerepresentados en las clases de mayor edad. El análisis de tallo se puede utilizar para curvas polimórficas pero requiere
muestreo destructivo y puede ser costoso obtener dichos datos.
Vamos a examinar tres métodos diferentes para desarrollar ecuaciones de índice de sitio:
1. Método de curva guía
2. Método de ecuación de diferencia
3. Método de predicción de parámetros
9.2.2 https://espanol.libretexts.org/@go/page/149589
ln(H2 ) − ln(H1 )
β1 = (9.2.4)
(1/ A2 ) − (1/ A1 )
donde H 1 y A1 fueron talla y edad iniciales, y H 2 y A2 fueron altura y edad al final del periodo de remedición. Su modelo de
estatura/edad se convirtió en:
1 1
ln(H2 ) = ln(H1 ) + β1 ( − ) (9.2.5)
A2 A1
Usando datos de remedición, esta ecuación se ajustaría usando procedimientos de regresión lineal con el modelo
Y = β1 X (9.2.6)
donde Y = ln (H 2) — ln (H 1)
X = (1/ A 2) — (1/ A 1)
Después de estimar β1, se obtiene una ecuación de índice de sitio a partir de la ecuación de altura/edad al dejar que A 2sea igual a A
0 (la edad del índice) para que H 2 sea, por definición, índice de sitio (S). La ecuación puede entonces escribirse:
1 1
ln(S) = ln(H1 ) + β1 ( − ) (9.2.7)
A0 A1
donde H es la altura en pies a la edad A y θ1, θ2 y θ3 son parámetros a estimar. Esta ecuación se ajustó por separado a cada árbol.
Las curvas ajustadas se resolvieron con A = 50 para obtener valores de índice de sitio (S) para cada árbol.
Se planteó la hipótesis de que los parámetros θ1, θ2 y θ3 eran funciones del índice de sitio, donde
θ1 = β1 + β2 S (9.2.9)
2
θ2 = β3 + β4 S + β5 S (9.2.10)
2
θ3 = β6 + β7 S + β8 S (9.2.11)
Esta función fue luego reajustada a los datos para estimar los parámetros β1, β2,... β8. Las ecuaciones estimadoras obtenidas para
θ1, θ2 y θ3 fueron
^
θ1 = 63.1415 + 0.635080S (9.2.13)
^ 2
θ2 = 0.00643041 + 0.000124189S + 0.00000162545 S (9.2.14)
^ 2
θ3 = 0.0172714 − 0.00291877S + 0.0000310915 S (9.2.15)
9.2.3 https://espanol.libretexts.org/@go/page/149589
Para cualquier valor de índice de sitio dado, estas ecuaciones se pueden resolver para dar una curva de índice de sitio Chapman-
Richards particular. Al sustituir varios valores de edad en la ecuación y resolver por H, obtenemos puntos de altura/edad que se
pueden trazar para una curva de índice de sitio. Dado que cada curva de índice de sitio tiene diferentes valores de parámetros, las
curvas son polimórficas.
This page titled 9.2: Índice del sitio is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane Kiernan
(OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon
request.
9.2: Site Index by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-resources-
biometrics.
9.2.4 https://espanol.libretexts.org/@go/page/149589
9.3: Referencia
D.H. Alban, “Un método mejorado de intercepción de crecimiento para estimar el índice de sitio de pino rojo”, Serv. Forestal de
Estados Unidos, Expt. Sta., Res. Ponencia NC-80, 1972, p. 7.
T.E. Avery y H.E. Burkhart, Mediciones forestales,. McGraw-Hill, 1994, p. 408.
R.P. Belanger, “Tablas de Volumen y Peso para Sicomoro Cultivado en Plantación”, U.S. Forest Serv. Sureste. Bosque Expt. Sta.
Res. Ponencia SE-107, 1973, p. 8.
D.M. Belcher, “TWIGS: The Woodman's Ideal Growth Projection System”, Microcomputadores, una nueva herramienta para
silvicultores, Purdue University Press, 1982, p. 70.
D.R. Bower, “Relaciones volumen-peso para aserraderos de pino loblolly”, J. Forestry 60, 1962, pp. 411-412.
R.R. Buckman, “Crecimiento y rendimiento del pino rojo en Minnesota”, Departamento de Agricultura de Estados Unidos, Boletín
Técnico 1272, 1962.
S.E. Burkhart, “Volumen de pie cúbico de pino loblolly a cualquier límite superior comercial”, So. J. Appl. Para. 1, 1977, pp. 7-9.
C.V. Bylin, “Predicción de volumen a partir del diámetro del tocón y la altura del tocón de especies seleccionadas en Luisiana”,
Serv. Forestal de Estados Unidos, Bosque del Sur. Expt. Sta., Res. Ponencia SO-182, 1982, p. 11.
J.R. Clutter Et al., Timber Management: A Quantitative Approach, Wiley, 1983, p. 333.
T.S. Coile y F. X. Schumacher, Relaciones suelo-sitio, estructura de rodales y rendimientos de plantaciones de pino Slash y
Loblolly en el sur de Estados Unidos, T.S. Coile, 1964.
G.E. Dixon (Comp.), “Esencial FVS: una guía del usuario para el simulador de vegetación forestal”, Informe interno.
Departamento de Agricultura de Estados Unidos, Servicio Forestal, Centro de Servicio de Manejo Forestal, 2002, p. 189.
M.B. Edwards y W.H. McNab, “Predicción de biomasa para jóvenes pinos sureños”, J. Forestal, 77, 1979, pp. 291-292.
A.D. Kozak, D.D. Munro, y J.H.G. Smith, “Funciones cónicas y su aplicación en el inventario forestal”, Crónica Forestal 45,
1969, pp. 278-283.
A.L. MacKinney y L.E. Chaiken, “Volumen, Rendimiento y Crecimiento del Pino Loblolly en la Región Costera del Atlántico
Medio”, U.S. Forest. Serv. Bosque de los Apalaches Expt. Sta., Tech. Nota 33, 1939, p. 30.
C.L. Miner, N.R. Walters, y M.L. Belli, “Una guía para el programa TWIGS para el Centro Norte de Estados Unidos”, USDA
Forest Serv., North Central Forest Exp.Sta. , Gral. Tech. Rep. NC-125, 1988, p. 105.
J.W. Moser, Jr. y O.F. Hall, “Derivando las funciones de crecimiento y rendimiento para rodales forestales de edad irregular”,
Forest Sci. 15, 1969, pp. 183-188.
F.J. Richards, “Una función de crecimiento flexible para el uso empírico”, J. Exp. Botánica, vol. 10, núm. 2 1959, pp. 290-300.
Society of American Foresters, Terminology of Forest Science, Technology, Practice, and Products, Washington, D.C., Society of
American Foresters, 1971, p. 349.
Etapa A.R., “Modelo de pronóstico para el desarrollo de rodales”, Departamento de Agricultura de Estados Unidos, Servicio
Forestal, Intermountain Forest and Range Expt. Sta. , Res. Pa INT-137, 1973, p. 32.
L.M. Tritton y J.W. Hornbeck, “Ecuaciones de Biomasa para las Principales Especies Arbóreas del Noreste”, USDA Para. Serv.
Gral. Tech. Rep. NE-GTR-69, 1982.
K.B. Trousdell, D.E. Beck, y F.T. Lloyd, “Índice de sitios para pino loblolly en la llanura costera atlántica de las Carolinas y
Virginia”, Expt. Sta., 1974, p. 115.
H.J. Wiant et al., “Ecuaciones para predecir pesos de algunas maderas duras de los Apalaches”, West Virginia Univ. Agric. y Bosque
Expt. Sta., Coll.. de Agric. y Bosque. Bosque de Virginia Occidental. Notas, núm. 7, 1979.
W.R. Wykoff, N.L. Crookston, y A.R. Stage, “User's Guide to the Stand Prognosis Model”, Departamento de Agricultura de los
Estados Unidos, Servicio Forestal, Intermountain Forest and Range Expt. Sta. , Gral. Tech. Re INT-133, 1982, p. 112.
9.3.1 https://espanol.libretexts.org/@go/page/149583
This page titled 9.3: Referencia is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane Kiernan
(OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon
request.
9.3: Reference by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-resources-
biometrics.
9.3.2 https://espanol.libretexts.org/@go/page/149583
CHAPTER OVERVIEW
This page titled 10: Medidas cuantitativas de diversidad, similitud de sitios e idoneidad del hábitat is shared under a CC BY-NC-SA 3.0 license
and was authored, remixed, and/or curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the
LibreTexts platform; a detailed edit history is available upon request.
1
10.1: Introducción, índice de Simpson e índice Shannon-Weiner
Como administradores forestales y de recursos naturales, debemos ser conscientes de cómo nuestras prácticas de manejo maderero
impactan en las comunidades biológicas en las que ocurren. Una prescripción silvícola va a influir no sólo en la madera que
estamos cultivando sino también en las comunidades vegetales y de vida silvestre que habitan estos rodales. Los terratenientes,
tanto públicos como (18)} {d privados, a menudo requieren el manejo de componentes no maderables, como la vida silvestre, junto
con el cumplimiento de los objetivos financieros alcanzados a través del manejo maderero. Los administradores de recursos deben
ser conscientes del efecto que las prácticas de manejo tienen en las comunidades de plantas y vida silvestre. La interfaz principal
entre la madera y la vida silvestre es el hábitat, y el hábitat es simplemente una amalgama de factores ambientales necesarios para
la supervivencia de las especies (por ejemplo, alimento o cobertura). El componente clave del hábitat para la mayor parte de la vida
silvestre es la vegetación, que proporciona alimento y cobertura estructural. Crear recetas que combinen los objetivos de manejo de
la madera y la vida silvestre es crucial para lograr un equilibrio sostenible a largo plazo en el sistema.
Entonces, ¿cómo desarrollamos un plan que abarque múltiples objetivos de uso del suelo? El conocimiento es la clave.
Necesitamos información sobre el hábitat que requieren las especies silvestres de interés y debemos ser conscientes de cómo la
recolección de madera y su posterior regeneración afectarán las características vegetativas del sistema. Es decir, necesitamos
entender la diversidad de organismos presentes en la comunidad y apreciar el impacto que nuestras prácticas de manejo tendrán en
este sistema.
La diversidad de organismos y la medición de la diversidad han interesado desde hace tiempo a los ecologistas y gestores de
recursos naturales. La diversidad es variedad y en su nivel más simple implica contar o enumerar especies. Las comunidades
biológicas varían en el número de especies que contienen (riqueza) y abundancia relativa de estas especies (uniformidad). La
riqueza de especies, como medida por sí sola, no toma en cuenta el número de individuos de cada especie presente. Da igual peso a
aquellas especies con pocos individuos que a una especie con muchos individuos. Así, un solo abedul amarillo tiene tanta
influencia en la riqueza de un área como 100 arces azucareros. La uniformidad es una medida de la abundancia relativa de las
diferentes especies que conforman la riqueza de un área. Considera el siguiente ejemplo.
Ejemplo10.1.1:
Número de Particulares
Especies arbóreas Muestra 1 Muestra 2
Haya 145 24
Ambas muestras tienen la misma riqueza (3 especies) y el mismo número de individuos (446). Sin embargo, la primera
muestra tiene más uniformidad que la segunda. El número de individuos se distribuye de manera más uniforme entre las tres
especies. En la segunda muestra, la mayoría de los individuos son arces azucareros con menos hayas y abedules amarillos. En
este ejemplo, la primera muestra se consideraría más diversa.
Un índice de diversidad es una medida cuantitativa que refleja el número de especies diferentes y la distribución uniforme de los
individuos entre esas especies. Por lo general, el valor de un índice de diversidad aumenta cuando aumenta el número de tipos y
aumenta la uniformidad. Por ejemplo, las comunidades con un gran número de especies que están distribuidas uniformemente son
las más diversas y las comunidades con pocas especies que están dominadas por una especie son las menos diversas. Vamos a
examinar varias medidas comunes de diversidad de especies.
Índice de Simpson
Simpson (1949) desarrolló un índice de diversidad que se calcula como:
$$D =\ Suma^r_ {i=1} (\ dfrac {n_i (n_i-1)} {N (N-1)})\]
donde n i es el número de individuos en la especie i, y N es el número total de especies en la muestra. Una fórmula equivalente es:
$$D =\ Suma^r_ {i=1} p_i^2\]
10.1.1 https://espanol.libretexts.org/@go/page/149522
dondep es la abundancia proporcional para cada especie y R es el número total de especies en la muestra. El índice de Simpson es
i
una media aritmética ponderada de abundancia proporcional y mide la probabilidad de que dos individuos seleccionados
aleatoriamente de una muestra pertenezcan a la misma especie. Dado que la media de la abundancia proporcional de las especies
aumenta al disminuir el número de especies y aumentar la abundancia de las especies más abundantes, el valor de D obtiene valores
pequeños en conjuntos de datos de alta diversidad y grandes valores en conjuntos de datos con baja diversidad. El valor de la D de
Simpson varía de 0 a 1, con 0 representando diversidad infinita y 1 representando ninguna diversidad, por lo que cuanto mayor sea
el valor deD, menor es la diversidad. Por esta razón, el índice de Simpson suele expresarse como su inverso (1/ D) o su
complemento (1-D) que también se conoce como el índice Gini-Simpson. Veamos un ejemplo.
Queremos calcular SimpsonD para esta hipotética comunidad con tres especies.
Arce Azucar 35
Haya 19
Abedul Amarillo 11
Primero, calcule N.
$$N = 35 + 19 + 11 = 65\]
Luego computa el índice usando el número de individuos para cada especie:
$$D =\ sum^r_ {i=1} (\ dfrac {n_i (n_i-1)} {N (N-1)}) = (\ frac {35 (34)} {65 (64)} +\ frac {19 (18)} {65 (64)} +\ frac {11
(10)} {65 (64)}) = 0.3947\]
Se encuentra que la inversa es:
$$\ frac {1} {0.3947} = 2.5336\]
Usando la inversa, el valor de este índice comienza con 1 como la cifra más baja posible. Cuanto mayor sea el valor de este
índice inverso, mayor será la diversidad. Si usamos el cumplido a la D de Simpson, el valor es:
$1-0.3947 = 0.6053\]
Esta versión del índice tiene valores que van de 0 a 1, pero ahora, cuanto mayor sea el valor, mayor será la diversidad de su
muestra. Este cumplido representa la probabilidad de que dos individuos seleccionados aleatoriamente de una muestra
pertenezcan a diferentes especies. Es muy importante indicar claramente qué versión de la D de Simpson está utilizando al
comparar la diversidad.
Índice Shannon-Weiner
El índice de Shannon-Weiner (Barnes et al. 1998) se desarrolló a partir de la teoría de la información y se basa en la medición de la
incertidumbre. El grado de incertidumbre de predecir las especies de una muestra aleatoria está relacionado con la diversidad de
una comunidad. Si una comunidad tiene baja diversidad (dominada por una especie), la incertidumbre de predicción es baja; lo más
probable es que una especie muestreada aleatoriamente sea la especie dominante. Sin embargo, si la diversidad es alta, la
incertidumbre es alta. Se calcula como:
$$H' = -\ SUM^r_ {i=1} ln (p_i) = ln (\ frac {1} {\ prod^r_ {i=1} p^ {p_i} _i})\]
donde p i es la proporción de individuos que pertenecen a la especie i y R es el número de especies en la muestra. Dado que la
suma de los p i es igual a la unidad por definición, el denominador es igual a la media geométrica ponderada de los valores pi,
usándose los valores pi como pesos. El término entre paréntesis equivale a verdadera diversidad D y H'=Ln (D). Cuando todas las
especies en el conjunto de datos son igualmente comunes, todos los valores p i = 1/ R y el índice de Shannon-Weiner es igual a ln
(R). Cuanto más desigual es la abundancia de especies, mayor es la media geométrica ponderada de los valores p i, menor es el
índice. Si la abundancia se concentra principalmente en una especie, el índice será cercano a cero.
Una fórmula equivalente y computacionalmente más fácil es:
10.1.2 https://espanol.libretexts.org/@go/page/149522
$$H' =\ frac {N ln\ N -\ suma (n_i ln\ n_i)} {N}\]
donde N es el número total de especies y n i es el número de individuos en la especie i. El índice de Shannon-Weiner es más
sensible al número de especies en una muestra, por lo que generalmente se considera sesgado hacia la medición de la riqueza de
especies.
Calculemos el índice de diversidad de Shannon-Weiner para la misma comunidad hipotética en el ejemplo anterior.
Arce Azucar 35
Haya 19
Abedul Amarillo 11
This page titled 10.1: Introducción, índice de Simpson e índice Shannon-Weiner is shared under a CC BY-NC-SA 3.0 license and was authored,
remixed, and/or curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a
detailed edit history is available upon request.
10.1: Introduction, Simpson’s Index and Shannon-Weiner Index by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source:
https://milneopentextbooks.org/natural-resources-biometrics.
10.1.3 https://espanol.libretexts.org/@go/page/149522
10.2: Gráficas de Abundancia de Rango e Índice de Idon
Gráficas de abundancia de rangos
La distribución de abundancia de especies también se puede expresar a través de gráficos de abundancia de rango Un enfoque
común es trazar alguna medida de la abundancia de especies contra su orden de rango de abundancia. Dicha parcela permite al
usuario comparar no sólo la riqueza relativa sino también la uniformidad. Los modelos de abundancia de especies (también
llamados curvas de abundancia) utilizan toda la información de la comunidad disponible para crear un modelo matemático que
describe el número y abundancia relativa de todas las especies en una comunidad. Estos modelos incluyen el modelo logarítmico
normal, geométrico, logarítmico y el modelo de brokenstick de MacArthur. Muchos ecologistas utilizan estos modelos como una
forma de expresar la partición de recursos donde la abundancia de una especie es equivalente al porcentaje de espacio que ocupa
(Magurran 1988). Las curvas de abundancia ofrecen una alternativa a los índices de diversidad de números únicos al describir
gráficamente la estructura comunitaria.
Common_descriptiveWhittaker.jpg
Figura10.2.1. Diagrama genérico de rangoabundancia de tres modelos matemáticos comunes utilizados para ajustar las
distribuciones de abundancia de especies: la serie geométrica de Motomura, la serie logarítmica de Fisher y la serie logarítmica
normal de Preston (modificada a partir de Magurran 1988) por Aedrake09.
Comparemos los índices y una distribución de abundancia muy simple en dos situaciones diferentes. Los rostros A y B tienen el
mismo número de especies (misma riqueza), pero el número de individuos en cada especie es más similar en el Rodal A (mayor
uniformidad). En el Rodal B, la especie 1 tiene la mayor cantidad de individuos, y las nueve especies restantes tienen un número
sustancialmente menor de individuos por especie. La riqueza, el cumplido a la D de Simpson y la H' de Shannon se computan para
ambas tribunas. Estos dos índices de diversidad incorporan tanto riqueza como uniformidad. En la gráfica de distribución de
abundancia, la riqueza se puede comparar en el eje x y la uniformidad por la forma de la distribución. Debido a que el Stand A
muestra mayor uniformidad, tiene mayor diversidad general que el Stand B. Observe que el Stand A tiene valores más altos para
los índices de Simpson y Shannon en comparación con el Stand B.
159.tif
10.2.1 https://espanol.libretexts.org/@go/page/149523
valor, más ecológicamente similares son dos sitios.
Si se dispone de datos cuantitativos, se puede calcular una relación de similitud (Ball 1966) o un índice de similitud porcentual,
como Gauch (1982). Estos índices no solo comparan el número de especies similares y disímiles presentes entre dos sitios, sino que
también incorporan abundancia. La relación de similitud es:
$$SR_ {ij} =\ dfrac {\ suma y_ {ki} y_ {kj}} {\ suma y_ {ki} ^2 +\ suma y_ {kj} ^2 -\ suma (y_ {ki} y_ {kj})}\]
donde y ki es la abundancia de la k ésima especie en el sitio i (se comparan los sitios i y j). Observe que esta ecuación resuelve al
índice de Jaccard cuando solo hay datos de presencia o ausencia disponibles. El índice de similitud porcentual es:
$$PS_ {ij} =\ dfrac {200\ suma min (y_ {ki}, y_ {kj})} {\ suma y_ {ki} +\ suma y_ {kj}}\]
Nuevamente, observe cómo esta ecuación se resuelve al índice de Sørenson con datos cualitativos únicamente. Entonces veamos un
ejemplo sencillo de cómo estos índices nos permiten comparar la similitud entre tres sitios. El siguiente ejemplo presenta datos
hipotéticos sobre la abundancia de especies de tres sitios diferentes que contienen siete especies diferentes (A-G).
Mesa10.2.0
Sitio
Especies 1 2 3
A 4 0 1
B 0 1 0
C 0 0 0
D 1 0 1
E 1 4 0
F 3 1 1
G 1 0 3
Comencemos calculando los índices de Jaccard y Sørenson para las tres comparaciones (sitio 1 vs sitio 2, sitio 1 vs sitio 3 y sitio 2
vs sitio 3).
2 4 1
SJ1, 2 = = 0.33 SJ1, 3 = = 0.80 SJ2, 3 = = 0.17
(3+1+2) (4+1+0) (1+2+3)
Ambos índices cualitativos declaran que los sitios 1 y 3 son los más similares y los sitios 2 y 3 son los menos similares. Ahora
calculemos la relación de similitud y el índice de similitud porcentual para las mismas comparaciones de sitios.
$$SR1,2=\ dfrac {[(4\ times 0) + (0\ times 1) + (0\ times 0) + (1\ times 0) + (1\ times 4) + 3\ times 1) + (1\ times 0)]}
{(4^2+0^2+0^2+1^2+1^2+1^2+1^2) + (0^0+1^2+0^2+0^2+4^2+1^2+0^2) + (4\ times 0) + (0\ times 1) + (0\ times 0) + (1\ times
0) + (1\ times 0) + (1\ times 4) + 3\ times 1) + (1\ times 0)}\]
$$SR1,2= 0.23\]
$$SR1,3=\ dfrac {[(4\ times 1) + (0\ times 0) + (0\ times 0) + (1\ times 1) + (1\ times 0) + (3\ times 1) + (1\ times 3)]} {(4^2
+0^2+0^2+1^2+1^2+1^2+3^2+1^2) + (1^2+0^2) + (1^2+0^2+0^2+1^2+0^2+1^2+3^2) + (4\ times 1) + (0\ times 0) + (0\ times 0)
+ (1\ times 1) + (1\ times 0) + (3\ times 1) + (1\ times 1) + (1\ times 3)}\]
$$SR1,3= 0.38\]
$$SR2,3=\ dfrac {[(0\ times 1) + (1\ times 0) + (0\ times 0) + (0\ times 1) + (4\ times 0) + (1\ times 1) + (0\ times 3)]}
{(0^2+1^2+0^2+0^2+0^2+4^2+1^2+0^2) + (1^2+0^2) + (1^2+0^2 0^2+1^2+0^2+1^2+3^2) + (0\ times 1) + (1\ times 0) + (0\
times 0) + (0\ times 1) + (4\ times 0) + (1\ times 1) + (0\ times 1) + (0\ times 3)}\]
$$SR1,3= 0.03\]
$$PS1,2=\ dfrac {200 (0+0+0+0+1+1+0)} {(4+0+0+1+1+3+1) + (0+1+0+0+4+1+0)} =25.0\]
$$PS1,3=\ dfrac {200 (1+0+0+1+0+1+1)} {(4+0+0+1+1+1+3+1) + (1+0+0+1+0+1+3)} = 50.0\]
10.2.2 https://espanol.libretexts.org/@go/page/149523
$PS2,3=\ dfrac {200 (0+0+0+0+0+1+0)} {(0+1+0+0+0+4+1+0) + (1+0+0+1+0+1+3)} = 16.7\]
Una matriz de valores de similitud porcentual permite una fácil interpretación (especialmente cuando se comparan más de tres
sitios).
14403.png
10.2.3 https://espanol.libretexts.org/@go/page/149523
Dado que la cobertura invernal fue el único requisito de vida considerado en este modelo, el HSI iguala el valor de la cobertura
invernal. Como puede ver, cuantos más requisitos de vida incluidos en el modelo, más complejo se vuelve el modelo.
Mientras que los valores de HSI identifican la calidad del hábitat para una especie específica, la diversidad de vida silvestre en su
conjunto es función del tamaño y la disposición espacial de los rodales tratados (Porter 1986). La diversidad horizontal y
estructural son importantes. En términos generales, cuantos más rodales de diferente carácter contenga un área, mayor será la
diversidad de vida silvestre. La distribución espacial de diferentes tipos de rodales soporta animales que necesitan múltiples tipos
de cobertura. Para promover la diversidad de especies de vida silvestre, un gestor debe desarrollar una prescripción de manejo
forestal que varíe los patrones espaciales y temporales de reproducción de la madera, proporcionando así una mayor diversidad
estructural horizontal y vertical.
Image39089.PNG
Figura10.2.5: Diversidad de especies de aves que anidan en un gradiente de bosque a campo (After Strelke y Dickson 1980).
Por lo general, el manejo igualitario reduce la diversidad estructural vertical, pero opciones como el método de la madera de
refugio tienden a mitigar este problema. El sistema de selección tiende a promover la diversidad tanto horizontal como vertical.
La gestión integrada de los recursos naturales puede ser un proceso complicado pero no imposible. La respuesta de la vegetación a
las recetas silvícolas proporciona la base para comprender la respuesta de la vida silvestre. Al examinar las características actuales
de los rodales manejados, comprender la respuesta futura por el manejo y compararlas con los requerimientos de especies
específicas, podemos lograr la manipulación del hábitat junto con el manejo de la madera.
This page titled 10.2: Gráficas de Abundancia de Rango e Índice de Idon is shared under a CC BY-NC-SA 3.0 license and was authored, remixed,
and/or curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed
edit history is available upon request.
10.2: Rank Abundance Graphs and Habitat Suitability Index by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source:
https://milneopentextbooks.org/natural-resources-biometrics.
10.2.4 https://espanol.libretexts.org/@go/page/149523
10.3: Referencia
Aedrake09. “Logseries modificadas”, Wikipedia, es.wikipedia.org/wiki/Archivo:co... eWhittaker.jpg, 2009.
A.W. Allen, “Habitat Idonability Index Models: Marten”, U.S.D.I. Fish and Wildlife Service. FWS/OBS-82/10.11., 1982,9 pp.
B.V.Barnes et al., Ecología Forestal 4ª ed., Wiley, 1998.
P. Jacard, “La distribución de la flora de la zona alpina”, Nuevo Fitólogo 11, 1912, pp. 37-50.
A.E. Magurran, Diversidad Ecológica y Su Medición, Princeton Univ. Prensa, 1988.
W.F Porter, “Integrando el manejo de la vida silvestre con sistemas madereros pares”, Manejo de maderas duras del norte: Actas
de un Simposio Silvicultural, ed. R. Nyland, SUNY Colegio de Ciencias Ambientales y Forestales, 23-25 de junio de 1986, pp.
319-337.
M. Schamberger y A. Farmer, “Los procedimientos de evaluación del hábitat: su aplicación en la planeación de proyectos y
evaluación de impacto”, Trans. N. A. Vida Silvestre y Recursos Naturales Conf. 43, 1978, pp. 274-283.
E.H. Simpson, “Medición de la diversidad”, Nature 163, 1949, p. 688.
T. Sørenson, “Un método para establecer grupos de igual amplitud en la sociología vegetal con base en la similitud del contenido
de especies”, Det. Kong. Danske Vidensk. Selsk. Biol. Skr. (Copenhague) vol. 5, núm. 4, 1948, págs. 1-34.
W.K. Strelke y J.G. Dickson, “Efecto del borde claro del bosque en aves reproductoras en el este de Texas”, J. Wildl. Gestionar.
vol., 44, núm. 3, 1980, pp. 559-567.
Servicio de Pesca y Vida Silvestre de la U.S.D.I., “El hábitat como base para la evaluación ambiental”, 101 ESM, 1980.
O.F.R. van Tongeren, “Análisis de Cluster”, Análisis de Datos en Ecología Comunitaria y del Paisaje, Eds. R.H.G. Jongman, C.J.F.
Ter Braak, y O.F.R. van Tongeren, 1995, pp. 174-212.
This page titled 10.3: Referencia is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane Kiernan
(OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon
request.
10.3: Reference by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-resources-
biometrics.
10.3.1 https://espanol.libretexts.org/@go/page/149528
CHAPTER OVERVIEW
This page titled 11: Laboratorios biométricos is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane
Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available
upon request.
1
Más información acerca de los títulos de las páginas 11.1: Laboratorio de Biometría
#1
Experimento 1
No está satisfecho con la empresa maderera que contrató para adelgazar un soporte de pino rojo. Usted colocó cuidadosamente los
senderos de derrape dejando árboles parachoques para evitar daños excesivos a los árboles restantes. En el contrato, se afirma que
la empresa maderera pagaría una multa (3 veces la tasa de tala) por árboles dañados más allá de la cantidad acordada de cinco o
más árboles dañados por acre. Se quiere estimar el número de árboles dañados por acre para ver si superaron esta cantidad. Se
toman 27 muestras, a partir de las cuales se calcula la media de la muestra, y luego se construye un intervalo de confianza del 95%
sobre el número medio de árboles dañados por acre.
2 4 0 3 5 0 0 1 3
2 7 4 8 10 0 2 1 1
5 3 5 6 4 9 5 3 6
Ingrese estos datos en la primera columna de la hoja de trabajo de Minitab y etiquételos como “Árboles”. Ahora calcule la media
muestral y la desviación estándar de la muestra. Estadísticas > Estadísticas Básicas > Mostrar Estadísticas Descriptivas.
Seleccione la columna con sus datos en el cuadro de variables.
a) media muestral: ____________________________
desviación estándar de la muestra: ___________________
Examine la gráfica de probabilidad normal para este conjunto de datos. Recuerde, para un tamaño de muestra menor a n = 30,
debemos verificar el supuesto de normalidad si no sabemos que la variable aleatoria se distribuye normalmente. Ir a GRÁFICO →
PARCELA DE Ingresa la columna con tus datos en el cuadro “Gráfica variables” y haz clic en Aceptar.
b) ¿Diría usted que esta distribución es normal?
c) Calcular el intervalo de confianza del 95% a mano usandox ± t α/2 (
s
\squrn
) y la tabla t.
Experimento 2
La cantidad de aguas residuales y contaminación industrial vertidas en una masa de agua afecta la salud del agua al reducir la
cantidad de oxígeno disuelto disponible para la vida acuática. Si la población media de oxígeno disuelto cae por debajo de cinco
partes por millón (ppm), un nivel que algunos científicos piensan que es marginal para suministrar suficiente oxígeno disuelto para
los peces, se intentará alguna acción correctiva. Ante el gasto de remediación, se tomará la decisión de tomar medidas sólo si hay
pruebas suficientes que respalden la afirmación de que el oxígeno medio disuelto ha disminuido por debajo de 5 ppm. A
continuación se muestran lecturas semanales desde la misma ubicación en un río durante un período de dos meses.
5.2, 4.9, 5.1, 4.2, 4.7, 4.5, 5.0, 5.2, 4.8, 4.6, 4.8
Se desconoce la desviación estándar poblacional y tenemos una muestra pequeña (n≤30). Debe verificar el supuesto de normalidad.
Ir a GRÁFICO → PARCELA DE Examinar la gráfica de probabilidad normal. ¿La distribución se ve normal?
Utilice ESTADÍSTICA DESCRIPTIVA (Estadística Básica>Mostrar Estadística Descriptiva) para obtener la media y la
desviación estándar muestral.
Experimento 3
Un silvicultor cree que las orugas de las carpas están haciendo un daño significativo al crecimiento de las especies de árboles de
madera dura en su rodal. Tiene datos de crecimiento de 21 parcelas antes de la infestación. Desde entonces, ha vuelto a medir esas
mismas parcelas y quiere saber si ha habido una reducción significativa en el crecimiento anual del diámetro.
Antes Después
0.17 0.15
0.22 0.23
0.19 0.17
0.2 0.14
0.12 0.13
0.13 0.11
0.15 0.13
0.16 0.17
0.16 0.12
0.19 0.16
0.25 0.26
0.24 0.21
0.21 0.21
0.18 0.15
0.19 0.17
0.22 0.2
0.24 0.19
0.25 0.24
0.24 0.25
0.14 0.1
Es necesario calcular las diferencias entre los valores antes y los valores después. Para crear una nueva variable (diff), escribe
“diff” en el encabezado de la columna que quieres usar. Seleccione CALC>CALCULADORA. En el cuadro “Expresiones”,
escriba la ecuación “Antes-Después”. En el cuadro “Almacenar resultados en variable” escriba “diff”. Haga clic en Aceptar.
Ahora tienes un nuevo conjunto de datos de las diferencias con las que completarás tus análisis. Calcular estadística descriptiva
básica para obtener la media muestrald¯ y la desviación estándar muestrals de las diferencias. Utilice estas estadísticas para probar
d
la afirmación de que ha habido una reducción en el crecimiento anual del diámetro. Puedes responder a esta pregunta usando ya sea
una prueba de hipótesis o un intervalo de confianza.
a) H0:____________________________________
H1: ____________________________________
¯
d −μd sd
t =
sd / √n
od¯ ± t
α/2
√n
Experimento 4
La energía alternativa es un tema importante en estos días y un investigador está estudiando un sistema eléctrico solar. Cada día a la
misma hora recogía lecturas de voltaje de un medidor conectado al sistema y los datos se dan a continuación. ¿Existe una diferencia
significativa en las lecturas de voltaje promedio para los diferentes tipos de días? Primero haga una prueba F para probar varianzas
iguales y luego probar las medias usando la prueba t de 2 muestras apropiada basada en los resultados de la prueba F. Indique una
conclusión completa para este problema. α = 0.05.
Soleado — 13.5, 15.8, 13.2, 13.9, 13.8, 14.0, 15.2, 12.1, 12.9, 14.9
Nublado — 12.7, 12.5, 12.6, 12.7, 13.0, 13.0, 12.1, 12.2, 12.9, 12.7
Prueba F
a) Escribir las hipótesis nulas y alternativas para probar la afirmación de que las varianzas no son iguales.
H0:____________________________________ H1: ____________________________________
Seleccione STAT>ESTADO BÁSCO>2 Varianzas. En el cuadro Datos seleccione “Muestras en diferentes columnas” e ingrese
Soleado en el cuadro Primero y Nublado en el segundo cuadro. Haga clic en OPCIONES y en el cuadro Relación hipotética
seleccione Variance1/Variance2. Asegúrese de que la Alternativa esté establecida en “No es igual”. Haga clic en Aceptar. Mire el
valor p para la prueba F en la parte inferior de la salida.
b) ¿Rechaza por no rechazar la hipótesis nula?
c) ¿Se puede asumir varianzas iguales?
Ahora realiza una prueba t de 2 muestras (deberías haber rechazado la hipótesis nula en la prueba F y asumido varianzas
desiguales). STAT>ESTADO BASIC>2-muestra t... Seleccione el botón para “Muestras en diferentes columnas” y ponga
Sunny en la caja Primera y Nublado en la casilla Segunda. Haga clic en OPCIONES y establezca el nivel de confianza y
seleccione la hipótesis alternativa correcta. Establezca la diferencia de prueba en 0.0. Haga clic en Aceptar.
d) ¿Cuál es el valor p para esta prueba?
e) ¿Rechaza o no rechaza la hipótesis nula? Exponga su conclusión.
Experimento 1
Un silvicultor que trabaja con maderas duras del norte de edad irregular quiere saber si existe una diferencia significativa en el
volumen total de aserrado comercializable (m3ha-1) producido a partir de rodales utilizando tres métodos diferentes de sistema de
selección y un ciclo de corte de 15 años. Los siguientes datos son el volumen comercial total de 7 parcelas de muestra para cada
método. Si encuentra una diferencia significativa (rechazar Ho), entonces pruebe las comparaciones múltiples para detectar
diferencias significativas. Reporte los hallazgos utilizando toda la información disponible. α=0.05.
Volumen Método
108.6 Sencillo
110.9... Sencillo...
104.2 Grupo
103.9... Grupo...
102.1 Parche
101.4... Parche...
Experimento 2
Un fisiólogo de plantas está estudiando la tasa de pérdida de agua transpiracional (ml) de plantas que crecen bajo cinco niveles de
estrés por humedad del suelo. Esta especie es un componente importante para el hábitat de vida silvestre en esta zona y quiere
asegurarse de que sobreviva en una zona que tiende a ser seca. Asigna aleatoriamente 18 macetas a cada tratamiento (N = 90). Ella
está midiendo la tasa total de agua que transpira de las hojas (ml) por maceta por unidad de área. ¿Existe una diferencia
significativa en las tasas de transpiración entre los niveles de estrés hídrico (días)? α = 0.05.
Experimento 3
Un club de fusileros realizó un experimento en un grupo seleccionado al azar de tiradores primerizos. El propósito fue determinar
si la precisión de disparo se ve afectada por el método de avistamiento utilizado: solo el ojo derecho abierto, solo el ojo izquierdo
abierto, o ambos ojos abiertos. Quince tiradores recibieron entrenamiento similar excepto en el método de avistamiento. Sus
puntajes se registran a continuación. En el nivel 0.05 de significancia, ¿hay pruebas suficientes para rechazar la afirmación de que
los tres métodos de avistamiento son igualmente efectivos? α = 0.05.
13 10 15
9 18 16
17 15 15
13 11 12
14 15 16
This page titled 11.2: Laboratorio de Biometría #2 is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by
Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is
available upon request.
11.2: Biometrics Lab #2 by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-resources-
biometrics.
Abra Minitab e ingrese los datos en una hoja de cálculo. Seleccionar estado>Anova>Modelo Lineal General.
Haga clic en el cuadro Respuesta y seleccione CRECIMIENTO para el cuadro Respuesta, e ingrese HUMEDAD, DÍAS y
HUMEDAD*DÍAS (término de interacción) en el cuadro Modelo, como se muestra.
Image39227.PNG
En OPCIONES, seleccione “Ajustado (Tipo III)” en Sumas de Cuadrados. Haga clic en Aceptar.
En COMPARACIONES, seleccione “Comparaciones por pares” usando el método “Tukey” e ingrese los dos efectos principales y
la interacción (HUMEDAD, DÍAS y HUMEDA*DÍAS) en el cuadro de términos (haga clic en el cuadro primero para seleccionar).
Marque la casilla Información de Agrupación. Haga clic en Aceptar.
Image39235.PNG
En RESULTADOS, seleccione “Tabla de Análisis de varianza” para Visualización de resultados. Haga clic en Aceptar.
En FACTOR PLATOS, ingrese HUMEDAD y DÍAS tanto en el cuadro de efectos principales como en el cuadro de interacción
Haga clic en Aceptar. Haga clic en Aceptar.
¿Es significativo el término de interacción? __________________
Escribe el valor p ________________________________
Utilice la tercera Información de Agrupación Usando el Método Tukey (para la interacción) y la gráfica Factor para determinar
dónde están las diferencias para cada tratamiento.
Adjuntar una conclusión completa que describa las diferencias en el crecimiento de esta especie a lo largo de los 30 días para los 3
niveles diferentes de humedad del suelo.
This page titled 11.3: Laboratorio de Biometría #3 is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by
Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is
available upon request.
11.3: Biometrics Lab #3 by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-resources-
biometrics.
Experimento 1
Los siguientes datos fueron recolectados en el géiser Old Faithful en Yellowstone Park. La variable x es el tiempo entre erupciones
y la variable y es la longitud de las erupciones.
X Y
12.17 1.88
11.63 1.77
12.03 1.83
12.15 1.83
11.30 1.70
11.70 1.82
12.27 1.93
11.60 1.77
11.72 1.83
12.10 1.89
11.70 1.80
11.40 1.72
11.22 1.75
11.42 1.73
11.53 1.74
11.50 1.77
11.90 1.87
11.86 1.84
a) Determinar si existe una relación entre las 2 variables utilizando una gráfica de dispersión y el coeficiente de correlación lineal.
Seleccione Gráfica > Gráfica de dispersión. Seleccione la Gráfica simple y haga clic en Aceptar. Ingrese la variable de respuesta
(longitud de erupciones) en el cuadro de variables Y, y la variable predictora (tiempo entre erupciones) en el cuadro de variables
X. Haga clic en Aceptar. Describe la relación que veas.
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
b) Calcular el coeficiente de correlación lineal. Estadísticas > Estadísticas Básicas > Correlación. Ingrese las 2 variables en el
cuadro Variables y haga clic en Aceptar.
r = ____________________________________
¿Qué dos piezas de información sobre la relación entre estas dos variables te dice el coeficiente de correlación lineal?
________________________________________________________________________
Experimento 2
El índice de integridad biótica (IBI) es una medida de la calidad del agua en los arroyos. Los datos de muestra que se dan en la
siguiente tabla provienen de la región forestal del Piamonte. La tabla da los datos para IBI y área boscosa en kilómetros cuadrados.
Que Área Forestal sea la variable predictora (x) e IBI sea la variable de respuesta (y).
Crear una gráfica de dispersión y describir la relación entre estas variables. Calcular el coeficiente de correlación lineal.
r = ____________________________________
Cree un modelo de regresión para este conjunto de datos siguiendo los pasos del primer ejemplo. Escriba el modelo de regresión.
________________________________________________________________________
¿Hay evidencia significativa que respalde la afirmación de que el IBI aumenta con Área Forestal? Escriba la estadística de
prueba/valor p utilizada para esta prueba de pendiente junto con su respuesta.
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
El investigador quiere estimar el IBI medio poblacional para arroyos que tienen una superficie boscosa promedio de 48 km2. Haga
clic en ESTADO>REGRESION> REGISIÓN Asegurándose de que IBI está en el cuadro Respuesta y Área Forestal está en el
cuadro Modelo, haga clic en Predicción e ingrese 48 en la casilla Nueva observación para predictores continuos y marque
Límites de confianza. Haga clic en Aceptar. Escriba el intervalo de confianza del 95% para IBI medio para arroyos en un área
boscosa promedio de 48 km2. ______________________________________________________
Se está trabajando con un arroyo en una zona con 19 km2 de superficie boscosa. Su plan de manejo incluye un proyecto de
forestación que incrementará la superficie boscosa a 23 km2. Es necesario predecir cuál sería el IBI específico para este arroyo
cuando se incremente el área boscosa. Crear un intervalo de predicción para estimar este IBI si el área boscosa aumentó a 23 km2.
Haga clic en ESTADO>REGRESION>REGISIÓN Asegurándose de que IBI está en el cuadro Respuesta y Área Forestal está en
el cuadro Modelo, haga clic en Predicción e ingrese 23 en la casilla Nueva observación para predictores continuos y marque
Límites de predicción. Haga clic en Aceptar. Escriba el intervalo de predicción del 95% para el IBI para este arroyo cuando el área
boscosa se incremente a 23 km2. ___________________________________________________
Explica la diferencia entre los intervalos de confianza y predicción que acabas de calcular.
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
This page titled 11.4: Laboratorio de Biometría #4 is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by
Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is
available upon request.
11.4: Biometrics Lab #4 by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-resources-
biometrics.
Experimento 1
Antes de crear este modelo de regresión, debe examinar las relaciones entre cada una de las cinco variables predictoras y la
biomasa (la variable de respuesta). Crear cinco diagramas de dispersión utilizando biomasa como variable de respuesta (y) y cada
una de las variables predictoras (x). Compute el coeficiente de correlación lineal para cada par. Describir las relaciones.
Gráfico>Scatterplot>Simple>OK. La variable respuesta (variable y) es Bio y las cinco variables predictoras son las variables x.
Mira las gráficas de dispersión y describe cada relación a continuación. A continuación computa el coeficiente de correlación para
cada par y escribe el valor r a continuación. ESTAT>Estadística Básica>Correlación. Puedes hacer fácilmente todas las
correlaciones a la vez creando una matriz de correlación. Ponga todas las variables predictoras en el cuadro Variables juntas.
Image39257.PNG
Image39265.PNG
Experimento 2
Ahora vas a crear cuatro modelos de regresión usando las variables predictoras. Comparará el R2 ajustado, el error estándar de
regresión, los valores p para cada coeficiente y los residuos para cada modelo. Usando esta información, seleccionará el mejor
modelo y expondrá sus razones para esta elección.
Comience con el modelo completo usando las cinco variables predictoras. ESTADO>Regresión>Regresión General. Ponga Bio
en el cuadro Respuesta y las cinco variables predictoras en el cuadro Modelo (ver imagen). Haga clic en Resultados y asegúrese
de que la ecuación de regresión, la tabla de coeficientes, Mostrar intervalos de confianza, Resumen del modelo y Tabla de análisis
de varianza estén verificadas (ver imagen). Haga clic en Aceptar. Haga clic en Gráficas y asegúrese de que en Gráficas residuales
estén seleccionadas las gráficas individuales y Residual versus ajustes (ver imagen). Haga clic en Aceptar.
Image39273.PNG
Image39285.PNG
MODELO 1
Escribir el modelo de regresión _______________________________________________
Escribe el adj. R2 ________________________________________________________
Escriba el error estándar de regresión _________________________________________
Examinar la parcela residual. ¿Hay algún problema? ____________________________
Escribe las variables que NO sean significativas ________________________________
Experimento 3
Seleccione el mejor modelo y exponga sus razones para seleccionar este modelo.
Lab%205.tif
This page titled 11.5: Laboratorio de Biometría #5 is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by
Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is
available upon request.
11.5: Biometrics Lab #5 by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-resources-
biometrics.
Volver Materia
Índice
Glosario
Licenciamiento Detallado
This page titled Volver Materia is shared under a not declared license and was authored, remixed, and/or curated by Diane Kiernan (OpenSUNY) .
1
Índice
C I Rank Abundance Graphs
confidence interval Interaction Effects 10.2: Gráficas de Abundancia de Rango e Índice de
Idon
2.2: Intervalos de confianza 6.1: Efectos principales y efecto de interacción
Regression
correlation
8.2: Solución de software
7.1: Correlación M
margin of error S
D 2.2: Intervalos de confianza
sample proportion
descriptive statistics mode
2.1: Distribución por muestreo de la media muestral
1.1: Estadística Descriptiva 1.1: Estadística Descriptiva
Simpson’s Index
Motomura’s geometric series
10.1: Introducción, índice de Simpson e índice
F 10.2: Gráficas de Abundancia de Rango e Índice de Shannon-Weiner
Idon
Fisher’s logseries Site Index
10.2: Gráficas de Abundancia de Rango e Índice de 9.2: Índice del sitio
Idon P
parameters (definition) T
H 1.1: Estadística Descriptiva
the central limit theorem
Habitat Suitability Index Population Model
2.1: Distribución por muestreo de la media muestral
10.2: Gráficas de Abundancia de Rango e Índice de 7.3: Modelo poblacional
Idon probability distribution function This page titled Índice is shared under a not
hypothesis testing 1.2: Distribución de probabilidad
3.1: Los fundamentos de las pruebas de hipótesis
declared license and was authored, remixed,
R and/or curated by Diane Kiernan
range (OpenSUNY) .
1.1: Estadística Descriptiva
1 https://espanol.libretexts.org/@go/page/149574
Glosario
Ejemplo y Direcciones emerg
This page titled Glosario is shared under a not
entes]
Palab La (Opci (Opci (Opci (Opci declared license and was authored, remixed,
ras (o defini onal) onal) onal) onal) (Ej. and/or curated by Diane Kiernan
palab ción Imag Leye Enlac Fuent (Ej. “Rel (OpenSUNY) .
CC-
ras es en nda e e para “Gen acion La
https: BY- Glossary by Diane Kiernan has no license
que sensi para para exter Defin ético, ado infa
//bio. SA; indicated.
tiene ble a mostr la no o ición Here con me
libret Delm
n la mayú ar con image intern ditari gene doble
exts. ar
mism scula la n o o, so hélic
org/ Larse
a s defini ADN here e
n
defini ción ...”) ncia”
ción) [No )
se
muest Entradas en el glosario
ra en Palab Defin Imag Leye Enlac Fuent
el ra (s) ición en nda e e
Glosa
rio, Pala Defi
solo bra nició
en las de n de
págin mues mues
as tra 1 tra 1
1 https://espanol.libretexts.org/@go/page/149567
Licenciamiento Detallado
Overview
Title: Libro: Biometría de Recursos Naturales (Kiernan)
Webpages: 72
Applicable Restrictions: Noncommercial
All licenses found:
CC BY-NC-SA 3.0: 75% (54 pages)
Undeclared: 25% (18 pages)
By Page
Libro: Biometría de Recursos Naturales (Kiernan) - CC BY- 4: Inferencias sobre las diferencias de dos poblaciones -
NC-SA 3.0 CC BY-NC-SA 3.0
Front Matter - Undeclared 4.1: Inferencias sobre dos medias con muestras
TitlePage - Undeclared independientes (asumiendo varianzas desiguales) -
InfoPage - Undeclared CC BY-NC-SA 3.0
Table of Contents - Undeclared 4.2: Prueba t de dos muestras agrupadas (Suponiendo
Licensing - Undeclared varianzas iguales) - CC BY-NC-SA 3.0
4.3: Inferencias sobre dos medias con muestras
Materia Frontal - Undeclared
dependientes: pares coincidentes - CC BY-NC-SA 3.0
TitlePage - Undeclared
4.4: Inferencias sobre Dos Proporciones de Población
InfoPage - Undeclared
- CC BY-NC-SA 3.0
Tabla de Contenidos - Undeclared
4.5: Prueba F para comparar dos varianzas de
Licencias - Undeclared
población - CC BY-NC-SA 3.0
1: Estadística descriptiva y distribución normal - CC BY- 4.6: Resumen - CC BY-NC-SA 3.0
NC-SA 3.0
5: Análisis de varianza unidireccional - CC BY-NC-SA
1.1: Estadística Descriptiva - CC BY-NC-SA 3.0 3.0
1.2: Distribución de probabilidad - CC BY-NC-SA 3.0
5.1: Análisis de varianza - CC BY-NC-SA 3.0
2: Distribuciones de muestreo e intervalos de confianza - 5.2: Comparaciones múltiples - CC BY-NC-SA 3.0
CC BY-NC-SA 3.0
6: Análisis bidireccional de varianza - CC BY-NC-SA 3.0
2.1: Distribución por muestreo de la media muestral -
6.1: Efectos principales y efecto de interacción - CC
CC BY-NC-SA 3.0
BY-NC-SA 3.0
2.2: Intervalos de confianza - CC BY-NC-SA 3.0
6.2: Comparaciones múltiples - CC BY-NC-SA 3.0
3: Prueba de Hipótesis - CC BY-NC-SA 3.0 6.3: Resumen y solución de software - CC BY-NC-SA
3.1: Los fundamentos de las pruebas de hipótesis - 3.0
CC BY-NC-SA 3.0 7: Correlación y Regresión Lineal Simple - CC BY-NC-
3.2: Prueba de hipótesis sobre la media poblacional SA 3.0
cuando se conoce la desviación estándar de la
7.1: Correlación - CC BY-NC-SA 3.0
población - CC BY-NC-SA 3.0
7.2: Regresión lineal simple - CC BY-NC-SA 3.0
3.3: Prueba de hipótesis sobre la media poblacional
7.3: Modelo poblacional - CC BY-NC-SA 3.0
cuando se desconoce la desviación estándar de la
7.4: Solución de software - CC BY-NC-SA 3.0
población - CC BY-NC-SA 3.0
8: Regresión Lineal Múltiple - CC BY-NC-SA 3.0
3.4: Prueba de hipótesis para una proporción
poblacional - CC BY-NC-SA 3.0 8.1: Regresiones Múltiples - CC BY-NC-SA 3.0
3.5: Prueba de Hipótesis sobre una Varianza - CC BY- 8.2: Solución de software - CC BY-NC-SA 3.0
NC-SA 3.0 8.3: Sección 3- - CC BY-NC-SA 3.0
3.6: Armando todo usando el método clásico - CC 8.4: Sección 4- - CC BY-NC-SA 3.0
BY-NC-SA 3.0 8.5: Sección 5- - CC BY-NC-SA 3.0
8.6: Sección 6- - CC BY-NC-SA 3.0
1 https://espanol.libretexts.org/@go/page/149566
9: Modelado de crecimiento, rendimiento e índice de 11.2: Laboratorio de Biometría #2 - CC BY-NC-SA
sitio - CC BY-NC-SA 3.0 3.0
9.1: Modelos de Crecimiento y Rendimiento - CC BY- 11.3: Laboratorio de Biometría #3 - CC BY-NC-SA
NC-SA 3.0 3.0
9.2: Índice del sitio - CC BY-NC-SA 3.0 11.4: Laboratorio de Biometría #4 - CC BY-NC-SA
9.3: Referencia - CC BY-NC-SA 3.0 3.0
10: Medidas cuantitativas de diversidad, similitud de 11.5: Laboratorio de Biometría #5 - CC BY-NC-SA
sitios e idoneidad del hábitat - CC BY-NC-SA 3.0 3.0
Back Matter - Undeclared
10.1: Introducción, índice de Simpson e índice
Shannon-Weiner - CC BY-NC-SA 3.0 Index - Undeclared
10.2: Gráficas de Abundancia de Rango e Índice de Glossary - Undeclared
Idon - CC BY-NC-SA 3.0 Detailed Licensing - Undeclared
10.3: Referencia - CC BY-NC-SA 3.0 Volver Materia - Undeclared
11: Laboratorios biométricos - CC BY-NC-SA 3.0 Índice - Undeclared
11.1: Laboratorio de Biometría #1 - CC BY-NC-SA Glosario - Undeclared
3.0 Licenciamiento Detallado - Undeclared
Licenciamiento Detallado is shared under a not declared license and was authored, remixed, and/or curated by LibreTexts.
2 https://espanol.libretexts.org/@go/page/149566
Index
C I R
confidence interval Interaction Effects range
2.2: Intervalos de confianza 6.1: Efectos principales y efecto de interacción 1.1: Estadística Descriptiva
correlation Rank Abundance Graphs
7.1: Correlación M 10.2: Gráficas de Abundancia de Rango e Índice de
Idon
margin of error
D 2.2: Intervalos de confianza
Regression
8.2: Solución de software
descriptive statistics mode
1.1: Estadística Descriptiva 1.1: Estadística Descriptiva
Motomura’s geometric series S
F 10.2: Gráficas de Abundancia de Rango e Índice de sample proportion
Idon 2.1: Distribución por muestreo de la media muestral
Fisher’s logseries
10.2: Gráficas de Abundancia de Rango e Índice de
Simpson’s Index
Idon P 10.1: Introducción, índice de Simpson e índice
Shannon-Weiner
parameters (definition)
H 1.1: Estadística Descriptiva
Site Index
9.2: Índice del sitio
Habitat Suitability Index Population Model
10.2: Gráficas de Abundancia de Rango e Índice de 7.3: Modelo poblacional
Idon probability distribution function T
hypothesis testing 1.2: Distribución de probabilidad the central limit theorem
3.1: Los fundamentos de las pruebas de hipótesis 2.1: Distribución por muestreo de la media muestral
Glossary
Sample Word 1 | Sample Definition 1
Detailed Licensing
Overview
Title: Libro: Biometría de Recursos Naturales (Kiernan)
Webpages: 72
Applicable Restrictions: Noncommercial
All licenses found:
CC BY-NC-SA 3.0: 75% (54 pages)
Undeclared: 25% (18 pages)
By Page
Libro: Biometría de Recursos Naturales (Kiernan) - CC BY- 4: Inferencias sobre las diferencias de dos poblaciones -
NC-SA 3.0 CC BY-NC-SA 3.0
Front Matter - Undeclared 4.1: Inferencias sobre dos medias con muestras
TitlePage - Undeclared independientes (asumiendo varianzas desiguales) -
InfoPage - Undeclared CC BY-NC-SA 3.0
Table of Contents - Undeclared 4.2: Prueba t de dos muestras agrupadas (Suponiendo
Licensing - Undeclared varianzas iguales) - CC BY-NC-SA 3.0
4.3: Inferencias sobre dos medias con muestras
Materia Frontal - Undeclared
dependientes: pares coincidentes - CC BY-NC-SA 3.0
TitlePage - Undeclared
4.4: Inferencias sobre Dos Proporciones de Población
InfoPage - Undeclared
- CC BY-NC-SA 3.0
Tabla de Contenidos - Undeclared
4.5: Prueba F para comparar dos varianzas de
Licencias - Undeclared
población - CC BY-NC-SA 3.0
1: Estadística descriptiva y distribución normal - CC BY- 4.6: Resumen - CC BY-NC-SA 3.0
NC-SA 3.0
5: Análisis de varianza unidireccional - CC BY-NC-SA
1.1: Estadística Descriptiva - CC BY-NC-SA 3.0 3.0
1.2: Distribución de probabilidad - CC BY-NC-SA 3.0
5.1: Análisis de varianza - CC BY-NC-SA 3.0
2: Distribuciones de muestreo e intervalos de confianza - 5.2: Comparaciones múltiples - CC BY-NC-SA 3.0
CC BY-NC-SA 3.0
6: Análisis bidireccional de varianza - CC BY-NC-SA 3.0
2.1: Distribución por muestreo de la media muestral -
6.1: Efectos principales y efecto de interacción - CC
CC BY-NC-SA 3.0
BY-NC-SA 3.0
2.2: Intervalos de confianza - CC BY-NC-SA 3.0
6.2: Comparaciones múltiples - CC BY-NC-SA 3.0
3: Prueba de Hipótesis - CC BY-NC-SA 3.0 6.3: Resumen y solución de software - CC BY-NC-SA
3.1: Los fundamentos de las pruebas de hipótesis - 3.0
CC BY-NC-SA 3.0 7: Correlación y Regresión Lineal Simple - CC BY-NC-
3.2: Prueba de hipótesis sobre la media poblacional SA 3.0
cuando se conoce la desviación estándar de la
7.1: Correlación - CC BY-NC-SA 3.0
población - CC BY-NC-SA 3.0
7.2: Regresión lineal simple - CC BY-NC-SA 3.0
3.3: Prueba de hipótesis sobre la media poblacional
7.3: Modelo poblacional - CC BY-NC-SA 3.0
cuando se desconoce la desviación estándar de la
7.4: Solución de software - CC BY-NC-SA 3.0
población - CC BY-NC-SA 3.0
8: Regresión Lineal Múltiple - CC BY-NC-SA 3.0
3.4: Prueba de hipótesis para una proporción
poblacional - CC BY-NC-SA 3.0 8.1: Regresiones Múltiples - CC BY-NC-SA 3.0
3.5: Prueba de Hipótesis sobre una Varianza - CC BY- 8.2: Solución de software - CC BY-NC-SA 3.0
NC-SA 3.0 8.3: Sección 3- - CC BY-NC-SA 3.0
3.6: Armando todo usando el método clásico - CC 8.4: Sección 4- - CC BY-NC-SA 3.0
BY-NC-SA 3.0 8.5: Sección 5- - CC BY-NC-SA 3.0
8.6: Sección 6- - CC BY-NC-SA 3.0
1 https://espanol.libretexts.org/@go/page/159986
9: Modelado de crecimiento, rendimiento e índice de 11.2: Laboratorio de Biometría #2 - CC BY-NC-SA
sitio - CC BY-NC-SA 3.0 3.0
9.1: Modelos de Crecimiento y Rendimiento - CC BY- 11.3: Laboratorio de Biometría #3 - CC BY-NC-SA
NC-SA 3.0 3.0
9.2: Índice del sitio - CC BY-NC-SA 3.0 11.4: Laboratorio de Biometría #4 - CC BY-NC-SA
9.3: Referencia - CC BY-NC-SA 3.0 3.0
10: Medidas cuantitativas de diversidad, similitud de 11.5: Laboratorio de Biometría #5 - CC BY-NC-SA
sitios e idoneidad del hábitat - CC BY-NC-SA 3.0 3.0
Back Matter - Undeclared
10.1: Introducción, índice de Simpson e índice
Shannon-Weiner - CC BY-NC-SA 3.0 Index - Undeclared
10.2: Gráficas de Abundancia de Rango e Índice de Glossary - Undeclared
Idon - CC BY-NC-SA 3.0 Detailed Licensing - Undeclared
10.3: Referencia - CC BY-NC-SA 3.0 Volver Materia - Undeclared
11: Laboratorios biométricos - CC BY-NC-SA 3.0 Índice - Undeclared
11.1: Laboratorio de Biometría #1 - CC BY-NC-SA Glosario - Undeclared
3.0 Licenciamiento Detallado - Undeclared
2 https://espanol.libretexts.org/@go/page/159986