0% found this document useful (0 votes)
227 views181 pages

Natural Resources Biometrics

This document is a textbook on natural resources biometrics by Diane Kiernan of SUNY College of Environmental Science and Forestry. It contains 11 chapters that cover topics in descriptive statistics, probability distributions, sampling distributions, hypothesis testing, analysis of variance, correlation, regression, growth modeling, diversity indices, and biometrics laboratories. The textbook is openly licensed through LibreTexts to allow for adoption, adaptation, and sharing under certain licenses.

Uploaded by

NNA EFE
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
0% found this document useful (0 votes)
227 views181 pages

Natural Resources Biometrics

This document is a textbook on natural resources biometrics by Diane Kiernan of SUNY College of Environmental Science and Forestry. It contains 11 chapters that cover topics in descriptive statistics, probability distributions, sampling distributions, hypothesis testing, analysis of variance, correlation, regression, growth modeling, diversity indices, and biometrics laboratories. The textbook is openly licensed through LibreTexts to allow for adoption, adaptation, and sharing under certain licenses.

Uploaded by

NNA EFE
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
You are on page 1/ 181

NATURAL RESOURCES

BIOMETRICS

Diane Kiernan
SUNY College of Environmental Science
and Forestry
SUNY College of Environmental Science and
Forestry
Natural Resources Biometrics

Diane Kiernan
This text is disseminated via the Open Education Resource (OER) LibreTexts Project (https://LibreTexts.org) and like the hundreds
of other texts available within this powerful platform, it is freely available for reading, printing and "consuming." Most, but not all,
pages in the library have licenses that may allow individuals to make changes, save, and print this book. Carefully
consult the applicable license(s) before pursuing such effects.
Instructors can adopt existing LibreTexts texts or Remix them to quickly build course-specific resources to meet the needs of their
students. Unlike traditional textbooks, LibreTexts’ web based origins allow powerful integration of advanced features and new
technologies to support learning.

The LibreTexts mission is to unite students, faculty and scholars in a cooperative effort to develop an easy-to-use online platform
for the construction, customization, and dissemination of OER content to reduce the burdens of unreasonable textbook costs to our
students and society. The LibreTexts project is a multi-institutional collaborative venture to develop the next generation of open-
access texts to improve postsecondary education at all levels of higher learning by developing an Open Access Resource
environment. The project currently consists of 14 independently operating and interconnected libraries that are constantly being
optimized by students, faculty, and outside experts to supplant conventional paper-based books. These free textbook alternatives are
organized within a central environment that is both vertically (from advance to basic level) and horizontally (across different fields)
integrated.
The LibreTexts libraries are Powered by NICE CXOne and are supported by the Department of Education Open Textbook Pilot
Project, the UC Davis Office of the Provost, the UC Davis Library, the California State University Affordable Learning Solutions
Program, and Merlot. This material is based upon work supported by the National Science Foundation under Grant No. 1246120,
1525057, and 1413739.
Any opinions, findings, and conclusions or recommendations expressed in this material are those of the author(s) and do not
necessarily reflect the views of the National Science Foundation nor the US Department of Education.
Have questions or comments? For information about adoptions or adaptions contact [email protected]. More information on our
activities can be found via Facebook (https://facebook.com/Libretexts), Twitter (https://twitter.com/libretexts), or our blog
(http://Blog.Libretexts.org).
This text was compiled on 01/18/2024
TABLE OF CONTENTS
Licensing

Materia Frontal
TitlePage
InfoPage
Tabla de Contenidos
Licencias

1: Estadística descriptiva y distribución normal


1.1: Estadística Descriptiva
1.2: Distribución de probabilidad

2: Distribuciones de muestreo e intervalos de confianza


2.1: Distribución por muestreo de la media muestral
2.2: Intervalos de confianza

3: Prueba de Hipótesis
3.1: Los fundamentos de las pruebas de hipótesis
3.2: Prueba de hipótesis sobre la media poblacional cuando se conoce la desviación estándar de la población
3.3: Prueba de hipótesis sobre la media poblacional cuando se desconoce la desviación estándar de la población
3.4: Prueba de hipótesis para una proporción poblacional
3.5: Prueba de Hipótesis sobre una Varianza
3.6: Armando todo usando el método clásico

4: Inferencias sobre las diferencias de dos poblaciones


4.1: Inferencias sobre dos medias con muestras independientes (asumiendo varianzas desiguales)
4.2: Prueba t de dos muestras agrupadas (Suponiendo varianzas iguales)
4.3: Inferencias sobre dos medias con muestras dependientes: pares coincidentes
4.4: Inferencias sobre Dos Proporciones de Población
4.5: Prueba F para comparar dos varianzas de población
4.6: Resumen

5: Análisis de varianza unidireccional


5.1: Análisis de varianza
5.2: Comparaciones múltiples

6: Análisis bidireccional de varianza


6.1: Efectos principales y efecto de interacción
6.2: Comparaciones múltiples
6.3: Resumen y solución de software

7: Correlación y Regresión Lineal Simple


7.1: Correlación
7.2: Regresión lineal simple

1 https://espanol.libretexts.org/@go/page/159981
7.3: Modelo poblacional
7.4: Solución de software

8: Regresión Lineal Múltiple


8.1: Regresiones Múltiples
8.2: Solución de software
8.3: Sección 3-
8.4: Sección 4-
8.5: Sección 5-
8.6: Sección 6-

9: Modelado de crecimiento, rendimiento e índice de sitio


9.1: Modelos de Crecimiento y Rendimiento
9.2: Índice del sitio
9.3: Referencia

10: Medidas cuantitativas de diversidad, similitud de sitios e idoneidad del


hábitat
10.1: Introducción, índice de Simpson e índice Shannon-Weiner
10.2: Gráficas de Abundancia de Rango e Índice de Idon
10.3: Referencia

11: Laboratorios biométricos


11.1: Laboratorio de Biometría #1
11.2: Laboratorio de Biometría #2
11.3: Laboratorio de Biometría #3
11.4: Laboratorio de Biometría #4
11.5: Laboratorio de Biometría #5

Index
Glossary
Detailed Licensing

Volver Materia
Índice
Glosario
Licenciamiento Detallado

2 https://espanol.libretexts.org/@go/page/159981
Licensing
A detailed breakdown of this resource's licensing can be found in Back Matter/Detailed Licensing.

1 https://espanol.libretexts.org/@go/page/159982
CHAPTER OVERVIEW

Materia Frontal
TitlePage
InfoPage
Tabla de Contenidos
Licencias

This page titled Materia Frontal is shared under a not declared license and was authored, remixed, and/or curated by Diane Kiernan (OpenSUNY)
.

1
Colegio SUNY de Ciencias Ambientales y
Forestales
Biometría de Recursos Naturales

Diane Kiernan
This page titled TitlePage is shared under a not declared license and was authored, remixed, and/or curated by Diane Kiernan (OpenSUNY) .
TitlePage by Diane Kiernan has no license indicated.
This text is disseminated via the Open Education Resource (OER) LibreTexts Project (https://LibreTexts.org) and like the hundreds
of other texts available within this powerful platform, it is freely available for reading, printing and "consuming." Most, but not all,
pages in the library have licenses that may allow individuals to make changes, save, and print this book. Carefully
consult the applicable license(s) before pursuing such effects.
Instructors can adopt existing LibreTexts texts or Remix them to quickly build course-specific resources to meet the needs of their
students. Unlike traditional textbooks, LibreTexts’ web based origins allow powerful integration of advanced features and new
technologies to support learning.

The LibreTexts mission is to unite students, faculty and scholars in a cooperative effort to develop an easy-to-use online platform
for the construction, customization, and dissemination of OER content to reduce the burdens of unreasonable textbook costs to our
students and society. The LibreTexts project is a multi-institutional collaborative venture to develop the next generation of open-
access texts to improve postsecondary education at all levels of higher learning by developing an Open Access Resource
environment. The project currently consists of 14 independently operating and interconnected libraries that are constantly being
optimized by students, faculty, and outside experts to supplant conventional paper-based books. These free textbook alternatives are
organized within a central environment that is both vertically (from advance to basic level) and horizontally (across different fields)
integrated.
The LibreTexts libraries are Powered by NICE CXOne and are supported by the Department of Education Open Textbook Pilot
Project, the UC Davis Office of the Provost, the UC Davis Library, the California State University Affordable Learning Solutions
Program, and Merlot. This material is based upon work supported by the National Science Foundation under Grant No. 1246120,
1525057, and 1413739.
Any opinions, findings, and conclusions or recommendations expressed in this material are those of the author(s) and do not
necessarily reflect the views of the National Science Foundation nor the US Department of Education.
Have questions or comments? For information about adoptions or adaptions contact [email protected]. More information on our
activities can be found via Facebook (https://facebook.com/Libretexts), Twitter (https://twitter.com/libretexts), or our blog
(http://Blog.Libretexts.org).
This text was compiled on 01/18/2024

This page titled InfoPage is shared under a not declared license and was authored, remixed, and/or curated by Diane Kiernan (OpenSUNY) .
TABLE OF CONTENTS
Licensing

Materia Frontal
TitlePage
InfoPage
Tabla de Contenidos
Licencias

1: Estadística descriptiva y distribución normal


1.1: Estadística Descriptiva
1.2: Distribución de probabilidad

2: Distribuciones de muestreo e intervalos de confianza


2.1: Distribución por muestreo de la media muestral
2.2: Intervalos de confianza

3: Prueba de Hipótesis
3.1: Los fundamentos de las pruebas de hipótesis
3.2: Prueba de hipótesis sobre la media poblacional cuando se conoce la desviación estándar de la población
3.3: Prueba de hipótesis sobre la media poblacional cuando se desconoce la desviación estándar de la población
3.4: Prueba de hipótesis para una proporción poblacional
3.5: Prueba de Hipótesis sobre una Varianza
3.6: Armando todo usando el método clásico

4: Inferencias sobre las diferencias de dos poblaciones


4.1: Inferencias sobre dos medias con muestras independientes (asumiendo varianzas desiguales)
4.2: Prueba t de dos muestras agrupadas (Suponiendo varianzas iguales)
4.3: Inferencias sobre dos medias con muestras dependientes: pares coincidentes
4.4: Inferencias sobre Dos Proporciones de Población
4.5: Prueba F para comparar dos varianzas de población
4.6: Resumen

5: Análisis de varianza unidireccional


5.1: Análisis de varianza
5.2: Comparaciones múltiples

6: Análisis bidireccional de varianza


6.1: Efectos principales y efecto de interacción
6.2: Comparaciones múltiples
6.3: Resumen y solución de software

7: Correlación y Regresión Lineal Simple


7.1: Correlación
7.2: Regresión lineal simple

1 https://espanol.libretexts.org/@go/page/149458
7.3: Modelo poblacional
7.4: Solución de software

8: Regresión Lineal Múltiple


8.1: Regresiones Múltiples
8.2: Solución de software
8.3: Sección 3-
8.4: Sección 4-
8.5: Sección 5-
8.6: Sección 6-

9: Modelado de crecimiento, rendimiento e índice de sitio


9.1: Modelos de Crecimiento y Rendimiento
9.2: Índice del sitio
9.3: Referencia

10: Medidas cuantitativas de diversidad, similitud de sitios e idoneidad del


hábitat
10.1: Introducción, índice de Simpson e índice Shannon-Weiner
10.2: Gráficas de Abundancia de Rango e Índice de Idon
10.3: Referencia

11: Laboratorios biométricos


11.1: Laboratorio de Biometría #1
11.2: Laboratorio de Biometría #2
11.3: Laboratorio de Biometría #3
11.4: Laboratorio de Biometría #4
11.5: Laboratorio de Biometría #5

Index
Glossary
Detailed Licensing

Volver Materia
Índice
Glosario
Licenciamiento Detallado

Tabla de Contenidos is shared under a not declared license and was authored, remixed, and/or curated by LibreTexts.

2 https://espanol.libretexts.org/@go/page/149458
Licencias
A detailed breakdown of this resource's licensing can be found in Back Matter/Detailed Licensing.

Licencias is shared under a not declared license and was authored, remixed, and/or curated by LibreTexts.

1 https://espanol.libretexts.org/@go/page/149459
CHAPTER OVERVIEW

1: Estadística descriptiva y distribución normal


Topic hierarchy
1.1: Estadística Descriptiva
1.2: Distribución de probabilidad

This page titled 1: Estadística descriptiva y distribución normal is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or
curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit
history is available upon request.

1
1.1: Estadística Descriptiva
Una población es el grupo a estudiar, y los datos poblacionales son una recopilación de todos los elementos de la población. Por
ejemplo:
Todos los peces en Long Lake.
Todos los lagos del Parque Adirondack.
Todos los osos pardos en el Parque Nacional Yellowstone.
Una muestra es un subconjunto de datos extraídos de la población de interés. Por ejemplo:
100 peces muestreados aleatoriamente de Long Lake.
25 lagos seleccionados al azar del Parque Adirondack.
60 osos grizzly con un rango local en el Parque Nacional Yellowstone.
Image35759.PNG

Figura 1. Utilizando estadísticas de muestra para estimar parámetros poblacionales.


Las poblaciones se caracterizan por medidas descriptivas llamadas parámetros. Las inferencias sobre los parámetros se basan en
estadísticas de muestra. Por ejemplo, la media poblacional (μ ) se estima por la media muestral (x̄). La varianza poblacional (σ ) 2

se estima por la varianza muestral (s ).


2

Las variables son las características que nos interesan. Por ejemplo:
La longitud de los peces en Long Lake.
El pH de los lagos en el Parque Adirondack.
El peso de los osos pardos en el Parque Nacional Yellowstone.
Las variables se dividen en dos grupos principales: cualitativas y cuantitativas. Las variables cualitativas tienen valores que son
atributos o categorías. Las operaciones matemáticas no pueden aplicarse a variables cualitativas. Ejemplos de variables cualitativas
son el género, la raza y el color de los pétalos. Las variables cuantitativas tienen valores que suelen ser numéricos, como las
mediciones. Las operaciones matemáticas se pueden aplicar a estos datos. Ejemplos de variables cuantitativas son la edad, la talla y
la longitud. Las variables cuantitativas se pueden desglosar en dos categorías más: variables discretas y continuas. Las variables
discretas tienen un número finito o contable de valores posibles. Piense en las variables discretas como “gallinas”. Las gallinas
pueden poner 1 huevo, o 2 huevos, o 13 huevos... Hay un número limitado y definible de valores que la variable podría asumir.
958.png

Las variables continuas tienen un número infinito de valores posibles. Piense en las variables continuas como “vacas”. Las vacas
pueden dar 4.6713245 galones de leche, o 7.0918754 galones de leche, o 13.272698 galones de leche... Hay un número casi infinito
de valores que una variable continua podría asumir.
948.png

Ejemplo1.1.1:

¿La variable es cualitativa o cuantitativa?


a. Especies
b. Peso
c. Diámetro
d. Código Postal
Solución
(cualitativo cuantitativo, cuantitativo, cualitativo)

Medidas Descriptivas
Las medidas descriptivas de las poblaciones se denominan parámetros y generalmente se escriben con letras griegas. La media
poblacional esμ (mu). La varianza poblacional esσ (sigma cuadrada) y la desviación estándar poblacional esσ (sigma). Las
2

1.1.1 https://espanol.libretexts.org/@go/page/149481
medidas descriptivas de las muestras se denominan estadísticas y generalmente se escriben con letras romanas. La media de la
muestra esx̄ (barra x). La varianza muestral ess y la desviación estándar de la muestra ess . Se utilizan estadísticas de muestra para
2

estimar parámetros poblacionales desconocidos. En esta sección, examinaremos estadísticas descriptivas en términos de medidas de
centro y medidas de dispersión. Estas estadísticas descriptivas nos ayudan a identificar el centro y la difusión de los datos.

Medidas de Centro
Media
La media aritmética de una variable, a menudo llamada promedio, se calcula sumando todos los valores y dividiendo por el número
total de valores. La media poblacional está representada por la letra griegaμ (mu). La media de la muestra está representada porx̄
(barra x). La media muestral suele ser la mejor estimación imparcial de la media poblacional. Sin embargo, la media está
influenciada por valores extremos (valores atípicos) y puede no ser la mejor medida del centro con datos fuertemente sesgados. Las
siguientes ecuaciones calculan la media poblacional y la media muestral.
$$\ mu =\ frac {\ sum x_i} {N}\]
$$\ bar x =\ frac {\ sum x_i} {n}\]
dondex es un elemento en el conjunto de datos,N es el número de elementos en la población, yn es el número de elementos en el
i

conjunto de datos de muestra.

Ejemplo1.1.2: mean

Encuentre la media para el siguiente conjunto de datos de muestra:


6.4, 5.2, 7.9, 3.4
Solución
$$\ bar x =\ frac {6.4+5.2+7.9+3.4} {4} = 5.725\]

Mediana
La mediana de una variable es el valor medio del conjunto de datos cuando los datos se ordenan en orden de menor a mayor.
Divide los datos en dos mitades iguales con 50% de los datos por debajo de la mediana y 50% por encima de la mediana. La
mediana es resistente a la influencia de valores atípicos, y puede ser una mejor medida del centro con datos fuertemente sesgados.
Image35835.PNG

El cálculo de la mediana depende del número de observaciones en el conjunto de datos.


Para calcular la mediana con un número impar de valores (n es impar), primero ordene los datos de menor a mayor.

Ejemplo1.1.3: Calculating Median with Odd number of values

Encuentre la mediana para el siguiente conjunto de datos de muestra:


$23, 27, 29, 31, 35, 39, 40, 42, 44, 47, 51\]
Solución
La mediana es 39. Es el valor medio el que separa el 50% inferior de los datos del 50% superior de los datos.
Para calcular la mediana con un número par de valores (n es par), primero ordene los datos de menor a mayor y tome el
promedio de los dos valores medios.

Ejemplo1.1.4: Calculating Median with even number of values

Encuentre la mediana para el siguiente conjunto de datos de muestra:


$23, 27, 29, 31, 35, 39, 40, 42, 44, 47\]
Solución
$$M =\ frac {35+39} {2} = 37\]

1.1.2 https://espanol.libretexts.org/@go/page/149481
Modo
El modo es el valor que ocurre con mayor frecuencia y se usa comúnmente con datos cualitativos ya que los valores son
categóricos. Los datos categóricos no se pueden sumar, restar, multiplicar o dividir, por lo que no se pueden calcular la media y la
mediana. El modo es menos utilizado con datos cuantitativos como medida del centro. A veces cada valor ocurre solo una vez y el
modo no será significativo.
Comprender la relación entre la media y la mediana es importante. Nos da una idea de la distribución de la variable. Por ejemplo, si
la distribución está sesgada a la derecha (sesgada positivamente), la media aumentará para dar cuenta de las pocas observaciones
más grandes que tiran la distribución hacia la derecha. La mediana se verá menos afectada por estos valores extremadamente
grandes, por lo que en esta situación, la media será mayor que la mediana. En una distribución simétrica, la media, la mediana y el
modo serán todos similares en valor. Si la distribución está sesgada a la izquierda (sesgada negativamente), la media disminuirá
para dar cuenta de las pocas observaciones más pequeñas que tiran de la distribución hacia la izquierda. Nuevamente, la mediana se
verá menos afectada por estas observaciones extremadamente pequeñas, y en esta situación, la media será menor que la mediana.
Image35846.PNG

Figura 2. Ilustración de distribuciones sesgadas y simétricas.

Medidas de Dispersión
Las medidas del centro miran los valores promedio o medios de un conjunto de datos. Las medidas de dispersión observan la
propagación o variación de los datos. La variación se refiere a la cantidad que los valores varían entre ellos. Los valores en un
conjunto de datos que están relativamente cerca entre sí tienen menores medidas de variación. Los valores que se encuentran más
separados tienen mayores medidas de variación.
Examine los dos histogramas a continuación. Ambos grupos tienen el mismo peso medio, pero los valores del Grupo A están más
dispersos en comparación con los valores del Grupo B. Ambos grupos tienen un peso promedio de 267 lb pero los pesos del Grupo
A son más variables.
860.png

Figura 3. Histogramas del Grupo A y Grupo B.


En esta sección se examinarán cinco medidas de dispersión: rango, varianza, desviación estándar, error estándar y coeficiente de
variación.

Rango
El rango de una variable es el valor más grande menos el valor más pequeño. Es la medida más simple y utiliza sólo estos dos
valores en un conjunto de datos cuantitativos.

Ejemplo1.1.5: Computing Range

Encuentre el rango para el conjunto de datos dado.


$12, 29, 32, 34, 38, 49, 57\]
$$Rango = 57 — 12 = 45\]

Varianza
La varianza utiliza la diferencia entre cada valor y su media aritmética. Las diferencias son cuadradas para hacer frente a las
diferencias positivas y negativas. La varianza muestral (s ) es un estimador imparcial de la varianza poblacional (σ ), con n-1
2 2

grados de libertad.
Grados de libertad: En general, los grados de libertad para una estimación son iguales al número de valores menos el número de
parámetros estimados en ruta a la estimación en cuestión.
La varianza muestral es imparcial debido a la diferencia en el denominador. Si usáramos “n” en el denominador en lugar de “n —
1”, subestimaríamos consistentemente la verdadera varianza poblacional. Para corregir este sesgo, el denominador se modifica a “n
— 1”.

1.1.3 https://espanol.libretexts.org/@go/page/149481
Definición: varianza poblacional
$$\ sigma ^2 =\ frac {\ sum (x_i-\ mu) ^2} {N}\]

Definición: varianza muestral


$$ s^2 =\ frac {\ sum (x_i-\ bar x) ^2} {n-1} =\ frac {\ sum x_i^2 -\ frac {(\ sum x_i) ^2} {n}} {n-1}\ label {samplevar}\]

Ejemplo1.1.6: Computing Variance

Calcular la varianza de los datos de la muestra: 3, 5, 7.


Solución
La media muestral (x̄) es 5. Luego usa Ecuación\ ref {samplevar}
$s^2 =\ frac {(3-5) ^2 + (5-5) ^2 + (7-5) ^2} {3-1} = 4\]

Desviación estándar
La desviación estándar es la raíz cuadrada de la varianza (tanto población como muestra). Mientras que la varianza muestral es el
estimador positivo e imparcial para la varianza poblacional, las unidades para la varianza son cuadradas. La desviación estándar es
un método común para describir numéricamente la distribución de una variable. La desviación estándar de la población es σ
(sigma) y la desviación estándar de la muestra es s.

Definición: Desviación estándar de muestra

$$s =\ sqrt {s^2}\]

Definición: DESVIACIÓN ESTÁNDAR DE

$$\ sigma =\ sqrt {\ sigma ^2}\]

Ejemplo1.1.7:

Calcular la desviación estándar de los datos de la muestra: 3, 5, 7 con una media muestral de 5.
Solución
La media muestral (x̄) es 5, utilizando la definición de desviación estándar
$$s =\ sqrt {\ frac {(3-5) ^2+ (5-5) ^2+ (7-5) ^2} {3-1}} =\ sqrt {4} = 2\]

Error estándar de la media


Comúnmente, se utiliza la media muestral x̄ para estimar la media poblacional μ. Por ejemplo, si queremos estimar las alturas de
los cerezos de ochenta años, podemos proceder de la siguiente manera:
Seleccionar 100 árboles al azar
Calcular la media muestral de las 100 alturas
Utilízalo como nuestra estimación
Queremos utilizar esta media muestral para estimar la media poblacional verdadera pero desconocida. Pero nuestra muestra de 100
árboles es solo una de las muchas muestras posibles (del mismo tamaño) que podrían haber sido seleccionadas al azar. Imagínese si
tomamos una serie de diferentes muestras aleatorias de la misma población y todas del mismo tamaño:
Muestra 1—calculamos la media de la muestrax̄
Muestra 2: calculamos la media de la muestrax̄
Muestra 3: calculamos la media de la muestrax̄
Etc.
Cada vez que hacemos una muestra, podemos obtener un resultado diferente ya que estamos usando un subconjunto diferente de
datos para calcular la media de la muestra. ¡Esto nos muestra que la media muestral es una variable aleatoria!

1.1.4 https://espanol.libretexts.org/@go/page/149481
La media muestral (x̄) es una variable aleatoria con su propia distribución de probabilidad llamada distribución muestral de la
media muestral. La distribución de la media muestral tendrá una media igual a µ y una desviación estándar igual a s

√n

Nota

El error estándar s

√n
es la desviación estándar de todas las medias de muestra posibles.

En realidad, solo tomaríamos una muestra, pero necesitamos entender y cuantificar la variabilidad muestra a muestra que ocurre en
el proceso de muestreo.
El error estándar es la desviación estándar de las medias de la muestra y se puede expresar de diferentes maneras.
$s_ {\ bar x} =\ sqrt {\ frac {s^2} {n}} =\ frac {s} {\ sqrt {n}}\]

Nota

\ (s^2\) es la varianza de la muestra y s es la desviación estándar de la muestra

Ejemplo1.1.8:

Describir la distribución de la media muestral.


Una población de peces tiene pesos que normalmente se distribuyen con µ = 8 lb. y s = 2.6 lb. Si se toma una muestra de
tamaño n=6, la media muestral tendrá una distribución normal con una media de 8 y una desviación estándar (error estándar)
de = 1.061 lb.
2.6

√6

Si aumenta el tamaño de la muestra a 10, la media de la muestra se distribuirá normalmente con una media de 8 lb y una
desviación estándar (error estándar) de = 0.822 lb.
2.6

√10

Observe cómo el error estándar disminuye a medida que aumenta el tamaño de la muestra.

El Teorema del Límite Central (CLT) establece que la distribución muestral de las medias muestrales se aproximará a una
distribución normal a medida que aumente el tamaño de la muestra. Si no tenemos una distribución normal, o no sabemos nada de
nuestra distribución de nuestra variable aleatoria, el CLT nos dice que la distribución de los x̄ se volverá normal a medida que n
aumente. ¿Qué tan grande tiene que ser n? Una regla general nos dice que n ≥ 30.

Nota

El Teorema del Límite Central nos dice que independientemente de la forma de nuestra población, la distribución muestral de
la media muestral será normal a medida que aumente el tamaño de la muestra.

Coeficiente de variación
Comparar las desviaciones estándar entre diferentes poblaciones o muestras es difícil porque la desviación estándar depende de las
unidades de medida. El coeficiente de variación expresa la desviación estándar como porcentaje de la media de la muestra o
población. Es una medida sin unidades.

Definición: CV de Población

$$CV=\ frac {\ sigma} {\ mu}\ times 100\]

Definición: cv de muestra

$$CV=\ frac {s} {\ bar x}\ veces 100\]

Ejemplo1.1.9:

Los biólogos pesqueros estudiaban la longitud y el peso del salmón del Pacífico. Tomaron una muestra aleatoria y calcularon la
media y la desviación estándar para la longitud y el peso (dados a continuación). Si bien las desviaciones estándar son

1.1.5 https://espanol.libretexts.org/@go/page/149481
similares, las diferencias en unidades entre longitudes y pesos dificultan la comparación de la variabilidad. El cálculo del
coeficiente de variación para cada variable permite a los biólogos determinar qué variable tiene la mayor desviación estándar.

Media de la muestra Desviación estándar de muestra

Largo 63 cm 19.97 cm

Peso 37.6 kg 19.39 kg

685.png 678.png

Existe una mayor variabilidad en el peso del salmón del Pacífico en comparación con la longitud.

Variabilidad
La variabilidad se describe de muchas maneras diferentes. La desviación estándar mide la variabilidad punto a punto dentro de
una muestra, es decir, la variación entre unidades de muestreo individuales. El coeficiente de variación también mide la
variabilidad punto a punto pero sobre una base relativa (relativa a la media), y no está influenciado por las unidades de medida. El
error estándar mide la variabilidad de muestra a muestra, es decir, la variación entre muestras repetidas en el proceso de
muestreo. Normalmente, solo tenemos una muestra y el error estándar nos permite cuantificar la incertidumbre en nuestro proceso
de muestreo.

Ejemplo de estadísticas básicas usando Excel y Minitab Software


Considere el siguiente recuento de 11 parcelas de muestra en el bosque de Heiburg, donde Xi es el número de troncos caídos por
acre. Calcular estadísticas básicas para las parcelas de muestra.
661.png

Cuadro 1. Datos de muestra sobre el número de troncos caídos por acre del bosque de Heiburg.
(1) Media de la muestra: 654.png

(2) Mediana = 35
(3) Varianza:
644.png

(4) Desviación estándar: 634.png

(5) Rango: 55 — 5 = 50
(6) Coeficiente de variación:
625.png

(7) Error estándar de la media:


618.png

Soluciones de Software
Minitab
Abra Minitab e ingrese datos en la hoja de cálculo. Seleccione ESTADO>Estadísticas descriptivas y verifique todas las estadísticas
requeridas.
008_1.tif 008_2.tif

Estadística Descriptiva: Datos

Variable N N* Media SE Media StDev Varianza CoefVar Mínimo Q1

Datos 11 0 32.27 4.83 16.03 256.82 49.66 5.00 20.00

Variable Mediana Q3 Máximo IQR

1.1.6 https://espanol.libretexts.org/@go/page/149481
Datos 35.00 45.00 55.00 25.00

Excel
Abre Excel e ingresa los datos en la primera columna de la hoja de cálculo. Seleccionar datos>Análisis de datos>Estadística
Descriptiva. Para el Rango de Entrada, seleccione los datos en la columna A. Marque “Etiquetas en Primera Fila” y “Estadísticas
de Resumen”. También marque “Rango de salida” y seleccione la ubicación para la salida.
009_2.tif

009_1.tif

Datos

Media 32.27273

Error estándar 4.831884

Mediana 35

Modo 25

Desviación estándar 16.02555

Varianza de la muestra 256.8182

Curtosis -0.73643

Asimetría -0.05982

Rango 50

Mínimo 5

Máximo 55

Suma 355

Contar 11

Representación Gráfica
La organización y el resumen de los datos se pueden hacer gráficamente, así como numéricamente. Las tablas y gráficas permiten
una rápida visión general de la información recopilada y apoyan la presentación de los datos utilizados en el proyecto. Si bien hay
multitud de gráficos disponibles, este capítulo se centrará en algunas herramientas específicas de uso común.
Gráficos circulares

Los gráficos circulares son una buena herramienta visual que permite al lector ver rápidamente la relación entre categorías. Es
importante etiquetar claramente cada categoría, y agregar la frecuencia o frecuencia relativa suele ser útil. Sin embargo, demasiadas
categorías pueden resultar confusas. Tenga cuidado de poner demasiada información en un gráfico circular. El primer gráfico
circular da una idea clara de la representación de los tipos de peces en relación con toda la muestra. El segundo gráfico circular es
más difícil de interpretar, con demasiadas categorías. Es importante seleccionar el mejor gráfico a la hora de presentar la
información al lector.
542.png

Figura 4. Comparación de gráficos circulares.


Gráficos de barras e histogramas
Los gráficos de barras describen gráficamente la distribución de una variable cualitativa (tipo pez) mientras que los histogramas
describen la distribución de una variable cuantitativa variables discretas o continuas (peso del oso).
534.png

Figura 5. Comparación de un gráfico de barras para datos cualitativos y un histograma para datos cuantitativos.
En ambos casos, el ancho igual de las barras y el eje y están claramente definidos. Con datos cualitativos, cada categoría está
representada por una barra específica. Con datos continuos, los límites de clase inferior y superior deben definirse con anchos de

1.1.7 https://espanol.libretexts.org/@go/page/149481
clase iguales. No debe haber brechas entre clases y cada observación debe caer en una, y sólo una, clase.
Parcelas de caja

Las gráficas de caja utilizan el resumen de 5 números (valores mínimo y máximo con los tres cuartiles) para ilustrar el centro, la
dispersión y la distribución de sus datos. Cuando se emparejan con histogramas, dan una excelente descripción, tanto numérica
como gráfica, de los datos.
Con datos simétricos, la distribución es acampanada y algo simétrica. En la gráfica de caja, vemos que Q1 y Q3 son
aproximadamente equidistantes de la mediana, al igual que los valores mínimo y máximo. Además, ambos bigotes (líneas que se
extienden desde las cajas) son aproximadamente iguales en longitud.
012_2.tif

012_1.tif

Figura 6. Histograma y diagrama de caja de una distribución normal.


Con distribuciones sesgadas a la izquierda, vemos que el histograma parece “tirado” hacia la izquierda. En la gráfica de caja, Q1
está más lejos de la mediana al igual que los valores mínimos, y el bigote izquierdo es más largo que el bigote derecho.
013_2.tif

Figura 7. Histograma y diagrama de caja de una distribución sesgada a la izquierda.


013_1.tif

Con distribuciones derechas sesgadas, vemos que el histograma parece “tirado” a la derecha. En la gráfica de caja, Q3 está más
lejos de la mediana, al igual que el valor máximo, y el bigote derecho es más largo que el bigote izquierdo.
014_2.tif

014_1.tif

Figura 8. Histograma y diagrama de caja de una distribución derecha sesgada.

This page titled 1.1: Estadística Descriptiva is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane
Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available
upon request.
1.1: Descriptive Statistics by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-
resources-biometrics.

1.1.8 https://espanol.libretexts.org/@go/page/149481
1.2: Distribución de probabilidad
Una vez que hayamos organizado y resumido sus datos de muestra, el siguiente paso es identificar la distribución subyacente de
nuestra variable aleatoria. Las probabilidades de cálculo para variables aleatorias continuas se complican por el hecho de que hay
un número infinito de valores posibles que nuestra variable aleatoria puede asumir, por lo que la probabilidad de observar un valor
particular para una variable aleatoria es cero. Por lo tanto, para encontrar las probabilidades asociadas a una variable aleatoria
continua, utilizamos una función de densidad de probabilidad (PDF).
Un PDF es una ecuación utilizada para encontrar probabilidades para variables aleatorias continuas. El PDF debe cumplir con las
siguientes dos reglas:
1. El área bajo la curva debe ser igual a uno (sobre todos los valores posibles de la variable aleatoria).
2. Las probabilidades deben ser iguales o mayores que cero para todos los valores posibles de la variable aleatoria.

El área bajo la curva de la función de densidad de probabilidad en algún intervalo representa la probabilidad de observar esos
valores de la variable aleatoria en ese intervalo.

La distribución normal
Muchas variables aleatorias continuas tienen una distribución en forma de campana o algo simétrica. Esta es una distribución
normal. En otras palabras, la distribución de probabilidad de su histograma de frecuencia relativa sigue una curva normal. La curva
es en forma de campana, simétrica alrededor de la media y definida por µ y σ (la media y desviación estándar).
Kiernan_media015.png

Figura 9. Una distribución normal.


Hay curvas normales para cada combinación de µ y σ. La media (µ) desplaza la curva hacia la izquierda o hacia la derecha. La
desviación estándar (σ) altera la dispersión de la curva. El primer par de curvas tienen medias diferentes pero la misma desviación
estándar. El segundo par de curvas comparten la misma media (µ) pero tienen diferentes desviaciones estándar. La curva rosa tiene
una desviación estándar más pequeña. Es más estrecho y más alto, y la probabilidad se extiende sobre un rango menor de valores.
La curva azul tiene una desviación estándar mayor. La curva es más plana y las colas son más gruesas. La probabilidad se extiende
sobre un rango mayor de valores.
07_fig05a

07_fig05b

Figura 10. Una comparación de curvas normales.


Propiedades de la curva normal:
La media es el centro de esta distribución y el punto más alto.
La curva es simétrica con respecto a la media. (El área a la izquierda de la media es igual al área a la derecha de la media.)
El área total bajo la curva es igual a uno.
A medida que x aumenta y disminuye, la curva va a cero pero nunca toca.
El PDF de una curva normal es
2 2
f rac−(x− mu) 2 sigma
y = f rac1 sqrt2 pi sigmae (1.2.1)

Se puede utilizar una curva normal para estimar probabilidades.


Se puede utilizar una curva normal para estimar proporciones de una población que tiene ciertos valores de x.

La distribución normal estándar


Existen millones de posibles combinaciones de medias y desviaciones estándar para variables aleatorias continuas. Encontrar
probabilidades asociadas a estas variables requeriría que integráramos el PDF en el rango de valores que nos interesan. Para evitar
esto, podemos confiar en la distribución normal estándar. La distribución normal estándar es una distribución normal especial con
un µ = 0 y σ = 1. Podemos usar la puntuación Z para estandarizar cualquier variable aleatoria normal, convirtiendo los valores x en
puntuaciones Z, lo que nos permite usar probabilidades de la tabla normal estándar. Entonces, ¿cómo encontramos el área bajo la
curva asociada a una puntuación Z?

1.2.1 https://espanol.libretexts.org/@go/page/149482
Mesa Normal Estándar
La tabla normal estándar da probabilidades asociadas con puntuaciones Z específicas.
La tabla que utilizamos es acumulativa desde la izquierda.
El lado negativo es para todas las puntuaciones Z menores que cero (todos los valores menores que la media).
El lado positivo es para todas las puntuaciones Z mayores que cero (todos los valores mayores que la media).
No todas las mesas normales estándar funcionan de la misma manera.

Ejemplo1.2.1:

¿Cuál es el área asociada a la puntuación Z 1.62?


429.png

Figura 11. La tabla normal estándar y área asociada para z = 1.62.


Contestar
El área es 0.9474.

Lectura de la Tabla Normal Estándar


Lee la columna Z para obtener la primera parte de la puntuación Z (1.6).
Lee a lo largo de la fila superior para obtener el segundo decimal en la puntuación Z (0.02).
La intersección de esta fila y columna da el área bajo la curva a la izquierda de la puntuación Z.

Encontrar puntajes Z para un área determinada


¿Y si tenemos un área y queremos encontrar el puntaje Z asociado a esa área?
En lugar de Z-score → area, queremos area → Z-score.
Podemos usar la tabla normal estándar para encontrar el área en el cuerpo de valores y leer hacia atrás para encontrar la
puntuación Z asociada.
Usando la tabla, busca las probabilidades para encontrar un área que esté más cerca de la probabilidad que te interese.

Ejemplo1.2.2:

Para encontrar una puntuación Z para la que el área a la derecha sea del 5%:
Dado que la tabla es acumulativa desde la izquierda, se debe utilizar el complemento del 5%.
1.000– 0.05 = 0.9500 (1.2.2)

Image36062.PNG

Figura 12. El 5% superior del área bajo una curva normal.


Encuentra la puntuación Z para el área de 0.9500.
Mira las probabilidades y encuentra un valor lo más cercano posible a 0.9500.
Image36070.PNG

Figura 13. La tabla normal estándar.


Contestar
El puntaje Z para el percentil 95 es de 1.64.

Área entre dos puntuaciones Z

Ejemplo1.2.3 :
Para encontrar puntuaciones Z que limiten el 95% medio:
Image36080.PNG

Figura 14. El 95% medio del área bajo una curva normal.

1.2.2 https://espanol.libretexts.org/@go/page/149482
Soluciones
El 95% medio tiene 2.5% a la derecha y 2.5% a la izquierda.
Usa la simetría de la curva.
Mira tu mesa normal estándar. Dado que la tabla es acumulativa desde la izquierda, es más fácil encontrar primero el área a
la izquierda.
Encuentra el área de 0.025 en el lado negativo de la mesa.
El puntaje Z para el área a la izquierda es de -1.96.
Dado que la curva es simétrica, la puntuación Z para el área a la derecha es de 1.96.

Puntajes Z comunes
Hay muchos puntajes Z de uso común:
Z.05= 1.645 y el área entre -1.645 y 1.645 es 90%
Z.025= 1.96 y el área entre -1.96 y 1.96 es 95%
Z.005= 2.575 y el área entre -2.575 y 2.575 es 99%

Aplicaciones de la Distribución Normal


Normalmente, nuestros datos normalmente distribuidos no tienen μ = 0 y σ = 1, pero podemos relacionar cualquier distribución
normal con las distribuciones normales estándar usando la puntuación Z. Podemos transformar valores de x en valores de z.
x −μ
z = (1.2.3)
σ

Por ejemplo, si una variable aleatoria normalmente distribuida tiene un μ = 6 y σ = 2, entonces un valor de x = 7 corresponde a una
puntuación Z de 0.5.
7 −6
Z = = 0.5 (1.2.4)
2

Esto te dice que 7 es la mitad de una desviación estándar por encima de su media. Podemos usar esta relación para encontrar
probabilidades para cualquier variable aleatoria normal.
07_fig33

Figura 15. Una curva normal y normal estándar.


Para encontrar el área para valores de X, una variable aleatoria normal, dibuje una imagen del área de interés, convierta los valores
x a puntuaciones Z usando la puntuación Z y luego use la tabla normal estándar para encontrar áreas a la izquierda, a la derecha o
entre ellas.
x −μ
z = (1.2.5)
σ

Ejemplo1.2.4:

Los pesos de la población de venados adultos normalmente se distribuyen con µ = 110 lbs. y σ = 29.7 lb. Como biólogo
determinas que un peso menor a 82 lbs. no es saludable y quieres saber qué proporción de tu población no es saludable.
P (x<82)
Image36098.PNG

Figura 16. El área bajo una curva normal para P (x<82).


Convertir 82 en una puntuación Z
82 − 110
z = = −0.94 (1.2.6)
29.7

El valor x de 82 es 0.94 desviaciones estándar por debajo de la media.


Image36106.PNG

1.2.3 https://espanol.libretexts.org/@go/page/149482
Figura 17. Área bajo una curva normal estándar para P (z<-0.94).
Ir a la tabla normal estándar (lado negativo) y encontrar el área asociada con una puntuación Z de -0.94.
Este es un problema de “área a la izquierda” por lo que puedes leer directamente de la tabla para obtener la probabilidad.
P (x < 82) = 0.1736 (1.2.7)

Aproximadamente 17.36% de la población de venados adultos tiene bajo peso, O un venado elegido al azar tendrá una
probabilidad de 17.36% de pesar menos de 82 lb.

Ejemplo1.2.5:

Estadísticas del Centro Climático Regional del Medio Oeste indican que Jones City, que cuenta con un gran refugio de vida
silvestre, obtiene un promedio de 36.7 pulg. de lluvia cada año con una desviación estándar de 5.1 pulg. La cantidad de lluvia
se distribuye normalmente. ¿Durante qué porcentaje de los años Jones City obtiene más de 40 pulg. de lluvia?
P (x > 40) (1.2.8)

Image36118.PNG

Figura 18. Área bajo una curva normal para P (x>40).


Solución
$$z=\ frac {40-36.7} {5.1} =0.65\]
$$ P (x>40) = (1-0.7422) = 0.2578\]
Por aproximadamente 25.78% de los años, Jones City obtendrá más de 40 pulg. de lluvia.

Evaluar la normalidad
Si se desconoce la distribución y el tamaño de la muestra no es mayor a 30 (Teorema de Límite Central), tenemos que evaluar el
supuesto de normalidad. Nuestro método principal es la gráfica de probabilidad normal. Esta gráfica grafica los datos observados,
clasificados en orden ascendente, contra la puntuación Z “esperada” de ese rango. Si los datos de la muestra fueran tomados de una
variable aleatoria normalmente distribuida, entonces la gráfica sería aproximadamente lineal.
Examine la siguiente gráfica de probabilidad. La línea central es la relación que esperaríamos ver si los datos fueron dibujados a
partir de una distribución perfectamente normal. Observe cómo los datos observados (puntos rojos) siguen vagamente esta relación
lineal. Minitab también calcula una prueba de Anderson-Darling para evaluar la normalidad. La hipótesis nula para esta prueba es
que los datos de la muestra han sido extraídos de una población normalmente distribuida. Un valor p mayor a 0.05 apoya la
suposición de normalidad.
314.png

Figura 19. Una gráfica de probabilidad normal generada usando Minitab 16.
Compare el histograma y la gráfica de probabilidad normal en este siguiente ejemplo. El histograma indica una distribución
derecha sesgada.
304.png

Figura 20. Histograma y gráfica de probabilidad normal para datos de derecha sesgada.
Los datos observados no siguen un patrón lineal y el valor p para la prueba A-D es menor a 0.005 lo que indica una distribución
poblacional no normal.
La normalidad no puede ser asumida. Siempre debes verificar esta suposición. Recuerda, las probabilidades que estamos
encontrando provienen de la tabla NORMAL estándar. Si nuestros datos NO están distribuidos normalmente, entonces estas
probabilidades NO APLICAN.
¿Sabes si la población se distribuye normalmente?
¿Tiene un tamaño de muestra lo suficientemente grande (n≥30)? ¿Recuerdas el teorema del límite central?
¿Construyó una gráfica de probabilidad normal?

1.2.4 https://espanol.libretexts.org/@go/page/149482
This page titled 1.2: Distribución de probabilidad is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by
Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is
available upon request.
1.2: Probability Distribution by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-
resources-biometrics.

1.2.5 https://espanol.libretexts.org/@go/page/149482
CHAPTER OVERVIEW

2: Distribuciones de muestreo e intervalos de confianza


2.1: Distribución por muestreo de la media muestral
2.2: Intervalos de confianza

This page titled 2: Distribuciones de muestreo e intervalos de confianza is shared under a CC BY-NC-SA 3.0 license and was authored, remixed,
and/or curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed
edit history is available upon request.

1
2.1: Distribución por muestreo de la media muestral
Las pruebas inferenciales utilizan la media muestral (x̄) para estimar la media poblacional (μ ). Normalmente, utilizamos los datos
de una sola muestra, pero hay muchas muestras posibles del mismo tamaño que podrían extraerse de esa población. Como vimos en
el capítulo anterior, la media muestral (x̄) es una variable aleatoria con distribución propia.
La distribución de la media muestral tendrá una media igual a µ.
Tendrá una desviación estándar (error estándar) igual a σ

√n

Debido a que nuestras inferencias sobre la media poblacional se basan en la media de la muestra, nos enfocamos en la distribución
de la media muestral. ¿Es normal? ¿Y si nuestra población normalmente no está distribuida o no sabemos nada sobre la
distribución de nuestra población?

El Teorema del Límite Central (CLT)


El Teorema del Límite Central establece que la distribución muestral de las medias muestrales se aproximará a una distribución
normal a medida que aumente el tamaño de la muestra

Entonces, si no tenemos una distribución normal, o no sabemos nada de nuestra distribución, el CLT nos dice que la distribución de
las medias muestrales (x̄ ) se volverá normal distribuida a medida que n (tamaño de la muestra) aumente. ¿Qué tan grande tiene que
ser n? Una regla general nos dice que n ≥ 30.
El Teorema del Límite Central nos dice que independientemente de la forma de nuestra población, la distribución muestral de la
media muestral será normal a medida que aumente el tamaño de la muestra.

Distribución de muestreo de la proporción muestral


La proporción poblacional (p) es un parámetro que se estima tan comúnmente como la media. Es tan importante entender la
distribución de la proporción muestral, como la media. Con proporciones, el elemento o bien tiene la característica que te interesa o
el elemento no tiene la característica. La proporción muestral (p^ ) se calcula mediante
x
p
^ = (2.1.1)
n

dondex es el número de elementos en su población con la característica y n es el tamaño de la muestra.

Ejemplo2.1.1: sample proportion

Estás estudiando el número de árboles de cavidad en el Bosque Nacional Monongahela para hábitat de vida silvestre. Tiene un
tamaño de muestra de n = 950 árboles y, de esos árboles, x = 238 árboles con cavidades. Calcular la proporción muestral.

Un árbol de forma natural hueco en la base del árbol. (CC BY 2.0; Lauren “Lolly” Weinhold).
Solución
Esta es una simple aplicación de la ecuación\ ref {sampleproption}:
238
^ =
p = 0.25
950

2.1.1 https://espanol.libretexts.org/@go/page/149447
La distribución de la proporción muestral tiene una media de $$\ mu_ {\ hat {p}} = p\]
y tiene una desviación estándar de $$\ sigma_ {\ hat {p}} =\ sqrt {\ frac {p (1-p)} {n}}.\]
La proporción muestral se distribuye normalmente sin es muy grande y nop^ es cercana a 0 o 1. También podemos utilizar la
siguiente relación para evaluar la normalidad cuando el parámetro que se estima es p, la proporción poblacional:
^(1 − p
np ^) ≥ 10 (2.1.2)

This page titled 2.1: Distribución por muestreo de la media muestral is shared under a CC BY-NC-SA 3.0 license and was authored, remixed,
and/or curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed
edit history is available upon request.
2.1: Sampling Distribution of the Sample Mean by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source:
https://milneopentextbooks.org/natural-resources-biometrics.

2.1.2 https://espanol.libretexts.org/@go/page/149447
2.2: Intervalos de confianza
En el capítulo anterior aprendimos que las poblaciones se caracterizan por medidas descriptivas llamadas parámetros. Las inferencias sobre los parámetros se basan en estadísticas de
muestra. Ahora queremos estimar los parámetros poblacionales y evaluar la confiabilidad de nuestras estimaciones con base en nuestro conocimiento de las distribuciones de muestreo
de estas estadísticas.

Estimaciones de puntos
Comenzamos con una estimación puntual. Se trata de un valor único calculado a partir de los datos de la muestra que se utiliza para estimar el parámetro poblacional de interés.
La media muestral (x̄) es una estimación puntual de la media poblacional (μ ).
La proporción muestral (p^ ) es la estimación puntual de la proporción poblacional (p).
Utilizamos estimaciones puntuales para construir intervalos de confianza para parámetros desconocidos.
Un intervalo de confianza es un intervalo de valores en lugar de una estimación de un solo punto.
El nivel de confianza corresponde a la proporción esperada de intervalos que contendrán el parámetro si se construyen muchos intervalos de confianza del mismo tamaño de
muestra de la misma población.
Nuestra incertidumbre se refiere a si nuestro intervalo de confianza particular es uno de los que realmente contiene el verdadero valor del parámetro.

Ejemplo2.2.1: bear weight

Estamos 95% seguros de que nuestro intervalo contiene el peso medio del oso de la población.
Si creamos 100 intervalos de confianza del mismo tamaño a partir de una misma población, esperaríamos que 95 de ellos contengan el parámetro verdadero (el peso medio
poblacional). También esperamos que cinco de los intervalos no contendrían el parámetro.

Figura2.2.1 : Intervalos de confianza de veinticinco muestras diferentes.


En este ejemplo, veinticinco muestras de una misma población dieron estos intervalos de confianza del 95%. A largo plazo, 95% de todas las muestras dan un intervalo que
contiene µ, la media poblacional verdadera (pero desconocida).

El nivel de confianza se expresa como un porcentaje.


El cumplido al nivel de confianza es α (alfa), el nivel de significancia.
El nivel de confianza se describe como(1 − α) × 100 .
¿Qué significa esto realmente?
Se utiliza una estimación puntual (p. ej., media muestral) para estimar la media poblacional.
Adjuntamos un nivel de confianza a este intervalo para describir cuán seguros estamos de que este intervalo realmente contiene el parámetro de población desconocido.
Queremos estimar el parámetro poblacional, como la media (μ) o la proporción (p).
x̄ − E < μ < x̄ + E (2.2.1)

o
^−E < p < p
p ^+E (2.2.2)

dondeE está el margen de error.


La confianza se basa en el área bajo una curva normal. Por lo que debe cumplirse el supuesto de normalidad (Capítulo 1).

Intervalos de Confianza sobre la Media (μ) cuando se conoce la Desviación Estándar de la Población (σ)
Un intervalo de confianza toma la forma de: ±margen de error estimado de punto.
La estimación del punto
La estimación puntual proviene de los datos de la muestra.
Para estimar la media poblacional (μ ), utilice la media muestral (x̄) como estimación puntual.
El margen de error
Depende del nivel de confianza, el tamaño de la muestra y la desviación estándar de la población.
Se calcula comoE = Z × α
σ

√n
dondeZ está el valor crítico de la tabla normal estándar asociada con α (el nivel de significancia).
α

2 2

El valor críticoZ α

Este es un puntaje Z que borra el nivel de confianza.


Los intervalos de confianza son SIEMPRE de dos caras y los puntajes Z son los límites del área asociada con el nivel de confianza.

2.2.1 https://espanol.libretexts.org/@go/page/149448
3168.png

Figura2.2.1 : El área media del 95% bajo una curva normal estándar.
El nivel de significancia (α) se divide en mitades porque estamos mirando el 95% medio del área bajo la curva.
Acude a tu tabla normal estándar y encuentra el área de 0.025 en el cuerpo de valores.
¿Cuál es el puntaje Z para esa área?
Las puntuaciones Z de ± 1.96 son las puntuaciones Z críticas para un intervalo de confianza del 95%.
3159.png

Tabla2.2.1 : Valores críticos comunes (puntuaciones Z).

Pasos
Construcción de un intervalo de confianza sobreμ cuándoσ se conoce:
1. Z (valor crítico)
α

2. E = Z × α(margen de error)
σ

2 √n

3. x̄ ± E (estimación puntual ± margen de error)

Ejemplo2.2.3: Construct a confidence interval about the population mean

Los investigadores han estado estudiando la carga p en Jones Lake durante muchos años. Se sabe que la claridad media del agua (usando un disco Secchi) se distribuye
normalmente con una desviación estándar poblacional de σ = 15.4 pulg. Se tomó una muestra aleatoria de 22 mediciones en diversos puntos del lago con una media muestral de x̄
= 57.8 pulg. Los investigadores quieren que construyas un intervalo de confianza del 95% para μ, la claridad media del agua.

Un disco secchi para medir turbiamente de agua. (CC SA; publiclab.org)


Solución
1)Z α = 1.96
2

2)E = Z α ×
σ
=1.96 × 15.4
= 6.435
2 √n √22

3)x̄ ± E = 57.8 ± 6.435


El intervalo de confianza del 95% para la claridad media del agua es (51.36, 64.24).
Podemos estar 95% seguros de que este intervalo contiene la claridad media del agua de la población para Jones Lake.
Ahora construya un intervalo de confianza del 99% para μ, la claridad media del agua, e interprete.
1)Z α = 2.575
2

2)E = Z α
×
σ

√n
=2.575 × 15.4

√22
= 8.454
2

3)x̄ ± E = 57.8± 8.454


El intervalo de confianza del 99% para la claridad media del agua es (49.35, 66.25).
Podemos estar 99% seguros de que este intervalo contiene la claridad media del agua de la población para Jones Lake.
A medida que el nivel de confianza aumentó de 95% a 99%, el ancho del intervalo aumentó. A medida que aumentaba la probabilidad (área bajo la curva normal), el valor crítico
aumentó dando como resultado un intervalo más amplio.

Soluciones de Software
Minitab
Puede usar Minitab para construir este intervalo de confianza del 95% (Excel no construye intervalos de confianza sobre la media cuando se conoce la desviación estándar de la
población). Seleccionar Estadística básica>1-Muestra Z. Ingresa la desviación estándar de la población conocida y selecciona el nivel de confianza requerido.
030_2.tif

030_1.tif

Figura 3. Capturas de pantalla de Minitab para construir un intervalo de confianza.


Una muestra Z: profundidad
La desviación estándar asumida = 15.4
Variable N Media StDev SE Media 95% CI

profundidad 22 57.80 11.60 3.28 (51.36, 64.24)

2.2.2 https://espanol.libretexts.org/@go/page/149448
Intervalos de confianza sobre la Media (μ) cuando la Desviación Estándar de la Población (σ) es Desconocida
Por lo general, en la vida real muchas veces no conocemos la desviación estándar de la población (σ). Podemos utilizar la desviación estándar de la muestra en lugar de σ. Sin
embargo, debido a este cambio, no podemos usar la distribución normal estándar para encontrar los valores críticos necesarios para construir un intervalo de confianza.
La distribución t de Student se creó para situaciones en las que σ era desconocida. Gosset trabajó como ingeniero de control de calidad para Guinness Brewery en Dublín. Encontró
errores en sus pruebas y sabía que se debía al uso de s en lugar de σ. Creó esta distribución para hacer frente al problema de una desviación estándar poblacional desconocida y
pequeños tamaños muestrales. A continuación se muestra una porción de la tabla t.
3032.png

Tabla2.2.2: Porción de la mesa t del estudiante.

Ejemplo2.2.4

Encontrar el valor críticot α


para un intervalo de confianza del 95% con un tamaño muestral de n=13.
2

Solución
Grados de libertad (abajo de la columna de la izquierda) es igual a n-1 = 12
α = 0.05 y α/2 = 0.025
Bajar la columna 0.025 a 12 df
t = 2.179
α

Los valores críticos de la distribución t de los estudiantes se acercan a los valores críticos de la distribución normal estándar a medida que aumenta el tamaño de la muestra (n).
3002.png

Cuadro 3. Valores críticos de la tabla t del estudiante.


Usando la curva normal estándar, el valor crítico para un intervalo de confianza del 95% es de 1.96. Se puede ver cómo los diferentes tamaños de muestras cambiarán el valor crítico y
por lo tanto el intervalo de confianza, especialmente cuando el tamaño de la muestra es pequeño.

Construcción de un Intervalo de Confianza


Cuando σ es Desconocido
1. t valor crítico con n-1 df
α

2. E = t α
×
√n
s

3. x̄ ± E

Ejemplo2.2.5:

Investigadores que estudian los efectos de la lluvia ácida en las montañas Adirondack recolectaron muestras de agua de 22 lagos. Midieron el pH (acidez) del agua y quieren
construir un intervalo de confianza del 99% sobre el pH medio del lago para esta región. La media muestral es 6.4438 con una desviación estándar muestral de 0.7120. No saben
nada sobre la distribución del pH de esta población, y la muestra es pequeña (n<30), por lo que miran una gráfica de probabilidad normal.
2970.png

Figura 4. Parcela de probabilidad normal.


Solución
Los datos se distribuyen normalmente. Ahora construya el intervalo de confianza del 99% sobre el pH medio.
1)t α
= 2.831
2

2)E = t α
×
√n
s
=2.831 × 0.7120

√22
= 0.4297
2

3)x̄ ± E = 6.443 ± 0.4297


El intervalo de confianza del 99% sobre el pH medio es (6.013, 6.863).
Estamos 99% seguros de que este intervalo contiene el pH medio del lago para esta población lacustre.
Ahora construya un intervalo de confianza del 90% sobre el pH medio para estos lagos.
1)t α
= 1.721
2

2)E = t α
×
√n
s
=1.71221 × 0.7120

√22
0.2612
2

3)x̄ ± E = 6.443 ± 0.2612


El intervalo de confianza del 90% sobre el pH medio es (6.182, 6.704).
Estamos 90% seguros de que este intervalo contiene el pH medio del lago para esta población lacustre.
Observe cómo el ancho del intervalo disminuyó a medida que el nivel de confianza disminuyó de 99 a 90%.
Construir un intervalo de confianza de 90% sobre el pH medio del lago usando Excel y Minitab.

Soluciones de Software
Minitab
Para Minitab, ingrese los datos en la hoja de cálculo y seleccione Estadísticas básicas y prueba t de 1 muestra.
035_2.tif 035_1.tif

2.2.3 https://espanol.libretexts.org/@go/page/149448
T de una muestra: pH

Variable N Media StDev SE Media 90% CI

pH 22 6.443 0.712 0.152 (6.182, 6.704)

Ejemplo adicional:

Excel
Para Excel, ingrese los datos en la hoja de cálculo y seleccione estadísticas descriptivas. Consulta Estadísticas de Resumen y selecciona el nivel y la confianza.
034_2.tif 034_1.tif

Media 6.442909

Error estándar 0.151801

Mediana 6.4925

Modo #N /A

Desviación estándar 0.712008

Varianza de la muestra 0.506956

Curtosis -0.5007

Asimetría -0.60591

Rango 2.338

Mínimo 5.113

Máximo 7.451

Suma 141.744

Contar 22

Nivel de Confianza (90.0%) 0.26121

Excel te da la media muestral en la primera línea (6.442909) y el margen de error en la última línea (0.26121). Debe completar el cálculo usted mismo para obtener el intervalo
(6.442909±0.26121).

Intervalos de confianza sobre la proporción poblacional (p)


Frecuentemente, nos interesa estimar la proporción poblacional (p), en lugar de la media poblacional (µ). Por ejemplo, es posible que deba estimar la proporción de árboles infectados
con la enfermedad de la corteza de haya, o la proporción de personas que apoyan productos “verdes”. El parámetro p se puede estimar de la misma manera que se estimó µ, la media
poblacional.
La proporción de la muestra
La proporción muestral es la mejor estimación puntual para la verdadera proporción poblacional.
Proporción muestralp^ = donde x es el número de elementos en la muestra con la característica que le interesa, y n es el tamaño de la muestra.
x

La Asunción de la Normalidad al Estimar Proporciones


El supuesto de una población normalmente distribuida sigue siendo importante, a pesar de que el parámetro ha cambiado.
La normalidad se puede verificar si:
n times hatp times(1 − hatp) ge10 (2.2.3)

Construir un Intervalo de Confianza sobre la Proporción de Población


La construcción de un intervalo de confianza sobre la proporción sigue los mismos tres pasos que hemos utilizado en los ejemplos anteriores.
1. Z (valor crítico de la tabla normal estándar)
α

2
−−−−−
^(1−p
p ^)

2. E = Z α
×√
n
(margen de error)
2

3. p^ ± E (estimación puntual ± margen de error)

Ejemplo2.2.6:

Un botánico ha producido una nueva variedad de soja híbrida que es mejor capaz de soportar la sequía. Ella quiere construir un intervalo de confianza del 95% sobre la tasa de
germinación (porcentaje de germinación). Ella seleccionó al azar 500 semillas y encontró que 421 han germinado.
Solución
Primero, compute la estimación del punto
x 421
^ =
p = = 0.842 (2.2.4)
n 500

Comprobar normalidad:
$$n\ times\ hat {p}\ times (1-\ hat {p})\ ge 10 = 500\ times 0.842\ times (1-0.842) =66,5\]
Se puede asumir una distribución normal.
Ahora construye el intervalo de confianza:
1)Z α
= 1.96
2

−−−−− −−−−−−−−−
^(1−p
p ^) 0.842(1−0.842)
2)E = Z α ×√
n
=1.96 × √ 500
= 0.032
2

3)p^ ± E = 0.842 ± 0.0032

2.2.4 https://espanol.libretexts.org/@go/page/149448
El intervalo de confianza del 95% para la tasa de germinación es (81.0%, 87.4%).
Podemos estar 95% seguros de que este intervalo contiene la verdadera tasa de germinación para esta población.

Soluciones de Software
Minitab
Puede usar Minitab para calcular el intervalo de confianza. Seleccione estado>Estados básicos>1-proporción. Seleccione los datos resumidos e ingrese el número de eventos (421) y el
número de ensayos (500). Haga clic en Opciones y seleccione el nivel de confianza correcto. Verificar “prueba e intervalo basado en la distribución normal” si se ha verificado el
supuesto de normalidad.
036_1.tif 036_2.tif

Prueba e IC para una proporción

Muestra X N Muestra p 95% CI

1 421 500 0.842000 (0.810030, 0.873970)

Usando la aproximación normal.

Excel
Excel no computa intervalos de confianza para estimar la proporción poblacional.

Resumen del intervalo de confianza


¿Qué método utilizo?
La primera pregunta que debes hacerte es: ¿Qué parámetro estás tratando de estimar? Si es la media (µ), entonces pregúntese: ¿Se conoce la desviación estándar de la población
(σ)? En caso afirmativo, siga los siguientes 3 pasos:
Intervalo de confianza sobre la media poblacional (µ) cuando σ es conocida
1. Z valor crítico (de la tabla normal estándar)
α

2. E = Z α
×
σ

√n
2

3. x̄ ± E
Si no, sigue estos 3 pasos:
Intervalo de confianza sobre la media poblacional (µ) cuando σ es Desconocida
1. t valor crítico con n-1 df de la distribución t de estudiante
α

2. E = t α
×
s

√n
2

3. x̄ ± E
Si quieres construir un intervalo de confianza sobre la proporción de población, sigue estos 3 pasos:
Intervalo de confianza sobre la proporción
1. Z valor crítico de la tabla normal estándar
α

2
−−−−−
^ ^
p (1−p )
2. E = Z α
×√
n
2

3. p^ ± E
Recuerda que se debe verificar el supuesto de normalidad.

This page titled 2.2: Intervalos de confianza is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane Kiernan (OpenSUNY) via source content that was edited to
the style and standards of the LibreTexts platform; a detailed edit history is available upon request.
2.2: Confidence Intervals by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-resources-biometrics.

2.2.5 https://espanol.libretexts.org/@go/page/149448
CHAPTER OVERVIEW

3: Prueba de Hipótesis
3.1: Los fundamentos de las pruebas de hipótesis
3.2: Prueba de hipótesis sobre la media poblacional cuando se conoce la desviación estándar de la población
3.3: Prueba de hipótesis sobre la media poblacional cuando se desconoce la desviación estándar de la población
3.4: Prueba de hipótesis para una proporción poblacional
3.5: Prueba de Hipótesis sobre una Varianza
3.6: Armando todo usando el método clásico

This page titled 3: Prueba de Hipótesis is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane Kiernan
(OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon
request.

1
3.1: Los fundamentos de las pruebas de hipótesis
En los dos capítulos anteriores se introdujeron métodos para organizar y resumir los datos de la muestra y utilizar estadísticas de
muestra para estimar los parámetros de la población. Este capítulo introduce el siguiente tema importante de la estadística
inferencial: la prueba de hipótesis.

Nota
Una hipótesis es una afirmación o afirmación sobre una propiedad de una población.

Los fundamentos de las pruebas de hipótesis


Al realizar investigaciones científicas, normalmente hay alguna información conocida, quizás de algún trabajo pasado o de una idea
largamente aceptada. Queremos probar si esta afirmación es creíble. Esta es la idea básica detrás de una prueba de hipótesis:
Declamos lo que creemos que es cierto.
Cuantificar la confianza que tenemos sobre nuestro reclamo.
Utilice estadísticas de muestra para hacer inferencias sobre parámetros poblacionales.
Por ejemplo, investigaciones pasadas nos dicen que el promedio de vida de un colibrí es de unos cuatro años. Has estado
estudiando a los colibríes en el sureste de Estados Unidos y encuentras una vida media muestral de 4.8 años. ¿Debería rechazar la
información conocida o aceptada a favor de sus resultados? ¿Qué tan seguro tienes en tu estimación? ¿En qué momento dirías que
hay pruebas suficientes para rechazar la información conocida y apoyar tu reclamo alternativo? ¿Qué tan lejos de la media
conocida de cuatro años puede estar la muestra antes de rechazar la idea de que la vida útil promedio de un colibrí es de cuatro
años?

Definición: prueba de hipótesis


La prueba de hipótesis es un procedimiento, basado en evidencia y probabilidad de muestra, utilizado para probar
afirmaciones sobre una característica de una población.

Una hipótesis es una afirmación o afirmación sobre una característica de una población de interés para nosotros. Una prueba de
hipótesis es una forma de usar nuestras estadísticas de muestra para probar una afirmación específica.

Ejemplo3.1.1:

Se sabe que el peso promedio de la población es de 157 lb. Queremos probar la afirmación de que el peso medio ha
aumentado.

Ejemplo3.1.2:

Hace dos años, la proporción de plantas infectadas era de 37%. Creemos que un tratamiento ha ayudado, y queremos probar la
afirmación de que ha habido una reducción en la proporción de plantas infectadas.

Componentes de una Prueba de Hipótesis Formal


La hipótesis nula es una afirmación sobre el valor de un parámetro poblacional, como la media poblacional (µ) o la proporción
poblacional (p). Contiene la condición de igualdad y se denota como H0 (H-nada).
H0: µ = 157 o H0: p = 0.37
La hipótesis alternativa es la afirmación a probar, lo contrario de la hipótesis nula. Contiene el valor del parámetro que
consideramos plausible y se denota como H1.
H1: µ > 157 o H1: p ≠ 0.37
El estadístico de prueba es un valor calculado a partir de los datos de muestra que se utiliza para tomar una decisión sobre el
rechazo de la hipótesis nula. El estadístico de prueba convierte la media muestral (x) o la proporción muestral (p) a una puntuación

3.1.1 https://espanol.libretexts.org/@go/page/149470
Z o t bajo el supuesto de que la hipótesis nula es verdadera. Se utiliza para decidir si la diferencia entre el estadístico muestral y la
afirmación hipotética es significativa.
El valor p es el área bajo la curva a la izquierda o derecha del estadístico de prueba. Se compara con el nivel de significancia (α).
El valor crítico es el valor que define la zona de rechazo (los valores estadísticos de prueba que conducirían al rechazo de la
hipótesis nula). Se define por el nivel de significación.
El nivel de significancia (α) es la probabilidad de que el estadístico de prueba caiga en la región crítica cuando la hipótesis nula
sea verdadera. Este nivel lo establece el investigador.
La conclusión es la decisión final de la prueba de hipótesis. La conclusión siempre debe ser claramente enunciada, comunicando la
decisión con base en los componentes de la prueba. Es importante darse cuenta de que nunca probamos ni aceptamos la hipótesis
nula. Nos limitamos a decir que la evidencia muestral no es lo suficientemente fuerte como para garantizar el rechazo de la
hipótesis nula. La conclusión se compone de dos partes:
1) Rechazar o no rechazar la hipótesis nula, y 2) hay o no hay pruebas suficientes para apoyar la afirmación alternativa.
Opción 1) Rechazar la hipótesis nula (H0). Esto significa que tienes suficiente evidencia estadística para apoyar el reclamo
alternativo (H1).
Opción 2) No rechazar la hipótesis nula (H0). Esto significa que NO tienes pruebas suficientes para apoyar la reclamación
alternativa (H1).
Otra forma de pensar sobre las pruebas de hipótesis es compararlo con el sistema de justicia estadounidense. Un acusado es
inocente hasta que se demuestre su culpabilidad (hipótesis nula, inocente). El procurador trata de probar que el acusado es culpable
(Hipótesis alternativa—culpable). Hay dos posibles conclusiones a las que puede llegar el jurado. En primer lugar, el acusado es
culpable (Rechazar la hipótesis nula). Segundo, el demandado no es culpable (No rechazar la hipótesis nula). ¡Esto NO es lo mismo
que decir que el acusado es inocente! En el primer caso, el fiscal contaba con pruebas suficientes para rechazar la hipótesis nula
(inocente) y apoyar la demanda alternativa (culpable). En el segundo caso, el fiscal NO contaba con pruebas suficientes para
rechazar la hipótesis nula (inocente) y apoyar la afirmación alternativa de culpabilidad.

Las hipótesis nulas y alternativas


Hay tres pares diferentes de hipótesis nulas y alternativas:
4333.png

donde c es algún valor conocido.

Una prueba a doble cara


Esto prueba si el parámetro de población es igual a, versus no igual a, algún valor específico.
Ho: μ = 12 vs H1: μ ≠ 12
La región crítica se divide equitativamente en las dos colas y los valores críticos son ± valores que definen las zonas de rechazo.
Image36341.PNG

Figura 1. La zona de rechazo para una prueba de hipótesis bilateral.

Ejemplo3.1.3:

Un silvicultor que estudia el crecimiento del diámetro del pino rojo cree que el crecimiento del diámetro medio será diferente si
se aplica un tratamiento de fertilización al rodal.
Ho: μ = 1.2 pulgadas./ año
H1: μ ≠ 1.2 in./ año
Esta es una pregunta de dos caras, ya que el silvicultor no indica si el crecimiento del diámetro medio poblacional aumentará o
disminuirá.

3.1.2 https://espanol.libretexts.org/@go/page/149470
Una prueba del lado derecho
Esto prueba si el parámetro de población es igual a, versus mayor que, algún valor específico.
Ho: μ = 12 vs. H1: μ > 12
La región crítica se encuentra en la cola derecha y el valor crítico es un valor positivo que define la zona de rechazo.
Image36349.PNG

Figura 2. La zona de rechazo para una prueba de hipótesis del lado derecho.

Ejemplo3.1.4:

Un biólogo considera que ha habido un incremento en el número medio de lagos infectados con milenilo, una especie invasora,
desde el último estudio hace cinco años.
Ho: μ = 15 lagos
H1: μ >15 lagos
Esta es una pregunta del lado derecho, ya que el biólogo considera que ha habido un incremento en la población media del
número de lagos infectados.

Una prueba del lado izquierdo


Esto prueba si el parámetro de población es igual a, versus menor que, algún valor específico.
Ho: μ = 12 vs H1: μ < 12
La región crítica se encuentra en la cola izquierda y el valor crítico es un valor negativo que define la zona de rechazo.
Image36357.PNG

Figura 3. La zona de rechazo para una prueba de hipótesis del lado izquierdo.

Ejemplo3.1.5:

La investigación de un científico indica que ha habido un cambio en la proporción de personas que apoyan ciertas políticas
ambientales. Quiere poner a prueba la afirmación de que ha habido una reducción en la proporción de personas que apoyan
estas políticas.
Ho: p = 0.57
H1: p < 0.57
Esta es una pregunta del lado izquierdo, ya que el científico considera que ha habido una reducción en la verdadera proporción
poblacional.

Estadísticamente Significativo
Cuando los resultados observados (la estadística muestral) son improbables (una probabilidad baja) bajo el supuesto de que la
hipótesis nula es verdadera, decimos que el resultado es estadísticamente significativo, y rechazamos la hipótesis nula. Este
resultado depende del nivel de significancia, el estadístico muestral, el tamaño de la muestra y si se trata de una hipótesis
alternativa de uno o dos lados.

Tipos de Errores
Al probar, llegamos a la conclusión de rechazar la hipótesis nula o no rechazar la hipótesis nula. Tales conclusiones son a veces
correctas y a veces incorrectas (incluso cuando hemos seguido todos los procedimientos correctos). Utilizamos datos de muestra
incompletos para llegar a una conclusión y siempre existe la posibilidad de llegar a una conclusión equivocada. Hay cuatro
conclusiones posibles a alcanzar a partir de las pruebas de hipótesis. De los cuatro resultados posibles, dos son correctos y dos NO
son correctos.
4298.png

Cuadro 1. Posibles resultados de una prueba de hipótesis.

3.1.3 https://espanol.libretexts.org/@go/page/149470
Un error de Tipo I es cuando rechazamos la hipótesis nula cuando es verdadera. El símbolo α (alfa) se utiliza para representar los
errores de Tipo I. Este es el mismo alfa que usamos como nivel de significancia. Al establecer alfa lo más bajo razonablemente
posible, tratamos de controlar el error Tipo I a través del nivel de significancia.
Un error de Tipo II es cuando fallamos en rechazar la hipótesis nula cuando es falsa. El símbolo β (beta) se utiliza para
representar los errores de Tipo II.
En general, los errores de Tipo I se consideran más graves. Un paso en el procedimiento de prueba de hipótesis implica seleccionar
el nivel de significancia (α), que es la probabilidad de rechazar la hipótesis nula cuando es correcta. Para que el investigador pueda
seleccionar el nivel de significancia que minimice los errores de Tipo I. Sin embargo, existe una relación matemática entre α, β y n
(tamaño muestral).
A medida que α aumenta, β disminuye
A medida que α disminuye, β aumenta
A medida que aumenta el tamaño de la muestra (n), tanto α como β disminuyen
La inclinación natural es seleccionar el valor más pequeño posible para α, pensando en minimizar la posibilidad de causar un error
Tipo I. Desafortunadamente, esto obliga a aumentar los errores de Tipo II. Al hacer que la zona de rechazo sea demasiado pequeña,
es posible que no se rechace la hipótesis nula, cuando, de hecho, es falsa. Por lo general, seleccionamos el mejor tamaño de
muestra y nivel de significancia, ajustando automáticamente β.
Image36377.PNG

Figura 4. Error tipo 1.

Poder de la prueba
Un error tipo II (β) es la probabilidad de no rechazar una hipótesis nula falsa. De ello se deduce que 1-β es la probabilidad de
rechazar una hipótesis nula falsa. Esta probabilidad se identifica como el poder de la prueba, y a menudo se usa para medir la
efectividad de la prueba al reconocer que una hipótesis nula es falsa.

Definición: potencia de la prueba

La probabilidad de que a un nivel fijo α prueba de significancia rechace H0, cuando un valor alternativo particular del
parámetro es verdadero se llama la potencia de la prueba.

La potencia también está directamente relacionada con el tamaño de la muestra. Por ejemplo, supongamos que la hipótesis nula es
que el peso medio del pescado es 8.7 lb. Dados los datos de la muestra, un nivel de significancia del 5%, y un peso alternativo de
9.2 lb., podemos calcular la potencia de la prueba para rechazar μ = 8.7 lb. Si tenemos un tamaño de muestra pequeño, la potencia
será baja. Sin embargo, al aumentar el tamaño de la muestra se incrementará la potencia de la prueba. Aumentar el nivel de
significación también aumentará el poder. Una prueba de significancia del 5% tendrá una mayor probabilidad de rechazar la
hipótesis nula que una prueba de 1% porque la fuerza de evidencia requerida para el rechazo es menor. Disminuir la desviación
estándar tiene el mismo efecto que aumentar el tamaño de la muestra: hay más información sobre μ.

This page titled 3.1: Los fundamentos de las pruebas de hipótesis is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or
curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit
history is available upon request.
3.1: The Fundamentals of Hypothesis Testing by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source:
https://milneopentextbooks.org/natural-resources-biometrics.

3.1.4 https://espanol.libretexts.org/@go/page/149470
3.2: Prueba de hipótesis sobre la media poblacional cuando se conoce la desviación
estándar de la población
Prueba de Hipótesis sobre la Media de Población (μ) cuando se conoce la Desviación Estándar de la Población (σ)

Vamos a examinar dos formas equivalentes de realizar una prueba de hipótesis: el enfoque clásico y el enfoque del valor p. El
enfoque clásico se basa en desviaciones estándar. Este método compara el estadístico de prueba (Z-score) con un valor crítico (Z-
score) de la tabla normal estándar. Si el estadístico de prueba cae en la zona de rechazo, se rechaza la hipótesis nula. El enfoque del
valor p se basa en el área bajo la curva normal. Este método compara el área asociada con el estadístico de prueba con alfa (α), el
nivel de significancia (que también es el área bajo la curva normal). Si el valor p es menor que alfa, rechazaría la hipótesis nula.

Como dijo poéticamente un alumno anterior: Si el valor p es un valor pequeño, Rechazar


Ho
Ambos métodos deben tener:
Datos de una muestra aleatoria.
Verificación del supuesto de normalidad.
Una hipótesis nula y alternativa.
Un criterio que determina si rechazamos o no rechazamos la hipótesis nula.
Una conclusión que responde a la pregunta.
Se requieren cuatro pasos para una prueba de hipótesis:
1. Indicar las hipótesis nulas y alternativas.
2. Indicar el nivel de significancia y el valor crítico.
3. Calentar el estadístico de prueba.
4. Exponer una conclusión.

El método clásico para probar una afirmación sobre la media poblacional (μ) cuando se conoce la desviación
estándar de la población (σ)

Ejemplo3.2.1: A Two-sided Test

Un silvicultor que estudia el crecimiento del diámetro del pino rojo cree que el crecimiento del diámetro medio será diferente
del crecimiento medio conocido de 1.35 pulgadas/año si se aplica un tratamiento de fertilización al rodal. Realiza su
experimento, recoge datos de una muestra de 32 parcelas y obtiene un crecimiento de diámetro medio muestral de 1.6
pulgadas. /año. Se sabe que la desviación estándar poblacional para este rodal es de 0.46 pulg. /año. ¿Tiene pruebas suficientes
para apoyar su afirmación?
Solución
Paso 1) Indicar las hipótesis nulas y alternativas.
Ho: μ = 1.35 pulg. /año
H1: μ ≠ 1.35 pulg. /año
Paso 2) Indicar el nivel de significancia y el valor crítico.
Escogeremos un nivel de significancia del 5% (α = 0.05).
Para una pregunta de dos caras, necesitamos un valor crítico de dos caras: Z α/2 y + Z α/2.
El nivel de significancia se divide por 2 (ya que solo estamos probando “no iguales”). Debemos tener dos zonas de rechazo
que puedan lidiar ya sea con un resultado mayor o menor que (a la derecha (+) o a la izquierda (-)).
Necesitamos encontrar la puntuación Z asociada con el área de 0.025. Las áreas rojas son iguales a α/2 = 0.05/2 = 0.025 o
2.5% del área bajo la curva normal.
Entra en el cuerpo de valores y encuentra la puntuación Z negativa asociada con el área 0.025.
Image36387.PNG

Figura 1. La zona de rechazo para una prueba bilateral.

3.2.1 https://espanol.libretexts.org/@go/page/149487
El valor crítico negativo es -1.96. Dado que la curva es simétrica, sabemos que el valor crítico positivo es 1.96.
±1.96 son los valores críticos. Estos valores configuran la zona de rechazo. Si el estadístico de prueba cae dentro de estas
zonas rojas de rechazo, rechazamos la hipótesis nula.
Paso 3) Calentar el estadístico de prueba.
El estadístico de prueba es el número de desviaciones estándar que la media muestra es de la media conocida. También es
una puntuación Z, al igual que el valor crítico.
$$z =\ frac {\ bar {x} -\ mu} {\ frac {\ sigma} {\ sqrt {n}}}\]
Para este problema, el estadístico de prueba es
$$z =\ frac {1.6-1.35} {\ frac {0.46} {\ sqrt {32}}} =3.07\]
Paso 4) Exponer una conclusión.
Comparar el estadístico de prueba con el valor crítico. Si el estadístico de prueba cae en las zonas de rechazo, rechace la
hipótesis nula. Es decir, si el estadístico de prueba es mayor que +1.96 o menor que -1.96, rechace la hipótesis nula.
Image36395.PNG

Figura 2. Los valores críticos para una prueba bilateral cuando α = 0.05.
En este problema, el estadístico de prueba cae en la zona roja de rechazo. El estadístico de prueba de 3.07 es mayor que el
valor crítico de 1.96.Rechazaremos la hipótesis nula. Tenemos evidencia suficiente para sustentar la afirmación de que el
crecimiento del diámetro medio es diferente de (no igual a) 1.35 in. /año.

Ejemplo3.2.2: A Right-sided Test

Un investigador considera que ha habido un incremento en el tamaño promedio de la finca en su estado desde el último estudio
hace cinco años. El estudio anterior reportó un tamaño medio de 450 acres con una desviación estándar poblacional (σ) de 167
acres. Muestrea 45 granjas y obtiene una media muestral de 485.8 acres. ¿Hay suficiente información para apoyar su
afirmación?
Solución
Paso 1) Indicar las hipótesis nulas y alternativas.
Ho: μ = 450 acres
H1: μ >450 acres
Paso 2) Indicar el nivel de significancia y el valor crítico.
Escogeremos un nivel de significancia del 5% (α = 0.05).
Para una pregunta unilateral, necesitamos un valor crítico positivo unilateral Zα.
El nivel de significación está todo en el lado derecho (la zona de rechazo está justo en el lado derecho).
Necesitamos encontrar la puntuación Z asociada con el área del 5% en la cola derecha.
Image36403.PNG

Figura 3. Zona de rechazo para una prueba de hipótesis del lado derecho.
Entra en el cuerpo de valores en la tabla normal estándar y encuentra la puntuación Z que separa el 95% inferior del 5%
superior.
El valor crítico es 1.645. Este valor configura la zona de rechazo.
Paso 3) Calentar el estadístico de prueba.
El estadístico de prueba es el número de desviaciones estándar que la media muestra es de la media conocida. También es
una puntuación Z, al igual que el valor crítico.
$$z =\ frac {\ bar {x} -\ mu} {\ frac {\ sigma} {\ sqrt {n}}}\]
Para este problema, el estadístico de prueba es
$$z =\ frac {485.8-450} {\ frac {167} {\ sqrt {45}}} =1.44\]

3.2.2 https://espanol.libretexts.org/@go/page/149487
Paso 4) Exponer una conclusión.
Comparar el estadístico de prueba con el valor crítico.
Image36415.PNG

Figura 4. El valor crítico para una prueba del lado derecho cuando α = 0.05.
El estadístico de prueba no cae en la zona de rechazo. Es menor que el valor crítico.
No podemos rechazar la hipótesis nula. No contamos con pruebas suficientes que respalden la afirmación de que el tamaño
medio de la granja ha aumentado de 450 acres.

Ejemplo3.2.3:A Left-sided Test

Un investigador considera que ha habido una reducción en el número medio de horas que los estudiantes universitarios pasan
preparándose para los exámenes finales. Un estudio nacional afirmó que los estudiantes de una universidad de 4 años pasan un
promedio de 23 horas preparándose para 5 exámenes finales cada semestre con una desviación estándar poblacional de 7.3
horas. El investigador muestreó 227 estudiantes y encontró una muestra de tiempo medio de estudio de 19.6 horas. ¿Esto indica
que el tiempo promedio de estudio para los exámenes finales ha disminuido? Utilizar un nivel de significancia del 1% para
probar esta afirmación.
Solución
Paso 1) Indicar las hipótesis nulas y alternativas.
Ho: μ = 23 horas
H1: μ < 23 horas
Paso 2) Indicar el nivel de significancia y el valor crítico.
Esta es una prueba del lado izquierdo así que alfa (0.01) está todo en la cola izquierda.
Image36427.PNG

Figura 9. La zona de rechazo para una prueba de hipótesis del lado izquierdo.
Entra en el cuerpo de valores en la tabla normal estándar y encuentra la puntuación Z que define el 1% inferior del área.
El valor crítico es -2.33. Este valor configura la zona de rechazo.
Paso 3) Calentar el estadístico de prueba.
El estadístico de prueba es el número de desviaciones estándar que la media muestra es de la media conocida. También es
una puntuación Z, al igual que el valor crítico.
$$z =\ frac {\ bar {x} -\ mu} {\ frac {\ sigma} {\ sqrt {n}}}\]
Para este problema, el estadístico de prueba es
$$z=\ frac {19.6-23} {\ frac {7.3} {\ sqrt {277}}}\]
Paso 4) Exponer una conclusión.
Comparar el estadístico de prueba con el valor crítico.
Image36438.PNG

Figura 10. El valor crítico para una prueba del lado izquierdo cuando α = 0.01.
El estadístico de prueba cae en la zona de rechazo. El estadístico de prueba de -7.02 es menor que el valor crítico de -2.33.
Rechazamos la hipótesis nula. Contamos con pruebas suficientes para apoyar la afirmación de que el tiempo medio de estudio
del examen final ha disminuido por debajo de las 23 horas.

Prueba de una hipótesis usando valores P


El valor p es la probabilidad de observar nuestra media muestral dado que la hipótesis nula es verdadera. Es el área bajo la curva a
la izquierda o derecha del estadístico de prueba. Si la probabilidad de observar tal media muestral es muy pequeña (menor que el

3.2.3 https://espanol.libretexts.org/@go/page/149487
nivel de significancia), rechazaríamos la hipótesis nula. Los cálculos para el valor p dependen de si se trata de una prueba de una o
dos caras.
Pasos para una prueba de hipótesis usando valores p:
Indicar las hipótesis nulas y alternativas.
Determinar el nivel de significación.
Calcular el estadístico de prueba y encontrar el área asociada a ella (este es el valor p).
Compara el valor p con alfa (α) y establece una conclusión.
En lugar de comparar el estadístico de la prueba de puntaje Z con el valor crítico de la puntuación Z, como en el método clásico,
comparamos el área del estadístico de prueba con el área del nivel de significancia.

Nota:La Regla de Decisión

Si el valor p es menor que alfa, rechazamos la hipótesis nula.

Cálculo de valores P
Si se trata de una prueba a dos caras (la reivindicación alternativa es ≠), el valor p es igual a dos veces la probabilidad del valor
absoluto del estadístico de prueba. Si la prueba es una prueba del lado izquierdo (la reivindicación alternativa es “<”), entonces el
valor p es igual al área a la izquierda del estadístico de prueba. Si la prueba es una prueba del lado derecho (la reivindicación
alternativa es “>”), entonces el valor p es igual al área a la derecha del estadístico de prueba.
Veamos de nuevo el Ejemplo 6.
Un silvicultor que estudia el crecimiento del diámetro del pino rojo cree que el crecimiento del diámetro medio será diferente del
crecimiento medio conocido de 1.35 pulg. /año si se aplica un tratamiento de fertilización al rodal. Realiza su experimento, recoge
datos de una muestra de 32 parcelas y obtiene un crecimiento de diámetro medio muestral de 1.6 pulgadas. /año. Se sabe que la
desviación estándar poblacional para este rodal es de 0.46 pulg. /año. ¿Tiene pruebas suficientes para apoyar su afirmación?
Paso 1) Indicar las hipótesis nulas y alternativas.
Ho: μ = 1.35 pulg. /año
H1: μ ≠ 1.35 pulg. /año
Paso 2) Indicar el nivel de significación.
Escogeremos un nivel de significancia del 5% (α = 0.05).
Paso 3) Calentar el estadístico de prueba.
Para este problema, el estadístico de prueba es:
$$z=\ frac {1.6-1.35} {\ frac {0.46} {\ sqrt {32}}} =3.07\]
El valor p es dos veces el área del valor absoluto del estadístico de prueba (porque la reivindicación alternativa es “no igual”).
Image36447.PNG

Figura 11. El valor p comparado con el nivel de significancia.


Busque el área para obtener el puntaje Z de 3.07 en la tabla normal estándar. El área (probabilidad) es igual a 1 — 0.9989 =
0.0011.
Multiplica esto por 2 para obtener el valor p = 2 * 0.0011 = 0.0022.
Paso 4) Comparar el valor p con alfa y declarar una conclusión.
Utilice la Regla de Decisión (si el valor p es menor que α, rechace H0).
En este problema, el valor p (0.0022) es menor que alfa (0.05).
Rechazamos el H0. Tenemos evidencia suficiente para apoyar la afirmación de que el crecimiento del diámetro medio es
diferente de 1.35 pulgadas/año.
Veamos de nuevo el Ejemplo 7.

3.2.4 https://espanol.libretexts.org/@go/page/149487
Un investigador considera que ha habido un incremento en el tamaño promedio de la finca en su estado desde el último estudio
hace cinco años. El estudio anterior reportó un tamaño medio de 450 acres con una desviación estándar poblacional (σ) de 167
acres. Muestrea 45 granjas y obtiene una media muestral de 485.8 acres. ¿Hay suficiente información para apoyar su afirmación?
Paso 1) Indicar las hipótesis nulas y alternativas.
Ho: μ = 450 acres
H1: μ >450 acres
Paso 2) Indicar el nivel de significación.
Escogeremos un nivel de significancia del 5% (α = 0.05).
Paso 3) Calentar el estadístico de prueba.
Para este problema, el estadístico de prueba es
$$z=\ frac {485.8-450} {\ frac {167} {\ sqrt {45}}} =1.44\]
El valor p es el área a la derecha de la puntuación Z 1.44 (el área rayada).
Esto es igual a 1 — 0.9251 = 0.0749.
El valor p es 0.0749.
Image36455.PNG

Figura 12. El valor p comparado con el nivel de significancia para una prueba del lado derecho.
Paso 4) Comparar el valor p con alfa y declarar una conclusión.
Utilice la Regla de Decisión.
En este problema, el valor p (0.0749) es mayor que alfa (0.05), por lo que fallamos al Rechazar el H0.
El área del estadístico de prueba es mayor que el área de alfa (α).
No podemos rechazar la hipótesis nula. No contamos con pruebas suficientes que respalden la afirmación de que el tamaño medio
de la finca ha aumentado.
Veamos de nuevo el Ejemplo 8.
Un investigador considera que ha habido una reducción en el número medio de horas que los estudiantes universitarios pasan
preparándose para los exámenes finales. Un estudio nacional afirmó que los estudiantes de una universidad de 4 años pasan un
promedio de 23 horas preparándose para 5 exámenes finales cada semestre con una desviación estándar poblacional de 7.3 horas.
El investigador muestreó 227 estudiantes y encontró una muestra de tiempo medio de estudio de 19.6 horas. ¿Esto indica que el
tiempo promedio de estudio para los exámenes finales ha disminuido? Utilizar un nivel de significancia del 1% para probar esta
afirmación.
Paso 1) Indicar las hipótesis nulas y alternativas.
H0: μ = 23 horas
H1: μ < 23 horas
Paso 2) Indicar el nivel de significación.
Esta es una prueba del lado izquierdo así que alfa (0.01) está todo en la cola izquierda.
Paso 3) Calentar el estadístico de prueba.
Para este problema, el estadístico de prueba es
$$z=\ frac {19.6-23} {\ frac {7.3} {\ sqrt {227}}} =-7.02\]
El valor p es el área a la izquierda del estadístico de prueba (la pequeña área negra a la izquierda de -7.02). El puntaje Z de -7.02 no
está en la tabla normal estándar. La probabilidad más pequeña en la tabla es 0.0002. Sabemos que el área para el puntaje Z -7.02 es
menor que esta área (probabilidad). Por lo tanto, el valor p es <0.0002.
Image36463.PNG

Figura 13. El valor p comparado con el nivel de significancia para una prueba del lado izquierdo.

3.2.5 https://espanol.libretexts.org/@go/page/149487
Paso 4) Comparar el valor p con alfa y declarar una conclusión.
Utilice la Regla de Decisión.
En este problema, el valor p (p<0.0002) es menor que alfa (0.01), por lo que Rechazamos el H0.
El área del estadístico de prueba es mucho menor que el área de alfa (α).
Rechazamos la hipótesis nula. Contamos con pruebas suficientes para apoyar la afirmación de que el tiempo medio de estudio del
examen final ha disminuido por debajo de las 23 horas.
Tanto el método clásico como el método del valor p para probar una hipótesis llegarán a la misma conclusión. En el método
clásico, la puntuación Z crítica es el número en el eje z que define el nivel de significancia (α). El estadístico de prueba convierte la
media de la muestra en unidades de desviación estándar (una puntuación Z). Si el estadístico de prueba cae en la zona de rechazo
definida por el valor crítico, rechazaremos la hipótesis nula. En este enfoque, se comparan dos puntuaciones Z, que son números en
el eje z. En el enfoque del valor p, el valor p es el área asociada al estadístico de prueba. En este método, comparamos α (que
también es área bajo la curva) con el valor p. Si el valor p es menor que α, rechazamos la hipótesis nula. El valor p es la
probabilidad de observar tal media muestral cuando la hipótesis nula es verdadera. Si la probabilidad es demasiado pequeña (menor
que el nivel de significancia), entonces creemos que tenemos suficiente evidencia estadística para rechazar la hipótesis nula y
apoyar la afirmación alternativa.

Soluciones de Software
Minitab
(refiriéndose al Ej. 8)
052_1.tif

052_2.tif

Z de una muestra

Prueba de mu = 23 vs. < 23


La desviación estándar asumida = 7.3

99% Superior

N Media SE Media encuadernado Z P

227 19.600 0.485 20.727 -7.02 0.000

Excel
Excel no ofrece pruebas de hipótesis de 1 muestra.

This page titled 3.2: Prueba de hipótesis sobre la media poblacional cuando se conoce la desviación estándar de la población is shared under a CC
BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style
and standards of the LibreTexts platform; a detailed edit history is available upon request.
3.2: Hypothesis Test about the Population Mean when the Population Standard Deviation is Known by Diane Kiernan is licensed CC
BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-resources-biometrics.

3.2.6 https://espanol.libretexts.org/@go/page/149487
3.3: Prueba de hipótesis sobre la media poblacional cuando se desconoce la
desviación estándar de la población
Prueba de hipótesis sobre la media poblacional (μ) cuando la desviación estándar de la población (σ)
es desconocida
Frecuentemente, se desconoce la desviación estándar poblacional (σ). Podemos estimar la desviación estándar poblacional (σ) con
la desviación estándar de la muestra. Sin embargo, el estadístico de prueba ya no seguirá la distribución normal estándar. Debemos
confiar en la distribución t del estudiante con n-1 grados de libertad. Debido a que usamos la desviación estándar de la muestra, el
estadístico de prueba cambiará de una puntuación Z a una puntuación t.
$$z=\ frac {\ bar {x} -\ mu} {\ frac {\ sigma} {\ sqrt {n}}}\ largoderrow t =\ frac {\ bar {x} -\ mu} {\ frac {s} {\ sqrt {n}}}\]
Los pasos para una prueba de hipótesis son los mismos que cubrimos en la Sección 2.
Exponer las hipótesis nulas y alternativas.
Anotar el nivel de significancia y el valor crítico.
Calcular el estadístico de prueba.
Exponer una conclusión.
Al igual que con la prueba de hipótesis de la sección anterior, los datos para esta prueba deben ser de una muestra aleatoria y
requiere o bien que la población de la que se extrajo la muestra sea normal o que el tamaño de la muestra sea suficientemente
grande (n≥30). Una prueba t es robusta, por lo que pequeñas desviaciones de la normalidad no afectarán adversamente los
resultados de la prueba. Dicho esto, si el tamaño de la muestra es menor a 30, siempre es bueno verificar el supuesto de normalidad
a través de una gráfica de probabilidad normal.
Todavía tendremos los mismos tres pares de hipótesis nulas y alternativas y todavía podemos usar el enfoque clásico o el enfoque
del valor p.
4071.png

Seleccionar el valor crítico correcto de la tabla de distribución t del estudiante depende de tres factores: el tipo de prueba (hipótesis
alternativa unilateral o bilateral), el tamaño de la muestra y el nivel de significancia.
Para una prueba bilateral (hipótesis alternativa “no igual”), el valor crítico (tα/2), se determina por alfa (α), el nivel de significancia,
dividido por dos, para tratar la posibilidad de que el resultado pueda ser menor que OR mayor que el valor conocido.
Si tu nivel de significancia fuera 0.05, usarías la columna 0.025 para encontrar el valor crítico correcto (0.05/2 = 0.025).
Si tu nivel de significancia fuera 0.01, usarías la columna 0.005 para encontrar el valor crítico correcto (0.01/2 = 0.005).
Para una prueba unilateral (hipótesis alternativa “menor que” o “mayor que”), el valor crítico (tα), está determinado por alfa (α), el
nivel de significancia, siendo todo en un lado.
Si tu nivel de significancia era 0.05, usarías la columna 0.05 para encontrar el valor crítico correcto para una pregunta del lado
izquierdo o derecho. Si estás haciendo una pregunta “menos que” (del lado izquierdo, tu valor crítico será negativo. Si estás
haciendo una pregunta “mayor que” (pregunta del lado derecho), tu valor crítico será positivo.

Ejemplo3.3.1

Encuentre el valor crítico que usaría para probar la afirmación de que μ ≠ 112 con un tamaño de muestra de 18 y un nivel de
significancia del 5%.
Solución
En este caso, el valor crítico (t ) sería 2.110. Esta es una pregunta bilateral (≠) así que dividirías alfa por 2 (0.05/2 = 0.025) y
α/2

bajarías por la columna 0.025 a 17 grados de libertad.

3.3.1 https://espanol.libretexts.org/@go/page/149478
Ejemplo3.3.2

¿Cuál sería el valor crítico si quisieras probar ese μ < 112 para los mismos datos?
Solución
En este caso, el valor crítico sería 1.740. Esta es una pregunta unilateral (<) por lo que alfa se dividiría por 1 (0.05/1 = 0.05).
Bajarías por la columna 0.05 con 17 grados de libertad para obtener el valor crítico correcto.

Ejemplo3.3.3:A Two-sided Test

En 2005, el nivel medio de pH de la lluvia en un condado del norte de Nueva York fue de 5.41. Un biólogo cree que la acidez
de la lluvia ha cambiado. Toma una muestra aleatoria de 11 fechas de lluvia en 2010 y obtiene los siguientes datos. Utilizar un
nivel de significancia del 1% para poner a prueba su afirmación.
4.70, 5.63, 5.02, 5.78, 4.99, 5.91, 5.76, 5.54, 5.25, 5.18, 5.01
El tamaño muestral es pequeño y no sabemos nada sobre la distribución de la población, por lo que examinamos una parcela de
probabilidad normal. La distribución se ve normal por lo que continuaremos con nuestra prueba.
4060.png

Figura 14. Una gráfica de probabilidad normal para el Ejemplo 9.


La media muestral es de 5.343 con una desviación estándar muestral de 0.397.
Solución
Paso 1) Exponer las hipótesis nulas y alternativas.
Ho: μ = 5.41
H1: μ ≠ 5.41
Paso 2) Exponer el nivel de significancia y el valor crítico.
Esta es una pregunta de dos caras por lo que alfa se divide por dos.
Image36502.PNG

Figura 15. Las zonas de rechazo para una prueba bilateral.


t α/2 se encuentra bajando la columna 0.005 con 14 grados de libertad.
t α/2 = ±3.169.
Paso 3) Calcular el estadístico de prueba.
El estadístico de prueba es un puntaje t.
$$t=\ frac {\ bar {x} -\ mu} {\ frac {s} {sqrt {n}}}\]
Para este problema, el estadístico de prueba es
5.343 − 5.41
t = = −0.560 (3.3.1)
0.397

√11

Paso 4) Exponer una conclusión.


Comparar el estadístico de prueba con el valor crítico.
IMG_056.png

Figura 16. Los valores críticos para una prueba bilateral cuando α = 0.01.
El estadístico de prueba no cae en la zona de rechazo.
No lograremos rechazar la hipótesis nula. No tenemos pruebas suficientes que respalden la afirmación de que el pH medio de
la lluvia ha cambiado.

3.3.2 https://espanol.libretexts.org/@go/page/149478
Ejemplo3.3.4:A One-sided Test

El cadmio, un metal pesado, es tóxico para los animales. Los hongos, sin embargo, son capaces de absorber y acumular cadmio
a altas concentraciones. El gobierno ha establecido límites de seguridad para el cadmio en vegetales secos en 0.5 ppm. Los
biólogos creen que el nivel medio de cadmio en hongos que crecen cerca de minas de franjas es mayor que el límite
recomendado de 0.5 ppm, impactando negativamente a los animales que viven en este ecosistema. Una muestra aleatoria de 51
hongos dio una media muestral de 0.59 ppm con una desviación estándar de la muestra de 0.29 ppm. Utilizar un nivel de
significancia del 5% para probar la afirmación de que el nivel medio de cadmio es mayor que el límite aceptable de 0.5 ppm.
El tamaño de la muestra es mayor a 30 por lo que se asegura una distribución normal de las medias.
Solución
Paso 1) Exponer las hipótesis nulas y alternativas.
Ho: μ = 0.5 ppm
H1: μ > 0.5 ppm
Paso 2) Exponer el nivel de significancia y el valor crítico.
Esta es una pregunta del lado derecho así que alfa está todo en la cola derecha.
Image36622.PNG

Figura 17. Zona de rechazo para una prueba del lado derecho.
t α se encuentra bajando la columna 0.05 con 50 grados de libertad.
t α = 1.676
Paso 3) Calcular el estadístico de prueba.
El estadístico de prueba es un puntaje t.
x̄ − μ
t = (3.3.2)
s

√n

Para este problema, el estadístico de prueba es


0.59 − 0.50
t = = 2.216 (3.3.3)
0.29

√51

Paso 4) Exponer una Conclusión.


Comparar el estadístico de prueba con el valor crítico.
Image36634.PNG

Figura 18. Valor crítico para una prueba del lado derecho cuando α = 0.05.
El estadístico de prueba cae en la zona de rechazo. Rechazaremos la hipótesis nula. Tenemos pruebas suficientes para apoyar la
afirmación de que el nivel medio de cadmio es mayor que el límite de seguridad aceptable.
PERO, ¿qué pasa si el nivel de significancia cambia a 1%?
El valor crítico se encuentra ahora bajando la columna 0.01 con 50 grados de libertad. El valor crítico es 2.403. El estadístico
de prueba es ahora MENOS QUE el valor crítico. El estadístico de prueba no cae en la zona de rechazo. La conclusión va a
cambiar. NO contamos con pruebas suficientes que respalden la afirmación de que el nivel medio de cadmio es mayor que el
límite de seguridad aceptable de 0.5 ppm.

Nota

El nivel de significancia es la probabilidad que usted, como investigador, establece para decidir si hay suficiente evidencia
estadística para sustentar la afirmación alternativa. Se debe establecer antes de que comience el experimento.

3.3.3 https://espanol.libretexts.org/@go/page/149478
Enfoque de valor P
También podemos usar el enfoque del valor p para una prueba de hipótesis sobre la media cuando se desconoce la desviación
estándar de la población (σ). Sin embargo, al usar la tabla t de un estudiante, solo podemos estimar el rango del valor p, no un valor
específico como cuando se usa la tabla normal estándar. La tabla t del estudiante tiene área (probabilidad) a través de la fila
superior de la tabla, con puntajes t en el cuerpo de la tabla.
Para encontrar el valor p (el área asociada al estadístico de prueba), se iría a la fila con el número de grados de libertad.
Cruza esa fila hasta encontrar los dos valores entre los que se encuentra tu estadística de prueba, luego sube esas columnas para
encontrar el rango estimado para el valor p.

Ejemplo3.3.5

Estimación del valor P a partir de una tabla T de Student


3985.png

Cuadro 3. Porción de la mesa t del alumno.


Solución
Si tu estadística de prueba es 3.789 con 3 grados de libertad, pasarías por la fila de 3 df. El valor 3.789 cae entre los valores
3.482 y 4.541 en esa fila. Por lo tanto, el valor p está entre 0.02 y 0.01. El valor p será mayor que 0.01 pero menor que 0.02
(0.01<p<0.02).

Conclusión
Si tu nivel de significancia es 5%, rechazarías la hipótesis nula ya que el valor p (0.01-0.02) es menor que alfa (α) de 0.05.
Si tu nivel de significancia es 1%, no lograrías rechazar la hipótesis nula ya que el valor p (0.01-0.02) es mayor que alfa (α) de
0.01.
Los paquetes de software suelen generar valores p. Es fácil usar la Regla de Decisión para responder a tu pregunta de investigación
por el método p-value.

Soluciones de Software
Minitab
(refiriéndose al Ex. 12)
060_1.tif 060_2.tif

T de una muestra
Prueba de mu = 0.5 vs. > 0.5

95% Inferior

N Media StDev SE Media encuadernado T P

51 0.5900 0.2900 0.0406 0.5219 2.22 0.016

Ejemplo adicional: www.youtube.com/ watch? v=WWDSJO4VUSG.

Excel
Excel no ofrece pruebas de hipótesis de 1 muestra.

This page titled 3.3: Prueba de hipótesis sobre la media poblacional cuando se desconoce la desviación estándar de la población is shared under a
CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane Kiernan (OpenSUNY) via source content that was edited to the
style and standards of the LibreTexts platform; a detailed edit history is available upon request.
3.3: Hypothesis Test about the Population Mean when the Population Standard Deviation is Unknown by Diane Kiernan is licensed CC
BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-resources-biometrics.

3.3.4 https://espanol.libretexts.org/@go/page/149478
3.4: Prueba de hipótesis para una proporción poblacional
Prueba de hipótesis para una proporción poblacional (p)
Frecuentemente, el parámetro que estamos probando es la proporción poblacional.
Estamos estudiando la proporción de árboles con cavidades para hábitat de vida silvestre.
Necesitamos saber si la proporción de personas que apoyan materiales de construcción ecológicos ha cambiado.
¿La proporción de lobos que murieron el año pasado en Yellowstone ha aumentado con respecto al año anterior?
Recordemos que la mejor estimación puntual de p, la proporción poblacional, viene dada por
x
p
^ = (3.4.1)
n

donde x es el número de individuos en la muestra con la característica estudiada y n es el tamaño de la muestra. La distribución
muestral de p es aproximadamente normal con una mediaμ = p y una desviación estándar
^
p

−−−−−− −
p(1 − p)
σ^ = √ (3.4.2)
p
n

cuando np (1 — p) ≥10. Podemos usar tanto el enfoque clásico como el enfoque del valor p para las pruebas.
Los pasos para una prueba de hipótesis son los mismos que cubrimos en la Sección 2.
Indicar las hipótesis nulas y alternativas.
Indicar el nivel de significancia y el valor crítico.
Compute el estadístico de prueba.
Exponer una conclusión.
El estadístico de prueba sigue la distribución normal estándar. Observe que el error estándar (el denominador) usa p en lugar de p,
que se utilizó al construir un intervalo de confianza sobre la proporción poblacional. En una prueba de hipótesis, se asume que la
hipótesis nula es verdadera, por lo que se utiliza la proporción conocida.
p
^−p
z = (3.4.3)
−−−−−− −
p(1 − p)

n

El valor crítico proviene de la tabla normal estándar, al igual que en la Sección 2. Todavía usaremos los mismos tres pares de
hipótesis nulas y alternativas que usamos en las secciones anteriores, pero el parámetro ahora es p en lugar de μ:
5013.png

Para una prueba bilateral, alfa se dividirá por 2 dando un valor crítico ± Zα/2.
Para una prueba del lado izquierdo, alfa estará todo en la cola izquierda dando un valor crítico — Zα.
Para una prueba del lado derecho, alfa estará todo en la cola derecha dando un valor crítico Zα.

Ejemplo3.4.1

botánico ha producido una nueva variedad de planta híbrida de soja que es mejor capaz de soportar la sequía que otras
variedades. El botánico sabe que la germinación de semillas para las plantas parentales es de 75%, pero no conoce la
germinación de semillas para el nuevo híbrido. Prueba la afirmación de que es diferente a las plantas parentales. Para probar
esta afirmación, se prueban 450 semillas de la planta híbrida y 321 han germinado. Utilizar un nivel de significancia del 5%
para probar esta afirmación de que la tasa de germinación es diferente de 75%.
Solución
Paso 1) Indicar las hipótesis nulas y alternativas.
Ho: p = 0.75
H1: p ≠ 0.75
Paso 2) Indicar el nivel de significancia y el valor crítico.

3.4.1 https://espanol.libretexts.org/@go/page/149479
Esta es una pregunta bilateral por lo que alfa se divide por 2.
Alfa es 0.05 por lo que los valores críticos son ± Zα/2 = ± Z.025.
Mirar en el lado negativo de la tabla normal estándar, en el cuerpo de valores para 0.025.
Los valores críticos son ± 1.96.
Paso 3) Calcular el estadístico de prueba.
El estadístico de prueba es el número de desviaciones estándar que la media muestra es de la media conocida. También es
una puntuación Z, al igual que el valor crítico.
^−p
p
z = −−−−−− − (3.4.4)
p(1 − p)

n

Para este problema, el estadístico de prueba es


0.713 − 0.75
z = − −−−−−−−−−− − = −1.81 (3.4.5)
0.75(1 − 0.75)

450

Paso 4) Exponer una conclusión.


Comparar el estadístico de prueba con el valor crítico.
Image36674.PNG

Figura 19. Valores críticos para una prueba bilateral cuando α = 0.05.
El estadístico de prueba no cae en la zona de rechazo. No podemos rechazar la hipótesis nula. No contamos con pruebas
suficientes que respalden la afirmación de que la tasa de germinación de la planta híbrida es diferente a la de las plantas
parentales.
Respondamos a esta pregunta usando el enfoque del valor p. Recuerde, para una hipótesis alternativa bilateral (“no igual”), el
valor p es dos veces el área del estadístico de prueba. El estadístico de prueba es -1.81 y queremos encontrar el área a la
izquierda de -1.81 de la tabla normal estándar.
En la página negativa, encuentra el puntaje Z -1.81. Encuentra el área asociada a esta puntuación Z.
El área = 0.0351.
Esta es una prueba bilateral así que multiplica el área por 2 para obtener el valor p = 0.0351 x 2 = 0.0702.
Ahora compara el valor p con alfa. La Regla de Decisión establece que si el valor p es menor que alfa, rechace el H0. En este
caso, el valor p (0.0702) es mayor que alfa (0.05) por lo que no lograremos rechazar H0. No contamos con pruebas suficientes
que respalden la afirmación de que la tasa de germinación de la planta híbrida es diferente a la de las plantas parentales.

Ejemplo3.4.2:

Eres biólogo que estudia el hábitat de vida silvestre en el Bosque Nacional Monongahela. Las cavidades en árboles más viejos
proporcionan un excelente hábitat para una variedad de aves y pequeños mamíferos. Un estudio hace cinco años afirmó que
32% de los árboles de este bosque tenían cavidades adecuadas para este tipo de vida silvestre. Usted cree que la proporción de
árboles de cavidad ha aumentado. Muestrea 196 árboles y encuentras que 79 árboles tienen cavidades. ¿Esta evidencia respalda
su afirmación de que ha habido un incremento en la proporción de árboles de cavidad?
Utilizar un nivel de significancia del 10% para probar esta afirmación.
Solución
Paso 1) Indicar las hipótesis nulas y alternativas.
Ho: p = 0.32
H1: p > 0.32
Paso 2) Indicar el nivel de significancia y el valor crítico.

3.4.2 https://espanol.libretexts.org/@go/page/149479
Esta es una pregunta unilateral por lo que alfa se divide por 1.
Alfa es 0.10 por lo que el valor crítico es Zα = Z .10
Mirar en el lado positivo de la tabla normal estándar, en el cuerpo de valores para 0.90.
El valor crítico es 1.28.
Image36682.PNG

Figura 20. Valor crítico para una prueba del lado derecho donde α = 0.10.
Paso 3) Calcular el estadístico de prueba.
El estadístico de prueba es el número de desviaciones estándar la proporción muestral es de la proporción conocida.
También es una puntuación Z, al igual que el valor crítico.
p
^−p
z = −−−−−− − (3.4.6)
p(1 − p)

n

Para este problema, el estadístico de prueba es:


0.403 − 0.32
z = −−−−−−−− = 2.49 (3.4.7)
0.32(1−0.32)

196

Paso 4) Exponer una conclusión.


Comparar el estadístico de prueba con el valor crítico.
Image36692.PNG

Figura 21. Comparación del estadístico de prueba y el valor crítico.


El estadístico de prueba es mayor que el valor crítico (cae en la zona de rechazo). Rechazaremos la hipótesis nula. Tenemos
pruebas suficientes para apoyar la afirmación de que ha habido un incremento en la proporción de árboles de cavidad.
Ahora usa el enfoque del valor p para responder a la pregunta. Esta es una pregunta del lado derecho (“mayor que”), por lo que
el valor p es igual al área a la derecha del estadístico de prueba. Ir al lado positivo de la tabla normal estándar y encontrar el
área asociada a la puntuación Z de 2.49. El área es de 0.9936. Recuerda que esta tabla es acumulativa desde la izquierda. Para
encontrar el área a la derecha de 2.49, restamos de uno.
valor p = (1 — 0.9936) = 0.0064
El valor p es menor que el nivel de significancia (0.10), por lo que rechazamos la hipótesis nula. Tenemos pruebas suficientes
para apoyar la afirmación de que la proporción de árboles de cavidad ha aumentado.

Soluciones de Software
Minitab
(refiriéndose al Ej. 15)
065_1.tif

065_2.tif

Prueba e IC para una proporción


Prueba de p = 0.32 vs p > 0.32

90% Inferior

Muestra X N Muestra p Enatado Valor Z Valor P

1 79 196 0.403061 0.358160 2.49 0.006

Usando la aproximación normal.

3.4.3 https://espanol.libretexts.org/@go/page/149479
Excel
Excel no ofrece pruebas de hipótesis de 1 muestra.

This page titled 3.4: Prueba de hipótesis para una proporción poblacional is shared under a CC BY-NC-SA 3.0 license and was authored, remixed,
and/or curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed
edit history is available upon request.
3.4: Hypothesis Test for a Population Proportion by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source:
https://milneopentextbooks.org/natural-resources-biometrics.

3.4.4 https://espanol.libretexts.org/@go/page/149479
3.5: Prueba de Hipótesis sobre una Varianza
Prueba de hipótesis sobre una varianza
Cuando las personas piensan en la inferencia estadística, suelen pensar en inferencias que involucran medias o proporciones
poblacionales. Sin embargo, el parámetro poblacional particular necesario para responder a las preguntas prácticas de un
experimentador varía de una situación a otra, y a veces la variabilidad de una población es más importante que su media. Por lo
tanto, la calidad del producto a menudo se define en términos de baja variabilidad.
La varianza muestral se s puede utilizar para inferencias relativas a una varianza poblacional σ . Para una muestra aleatoria de n
2 2

mediciones extraídas de una población normal con media μ y varianza σ , el valor s proporciona una estimación puntual para
2 2

2
(n−1)s
σ
2
. Además, la cantidad σ
2
sigue una distribución de Chi-cuadrado (χ ), condf 2
= n– 1 .
Las propiedades de la distribución Chi-cuadrado (χ ) son: 2

A diferencia de las distribuciones Z y t, los valores en una distribución chi-cuadrada son todos positivos.
La distribución chi-cuadrada es asimétrica, a diferencia de las distribuciones Z y t.
Hay muchas distribuciones de chi-cuadrado. Obtenemos uno particular especificando los grados de libertad(df = n– 1)

asociados a las varianzas de la muestra s . 2

Image36711.PNG

Figura 22. La distribución chi-cuadrada.


Prueba de una muestra (χ ) para probar las hipótesis:
2

Hipótesis nula:H 0 : σ
2

2
0
(constante)
Hipótesis alternativa:
Ha : σ
2

0
2
(de una cola), rechazarH si se observaχ 0
2

2
U
(valor de cola superior en α).
Ha : σ
2

0
2
(de una cola), rechazarH si se observaχ 0
2

2
L
(valor de cola inferior en α).
Ha : σ
2
≠σ
0
2
(de dos colas), rechazarH si se observaχ 0
2

2
U
oχ < χ en α/2.
2 2
L

donde el valor χ crítico en la región de rechazo se basa en grados de libertaddf


2
= n– 1 y un nivel de significancia especificado de
α.
Estadística de prueba: $$\ chi^2 =\ frac {(n-1) S^2} {\ sigma _ {0} ^ {2}}\]
Al igual que en las secciones anteriores, si el estadístico de prueba cae en la zona de rechazo establecida por el valor crítico,
rechazarás la hipótesis nula.

Ejemplo3.5.1:

Un silvicultor quiere controlar un sotobosque denso de arce rayado que está interfiriendo con la regeneración deseable de la
madera dura usando un soplador de niebla para aplicar un tratamiento herbicida. Ella quiere asegurarse de que el tratamiento
tenga una tasa de aplicación consistente, es decir, baja variabilidad no superior a 0.25 gal. /acre (0.06 gal.2). Recolecta datos de
muestra (n = 11) sobre este tipo de soplador de niebla y obtiene una varianza de muestra de 0.064 gal.2 Usando un nivel de
significancia del 5%, prueba la afirmación de que la varianza es significativamente mayor a 0.06 gal.2
2
H0 : σ = 0.06

2
H1 : σ > 0.06

El valor crítico es 18.307. Cualquier estadística de prueba mayor que este valor provocará que rechaces la hipótesis nula.
El estadístico de prueba es
$$\ chi^2 =\ frac {(n-1) S^2} {\ sigma_ {0} ^ {2}} =\ frac {(11-1) 0.064} {0.06} =10.667\]
No podemos rechazar la hipótesis nula. El silvicultor NO cuenta con evidencia suficiente para sustentar la afirmación de que la
varianza es mayor a 0.06 gal.2 También se puede estimar el valor p utilizando el mismo método que para la tabla t de
estudiante. Cruza la fila para obtener grados de libertad hasta encontrar los dos valores entre los que se encuentra tu estadística
de prueba. En este caso pasando por la fila 10, los dos valores de tabla son 4.865 y 15.987. Ahora sube esas dos columnas a la

3.5.1 https://espanol.libretexts.org/@go/page/149488
fila superior para estimar el valor p (0.1-0.9). El valor p es mayor que 0.1 y menor que 0.9. Ambos son mayores que el nivel de
significancia (0.05) haciendo que no rechacemos la hipótesis nula.

Soluciones de Software
Minitab
(refiriéndose al Ex. 16)
067_1.tif

067_2.tif

Prueba e IC para una varianza

Método

Hipótesis nula Sigma-cuadrado = 0.06

Hipótesis alternativa Sigma-cuadrado > 0.06

El método chi-cuadrado es sólo para la distribución normal.


Pruebas

Test

Método Estadística DF Valor P

Chi-Cuadrado 10.67 10 0.384

Excel
Excel no ofrece χ pruebas de 1 muestra.
2

This page titled 3.5: Prueba de Hipótesis sobre una Varianza is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or
curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit
history is available upon request.
3.5: Hypothesis Test about a Variance by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source:
https://milneopentextbooks.org/natural-resources-biometrics.

3.5.2 https://espanol.libretexts.org/@go/page/149488
3.6: Armando todo usando el método clásico
Poniéndolo todo junto usando el método clásico
Para probar una reclamación sobre μ cuando σ es conocida
Escribir las hipótesis nulas y alternativas.
Anote el nivel de significancia y obtenga el valor crítico de la tabla normal estándar.
Compute el estadístico de prueba.
x̄ − μ
z = (3.6.1)
σ

√n

Comparar el estadístico de prueba con el valor crítico (Z-score) y escribir la conclusión.

Para probar una reclamación sobre μ Cuando σ es desconocida


Escribir las hipótesis nulas y alternativas.
Anotar el nivel de significancia y obtener el valor crítico de la tabla t del estudiante con n-1 grados de libertad.
Compute el estadístico de prueba.
x̄ − μ
t = (3.6.2)
s

√n

Comparar el estadístico de prueba con el valor crítico (t-score) y escribir la conclusión.

Para probar un reclamo sobre p


Escribir las hipótesis nulas y alternativas.
Anote el nivel de significancia y obtenga el valor crítico de la distribución normal estándar.
Compute el estadístico de prueba.
^−p
p
z = −−−−− (3.6.3)
p(1−p)

n

Comparar el estadístico de prueba con el valor crítico (Z-score) y escribir la conclusión.


4820.png

Cuadro 4. Una tabla resumida para las puntuaciones Z críticas.

Para probar una reclamación sobre la varianza


Escribir las hipótesis nulas y alternativas.
Anote el nivel de significancia y obtenga el valor crítico de la tabla chi-cuadrada usando n-1 grados de libertad.
Compute el estadístico de prueba.
2
(n − 1)S
2
χ = (3.6.4)
2
σ
0

Comparar el estadístico de prueba con el valor crítico y escribir la conclusión.

This page titled 3.6: Armando todo usando el método clásico is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or
curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit
history is available upon request.
3.6: Putting it all Together Using the Classical Method by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source:
https://milneopentextbooks.org/natural-resources-biometrics.

3.6.1 https://espanol.libretexts.org/@go/page/149469
CHAPTER OVERVIEW

4: Inferencias sobre las diferencias de dos poblaciones


Topic hierarchy
4.1: Inferencias sobre dos medias con muestras independientes (asumiendo varianzas desiguales)
4.2: Prueba t de dos muestras agrupadas (Suponiendo varianzas iguales)
4.3: Inferencias sobre dos medias con muestras dependientes: pares coincidentes
4.4: Inferencias sobre Dos Proporciones de Población
4.5: Prueba F para comparar dos varianzas de población
4.6: Resumen

This page titled 4: Inferencias sobre las diferencias de dos poblaciones is shared under a CC BY-NC-SA 3.0 license and was authored, remixed,
and/or curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed
edit history is available upon request.

1
4.1: Inferencias sobre dos medias con muestras independientes (asumiendo
varianzas desiguales)
Hasta este punto, hemos discutido inferencias respecto a un solo parámetro poblacional (e.g., μ, p,σ ). Se han utilizado datos de
2

muestra para construir intervalos de confianza para estimar la media o proporción poblacional y para probar hipótesis sobre la
media y proporción poblacional. En ambos capítulos, todos los ejemplos implicaban el uso de una muestra para formar una
inferencia sobre una población. Con frecuencia, necesitamos comparar dos conjuntos de datos y hacer inferencias sobre dos
poblaciones. Este capítulo trata de inferencias sobre dos medias, proporciones o varianzas. Por ejemplo:
Estás estudiando el hábitat del pavo y quieres ver si el número medio de gallinas de cría es diferente en Nueva York en
comparación con Pensilvania.
Se desea determinar si el tratamiento utilizado en el lago Skaneateles ha reducido el número de plantas de milenrama en los
últimos tres años.
¿Es mayor la proporción de personas que apoyan la energía alternativa en California en comparación con Nueva York?
¿La variabilidad en la aplicación es diferente entre dos sopladores de niebla?
Estas preguntas pueden ser respondidas comparando las diferencias de:
Promedio del número de gallinas en NY al número medio de gallinas en PA.
Número de plantas en 2007 al número de plantas en 2010.
Proporción de personas en CA con respecto a la proporción de personas en NY.
Variancias entre los sopladores de niebla.
Este capítulo se compone de cinco secciones. La primera y segunda secciones examinan inferencias sobre dos medias con dos
muestras independientes. La tercera sección examina las inferencias sobre medias con dos muestras dependientes, la cuarta sección
examina las inferencias sobre dos proporciones y la quinta sección examina las inferencias entre dos varianzas.

Inferencias sobre Dos Medias con Muestras Independientes (Suponiendo Varianzas Desiguales)
El uso de muestras independientes significa que no hay relación entre los grupos. Los valores en una muestra no tienen asociación
con los valores de la otra muestra. Por ejemplo, queremos ver si la vida media de los colibríes en Carolina del Sur es diferente de la
vida media en Carolina del Norte. Estas poblaciones no están relacionadas, y las muestras son independientes. Nos fijamos en la
diferencia de los medios independientes.
En el Capítulo 3, hicimos una prueba t de una muestra donde comparamos la media de la muestra (x̄) con la media hipotética (μ).
Esperamosx̄ que esté cerca de μ. Utilizamos la media de la muestra, la desviación estándar de la muestra y el tamaño de la muestra
para la prueba de una muestra.
Con una prueba t de dos muestras, comparamos las medias de la población entre sí y nuevamente miramos la diferencia. Esperamos
¯ −x
x1
¯ que esté cerca deμ – μ . El estadístico de prueba utilizará tanto las medias de la muestra, las desviaciones estándar de la
2 1 2

muestra y los tamaños de la muestra para la prueba.


Para una prueba t de una muestra se utilizó s

√n
como medida de la desviación estándar (el error estándar).
Podemos reescribir
2
f racs sqrtn f iladerecha sqrt f rac s n (4.1.1)

.
El numerador del estadístico de prueba será(x¯ ¯
1 − x2 ) − (μ1 − μ2 )
−−−−−−
2 2
s s
Esto tiene una desviación estándar de√ 1

n1
+
2

n2
.

Una prueba t de dos muestras sigue los mismos cuatro pasos que vimos en el Capítulo 3.
Escribir las hipótesis nulas y alternativas.
Indicar el nivel de significancia y encontrar el valor crítico. El valor crítico, a partir de la distribución t del estudiante, tiene el
menor de n1-1 y n2 -1 grados de libertad.
Calcular el estadístico de prueba.
Comparar el estadístico de prueba con el valor crítico y exponer una conclusión.

4.1.1 https://espanol.libretexts.org/@go/page/149508
Aún deben cumplirse los supuestos que vimos en el Capítulo 3. Ambas muestras provienen de muestras aleatorias independientes.
Las poblaciones deben estar normalmente distribuidas, o ambas tienen tamaños de muestra suficientemente grandes (n1 y n2 ≥ 30).
También utilizaremos los mismos tres pares de hipótesis nulas y alternativas.
5820.png

Cuadro 1. Hipótesis nulas y alternativas.


Reescribir la hipótesis nula de μ1 = μ2 a μ1 — μ2 = 0, simplifica el numerador. El estadístico de prueba es la aproximación de
Welch (Ajuste Satterthwaite) bajo el supuesto de que las varianzas poblacionales independientes no son iguales.
¯1 − x
(x ¯2 ) − (μ1 − μ2 )
t = −−−−−− (4.1.2)
2 2
s s
1 2
√ +
n1 n2

Esta estadística de prueba sigue la distribución t del estudiante con los grados de libertad ajustados por
2 2
S S
1 2 2
( + )
n1 n2
df = (4.1.3)
2 2
1 S1 1 S2
( )2 + ( )2
n1 −1 n1 n2 −1 n2

Una alternativa más simple para determinar grados de libertad cuando se trabaja un problema de mano larga es utilizar el menor de
n1-1 o n2-1 como los grados de libertad. Este método da como resultado un valor menor para los grados de libertad y, por lo tanto,
un valor crítico mayor. Esto hace que la prueba sea más conservadora, requiriendo más evidencia para rechazar la hipótesis nula.

Ejemplo4.1.1:

Un silvicultor está estudiando el número de árboles de cavidad en rodales viejos en Adirondack Park en el norte de Nueva
York. Quiere saber si existe una diferencia significativa entre el número medio de árboles de cavidad en el Parque Adirondack
y los antiguos rodales de crecimiento en el Bosque Nacional Monongahela. Recolecta dos muestras aleatorias independientes
de cada bosque. Utilizar un nivel de significancia del 5% para probar esta afirmación.

Parque Adirondack Bosque de Monongahela

n1 = 51 gradas n2 = 56 gradas

x
¯1 = 39.6 x
¯2 = 43.9

s1 = 9.4 s2 = 10.7

1) NoH 0 : μ1 = μ2 orμ1 – μ2 = 0 hay diferencia entre las dos medias poblacionales.


H1 : μ1 ≠ μ2 Existe una diferencia entre las dos medias poblacionales.
2) El nivel de significancia es del 5%. Esta es una prueba a dos caras por lo que el alfa se divide en dos lados. El cálculo de los
grados de libertad utilizando la ecuación anterior da 105 grados de libertad.
$$df =\ frac {(\ frac {9.4^2} {51} +\ frac {10.7^2} {56}) ^2} {\ frac {1} {51-1} (\ frac {9.4^2} {51}) ^2+\ frac {1} {56-1} (\
frac {10.7^2} {56}) ^2} =104.9\]
El valor crítico (t , basado en 100 grados de libertad (valor más cercano en la tabla t), es ±1.984. Usando 50 grados de
α

libertad, el valor crítico es ±2.009.


3) El estadístico de prueba es
(x
¯1 − x
¯2 ) − (μ1 − μ2 ) (39.6 − 43.9) − (0)
t = −−−−−− = −−− −−−−−− = −2.213 (4.1.4)
2 2
s
2
s
2 9.4 10.7
1 2 √ +
√ + 51 56
n1 n2

4) El estadístico de prueba cae en la zona de rechazo.


Image36758.PNG

Figura 1. Una comparación de los valores críticos y el estadístico de prueba.

4.1.2 https://espanol.libretexts.org/@go/page/149508
Rechazamos la hipótesis nula. Tenemos pruebas suficientes para apoyar la afirmación de que existe una diferencia en el
número medio de árboles de cavidad entre el Parque Adirondack y el Bosque Nacional Monongahela.

Construir e interpretar un intervalo de confianza sobre la diferencia de dos medias independientes


Una prueba de hipótesis responderá a la pregunta sobre la diferencia de las medias. PERO, podemos responder a la misma pregunta
construyendo un intervalo de confianza sobre la diferencia de las medias. Este proceso es igual que los intervalos de confianza del
Capítulo 2.
1. Encuentra el valor crítico.
2. Calcular el margen de error.
3. Estimación puntual ± margen de error.
Debido a que estamos trabajando con dos muestras, debemos modificar los componentes del intervalo de confianza para incorporar
la información de las dos poblaciones.
El punto estimado esx¯ 1
¯2
−x .
−−−−−−
2 2
s s
El error estándar proviene del estadístico de prueba√ 1

n1
+
2

n2

El valor críticot α proviene de la tabla t del estudiante.


2

El intervalo de confianza toma la forma de la estimación de puntos más o menos el error estándar de las diferencias.
−−−−−−−−
2 2
s s
1 2
x
¯1 − x
¯2 ± t α √ + (4.1.5)
2
n1 n2

Utilizaremos los mismos tres pasos para construir un intervalo de confianza sobre la diferencia de las medias.
1. valor críticot α

2
−−−−−−
2 2
s1 s2
2. E = t α √
n1
+
n2
2

3. x¯
1 −x
¯2 ± E

Ejemplo4.1.2:

Volvamos a ver el número medio de árboles de cavidad en viejos rodales de crecimiento. El silvicultor quiere saber si existe
una diferencia entre el número medio de árboles de cavidad en rodales viejos de crecimiento en los bosques de Adirondack y
en el Bosque de Monongahela. Podemos responder a esta pregunta construyendo un intervalo de confianza sobre la diferencia
de las medias.
1)t α = 2.009
2

−−−−−−
2 2 −−− −−−−−−
s s 2 2

2)E = t α √
n1
1
+
n2
2
= 2.009 √
9.4

51
+
10.7

56
= 3.904
2

3)x¯ 1
¯2 ± 3.904
−x

El intervalo de confianza del 95% para la diferencia de las medias es (-8.204, -0.396).
Podemos estar 95% seguros de que este intervalo contiene la diferencia media en el número de árboles de cavidad entre las dos
ubicaciones. PERO, esto no responde a la pregunta que hizo el silvicultor. ¿Hay alguna diferencia en el número medio de
árboles de cavidad entre los bosques de Adirondack y Monongahela? Para responder a esto, debemos mirar las interpretaciones
del intervalo de confianza.

Interpretaciones de intervalos de confianza


Si el intervalo de confianza contiene todos los valores positivos, encontramos una diferencia significativa entre los grupos, Y
podemos concluir que la media del primer grupo es significativamente mayor que la media del segundo grupo.
Si el intervalo de confianza contiene todos los valores negativos, encontramos una diferencia significativa entre los grupos, Y
podemos concluir que la media del primer grupo es significativamente menor que la media del segundo grupo.

4.1.3 https://espanol.libretexts.org/@go/page/149508
Si el intervalo de confianza contiene cero (va de valores negativos a positivos), NO encontramos diferencia significativa entre
los grupos.
En este problema, el intervalo de confianza es (-8.204, -0.396). Todos tenemos valores negativos, por lo que podemos concluir que
existe una diferencia significativa en el número medio de árboles de cavidad Y que el número medio de árboles de cavidad en los
bosques de Adirondack es significativamente menor que el número medio de árboles de cavidad en el bosque de Monongahela. El
intervalo de confianza da una estimación de la diferencia media en el número de árboles de cavidad entre los dos bosques. Hay, en
promedio, 0.396 a 8.204 árboles de cavidad menos en el Parque Adirondack que el Bosque de Monongahela.

Enfoque de valor P
También podemos usar el enfoque del valor p para responder a la pregunta. Recuerde, el valor p es el área bajo la curva normal
asociada con el estadístico de prueba. Este ejemplo es una prueba bilateral (H1: μ1 ≠ μ2) por lo que el valor p, cuando se calcula a
mano, se multiplicará por dos.
El estadístico de prueba es igual a -2.213, por lo que el valor p es dos veces el área a la izquierda de -2.213. Solo podemos estimar
el valor p usando la tabla t del estudiante. Usando el menor de n1— 1 o n2— 1 como grados de libertad, tenemos 50 grados de
libertad. Ve a través de la fila 50 en la tabla t del estudiante hasta que encuentres el valor absoluto del estadístico de prueba. En este
caso, 2.213 cae entre 2.109 y 2.403. Subir a la parte superior de cada una de esas columnas te da la estimación del valor p (entre
0.02 y 0.01).
5801.png

Cuadro 2. Distribución T estudiantil


El valor p es 2x (0.01 — 0.02) = (0.02 < p < 0.04). El valor p es mayor que 0.02 pero menor que 0.04. Esto es menor que el nivel
de significancia (0.05), por lo que rechazamos la hipótesis nula. Existe evidencia suficiente para apoyar la afirmación de que existe
una diferencia significativa en el número medio de árboles de cavidad entre las áreas.

Ejemplo4.1.3:

Los investigadores están estudiando la relación entre las actividades madereras en los bosques del norte y los hábitats de
anfibios. Se compararon los niveles de humedad entre los hábitats de crecimiento antiguo y poscosecha. Los investigadores
creen que el hábitat poscosecha tiene un menor nivel de humedad. Recolectaron datos sobre los niveles de humedad de dos
muestras aleatorias independientes. Pruebe su afirmación usando un nivel de significancia del 5%.

Crecimiento Viejo Post Cosecha

n1 = 26 n2 = 31

6313.png =0.62 g/cm3 6320.png = 0.56 g/cm3

s1 = 0.12 g/cm3 s2 = 0.17 g/cm3

H0: μ1 = μ2 o μ1 — μ2 = 0. No hay diferencia entre las dos medias poblacionales.


H1: μ1 > μ2. El nivel medio de humedad en bosques viejos es mayor que los niveles posteriores a la cosecha.
Utilizaremos el valor crítico basado en el menor de n1— 1 o n2— 1 grados de libertad. En este problema, hay 25 grados de
libertad y el valor crítico es de 1.708. Ahora computa el estadístico de prueba.
(0.62 − 0.56) − 0
t = −−−−−−−−− = 1.556 (4.1.6)
2 2
0.12 0.17
√ +
26 31

El estadístico de prueba no cae en la zona de rechazo. No podemos rechazar la hipótesis nula. No hay evidencia suficiente que
respalde la afirmación de que el nivel de humedad es significativamente menor en el hábitat poscosecha.
Ahora responde a esta pregunta construyendo un intervalo de confianza del 90% sobre la diferencia de las medias.
1)t α
= 1.708
2

−−−−−−
2 2 −−− −−−−−−
s s 2 2

2) E =t α √
1

n1
+
2

n2
= 1.708 √
0.12

26
+
0.17

31
= 0.0658
2

4.1.4 https://espanol.libretexts.org/@go/page/149508
3)x¯1 −x
¯2 ± E = (0.62 − 0.56) ± 0.0658

El intervalo de confianza del 90% para la diferencia de las medias es (-0.0058, 0.1258). Los valores en el intervalo de
confianza van de negativos a positivos, lo que indica que no hay diferencias significativas en los niveles medios de humedad
entre los rodales de crecimiento viejo y poscosecha.

Soluciones de Software
Minitab
073_1.tif

073_2.tif

Prueba T de dos muestras e CI: antiguo, poste


T de dos muestras para viejo vs post

N Media StDev SE Media

viejo 26 0.620 0.121 0.024

publicar 31 0.559 0.172 0.031

Diferencia =μ (old) – μ(post)

Diferencia estimada: 0.0603


95% límite inferior para diferencia: -0.0049
Prueba T de diferencia = 0 (vs >): Valor T = 1.55 Valor P = 0.064 DF = 53

El valor p (0.064) es mayor que el nivel de confianza por lo que fallamos en rechazar la hipótesis nula.
Ejemplo adicional: www.youtube.com/ watch? v=7PIB -GVIXFO.

Excel
072_1.tif

072_2.tif

Prueba T: Dos Muestras Suponiendo Varianzas Desiguales

Variable 1 Variable 2

Media 0.619615 0.559355

Varianza 0.014708 0.02948

Observaciones 26 31

Diferencia de medias hipotética 0

df 54

t Stat 1.557361

P (T ≤ t) una cola 0.063809

t Crítico de una cola 1.673565

P (T ≤ t) dos colas 0.127617

t Crítico de dos colas 2.004879

El valor p de una cola (0.063809) es mayor que el nivel de significancia, por lo tanto, fallamos en rechazar la hipótesis nula.

This page titled 4.1: Inferencias sobre dos medias con muestras independientes (asumiendo varianzas desiguales) is shared under a CC BY-NC-
SA 3.0 license and was authored, remixed, and/or curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and
standards of the LibreTexts platform; a detailed edit history is available upon request.

4.1.5 https://espanol.libretexts.org/@go/page/149508
4.1: Inferences about Two Means with Independent Samples (Assuming Unequal Variances) by Diane Kiernan is licensed CC BY-NC-
SA 3.0. Original source: https://milneopentextbooks.org/natural-resources-biometrics.

4.1.6 https://espanol.libretexts.org/@go/page/149508
4.2: Prueba t de dos muestras agrupadas (Suponiendo varianzas iguales)
Prueba t de dos muestras agrupadas (Suponiendo varianzas iguales)
En el apartado anterior, hicimos el supuesto de varianzas desiguales entre nuestras dos poblaciones. El estadístico de la prueba t de
Welch no asume que las varianzas poblacionales son iguales y se puede utilizar independientemente de que las varianzas
poblacionales sean iguales o no. La prueba que asume varianzas iguales de población se conoce como la prueba t agrupada. El
agrupamiento se refiere a encontrar un promedio ponderado de las dos varianzas de muestra independientes.
El estadístico de prueba agrupado utiliza un promedio ponderado de las dos varianzas de la muestra.
2 2
(n1 − 1)S + (n2 − 1)S n1 − 1 n2 − 1
2 1 2 2 2
Sp = =( )S +( )S (4.2.1)
1 2
n1 + n2 − 2 n1 + n2 − 2 n1 + n2 − 2

Sin = n , entoncesS = ( s + (1/2)s , el promedio de las dos varianzas muestrales. Pero siempre que n1≠ n2, els basado en
1 2
2
p
1

2
2
1
2
2
2

el tamaño de muestra más grande recibirá más peso que el otros . 2

La ventaja de este estadístico de prueba es que sigue exactamente la distribución t del estudiante con n1+ n2— 2 grados de libertad.
¯ ¯ ¯ ¯
X1 − X2 X1 − X2
t = −−−−−−−− −− = −−−−−− (4.2.2)
2 1 1 1 1
√ Sp ( + ) Sp √ +
n1 n2 n1 n2

El procedimiento de prueba de hipótesis seguirá los mismos pasos que el apartado anterior.
Puede ser difícil verificar que dos varianzas poblacionales puedan ser iguales con base en los datos de la muestra. La prueba F se
usa comúnmente para probar varianzas pero no es robusta. Las pequeñas desviaciones de la normalidad impactan en gran medida el
resultado haciendo que los resultados de la prueba F sean poco confiables. Puede ser difícil decidir si un resultado significativo de
una prueba F se debe a las diferencias en las varianzas o no normalidad. Debido a esto, muchos investigadores confían en la t de
Welch al comparar dos medias.

Ejemplo4.2.1:

Se midió el crecimiento de plántulas de pino en dos sustratos diferentes. Queremos saber si el crecimiento fue mejor en el
sustrato 2. Se midió el crecimiento (en cm/año) y se incluyó en la siguiente tabla. α = 0.05

Sustrato 1 Sustrato 2

3.2 4.5

4.5 6.2

3.8 5.8

4.0 6.0

3.7 7.1

3.2 6.8

4.1 7.2

Solución
H0 : μ1 = μ2

H1 : μ1 < μ2

2 2
(7 − 1)0.474 + (7 − 1)0.936
2
Sp = = 0.55 (4.2.3)
7 +7 −2

3.79 − 6.23 −2.44


t = −−−−−−−−−− = = −6.16 (4.2.4)
1 1 0.396
√ 0.55( + )
7 7

4.2.1 https://espanol.libretexts.org/@go/page/149507
Esta es una prueba unilateral conn + n – 2 = 12 grados de libertad. El valor crítico es -1.782. El estadístico de prueba es
1 2

menor que el valor crítico por lo que rechazaremos la hipótesis nula.


Existe evidencia suficiente para sustentar la afirmación de que el crecimiento medio es menor en el sustrato 1. El crecimiento
en el sustrato 2 es mayor.
El enfoque del intervalo de confianza también utiliza la varianza agrupada y toma la forma:
−− −−− −−−−− −
1 1
¯1 − x
(x ¯2 ) ± t α √ s2 ( + ) (4.2.5)
p
2
n1 n2

usandon 1 + n2 – 2 grados de libertad. Entonces respondamos la misma pregunta con un intervalo de confianza del 90%.
−−−−−−−−− −
1 1
(3.79 − 6.23) ± 1.782 √ 0.55( + ) = (−2.44 ± 0.7064) = (−3.146, −1.734) (4.2.6)
7 7

Todos los valores negativos indican que existe una diferencia significativa entre el crecimiento medio para los dos sustratos y
que el crecimiento en el sustrato 1 es significativamente menor que el crecimiento en el sustrato 2 con reducción en el
crecimiento que va de 1.734 a 3.146 cm/año.

Soluciones de Software
Minitab
075_1.tif

075_2.tif

Prueba T de dos muestras e CI: Sustrato1, Sustrato2

T de dos muestras para el sustrato1 frente al sustrato2

N Media StDev SE Media

Sustrato1 7 3.786 0.474 0.18

Sustrato2 7 6.229 0.936 0.35

Diferencia = mu (Sustrato1) — mu (Sustrato2)


Diferencia estimada: -2.443
95% límite superior para diferencia: -1.736
Prueba T de diferencia = 0 (vs <): Valor T = -6.16 valor p = 0.000 DF = 12
Ambos usan StDev agrupado = 0.7418

El valor p (0.000) es menor que el nivel de significancia (0.05). Rechazaremos la hipótesis nula.

Excel
074_1.tif

074_2.tif

Prueba T: Dos Muestras Suponiendo Varianzas Iguales

Variable 1 Variable 2

Media 3.785714 6.228571

Varianza 0.224762 0.875714

Observaciones 7 7

Varianza agrupada 0.550238

Diferencia de medias hipotética 0

df 12

4.2.2 https://espanol.libretexts.org/@go/page/149507
t Stat -6.16108

P(T ≤ t) de una cola 2.43E-05

t Crítico de una cola 1.782288

P(T ≤ t) de dos colas 4.86E-05

t Crítico de dos colas 2.178813

Esta es una prueba unilateral (mayor que) así que usa el valor P de(T ≤ t) una cola 2.43E-05. El valor p (0.0000243) es menor que
el nivel de significancia (0.05). Rechazaremos la hipótesis nula.

This page titled 4.2: Prueba t de dos muestras agrupadas (Suponiendo varianzas iguales) is shared under a CC BY-NC-SA 3.0 license and was
authored, remixed, and/or curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts
platform; a detailed edit history is available upon request.
4.2: Pooled Two-sampled t-test (Assuming Equal Variances) by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source:
https://milneopentextbooks.org/natural-resources-biometrics.

4.2.3 https://espanol.libretexts.org/@go/page/149507
4.3: Inferencias sobre dos medias con muestras dependientes: pares coincidentes
Inferencias sobre dos medias con muestras dependientes: pares coincidentes
Las muestras dependientes ocurren cuando existe una relación entre las muestras. Los datos consisten en pares emparejados de
muestras aleatorias. Un método de muestreo depende cuando se utilizan los valores seleccionados para una muestra para determinar
los valores en la segunda muestra. Las mediciones de antes y después de una población, como personas, lagos o animales, son un
ejemplo de muestras dependientes. Los objetos de su muestra se miden dos veces; las mediciones se toman en cierto momento y
luego se vuelven a tomar en una fecha posterior. La dependencia también ocurre cuando los objetos están relacionados, como ojos
o llantas en un automóvil. El emparejamiento no es un problema; es una oportunidad para usar la información que se produce con
ambas mediciones.
Antes de comenzar su trabajo, debe decidir si sus muestras son dependientes. Si lo son, puedes aprovechar este hecho. Puede
utilizar esta coincidencia para responder mejor a sus preguntas de investigación. Los datos de emparejamiento reducen la
variabilidad de las mediciones, lo que aumenta la precisión de nuestras conclusiones estadísticas.
Utilizamos la diferencia (la resta) de los pares de datos en nuestro análisis. Para cada par, restamos los valores:
d1 = antes1 — después de 1
d2 = antes de 2 — después de 2
d3 = antes de 3 — después de 3
...
Estamos creando una nueva variable aleatoria d (diferencias), y es importante mantener el signo, ya sea positivo o negativo.
Podemos calcular d,̄ la media muestral de las diferencias, y sd, la desviación estándar muestral de las diferencias de la siguiente
manera:
∑ di
¯
d = (4.3.1)
n

−−−−−−−− −
¯ 2
∑(d − d )
sd =√ (4.3.2)
n−1

Así como usamos la media de la muestra y la desviación estándar de la muestra en una prueba t de una muestra, utilizaremos la
media de la muestra y la desviación estándar de la muestra de las diferencias para probar los pares emparejados. Aún debe
verificarse el supuesto de normalidad. Las diferencias deben distribuirse normalmente o el tamaño de la muestra debe ser lo
suficientemente grande (n ≥ 30).
Podemos hacer una prueba de hipótesis utilizando datos de pares coincidentes siguiendo los mismos métodos que usamos en el
capítulo anterior.
Escribir las hipótesis nulas y alternativas.
Indicar el nivel de significancia y encontrar el valor crítico.
Computar un estadístico de prueba.
Comparar el estadístico de prueba con el valor crítico y exponer una conclusión.
Ya que estamos utilizando las diferencias entre los pares de datos, identificamos esto en nuestras hipótesis nulas y alternativas:
H : μd = 0 . La media de las diferencias es igual a cero; no hay diferencia en los valores de “antes y después”.
0

Usaremos los mismos tres pares de hipótesis nulas y alternativas que usamos en el capítulo anterior.
5719.png

Cuadro 3. Hipótesis nulas y alternativas.


El valor crítico proviene de la tabla de distribución t del estudiante con n — 1 grados de libertad, donde n = número de pares
emparejados. El estadístico de prueba sigue la distribución t del estudiante
¯
d − μd
t = − (4.3.3)
(sd / √n )

4.3.1 https://espanol.libretexts.org/@go/page/149524
La conclusión siempre debe responder a la pregunta que se está haciendo en la hipótesis alternativa.
Rechazar elH . Hay pruebas suficientes para sustentar la afirmación alternativa.
0

No rechazar elH . No hay pruebas suficientes para sustentar la afirmación alternativa.


0

Ejemplo4.3.1:

Un biólogo ambiental quiere saber si la claridad del agua en el lago Owasco está mejorando. Utilizando un disco Secchi, toma
medidas en ubicaciones específicas en fechas específicas durante el transcurso del año. Luego repite las mediciones en los
mismos lugares y en las mismas fechas cinco años después. Obtiene los siguientes resultados:

Fecha Profundidad Inicial Profundidad de 5 años Diferencia

5/11 38 52 -14

6/7 58 60 -2

6/24 65 72 -7

7/8 74 72 2

7/27 56 54 2

8/31 36 48 -12

9/30 56 58 -2

10/12 52 60 -8

Usando un nivel de significancia del 5%, pruebe la afirmación del biólogo de que la claridad del agua está mejorando.
Solución
Los datos se emparejan por fecha con dos mediciones tomadas en cada punto con cinco años de diferencia. Utilizaremos las
diferencias (columna derecha) para ver si ha habido una mejora significativa en la claridad del agua. Usando su calculadora,
Minitab o Excel, calcule los estadísticos descriptivos sobre las diferencias para obtener la media de la muestra y la desviación
estándar de la muestra de las diferencias.
¯
d = −5.125 (4.3.4)

sd = 6.081 (4.3.5)

1) Las hipótesis nulas y alternativas:


H0 : μd = 0 (La media de las diferencias es igual a cero- no hay diferencia en la claridad del agua a lo largo del tiempo).
H1 : μd < 0 (La claridad del agua está mejorando.)
Probamos “menos que” por cómo calculamos las diferencias y la pregunta que estamos haciendo.
En este caso, esperamos ver mayor profundidad (mejor claridad del agua) en las mediciones de cinco años. Al calcular Inicial
— 5 años esperamos ver valores negativos, valores menores a cero, indicando mayor profundidad y claridad en la marca de 5
años. Piénsalo así:
Profundidad Inicial < Profundidad de 5 años
¡Esto te da la dirección de la prueba!
2) El valor crítico tα.
El valor crítico proviene de la tabla de distribución t del estudiante con n — 1 grados de libertad. En este problema, tenemos
ocho pares de datos (n = 8) con 7 grados de libertad. Esta es una prueba unilateral (menor que), por lo que alfa está todo en la
cola izquierda. Bajar la columna 0.05 con 7 df para encontrar el valor crítico correcto (tα) de -1.895.
3) El estadístico de prueba $$t=\ frac {\ bar {d} -\ mu_ {d}} {s_ {d}/\ sqrt {n}} =\ frac {-5.125-0} {6.081/\ sqrt {8}} = -2.38\]
Restamos cero de la barra d debido a nuestra hipótesis nula. Nuestra hipótesis nula es que la diferencia de los valores antes y
después son estadísticamente iguales a cero. En otras palabras, no ha habido ningún cambio en la claridad del agua.

4.3.2 https://espanol.libretexts.org/@go/page/149524
4) Comparar el estadístico de prueba con el valor crítico y exponer una conclusión.
El estadístico de prueba (-2.38) es menor que el valor crítico (-1.895). Cae en la zona de rechazo.
Image36979.PNG

Figura 2. Comparación del valor crítico y el estadístico de prueba.


Rechazamos la hipótesis nula. Tenemos pruebas suficientes para apoyar la afirmación de que la claridad media del agua ha
mejorado.
Enfoque de valor P
También podemos usar el enfoque del valor p para responder a la pregunta. Para estimar el valor p usando la tabla t del
estudiante, cruza la fila para 7 grados de libertad hasta que encuentres los dos valores entre los que se encuentra el valor
absoluto de tu estadística de prueba.
5688.png

Cuadro 4. Distribución T estudiantil.


El valor p para este estadístico de prueba es mayor que 0.02 y apenas menor que 0.025. Compárelo con el nivel de
significancia (alfa). La Regla de Decisión dice que si el valor p es menor que α, rechace la hipótesis nula. En este caso, la
estimación del valor p (0.02 — 0.025) es menor que el nivel de significancia (0.05). Rechazar la hipótesis nula. Tenemos
pruebas suficientes para apoyar la afirmación de que la claridad media del agua ha mejorado.
PERO, ¿y si usaras un nivel de significación del 1%? En este caso, el valor p NO es menor que el nivel de significancia ((0.02
— 0.025) >0.01). No rechazaríamos la hipótesis nula. NO hay pruebas suficientes para apoyar la afirmación de que la claridad
del agua ha mejorado. Es importante establecer el nivel de significación al inicio de su investigación y reportar el valor p. Otro
investigador puede interpretar sus hallazgos de manera diferente, en función de su valor p reportado y su propio nivel de
significación seleccionado.

Construir e interpretar un intervalo de confianza sobre las diferencias de los datos para pares coincidentes
Una prueba de hipótesis para datos de pares coincidentes es muy similar a una prueba t de una muestra. PERO, podemos responder
a la misma pregunta construyendo un intervalo de confianza sobre la media de las diferencias. Este proceso es igual que los
intervalos de confianza del Capítulo 2.
1. Encuentra el valor crítico.
2. Compute el margen de error.
3. Estimación puntual ± margen de error.
Para los datos de pares coincidentes, el valor crítico proviene de la distribución t del estudiante con n — 1 grados de libertad. El
margen de error utiliza la desviación estándar muestral de las diferencias (sd) y la estimación puntual esd¯ , la media de las
diferencias.
Para un intervalo de confianza (1 — α) * 100% para la media de las diferencias
sd
¯
d ±t α
( −) (4.3.6)
2
√n

Dondet α
se usa porque los intervalos de confianza son siempre de dos lados.
2

Ejemplo4.3.2:

Veamos nuevamente al biólogo que estudia la claridad del agua en el lago Owasco. Ella quiere poner a prueba la afirmación de
que la claridad del agua ha mejorado. Podemos responder a esta pregunta construyendo un intervalo de confianza sobre la
media de las diferencias.

d ̄ = -5.125 sd = 6.081 α = 0.05 n=8

Solución
1)t α
= 2.365
2

4.3.3 https://espanol.libretexts.org/@go/page/149524
sd
2)E = t α
(
√n
) = 2.365(
6.081

√8
) = 5.085
2

3)d¯ ± E = −5.125 ± 5.085


El intervalo de confianza del 95% sobre la media de las diferencias es
(−10.21, −0.04)

(−10.21 ≤ μd ≤ −0.04)

Podemos estar 95% seguros de que este intervalo contiene la verdadera media de las diferencias en la claridad del agua entre
los dos periodos de tiempo. PERO, esto no responde directamente a la pregunta sobre la mejora de la claridad del agua. Para
ello, utilizamos las interpretaciones que se dan a continuación.

Interpretaciones de intervalos de confianza


1. Si el intervalo de confianza contiene todos los valores positivos, encontramos una diferencia significativa entre los grupos, Y
podemos concluir que la media del primer grupo es significativamente mayor que la media del segundo grupo.
2. Si el intervalo de confianza contiene todos los valores negativos, encontramos una diferencia significativa entre los grupos, Y
podemos concluir que la media del primer grupo es significativamente menor que la media del segundo grupo.
3. Si el intervalo de confianza contiene cero (va de valores negativos a positivos), NO encontramos diferencia significativa entre
los grupos.
En este problema, el intervalo de confianza es (-10.21, -0.04). Todos tenemos valores negativos, por lo que podemos concluir que
existe una diferencia significativa en la claridad media del agua entre los años Y...
La claridad media del agua para el tiempo inicial fue significativamente menor que en la re-medición de cinco años.
La claridad del agua ha mejorado durante el quinquenio. El intervalo de confianza estima la mejora media.

Ejemplo4.3.3:

Los biólogos están estudiando la migración de alces en el oeste de Estados Unidos y quieren saber si la interestatal de cuatro
carriles que se construyó hace diez años ha perturbado la migración de alces a la zona de alimentación invernal. Se recolectó
una muestra aleatoria de nueve distritos silvestres en las áreas de alimentación invernal. Estos datos se compararon con una
muestra aleatoria recolectada de las mismas nueve áreas antes de que se construyera la carretera. Utilizar un nivel de
significancia del 1% para probar esta afirmación.

Distrito 1 2 3 4 5 6 7 8 9

Antes 11.6 18.7 15.9 20.6 10.1 17.4 7.2 12.2 11.7

Después 10.0 21.6 13.9 22.8 11.5 16.2 8.1 10.8 9.6

d 1.6 -2.9 2.0 -2.2 -1.4 1.2 -0.9 1.4 2.1

¯
d = 0.100 (4.3.7)

sd = 1.946 (4.3.8)

H0 : μd = 0

H1 : μd ≠ 0

Determinar los valores críticos: Esta es una pregunta bilateral (alternativa ≠) por lo que los valores críticos son ±3.355.
Compute el estadístico de prueba:
¯
d − μd 0.100 − 0
t = − = – = 0.1542 (4.3.9)
sd / √n 1.946/ √9

Ahora compare el valor crítico con el estadístico de prueba y exponga una conclusión. El estadístico de prueba NO es mayor
que 3.355 o menor que -3.355 (no cae en las zonas de rechazo). No podemos rechazar la hipótesis nula. No hay pruebas
suficientes que respalden la afirmación de que la carretera ha interferido con la migración de alces (sin diferencia antes ni
después de la autopista).

4.3.4 https://espanol.libretexts.org/@go/page/149524
Ahora construya un intervalo de confianza del 99% y responda a la pregunta.
1)t α = 3.355
2

sd –
2)E = t α
(
√n
) = 3.355(1.946/ √9) = 2.176
2

3)d¯ ± E = 0.100 ± 2.176


El intervalo de confianza del 99% sobre la diferencia de las medias es: (-2.076, 2.276)
Este intervalo de confianza contiene cero. La hipótesis nula es que hay diferencia cero antes y después de que se creara el
camino de la carretera. Por lo tanto, no rechazamos la hipótesis nula. No hay pruebas suficientes que respalden la afirmación
de que la carretera ha interferido con la migración de alces (sin diferencia antes ni después de la autopista).

Soluciones de Software
Minitab
080_1.tif

080_2.tif

Prueba T pareada e IC: Antes, Después

T emparejado para antes y después

N Media StDev SE Media

Antes 9 13.93 4.42 1.47

Después 9 13.83 5.32 1.77

Diferencia 9 0.100 1.946 0.649

IC del 99% para la diferencia de medias: (-2.077, 2.277)


Prueba T de diferencia media = 0 (vs no = 0): Valor T = 0.15 valor p = 0.881

Minitab da el estadístico de prueba de 0.15 y el valor p de 0.881. También da un intervalo de confianza del 99% para la diferencia
de las medias (-2.077, 2.277). Todos los resultados apoyan no rechazar la hipótesis nula.

Excel
079_1.tif

079_2.tif

Prueba T: Dos muestras pareadas para medias

Antes Después

Media 13.93333 13.83333333

Varianza 19.565 28.3075

Observaciones 9 9

Correlación de Pearson 0.936635

Diferencia de medias hipotética 0

df 8

t Stat 0.15415

P (T ≤ t) una cola 0.440654

t Crítico de una cola 2.896459

P (T ≤ t) de dos colas 0.881309

t Crítico de dos colas 3.355387

4.3.5 https://espanol.libretexts.org/@go/page/149524
El estadístico de prueba es 0.15415. Esta es una pregunta de dos caras por lo que podemos usarP (T ≤ t) two-tail = 0.881309. El
valor p NO es menor que el nivel de significancia del 1% por lo que fallaremos en rechazar la hipótesis nula.

This page titled 4.3: Inferencias sobre dos medias con muestras dependientes: pares coincidentes is shared under a CC BY-NC-SA 3.0 license and
was authored, remixed, and/or curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the
LibreTexts platform; a detailed edit history is available upon request.
4.3: Inferences about Two Means with Dependent Samples—Matched Pairs by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original
source: https://milneopentextbooks.org/natural-resources-biometrics.

4.3.6 https://espanol.libretexts.org/@go/page/149524
4.4: Inferencias sobre Dos Proporciones de Población
Inferencias sobre Dos Proporciones de Población
Podemos aplicar los mismos métodos que acabamos de aprender con medios a nuestros problemas de proporción de dos muestras.
Tenemos dos poblaciones con dos muestras y queremos comparar las proporciones poblacionales.
¿La proporción de lagos en Nueva York con especies invasoras es diferente de la proporción de lagos en Michigan con especies
invasoras?
¿La proporción de empresas constructoras que utilizan madera certificada es mayor en el noreste que en el sureste?
Una prueba de dos proporciones poblacionales es muy similar a una prueba de dos medias, excepto que el parámetro de interés es
ahora “p” en lugar de “µ”. Con una prueba de proporción de una muestra, usamosp^ = como estimación puntual de p.
x

Esperamos que p esté cerca de p. Con una prueba de dos proporciones, tendremos dos p's, y esperamos que (p, 1 — 2) esté cerca
de ( p 1 — p 2). El estadístico de prueba da cuenta de ambas muestras.
Con una prueba de proporción de una muestra, el estadístico de prueba es
$$z =\ frac {\ hat p - p} {\ sqrt {\ frac {p (1-p)} {n}}}\]
y tiene una distribución normal estándar aproximada.
Para una prueba de proporción de dos muestras, esperaríamos que el estadístico de prueba sea
$$z=\ frac {(\ hat {p_1} -\ hat {p_2}) - (p_1-p_2)} {\ sqrt {\ frac {p_1 (1-p_1)} {n_1} +\ frac {p_2 (1-p_2)} {n_2}}}\]
SIN EMBARGO, la hipótesis nula será que p 1 = p 2. Debido a que se supone que el H0 es verdadero, la prueba asume que p 1 = p
2. Entonces podemos suponer que p 1 = p 2 es igual a p, una proporción poblacional común. Debemos calcular una estimación
agrupada de p (su desconocida) utilizando nuestros datos de muestra.
$$\ bar p =\ frac {x_1+x_2} {n_1+n_2}\]
El estadístico de prueba toma entonces la forma de
$$z=\ frac {(\ hat {p_1} -\ hat {p_2}) - (p_1-p_2)} {\ sqrt {\ frac {\ bar p (1-\ bar p)} {n_1} +\ frac {\ bar p (1-\ bar p)} {n_2}}\\]
La prueba de hipótesis sigue los mismos pasos que hemos visto en secciones anteriores:
Exponer las hipótesis nulas y alternativas
Determinar el nivel de significancia y determinar el valor crítico
Compute el estadístico de prueba
Comparar el valor crítico y el estadístico de prueba y exponer una conclusión
Los supuestos que establecemos para una prueba de proporción de una muestra siguen siendo ciertos para ambas muestras. Ambas
deben ser muestras aleatorias de poblaciones normalmente distribuidas que satisfagan las siguientes afirmaciones:
n(p)(1– p) ≥ 10

Cada tamaño de muestra no supera el 5% del tamaño de la población.


Podemos volver a utilizar los mismos tres pares de hipótesis nulas y alternativas. Observe que estamos trabajando con proporciones
poblacionales por lo que el parámetro es p.
5631.png

Cuadro 5. Hipótesis nulas y alternativas.


El valor crítico proviene de la tabla normal estándar y depende de la hipótesis alternativa (¿la pregunta es de una o dos caras?).
Como es habitual, se debe exponer una conclusión. Siempre hay que responder a la pregunta que se hace en la hipótesis alternativa.

Ejemplo4.4.1:

Un investigador considera que una mayor proporción de empresas constructoras en el noreste están utilizando madera
certificada en proyectos de construcción de viviendas en comparación con las empresas del sureste. Ella recolectó una muestra
aleatoria de 173 empresas del sureste y encontró que 86 utilizaron al menos 30% madera certificada. Ella recolectó otra
muestra aleatoria de 115 empresas del noreste y encontró que 68 utilizaron al menos 30% madera certificada. Pruebe la

4.4.1 https://espanol.libretexts.org/@go/page/149517
afirmación del investigador de que una mayor proporción de empresas en el noreste utilizan al menos 30% de madera
certificada en comparación con el sureste. α = 0.05.

Sureste Noreste

n1 = 173 n2 = 115

x1 = 86 x2 = 68

Solución
Escribe las hipótesis nulas y alternativas:
H0 : p1 = p2 op 1– p2 = 0

H1 : p1 < p2

El valor crítico proviene de la tabla normal estándar. Se trata de una prueba unilateral, por lo que el alfa está todo en la cola
izquierda. El valor crítico es -1.645.
Compute las estimaciones puntuales
$$\ sombrero {p_1} =\ frac {86} {173} =0.497\]
$$\ sombrero {p_2} =\ frac {68} {115} = 0.591\]
Ahora computa p̄
$$\ bar p =\ frac {x_1+x_2} {n_1+n_2} =\ frac {86+68} {173+115} = 0.535\]
El estadístico de prueba es
$$z=\ frac {(\ hat {p_1} -\ hat {p_2}) - (p_1-p_2)} {\ sqrt {\ frac {\ bar p (1-\ bar p)} {n_1} +\ frac {\ bar p (1-\ bar p)} {n_2}}
=\ frac {(0.497-0.591) -0} {\ sqrt {\ frac {0.535 (1-0.535)} {173} +\ frac {0.535 (1-0.535)} {115}} = -1.57\]
Ahora compare el valor crítico con el estadístico de prueba y exponga una conclusión.
Image37084.PNG

Figura 3. Una comparación del valor crítico y el estadístico de prueba.


No podemos rechazar la hipótesis nula. No hay pruebas suficientes que respalden la afirmación de que una mayor proporción
de empresas del noreste utilizan al menos 30% de madera certificada en comparación con las empresas del sureste.
Uso del enfoque de valor P
También podemos responder a esta pregunta usando el enfoque del valor p. El valor p es el área asociada con el estadístico de
prueba. Este es un problema de cola izquierda con un estadístico de prueba de -1.57 por lo que el valor p es el área a la
izquierda de -1.57. Busque el área asociada al puntaje Z -1.57 en la tabla normal estándar.
El valor p es 0.0582.
El área rayada (valor p) es mayor que el nivel de significancia del 5% (área roja). No podemos rechazar la hipótesis nula. No
hay evidencia estadística suficiente para sustentar la afirmación de que una mayor proporción de empresas del noreste utilizan
al menos 30% de madera certificada en comparación con las empresas del sureste.
Image37092.PNG

Figura 4. Comparación del valor p y el nivel de significancia.

Construir e interpretar un intervalo de confianza sobre la diferencia de dos proporciones


Al igual que una prueba t de dos muestras sobre las medias, podemos responder a esta pregunta construyendo un intervalo de
−−−−−−−−−−−−−−
^ (1−p
p ^ ) ^ (1−p
p ^ )

confianza sobre la diferencia de las proporciones. El punto estimado esp^ 1 −p


^2 . El error estándar es√ 1

n1
1
+
2

n2
2
y el valor
críticoz
α/2
proviene de la tabla normal estándar.
El intervalo de confianza toma la forma de la estimación puntual ± el margen de error.

4.4.2 https://espanol.libretexts.org/@go/page/149517
$$ (\ hat {p_1} -\ hat {p_2})\ pm z_ {\ alpha/2}\ sqrt {\ frac {\ hat {p_1} (1-\ hat {p_1})} {n_1} +\ frac {\ hat {p_2} (1-\ hat
{p_2})} {n_2}}\]
Utilizaremos los mismos tres pasos para construir un intervalo de confianza sobre la diferencia de las proporciones. Observe la
estimación del error estándar de las diferencias. No confiamos en la estimación agrupada de p al construir intervalos de confianza
para estimar la diferencia en proporciones. Esto se debe a que no estamos haciendo ninguna suposición respecto a la igualdad de p
1 y p 2, como hicimos en la prueba de hipótesis.
1) valor críticoz α/2

−−−−−−−−−−−−−
^ (1−p
p ^ ) ^ (1−p
p ^

2)E = z α/2
√ 1

n1
1
+
2

n2
2

3)(p^
1
^2 ) ± E
−p

Volvamos a revisar el Ex. 6, pero esta vez construiremos un intervalo de confianza sobre la diferencia entre las dos proporciones.

Ejemplo4.4.2:

El investigador afirma que una mayor proporción de empresas del noreste utilizan al menos 30% de madera certificada en
comparación con las empresas del sureste. Podemos probar esta afirmación construyendo un intervalo de confianza del 90%
sobre la diferencia de las proporciones.
1) valor críticoz α/2
= 1.645

−−−−−−−−−−−−−
^ ^ ^ ^
−−−−−−−−−−−−−−−−−−−−−
p1 (1−p1 ) p2 (1−p2 0.497(1−0.497) 0.591(1−0.591)
2)E = z α/2

n1
+
n2
= 1.645 √
173
+
115
= 0.098

3)(p^ 1
^2 ) ± E = (0.497 − 0.591) ± 0.098
−p

El intervalo de confianza del 90% sobre la diferencia de las proporciones es (-0.192, 0.004).
PERO, esto no responde a la pregunta que hizo el investigador. Debemos utilizar una de las tres interpretaciones vistas en el
apartado anterior. En este problema, el intervalo de confianza contiene cero. Por lo tanto, podemos concluir que no existe
diferencia significativa entre las proporciones de empresas que utilizan madera certificada en el noreste y en el sureste.

Ejemplo4.4.3:

Un hidrólogo está estudiando el uso de los Mejores Planes de Manejo (BMP) en rodales forestales manejados para proteger
zonas ribereñas. Recopila información de 62 rodales que contaban con un plan de manejo por parte de un silvicultor y
encuentra que 47 rodales habían implementado correctamente BMP para proteger las zonas ribereñas. Recolectó información
de 58 rodales que no tenían plan de manejo y encontró que 26 de ellos habían implementado correctamente BMP para zonas
ribereñas. ¿Estos datos sugieren que existe una diferencia significativa en la proporción de rodales con y sin planes de manejo
que tenían BMP correctas para zonas ribereñas? α = 0.05.

Planear Sin plan

x1 = 47 x2 = 26

n1 = 62 n2 = 58

Respondamos a esta pregunta en ambos sentidos usando primero una prueba de hipótesis y luego construyendo un intervalo de
confianza sobre la diferencia de las proporciones.
H0 : p1 = p2 op 1– p2 = 0

H1 : p1 ≠ p2

Valor crítico: ±1.96


Estadística de prueba:
$$z=\ frac {(\ hat {p_1} -\ hat {p_2}) - (p_1 - p_2)} {\ sqrt {\ frac {\ bar p (1-\ bar p)} {n_1} +\ frac {\ bar p (1-\ bar p)}
{n_2}} =\ frac {(0.758-0.448) -0} {\ sqrt {\ frac {0.608 (1-0.608)} {62} +\ frac {0.608 (1-0.608)} {58}} =3.48\]

4.4.3 https://espanol.libretexts.org/@go/page/149517
El estadístico de prueba es mayor a 1.96 y cae en la zona de rechazo. Existe evidencia suficiente para apoyar la afirmación de
que existe una diferencia significativa en la proporción de BMP correctamente implementadas con y sin planes de manejo.
Ahora calcule el valor p y compárelo con el nivel de significancia. El valor p es dos veces el área bajo la curva a la derecha de
3.48. Busque el área (en la tabla normal estándar) asociada a una puntuación Z de 3.48. El área a la derecha de 3.48 es 1 —
0.9997 = 0.0003. El valor p es 2 x 0.0003 = 0.0006.
El valor p es menor a 0.05. Rechazaremos la hipótesis nula y apoyaremos la afirmación de que las proporciones son diferentes.
Ahora, responda a esta pregunta usando un intervalo de confianza.
1) valor críticoz α/2 = 1.96

−−−−−−−−−−−−−−
^ (1−p
^ ) ^ (1−p
^ )
−−−−−−−−−−−−−−−−−−−−−
p p 0.758(1−0.758) 0.448(1−0.448)
2)E = z α/2

1

n1
1
+
2

n2
2
= 1.96 √
62
+
58
= 0.1666

3)p^1
^2 ± E = (0.758, −0.448) ± 0.1666
−p

El intervalo de confianza del 95% sobre la diferencia de las proporciones es (0.143, 0.477). El intervalo de confianza contiene
todos los valores positivos, diciéndole que existe una diferencia significativa entre las proporciones Y el primer grupo (BMP
utilizados con planes de manejo) es significativamente mayor que el segundo grupo (BMP sin planes). Este intervalo de
confianza estima la diferencia en proporciones. Para este problema, podemos decir que las BMP correctamente implementadas
con un plan ocurren en mayor proporción (14.3% a 44.7%) en comparación con las implementadas sin un plan de gestión.

Soluciones de Software
Minitab
084_1.tif

084_2.tif

Prueba y CI para Dos Proporciones

Muestra X N Muestra p

1 47 62 0.758065

2 26 58 0.448276

Diferencia = p (1) — p (2)


Estimación por diferencia: 0.309789
IC 95% por diferencia: (0.143223, 0.476355)
Prueba de diferencia = 0 (vs. no = 0): Z = 3.47 valor p = 0.001
Prueba exacta de Fisher: valor p = 0.001

El valor p es igual a 0.001 lo que nos dice que rechacemos la hipótesis nula. Existe una diferencia significativa en la proporción de
BMP correctamente implementadas con y sin planes de manejo. También se da el intervalo de confianza para la diferencia en
proporciones (0.143223, 0.476355) lo que nos permite estimar la diferencia.

Excel
Excel no analiza datos a partir de proporciones.

This page titled 4.4: Inferencias sobre Dos Proporciones de Población is shared under a CC BY-NC-SA 3.0 license and was authored, remixed,
and/or curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed
edit history is available upon request.
4.4: Inferences about Two Population Proportions by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source:
https://milneopentextbooks.org/natural-resources-biometrics.

4.4.4 https://espanol.libretexts.org/@go/page/149517
4.5: Prueba F para comparar dos varianzas de población
Prueba F para comparar dos varianzas de población
Una aplicación importante de una prueba para la igualdad de dos varianzas poblacionales es para verificar la validez del supuesto
de igual varianza(σ = σ ) para una prueba t de dos muestras. Primero planteamos la hipótesis de dos poblaciones de mediciones
2
1
2
2

que normalmente están distribuidas. Se etiquetan estas poblaciones como 1 y 2, respectivamente. Nos interesa comparar la varianza
de la población 1(σ ) con la varianza de la población 2(σ ).
2
1 2
2

Cuando se han extraído muestras aleatorias independientes de las poblaciones respectivas, la proporción
$$\ frac {S^2_1/S_2^2} {\ sigma_1^2/\ sigma ^2_2}\]
posee una distribución de probabilidad en muestreo repetido que se denomina distribución F y sus propiedades son:
A diferencia de Z y t, pero comoχ , F puede asumir solo valores positivos.
2

La distribución F, a diferencia de las distribuciones Z y t, pero al igual que la distribución (\ chi^2\), es no simétrica.
Hay muchas distribuciones F, y cada una tiene una forma diferente. Especificamos uno particular designando los grados de
libertad asociados conS yS . Denotamos estas cantidades pordf ydf , respectivamente.
2
1
2
2 1 2

Image37109.GIF

Figura 5. La distribución F.
Nota: Una prueba estadística de la hipótesis nulaσ = σ utiliza el estadístico de pruebaS /S . Puede requerir región de rechazo
2
1
2
2
2
1
2
2

de cola superior o inferior, dependiendo de qué varianza de la muestra sea mayor. Para paliar esta situación, tenemos la libertad de
designar a la población con mayor varianza muestral como población 1 (es decir, utilizada como numerador de la razónS /S ). 2
1
2
2

Por esta convención, la región de rechazo sólo se localiza en la cola superior de la distribución F.
Hipótesis nula:H 0 : σ
1
2

2
2

Hipótesis alternativa:
Ha : σ
2
1

2
2
(de una cola), rechazarH si el F observado > Fα 0

Ha : σ
2
1
≠σ
2
2
(de dos colas), rechazarH si el F observado > Fα/2.
0

2
S
Estadística de prueba:F =
1

2
asumiendoS 1
2
>S
2
2
,
S
2

donde el valor crítico F en la región de rechazo se basa en 2 grados de libertaddf 1 = n1 – 1 (asociados con numeradorS ) y 2
1

df = n – 1 (asociados con denominadorS ).


2
2 2 2

Ejemplo4.5.1:

Un silvicultor quiere comparar dos soplantes de niebla diferentes para una aplicación consistente. Ella quiere usar el soplador
de niebla con la varianza más pequeña, lo que significa una aplicación más consistente. Ella quiere probar que la varianza de
Tipo A (0.087 gal.2) es significativamente mayor que la varianza del Tipo B (0.073 gal.2) usando α = 0.05.

Tipo A Tipo B

S
1
2
= 0.087 S
2
2
=0.073

n1 = 16 n2 = 21

Solución
2 2
H0 : σ =σ
1 2

2 2
H1 : σ >σ
1 2

El valor crítico(df 1 = 15 ydf 2 = 20) es 2.20.


El estadístico de prueba es:
$$F =\ frac {S_1^2} {S_2^2} =\ frac {0.087} {0.073} =1.192\]

4.5.1 https://espanol.libretexts.org/@go/page/149516
El estadístico de prueba no es mayor que el valor crítico (no cae en la zona de rechazo) por lo que fallamos en rechazar la
hipótesis nula. Si bien la varianza del Tipo B es matemáticamente menor que la varianza del Tipo A, no es estadísticamente
menor. No hay evidencia estadística suficiente para apoyar la afirmación de que la varianza del Tipo A es significativamente
mayor que la varianza del Tipo B. Ambos sopladores de niebla entregarán el químico con igual consistencia.

Soluciones de Software
Minitab
087_1.tif

087_2.tif

Prueba y CI para dos varianzas

Método

Hipótesis nula Varianza (1)/Varianza (2) = 1

Hipótesis alternativa Varianza (1)/Varianza (2) > 1

Nivel de significancia Alfa = 0.05

Estadísticas

Muestra N StDev Varianza

1 16 0.295 0.087

2 21 0.270 0.073

Relación de desviaciones estándar = 1.092


Relación de varianzas = 1.192
Pruebas
Test

Método DF1 DF2 Estadística valor p

Prueba F (normal) 15 20 1.19 0.351

Excel
086_1.tif

086_2.tif

Prueba F de dos muestras para varianzas

Tipo A Tipo B

Media 11.07188 11.10595

Varianza 0.08699 0.073379

Observaciones 16 21

df 15 20

F 1.185483

P (F ≤ f ) una cola 0.355098

F Critical de una cola 2.203274

This page titled 4.5: Prueba F para comparar dos varianzas de población is shared under a CC BY-NC-SA 3.0 license and was authored, remixed,
and/or curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed
edit history is available upon request.

4.5.2 https://espanol.libretexts.org/@go/page/149516
4.5: F-Test for Comparing Two Population Variances by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source:
https://milneopentextbooks.org/natural-resources-biometrics.

4.5.3 https://espanol.libretexts.org/@go/page/149516
4.6: Resumen
Las preguntas sobre las diferencias entre dos muestras se pueden responder de varias maneras: prueba de hipótesis, enfoque de
valor p o enfoque de intervalo de confianza. En todos los casos, deberá exponer claramente su pregunta, el nivel de significación
seleccionado y la conclusión.
Si elige el enfoque de prueba de hipótesis, debe comparar el valor crítico con el estadístico de prueba. Si el estadístico de prueba
cae en la zona de rechazo establecida por el valor crítico, entonces rechazarás la hipótesis nula y apoyarás la afirmación alternativa.
Si usa el enfoque de valor p, debe calcular el estadístico de prueba y encontrar el área asociada a ese valor. Para una prueba de dos
caras, el valor p es dos veces el área del valor absoluto del estadístico de prueba. Para una prueba unilateral, el valor p es el área a
la izquierda o derecha del estadístico de prueba. La regla de decisión establece: Si el valor p es menor que α (nivel de
significancia), rechace la hipótesis nula y apoye la afirmación alternativa.
El enfoque del intervalo de confianza construye un intervalo sobre la diferencia de las medias o proporciones. Si el intervalo
contiene cero, entonces se puede concluir que no hay diferencia entre los dos grupos. Si el intervalo contiene todos los valores
positivos, se puede concluir que el grupo 1 es significativamente mayor que el grupo 2. Si el intervalo contiene todos los números
negativos, se puede concluir que el grupo 2 es significativamente mayor que el grupo 1.
En todos los enfoques se requiere una conclusión clara y concisa. DEBES responder a la pregunta que se está haciendo indicando
los resultados de su enfoque.

This page titled 4.6: Resumen is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane Kiernan
(OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon
request.
4.6: Summary by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-resources-
biometrics.

4.6.1 https://espanol.libretexts.org/@go/page/149525
CHAPTER OVERVIEW

5: Análisis de varianza unidireccional


5.1: Análisis de varianza
5.2: Comparaciones múltiples

This page titled 5: Análisis de varianza unidireccional is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by
Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is
available upon request.

1
5.1: Análisis de varianza
Análisis de varianza
Anteriormente, hemos probado hipótesis sobre dos medias poblacionales. Este capítulo examina métodos para comparar más de
dos medias. El análisis de varianza (ANOVA) es un método inferencial utilizado para probar la igualdad de tres o más medias
poblacionales.
H0 : μ1 = μ2 = μ3 = ⋅ = μk

Este método también se conoce como ANOVA de factor único porque utilizamos una sola propiedad, o característica, para
categorizar las poblaciones. Esta característica a veces se denomina tratamiento o factor.

Nota
Un tratamiento (o factor) es una propiedad, o característica, que nos permite distinguir las diferentes poblaciones entre sí.

Los objetos del ANOVA son (1) estimar las medias de tratamiento, y las diferencias de medias de tratamiento; (2) probar hipótesis
para la significación estadística de comparaciones de medias de tratamiento, donde “tratamiento” o “factor” es la característica que
distingue a las poblaciones.
Por ejemplo, un biólogo podría comparar el efecto que tres herbicidas diferentes pueden tener en la producción de semillas de una
especie invasora en un ambiente forestal. El biólogo querría estimar la producción media anual de semillas bajo los tres
tratamientos diferentes, mientras que también probaría para ver qué tratamiento da como resultado la menor producción anual de
semillas. Las hipótesis nulas y alternativas son:

H1: al menos una de las medias es significativamente diferente de las


H0 : μ1 = μ2 = μ3
demás

Sería tentador probar esta hipótesis nulaH : μ = μ = μ comparando las medias poblacionales de dos a la vez. Si continuamos
0 1 2 3

de esta manera, tendríamos que probar tres pares diferentes de hipótesis:

H0 : μ1 = μ2 Y H0 : μ1 = μ3 Y H0 : μ2 = μ3

H1 : μ1 ≠ μ2 H1 : μ1 ≠ μ3 H1 : μ2 ≠ μ3

Si usáramos un nivel de significancia del 5%, cada prueba tendría una probabilidad de un error Tipo I (rechazando la hipótesis nula
cuando es verdadera) de α = 0.05. Cada prueba tendría un 95% de probabilidad de no rechazar correctamente la hipótesis nula. La
probabilidad de que las tres pruebas no rechacen correctamente la hipótesis nula es 0.953 = 0.86. Existe una probabilidad de 1 —
0.953 = 0.14 (14%) de que al menos una prueba conduzca a un rechazo incorrecto de la hipótesis nula. Una probabilidad de 14% de
un error de Tipo I es mucho mayor que el alfa deseado de 5% (recuerde: α es lo mismo que el error de Tipo I). A medida que
aumenta el número de poblaciones, también aumenta la probabilidad de cometer un error de Tipo I usando múltiples pruebas t. El
análisis de varianza nos permite probar la hipótesis nula (todas las medias son iguales) contra la hipótesis alternativa (al menos una
media es diferente) con un valor especificado de α.
Los supuestos para ANOVA son (1) las observaciones en cada grupo de tratamiento representan una muestra aleatoria de esa
población; (2) cada una de las poblaciones se distribuye normalmente; (3) las varianzas poblacionales para cada grupo de
tratamiento son homogéneas (es decir, Image37184.PNG). Podemos probar fácilmente la normalidad de las muestras creando una gráfica
de probabilidad normal, sin embargo, verificar varianzas homogéneas puede ser más difícil. Una regla general es la siguiente: Se
puede usar ANOVA unidireccional si la desviación estándar de la muestra más grande no es más del doble de la desviación
estándar de la muestra más pequeña.
En el capítulo anterior, se utilizó una prueba t de dos muestras para comparar las medias de dos muestras independientes con una
varianza común. Los datos de la muestra se utilizan para calcular el estadístico de prueba:
2 2
x
¯1 − x
¯2 (n1 − 1)S + (n2 − 1)S
t =
−−−−−−−−
dondeS
2
p =
1 2

1 1 n1 + n2 − 2
sp √ +
n1 n2

5.1.1 https://espanol.libretexts.org/@go/page/149500
es la estimación agrupada de la varianza poblacional común σ2. Para probar más de dos poblaciones, debemos extender esta idea
de varianza agrupada para incluir todas las muestras como se muestra a continuación:
$$s^2_w=\ frac {(n_1-1) s_1^2 + (n_2-1) s_2^2 +... + (n_k - 1) s_k^2} {n_1+n_2+... +n_k-k}\]
dondes representa la estimación agrupada de la varianza comúnσ , y mide la variabilidad de las observaciones dentro de las
2
w
2

diferentes poblaciones independientemente de que H 0 sea verdad o no. Esto a menudo se conoce como la varianza dentro de las
muestras (variación debida al error).
Si la hipótesis nula ES verdadera (todas las medias son iguales), entonces todas las poblaciones son iguales, con una mediaμ y
varianza comunesσ . En lugar de seleccionar aleatoriamente diferentes muestras de diferentes poblaciones, en realidad estamos
2

dibujando k muestras diferentes de una población. Sabemos que la distribución muestral para k medias basadas en n observaciones
2

tendrá mediaμx̄ y varianza (error estándar cuadrado). Dado que hemos dibujado k muestras de n observaciones cada una,
σ

n
2

podemos estimar la varianza de las k medias muestrales ( σ

n
) por
$$\ dfrac {\ sum (\ bar {x_1} -\ mu_ {\ bar x}) ^2} {k-1} =\ dfrac {\ sum\ bar {x_i} ^1 -\ dfrac {[\ sum\ bar {x_i}] ^2} {k}} {k-1}
=\ frac {\ sigma^2} {n}\]
En consecuencia, n veces la varianza muestral de las medias estima σ2. Designamos esta cantidad como SB2 tal que
$$S_B^2 = n*\ dfrac {\ sum (\ bar {x_i} -\ mu_ {\ bar x}) ^2} {k-1} =n*\ dfrac {\ sum\ bar {x_i} ^2 -\ dfrac {[\ bar {x_i}] ^2}
{k}} {k-1}\]
donde tambiénS es una estimación imparcial de la varianza comúnσ , SIH ES VERDADERO. Esto a menudo se conoce como
2
B
2
0

la varianza entre muestras (variación debida al tratamiento).


Bajo la hipótesis nula de que todas las k poblaciones son idénticas, tenemos dos estimaciones deσ (S yS ). Podemos utilizar la
2
W
2 2
B

relación deS /S como estadística de prueba para probar la hipótesis nula queH : μ = μ = μ = … = μ , la cual sigue una
B
2 2
W
0 1 2 3 k

distribución F con grados de libertaddf = k– 1 y\(df_2= N –k\) (donde k es el número de poblaciones y N es el número total de
1

observaciones (N = n + n + … + n ). El numerador del estadístico de prueba mide la variación entre medias muestrales. La
1 2 k

estimación de la varianza en el denominador depende únicamente de las varianzas de la muestra y no se ve afectada por las
diferencias entre las medias de la muestra.
Cuando la hipótesis nula es verdadera, la relación deS yS será cercana a 1. Cuando la hipótesis nula es falsa,S tenderá a ser
2
B
2
W
2
B

mayor queS debido a las diferencias entre las poblaciones. Rechazaremos la hipótesis nula si el estadístico de prueba F es mayor
2
W

que el valor crítico F en un nivel dado de significancia (o si el valor p es menor que el nivel de significancia).
Las tablas son un formato conveniente para resumir los resultados clave en los cálculos ANOVA. La siguiente tabla ANOVA
unidireccional ilustra los cálculos requeridos y las relaciones entre los diversos elementos de la tabla ANOVA.
8636.png

Cuadro 1. Tabla ANOVA unidireccional.


La suma de cuadrados para la tabla ANOVA tiene la relación de SSto = SStR + SST donde:
$$sSTo =\ suma_ {i=1} ^k\ suma_ {j=1} ^n (x_ {ij} -\ bar {\ bar {\ bar {x}}) ^2\]
$$sStr =\ sum_ {i=1} ^k n_i (\ bar {x_i} -\ bar {\ bar {\ bar {x}}) ^2\]
$$SSE =\ suma_ {i=1} ^k\ suma^n_ {j=1} (x_ {ij} -\ bar {x_i}) ^2\]
Variación total (SStO) = variación explicada (SStR) + variación inexplicable (SStO)
Los grados de libertad también tienen una relación similar: df (SStO) = df (sStR) + df (SST)
La Suma Media de Cuadrados para el tratamiento y el error se encuentran dividiendo las Sumas de Cuadrados por los grados de
libertad para cada uno. Si bien las sumas de cuadrados son aditivas, las sumas medias de cuadrados no lo son. El estadístico F se
encuentra luego dividiendo la Suma Media de Cuadrados para el tratamiento (MStR) por la Suma Media de Cuadrados para el error
(MSE). El MSTr es elS y el MSE es elS .
B
2 2
W

$$F=\ dfrac {S_B^2} {S_W^2} =\ dfrac {mStR} {MSE}\]

5.1.2 https://espanol.libretexts.org/@go/page/149500
Ejemplo5.1.1:

Un ambientalista quiso determinar si la acidez media de la lluvia difería entre Alaska, Florida y Texas. Seleccionó al azar seis
fechas de lluvia en cada sitio obtuvo los siguientes datos:
8997.png

Cuadro 2. Datos para Alaska, Florida y Texas.


Solución
H0 : μA = μF = μT

H1 : al menos una de las medias es diferente

Estado Tamaño de la muestra Total de la muestra Media de la muestra Varianza muestral

Alaska n1 = 6 30.2 5.033 0.0265

Florida n2 = 6 27.1 4.517 0.1193

Texas n3 = 6 33.22 5.537 0.1575

Cuadro 3. Tabla de resumen.


Observe que existen diferencias entre las medias de la muestra. ¿Las diferencias son lo suficientemente pequeñas como para
ser explicadas únicamente por la variabilidad del muestreo? ¿O son de magnitud suficiente para que una explicación más
razonable es que los μ no son todos iguales? La conclusión depende de cuánta variación entre las medias de la muestra (en
función de sus desviaciones de la gran media) se compara con la variación dentro de las tres muestras.
La gran media es igual a la suma de todas las observaciones divididas por el tamaño total de la muestra:
¯
x̄ = total grande/N = 90.52/18 = 5.0289
$SSto = (5.11-5.0289) ^2 + (5.01-5.0289) ^2 +... + (5.24-5.0289) ^2+ (4.87-5.0289) ^2 + (4.18-5.0289) ^2 +... + (4.09-5.0289)
^2 + (5.46-5.0289) ^2 + (6.29-5.0289) ^2 + (6.29-5.0289) ^2 +... + (5.30-5.0289) ^2 = 4.6384\]
$SSTr = 6 (5.033-5.0289) ^2 + 6 (4.517-5.0289) ^2 + 6 (5.537-5.0289) ^2 = 3.1214\]
$$SST = SSto — SSTr = 4.6384 — 3.1214 = 1.5170\]
8605.png

Cuadro 4. Tabla ANOVA unidireccional.


Esta prueba se basa endf = k– 1 = 2 ydf = N – k = 15 . Para α = 0.05, el valor crítico de F es 3.68. Dado que el F =
1 2

15.4372 observado es mayor que el valor crítico F de 3.68, rechazamos la hipótesis nula. Hay pruebas suficientes para afirmar
que al menos uno de los medios es diferente.

Soluciones de Software
Minitab
093_1.tif

093_2.tif

ANOVA unidireccional: pH vs estado

Fuente DF SS MS F P

Estado 2 3.121 1.561 15.43 0.000

Error 15 1.517 0.101

Total 17 4.638

S = 0.3180 R-Sq = 67.29% R-Sq (adj) = 62.93%

5.1.3 https://espanol.libretexts.org/@go/page/149500
IC del 95% individuales para la media basada en STDev agrupadas

Nivel N Media StDev —-+———+———+———+——

Alaska 6 5.0333 0.1629 (——*——)

Florida 6 4.5167 0.3455 (——*——)

Texas 6 5.5367 0.3969 (——*——)

—-+———+———+———+——

4.40 4.80 5.20 5.60

StDev agrupado = 0.3180

El valor p (0.000) es menor que el nivel de significancia (0.05) por lo que rechazaremos la hipótesis nula.

Excel
092_1.tif

092_2.tif

ANOVA: Factor único

RESUMEN

Grupos Contar Suma Promedio Varianza

Columna 1 6 30.2 5.033333 0.026547

Columna 2 6 27.1 4.516667 0.119347

Columna 3 6 33.22 5.536667 0.157507

ANOVA

Fuente de
SS df MS F valor p F crit
variación

Entre Grupos 3.121378 2 1.560689 15.43199 0.000229 3.68232

Dentro de los
1.517 15 0.101133
Grupos

Total 4.638378 17

El valor p (0.000229) es menor que alfa (0.05) por lo que rechazamos la hipótesis nula. Hay pruebas suficientes para sustentar la
afirmación de que al menos uno de los medios es diferente.
Una vez que hemos rechazado la hipótesis nula y encontrado que al menos una de las medias de tratamiento es diferente, el
siguiente paso es identificar esas diferencias. Existen dos enfoques que se pueden utilizar para responder a este tipo de preguntas:
los contrastes y las comparaciones múltiples.
Los contrastes solo se pueden usar cuando hay expectativas claras ANTES de comenzar un experimento, y estos se reflejan en el
diseño experimental. Los contrastes son comparaciones planificadas. Por ejemplo, los venados mulos son tratados con el
medicamento A, el medicamento B o un placebo para tratar una infección. Los tres tratamientos no son simétricos. El placebo está
destinado a proporcionar una línea de base con la que se puedan comparar los otros fármacos. Los contrastes son más poderosos
que las comparaciones múltiples porque son más específicos. Son más capaces de captar una diferencia significativa. Los
contrastes no siempre están fácilmente disponibles en los paquetes de software estadístico (cuando lo están, a menudo es necesario
asignar los coeficientes), o pueden limitarse a comparar cada muestra con un control.
Se deben usar comparaciones múltiples cuando no hay expectativas justificadas. Son pruebas de significación aposteriori, por
pares. Por ejemplo, comparamos el kilometraje de gasolina para seis marcas de vehículos todo terreno. No tenemos conocimiento
previo para esperar que ningún vehículo funcione de manera diferente al resto. Aquí se deben realizar comparaciones por pares,
pero solo si una prueba ANOVA en los seis vehículos rechazó primero la hipótesis nula.

5.1.4 https://espanol.libretexts.org/@go/page/149500
NO es apropiado utilizar una prueba de contraste cuando las comparaciones sugeridas aparecen solo después de que se
hayan recopilado los datos. Nos vamos a centrar en comparaciones múltiples en lugar de contrastes planificados.

This page titled 5.1: Análisis de varianza is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane
Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available
upon request.
5.1: Analysis of Variance by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-
resources-biometrics.

5.1.5 https://espanol.libretexts.org/@go/page/149500
5.2: Comparaciones múltiples
Cuando la hipótesis nula es rechazada por la prueba F, creemos que existen diferencias significativas entre las k medias
poblacionales. Entonces, ¿cuáles son diferentes? El método de comparación múltiple es la manera de identificar cuáles de las
medias son diferentes mientras se controla el error experimental (el riesgo acumulado asociado a una familia de comparaciones).
Hay muchos métodos de comparación múltiples disponibles.
En La Prueba de Diferencia Menos Significativa, cada hipótesis individual se prueba con el estadístico t de estudiante. Cuando la
probabilidad de error Tipo I se establece en algún valor y la varianza s2 tiene v grados de libertad, la hipótesis nula es rechazada
para cualquier valor observado tal que |to|>tα/2, v. Es una versión abreviada de la realización de todas las posibles pruebas t por
pares. Este método tiene una tasa de error débil en cuanto al experimento. El LSD protegido de Fisher es algo mejor para controlar
este problema.
La desigualdad Bonferroni es una alternativa conservadora cuando el software no está disponible. Al realizar n comparaciones,
αe≤ n αc por lo tanto αc = αe/n En otras palabras, divida el nivel de significancia experimental por el número de comparaciones
múltiples para obtener el nivel de significancia en comparación. El procedimiento de Bonferroni se basa en el cálculo de intervalos
de confianza para las diferencias entre cada par posible de μ. El valor crítico para los intervalos de confianza proviene de una tabla
con (N — k) grados de libertad y k (k — 1) /2 número de intervalos. Si un intervalo en particular no contiene cero, las dos medias
se declaran significativamente diferentes entre sí. Un intervalo que contiene cero indica que las dos medias NO son
significativamente diferentes.
El procedimiento de Dunnett se creó para estudios donde uno de los tratamientos actúa como tratamiento control para algunos o
todos los tratamientos restantes. Se utiliza principalmente si el interés del estudio es determinar si las respuestas medias para los
tratamientos difieren de las del testigo. Al igual que Bonferroni, se crean intervalos de confianza para estimar la diferencia entre
dos medias de tratamiento con una tabla específica de valores críticos utilizados para controlar la tasa de error experimental. El
error estándar de la diferencia es Image37382.PNG.
La prueba de Scheffe es también un método conservador para todas las posibles comparaciones simultáneas sugeridas por los
datos. Esta prueba equipara el estadístico F del ANOVA con el estadístico de la prueba t. Desde t2 = F entonces t = √F, podemos
sustituir √F (αe, v1, v2) por t (αe, v2) por la estadística de Scheffe.
La prueba de Tukey proporciona una fuerte sensación de tasa de error experimental para todas las comparaciones por pares de
medias de tratamiento. Esta prueba también se conoce como la Diferencia Honestamente Significativa. Esta prueba ordena los
tratamientos de menor a mayor y utiliza la estadística de rango studentizado
ȳ (largest) − ȳ (smallest)
q = −−−−−−− (5.2.1)
√M SE/r

Se utiliza la diferencia absoluta de las dos medias porque la ubicación de las dos medias en la diferencia calculada es arbitraria, con
el signo de la diferencia dependiendo de qué media se use primero. Para replicaciones desiguales, se utiliza en su lugar la
aproximación Tukey-Kramer.
La prueba Student-Newman-Keuls (SNK) es una prueba de rango múltiple basada en el estadístico de rango studentizado como el
de Tukey, el valor crítico se basa en un par particular de medias que se prueban dentro de todo el conjunto de medias ordenadas. Se
utilizan dos o más rangos entre medias para los criterios de prueba. Si bien es similar a la de Tukey en términos de estadística de
prueba, tiene tasas de error débiles en cuanto a experimentos.
Las pruebas de Bonferroni, Dunnett y Scheffe son las más conservadoras, lo que significa que la diferencia entre las dos medias
debe ser mayor antes de concluir una diferencia significativa. Las pruebas LSD y SNK son las menos conservadoras. La prueba de
Tukey está en el medio. Robert Kuehl, autor de Design of Experiments: Statistical Principles of Research Design and Analysis
(2000), afirma que el método Tukey brinda la mejor protección contra errores de decisión, junto con una fuerte inferencia sobre la
magnitud y dirección de las diferencias.
Volvamos a nuestra pregunta sobre la acidez media de la lluvia en Alaska, Florida y Texas. Las hipótesis nulas y alternativas fueron
las siguientes:

H 0: μA = μF = μT H 1: al menos una de las medias es diferente

5.2.1 https://espanol.libretexts.org/@go/page/149499
El valor p para la prueba F fue de 0.000229, lo que es menor que nuestro nivel de significancia del 5%. Rechazamos la hipótesis
nula y tuvimos pruebas suficientes para apoyar la afirmación de que al menos una de las medias era significativamente diferente de
otra. Utilizaremos los métodos de Bonferroni y Tukey para múltiples comparaciones con el fin de determinar qué media (s) es
diferente (s).

Método de comparación múltiple de Bonferroni


Se calcula un intervalo de confianza de Bonferroni para cada comparación por pares. Para k poblaciones, habrá k (k -1) /2
comparaciones múltiples. El intervalo de confianza toma la forma de:
−−−− −−−−−−−−−
M SE M SE
¯1 − x
F or μ1 − μ2 : (x ¯2 ) ± (Bonf erronit critical value)√ +
n1 n2

−−−−−−−−−−−−−
M SE M SE
F or μk−1 − μk : (xk−1
¯ −x
¯k ) ± (Bonf erronit critical value)√ +
nk−1 nk

Donde MSE es de la tabla de análisis de varianza y el valor crítico de t de Bonferroni proviene de la Tabla Bonferroni que se da a
continuación. El valor crítico de Bonferroni t, en lugar del valor crítico t de student, combinado con el uso del MSE se utiliza para
lograr un nivel de confianza simultáneo de al menos 95% para todos los intervalos computados. Se juzga que las dos medias son
significativamente diferentes si el intervalo correspondiente no incluye cero.
8535.png

Cuadro 5. Valores críticos t de Bonferroni.


Para este problema, k = 3 así que hay k (k — 1) /2= 3 (3 — 1) /2 = 3 comparaciones múltiples. Los grados de libertad son iguales a
N — k = 18 — 3 = 15. El valor crítico de Bonferroni es de 2.69.
−−−−−−−−−−−−− −
0.1011 0.1011
F orμA − μF : (5.033 − 4.517) ± (2.69)√ + = (0.0222, 1.0098)
6 6

−−−−−−−−−−−−− −
0.1011 0.1011
F orμA − μT : (5.033 − 5.537) ± (2.69)√ + = (−0.9978, −0.0102)
6 6

−−−−−−−−−−−−− −
0.1011 0.1011
F orμF − μT : (4.517 − 5.537) ± (2.69)√ + = (−1.5138, 0.5262)
6 6

El primer intervalo de confianza contiene todos los valores positivos. Esto le dice que hay una diferencia significativa entre las dos
medias y que el pH medio de lluvia para Alaska es significativamente mayor que el pH medio de lluvia para Florida.
El segundo intervalo de confianza contiene todos los valores negativos. Esto le dice que hay una diferencia significativa entre las
dos medias y que el pH medio de lluvia de Alaska es significativamente menor que el pH medio de lluvia de Texas.
El tercer intervalo de confianza también contiene todos los valores negativos. Esto le dice que hay una diferencia significativa entre
las dos medias y que el pH medio de lluvia de Florida es significativamente menor que el pH medio de lluvia de Texas.
Los tres estados tienen niveles significativamente diferentes de pH de lluvia. Texas tiene el pH de lluvia más alto, luego Alaska
seguido de Florida, que tiene el nivel medio de pH de lluvia más bajo. Puede utilizar los intervalos de confianza para estimar la
diferencia media entre los estados. Por ejemplo, el pH promedio de lluvia en Texas oscila entre 0.5262 y 1.5138 más alto que el pH
promedio de lluvia en Florida.
Ahora usemos el método Tukey para múltiples comparaciones. Vamos a dejar que el software calcule los valores por nosotros.
Excel no hace múltiples comparaciones así que vamos a confiar en la salida de Minitab.
095.tif

ANOVA unidireccional: pH vs estado

Fuente DF SS MS F P

estado 2 3.121 1.561 15.4 0.000

Error 15 1.517 0.101

Total 17 4.638

5.2.2 https://espanol.libretexts.org/@go/page/149499
S = 0.3180 R-Sq = 67.29% R-Sq (adj) = 62.93%

Ya hemos visto esta parte de la salida antes. Ahora queremos enfocarnos en el Método de Agrupación de Información Usando
Tukey. Los tres estados tienen letras diferentes que indican que el pH medio de la lluvia para cada estado es significativamente
diferente. También se listan de mayor a menor. Es fácil ver que Texas tiene el pH medio de lluvia más alto mientras que Florida
tiene el más bajo.

Agrupación de información mediante el método Tukey


estado N Media Agrupación

Texas 6 5.5367 A

Alaska 6 5.0333 B

Florida 6 4.516 C

Los medios que no comparten una letra son significativamente diferentes.

Este siguiente conjunto de intervalos de confianza es similar a los intervalos de confianza de Bonferroni. Estiman la diferencia de
cada par de medias. El nivel del intervalo de confianza individual se establece en 97.97% en lugar de 95%, controlando así la tasa
de error experimental.

Intervalos de confianza simultáneos de Tukey


Todas las comparaciones por pares entre niveles de estado
Nivel de confianza individual = 97.97%

estado = Alaska restado de:

estado Inferior Centro Superior ———+———+———+———+

Florida -0.9931 -0.5167 -0.0402 (——*—-)

Texas 0.0269 0.5033 0.9798 (——*——)

———+———+———+———+

-0.80 0.00 0.80 1.60

estado = Florida restado de:

estado Inferior Centro Superior ———+———+———+———+

Texas 0.5435 1.0200 1.4965 (——*——)

———+———+———+———+

-0.80 0.00 0.80 1.60

El primer emparejamiento es Florida — Alaska, lo que resulta en un intervalo de (-0.9931, -0.0402). El intervalo tiene todos los
valores negativos que indican que Florida es significativamente menor que Alaska. El segundo emparejamiento es Texas —
Alaska, que resulta en un intervalo de (0.0269, 0.9798). El intervalo tiene todos los valores positivos que indican que Texas es
mayor que Alaska. El tercer emparejamiento es Texas — Florida, lo que resulta en un intervalo de (0.5435, 1.4965). Todos los
valores positivos indican que Texas es mayor que Florida.
Los intervalos son similares a los intervalos de Bonferroni con diferencias de ancho debido a los métodos utilizados. En ambos
casos se llega a las mismas conclusiones.
Cuando usamos ANOVA unidireccional y concluimos que las diferencias entre las medias son significativas, no podemos estar
absolutamente seguros de que el factor dado sea responsable de las diferencias. Es posible que la variación de algún otro factor
desconocido sea la responsable. Una forma de reducir el efecto de factores extraños es diseñar un experimento para que tenga un
diseño completamente aleatorio. Esto significa que cada elemento tiene igual probabilidad de recibir algún tratamiento o pertenecer

5.2.3 https://espanol.libretexts.org/@go/page/149499
a cualquier grupo diferente. En general, los buenos resultados requieren que el experimento sea cuidadosamente diseñado y
ejecutado.
Ejemplo adicional:
https://youtu.be/BMyYXc8cWHs

This page titled 5.2: Comparaciones múltiples is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane
Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available
upon request.
5.2: Multiple Comparisons by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-
resources-biometrics.

5.2.4 https://espanol.libretexts.org/@go/page/149499
CHAPTER OVERVIEW

6: Análisis bidireccional de varianza


6.1: Efectos principales y efecto de interacción
6.2: Comparaciones múltiples
6.3: Resumen y solución de software

This page titled 6: Análisis bidireccional de varianza is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by
Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is
available upon request.

1
6.1: Efectos principales y efecto de interacción
En el capítulo anterior se utilizó ANOVA unidireccional para analizar datos de tres o más poblaciones utilizando la hipótesis nula
de que todas las medias eran iguales (sin efecto de tratamiento). Por ejemplo, un biólogo quiere comparar el crecimiento medio
para tres niveles diferentes de fertilizante. Un ANOVA unidireccional prueba para ver si al menos uno de los medios de tratamiento
es significativamente diferente de los demás. Si se rechaza la hipótesis nula, se puede usar un método de comparación múltiple,
como el de Tukey, para identificar qué medias son diferentes, y el intervalo de confianza se puede usar para estimar la diferencia
entre las diferentes medias.
Supongamos que el biólogo quiere hacer esta misma pregunta pero con dos especies diferentes de plantas mientras sigue probando
los tres diferentes niveles de fertilizante. El biólogo necesita investigar no solo el crecimiento promedio entre las dos especies
(efecto principal A) y el crecimiento promedio para los tres niveles de fertilizante (efecto principal B), sino también la interacción
o relación entre los dos factores de especie y fertilizante. El análisis bidireccional de varianza permite al biólogo responder a la
pregunta sobre el crecimiento afectado por especies y niveles de fertilizante, y dar cuenta de la variación debida a ambos factores
simultáneamente.
Nuestro examen de ANOVA de una vía se realizó en el contexto de un diseño completamente al azar donde los tratamientos se
asignan aleatoriamente a cada sujeto (o unidad experimental). Ahora consideramos el análisis en el que dos factores pueden
explicar la variabilidad en la variable respuesta. Recuerde que podemos tratar los factores controlándolos, fijándolos en niveles
específicos, y aplicando aleatoriamente los tratamientos para minimizar el efecto de las variables incontroladas sobre la variable de
respuesta. Con dos factores, necesitamos un experimento factorial.

Cuadro 1. Datos observados para dos especies en tres niveles de fertilizante.


Este es un ejemplo de un experimento factorial en el que hay un total de 2 x 3 = 6 posibles combinaciones de los niveles para los
dos factores diferentes (especie y nivel de fertilizante). Estas seis combinaciones se denominan tratamientos y el experimento se
denomina experimento factorial de 2 x 3. Utilizamos este tipo de experimentos para investigar el efecto de múltiples factores en
una respuesta y la interacción entre los factores. Cada una de las n observaciones de la variable de respuesta para los diferentes
niveles de los factores existe dentro de una celda. En este ejemplo, hay seis células y cada célula corresponde a un tratamiento
específico.
Al comparar las medias de tratamiento para un experimento factorial (o para cualquier otro experimento), se requieren múltiples
observaciones para cada tratamiento. A estos se les llama réplicas. Por ejemplo, si tienes cuatro observaciones para cada uno de los
seis tratamientos, tienes cuatro repeticiones del experimento. La replicación demuestra que los resultados son reproducibles y
proporciona los medios para estimar la varianza de error experimental. La replicación también proporciona la capacidad de
2

aumentar la precisión para las estimaciones de los medios de tratamiento. El aumento de la replicación disminuyes = 2
s

r
y

aumentando así la precisión deȳ .


Notación
k = número de niveles de factor A
l = número de niveles de factor B
kl = número de tratamientos (cada uno una combinación de un nivel de factor A y un nivel de factor B)
m = número de observaciones en cada tratamiento

Efectos principales y efecto de interacción


Los efectos principales tratan cada factor por separado. En el ejemplo anterior tenemos dos factores, A y B. El principal efecto del
Factor A (especie) es la diferencia entre el crecimiento medio para la Especie 1 y la Especie 2, promediado a través de los tres
niveles de fertilizante. El efecto principal del Factor B (fertilizante) es la diferencia en el crecimiento promedio para los niveles 1, 2
y 3 promediados entre las dos especies. La interacción son los cambios simultáneos en los niveles de ambos factores. Si los

6.1.1 https://espanol.libretexts.org/@go/page/149549
cambios en el nivel del Factor A resultan en diferentes cambios en el valor de la variable de respuesta para los diferentes niveles
del Factor B, decimos que existe un efecto de interacción entre los factores. Considera el siguiente ejemplo para ayudar a aclarar
esta idea de interacción.

Ejemplo6.1.1:

El Factor A tiene dos niveles y el Factor B tiene dos niveles. En el cuadro izquierdo, cuando el Factor A está en el nivel 1, el
Factor B cambia en 3 unidades. Cuando el Factor A está en el nivel 2, el Factor B vuelve a cambiar en 3 unidades. De igual
manera, cuando el Factor B está en el nivel 1, el Factor A cambia en 2 unidades. Cuando el Factor B está en el nivel 2, el
Factor A vuelve a cambiar en 2 unidades. No hay interacción. El cambio en la respuesta promedio real cuando el nivel de
cualquiera de los factores cambia de 1 a 2 es el mismo para cada nivel del otro factor. En este caso, los cambios en los niveles
de los dos factores afectan la respuesta promedio verdadera por separado, o de manera aditiva.

Figura 1. Ilustración del efecto de interacción.


Solución
La caja derecha ilustra la idea de interacción. Cuando el Factor A está en el nivel 1, el Factor B cambia en 3 unidades pero
cuando el Factor A está en el nivel 2, el Factor B cambia en 6 unidades. Cuando el Factor B está en el nivel 1, el Factor A
cambia en 2 unidades pero cuando el Factor B está en el nivel 2, el Factor A cambia en 5 unidades. El cambio en la respuesta
promedio real cuando los niveles de ambos factores cambian simultáneamente del nivel 1 al nivel 2 es de 8 unidades, lo que es
mucho mayor de lo que sugieren los cambios separados. En este caso, existe una interacción entre los dos factores, por lo que
el efecto de los cambios simultáneos no se puede determinar a partir de los efectos individuales de los cambios separados.
Cambio en la respuesta promedio real cuando el nivel de un factor cambia depende del nivel del otro factor. No se puede
determinar el efecto separado del Factor A o del Factor B en la respuesta debido a la interacción.

Supuestos
Nota: Asunción básica
Las observaciones sobre cualquier tratamiento en particular se seleccionan independientemente de una distribución normal con
varianza σ2 (la misma varianza para cada tratamiento), y las muestras de diferentes tratamientos son independientes entre sí.

Podemos utilizar gráficas de probabilidad normal para satisfacer el supuesto de normalidad para cada tratamiento. El requisito de
varianzas iguales es más difícil de confirmar, pero generalmente podemos verificar asegurándonos de que la desviación estándar de
la muestra más grande no sea más del doble de la desviación estándar de la muestra más pequeña.
Aunque no es un requisito para ANOVA de dos vías, tener un número igual de observaciones en cada tratamiento, denominado
diseño de equilibrio, aumenta la potencia de la prueba. Sin embargo, las repeticiones desiguales (un diseño desequilibrado), son
muy comunes. Algunos paquetes de software estadístico (como Excel) solo funcionarán con diseños equilibrados. Minitab
proporcionará el análisis correcto para diseños balanceados y desequilibrados en el componente Modelo Lineal General bajo
análisis estadístico ANOVA. No obstante, en aras de la simplicidad, nos centraremos en diseños equilibrados en este capítulo.

6.1.2 https://espanol.libretexts.org/@go/page/149549
Sumas de Cuadrados y Tabla ANOVA
En el capítulo anterior, se introdujo la idea de sumas de cuadrados para dividir la variación por tratamiento y variación aleatoria. La
relación es la siguiente:
SST o = SST r + SSE (6.1.1)

Ahora particionamos la variación aún más para reflejar los efectos principales (Factor A y Factor B) y el término de interacción:
SST o = SSA + SSB + SSAB + SSE (6.1.2)

donde
1. SsTo es la suma total de cuadrados, con los grados asociados de libertad klm — 1
2. SSA es el factor A principal efecto sumas de cuadrados, con grados asociados de libertad k — 1
3. SSB es el factor B principal efecto sumas de cuadrados, con grados asociados de libertad l — 1
4. SSAB es la suma de interacción de cuadrados, con grados de libertad asociados (k — 1) (l — 1)
5. SSE es la suma del error de cuadrados, con grados de libertad asociados kl (m — 1)
Como vimos en el capítulo anterior, la magnitud de la SSE está completamente relacionada con la cantidad de variabilidad
subyacente en las distribuciones que se muestrean. No tiene nada que ver con los valores de las diversas respuestas medias
verdaderas. SSAB refleja en parte la variabilidad subyacente, pero su valor también se ve afectado por si existe o no una
interacción entre los factores; cuanto mayor sea la interacción, mayor será el valor de SSAB.
La siguiente tabla ANOVA ilustra la relación entre las sumas de cuadrados para cada componente y el estadístico F resultante para
probar las tres hipótesis nulas y alternativas para un ANOVA bidireccional.
1. H : No hay interacción entre factores
0

H : Hay una interacción significativa entre factores


1

2. H : No hay efecto del Factor A sobre la variable de respuesta


0

H : Hay un efecto del Factor A en la variable de respuesta


1

3. H : No hay efecto del Factor B sobre la variable de respuesta


0

H : Hay un efecto del Factor B en la variable de respuesta


1

Si hay una interacción significativa, entonces ignore los siguientes dos conjuntos de hipótesis para los efectos principales. Una
interacción significativa te dice que el cambio en la verdadera respuesta promedio para un nivel de Factor A depende del nivel de
Factor B. El efecto de los cambios simultáneos no se puede determinar examinando los efectos principales por separado. Si NO hay
una interacción significativa, entonces proceda a probar los efectos principales. Las sumas de cuadrados del Factor A reflejarán la
variación aleatoria y cualquier diferencia entre las respuestas promedio verdaderas para diferentes niveles del Factor A. De manera
similar, las sumas de cuadrados del Factor B reflejarán la variación aleatoria y las respuestas promedio verdaderas para los
diferentes niveles del Factor B.

Cuadro 2. Tabla ANOVA de dos vías.


Cada una de las cinco fuentes de variación, cuando se divide por los grados de libertad apropiados (df), proporciona una estimación
de la variación en el experimento. Las estimaciones se denominan cuadrados medios y se muestran junto con sus respectivas
sumas de cuadrados y df en la tabla de análisis de varianza. En ANOVA unidireccional, el error cuadrático medio (MSE) es la
mejor estimación deσ (la varianza poblacional) y es el denominador en el estadístico F. En un ANOVA bidireccional, sigue siendo
2

la mejor estimación deσ . Observe que en cada caso, el MSE es el denominador en el estadístico de prueba y el numerador es la
2

suma media de cuadrados para cada factor principal y término de interacción. El estadístico F se encuentra en la columna final de

6.1.3 https://espanol.libretexts.org/@go/page/149549
esta tabla y se utiliza para responder a las tres hipótesis alternativas. Por lo general, los valores p asociados a cada estadístico F
también se presentan en una tabla ANOVA. Utilizarás la Regla de Decisión para determinar el resultado de cada uno de los tres
pares de hipótesis.
Si el valor p es menor que α (nivel de significancia), rechazará la hipótesis nula.
Cuando realizamos un ANOVA bidireccional, siempre probamos primero la hipótesis con respecto al efecto de interacción. Si se
rechaza la hipótesis nula de no interacción, NO interpretamos los resultados de las hipótesis que involucran los efectos principales.
Si el término de interacción NO es significativo, entonces examinamos los dos efectos principales por separado. Veamos un
ejemplo.

Ejemplo6.1.2:

Se realizó un experimento para evaluar los efectos de la variedad de plantas de soya (factor A, con k = 3 niveles) y la densidad
de siembra (factor B, con l = 4 niveles — 5, 10, 15 y 20 mil plantas por hectárea) sobre el rendimiento. Cada uno de los 12
tratamientos (k * l) se aplicó aleatoriamente a m = 3 parcelas (klm = 36 observaciones totales). Utilice un ANOVA
bidireccional para evaluar los efectos a un nivel de significancia del 5%.

Cuadro 3. Datos observados para tres variedades de plantas de soya a cuatro densidades.
Siempre es importante observar los rendimientos promedio de la muestra para cada tratamiento, cada nivel de factor A y cada
nivel de factor B.
Cuadro 4. Tabla de resumen.
Densidad

Rendimiento
promedio de la
Variedad 5 10 15 20
muestra para cada
nivel de factor A

1 9.17 12.40 12.90 10.80 11.32

2 8.90 12.67 14.50 12.77 12.21

3 16.30 18.10 19.87 18.20 18.12

Rendimiento
promedio de la
11.46 14.39 15.77 13.92 13.88
muestra para cada
nivel de factor B

Por ejemplo, 11.32 es el rendimiento promedio para la variedad #1 sobre todos los niveles de densidades de siembra. El valor
11.46 es el rendimiento promedio para parcelas sembradas con 5,000 plantas en todas las variedades. La gran media es 13.88.
A continuación se presenta la tabla ANOVA.
Cuadro 5. Tabla ANOVA de dos vías.
Fuente DF SS MSS F P

variedad 2 327.774 163.887 100.48 <0.001

6.1.4 https://espanol.libretexts.org/@go/page/149549
Fuente DF SS MSS F P

densidad 3 86.908 28.969 17.76 <0.001

variedad*densidad 6 8.068 1.345 0.82 0.562

error 24 39.147 1.631

total 35

Se inicia con las siguientes hipótesis nulas y alternativas:


H0 : No hay interacción entre factores
H1 : Hay una interacción significativa entre los factores
El estadístico F:
M SAB 1.345
FAB = = = 0.82 (6.1.3)
M SE 1.631

El valor p para la prueba para una interacción significativa entre factores es 0.562. Este valor p es mayor al 5% (α), por lo tanto
fallamos en rechazar la hipótesis nula. No hay evidencia de una interacción significativa entre variedad y densidad. Por lo que
es conveniente realizar más pruebas respecto a la presencia de los efectos principales.
H0 : No hay efecto del Factor A (variedad) sobre la variable de respuesta
H1 : Hay un efecto del Factor A en la variable de respuesta
El estadístico F:
M SA 163.887
FA = = = 100.48 (6.1.4)
M SE 1.631

El valor p (<0.001) es menor que 0.05 por lo que rechazaremos la hipótesis nula. Existe una diferencia significativa en el
rendimiento entre las tres variedades.
H0 : No hay efecto del Factor B (densidad) sobre la variable de respuesta
H1 : Hay un efecto del Factor B en la variable de respuesta
El estadístico F:
M SB 28.969
FA = = = 17.76 (6.1.5)
M SE 1.631

El valor p (<0.001) es menor que 0.05 por lo que rechazaremos la hipótesis nula. Hay una diferencia significativa en el
rendimiento entre las cuatro densidades de siembra.

This page titled 6.1: Efectos principales y efecto de interacción is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or
curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit
history is available upon request.
6.1: Main Effects and Interaction Effect by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source:
https://milneopentextbooks.org/natural-resources-biometrics.

6.1.5 https://espanol.libretexts.org/@go/page/149549
6.2: Comparaciones múltiples
El siguiente paso es examinar las múltiples comparaciones para cada efecto principal para determinar las diferencias. Procederemos
como hicimos con las comparaciones múltiples de ANOVA unidireccionales examinando la Agrupación de Tukey para cada efecto
principal. Para el factor A, se presentan la variedad, las medias de la muestra y las letras de agrupación para identificar aquellas
variedades que son significativamente diferentes de otras variedades. Las variedades 1 y 2 no son significativamente diferentes
entre sí, ambas produciendo rendimientos similares. La variedad 3 produjo rendimientos significativamente mayores que ambas
variedades 1 y 2.

Agrupación de información mediante el método Tukey y 95.0% de confianza

variedad N Media Agrupación

3 12 18.117 A

2 12 12.208 B

1 12 11.317 B

Los medios que no comparten una letra son significativamente diferentes.

Algunas de las densidades también son significativamente diferentes. Seguiremos el mismo procedimiento para determinar las
diferencias.

Agrupación de información mediante el método Tukey y 95.0% de confianza

densidad N Media Agrupación

15 9 15.756 A

10 9 14.389 A B

20 9 13.922 B

5 9 11.456 C

Los medios que no comparten una letra son significativamente diferentes.

La Información de Agrupación nos muestra que una densidad de siembra de 15,000 plantas/parcela da como resultado el mayor
rendimiento. Sin embargo, no hay diferencia significativa en el rendimiento entre 10,000 y 15,000 plantas/parcela o entre 10,000 y
20,000 plantas/parcela. Las parcelas con 5,000 plantas/parcela dan como resultado los rendimientos más bajos y estos rendimientos
son significativamente menores que todas las demás densidades probadas.
Las parcelas de efectos principales también ilustran las diferencias en el rendimiento entre las tres variedades y las cuatro
densidades.
9662.png

Figura 2. Parcelas de efectos principales.


Pero, ¿qué pasa si hay una interacción significativa entre los efectos principales? Este siguiente ejemplo demostrará cómo una
interacción significativa altera la interpretación de un ANOVA de 2 vías.

Ejemplo6.2.1:

Un investigador se interesó por los efectos de cuatro niveles de fertilización (testigo, 100 lb., 150 lb., y 200 lb.) y cuatro niveles
de riego (A, B, C y D) sobre el rendimiento de biomasa. Las dieciséis posibles combinaciones de tratamiento se asignaron
aleatoriamente a 80 parcelas (5 parcelas por cada tratamiento). A continuación se enumeran los rendimientos totales de
biomasa para cada tratamiento.

Fertilizante

Riego Control 100 lb. 150 lb. 200 lb.

6.2.1 https://espanol.libretexts.org/@go/page/149542
2700,2801,2720, 2390, 3250, 3151, 3170, 3300, 3300, 3235, 3025, 3165, 3500, 3455, 3100, 3600,
A
2890 3290 3120 3250

3101, 3035, 3205, 3007, 2700, 2935, 2250, 2495, 3050, 3110, 3033, 3195, 3100, 3235, 3005, 3095,
B
3100 2850 4250 3050

C 101, 97, 106, 142, 99 400, 302, 296, 315, 390 630, 624, 595, 675, 595 400, 325, 200, 375, 390

D 121, 174, 88, 100, 76 100, 125, 91, 222, 219 60, 28, 112, 89, 67 201, 223, 195, 120, 180

Cuadro 6. Datos observados para cuatro niveles de riego y cuatro niveles de fertilizante.
El factor A (nivel de riego) tiene k = 4 niveles y el factor B (fertilizante) tiene l = 4 niveles. Hay m = 5 repeticiones y 80
observaciones totales. Este es un diseño equilibrado ya que el número de réplicas es igual. A continuación se presenta la tabla
ANOVA.

Fuente DF SS MSS F P

fertilizante 3 1128272 376091 12.76 <0.001

riego 3 161776127 53925376 1830.16 <0.001

fert*riego 9 2088667 232074 7.88 <0.001

error 64 1885746 29465

total 79 166878812

Cuadro 7. Tabla ANOVA bidireccional.


Nuevamente comenzamos con probar el término de interacción. Recuerde, si el término de interacción es significativo,
ignoramos los efectos principales.
H0 : No hay interacción entre factores
H1 : Hay una interacción significativa entre factores
El estadístico F:
M SAB 232074
FAB = = = 7.88 (6.2.1)
M SE 29465

El valor p para la prueba para una interacción significativa entre factores es <0.001. Este valor p es inferior al 5%, por lo tanto
rechazamos la hipótesis nula. Existe evidencia de una interacción significativa entre el fertilizante y el riego. Dado que el
término de interacción es significativo, no investigamos la presencia de los efectos principales. Ahora debemos examinar
múltiples comparaciones para los 16 tratamientos (cada combinación de fertilizante y nivel de riego) para determinar las
diferencias en el rendimiento, ayudadas por la parcela factorial.

Agrupación de información mediante el método Tukey y 95.0% de confianza

fert riego N Media Agrupación

200 A 5 3381.00 A

150 B 5 3327.60 A

100 A 5 3232.20 A

150 A 5 3169.00 A

200 B 5 3097.00 A

C B 5 3089.60 A

C A 5 2700.20 B

100 B 5 2646.00 B

150 C 5 623.80 C

6.2.2 https://espanol.libretexts.org/@go/page/149542
100 C 5 340.60 C D

200 C 5 338.00 C D

200 D 5 183.80 D

100 D 5 151.40 D

C D 5 111.80 D

C C 5 109.00 D

150 D 5 71.20 D

Los medios que no comparten una letra son significativamente diferentes.

La gráfica factorial permite visualizar las diferencias entre los 16 tratamientos. Las gráficas factoriales pueden presentar la
información de dos maneras, cada una con un factor diferente en el eje x. En la primera parcela, el nivel de fertilizante está en
el eje x. Existe una clara distinción en los rendimientos promedio para los diferentes tratamientos. Los niveles de riego A y B
parecen estar produciendo mayores rendimientos en todos los niveles de fertilizantes en comparación con los niveles de riego
C y D. En la segunda parcela, el nivel de riego está en el eje x. Todos los niveles de fertilizante parecen dar como resultado
mayores rendimientos para los niveles de riego A y B en comparación con C y D.
9631.png

Figura 3. Parcelas de interacción.


El siguiente paso es usar la salida de comparación múltiple para determinar dónde hay diferencias SIGNATIVAS. Centrémonos
en la trama del primer factor para hacer esto.
9620.png

Figura 4. Trama de interacción.


La Información de Agrupación nos dice que si bien los niveles de riego A y B son similares en todos los niveles de fertilizante,
solo los tratamientos A-100, A-150, A-200, B-control, B-150 y B-200 son estadísticamente similares (círculo superior). El
tratamiento B-100 y el control A también dan como resultado rendimientos similares (círculo medio) y ambos tienen
rendimientos significativamente menores que el primer grupo.
Los niveles de riego C y D dan como resultado los rendimientos más bajos en todos los niveles de fertilizante. Nuevamente nos
referimos a la Información de Agrupación para identificar las diferencias. No hay diferencia significativa en el rendimiento
para el nivel de riego D sobre ningún nivel de fertilizante. Los rendimientos para D también son similares a los rendimientos
para el nivel de riego C a 100, 200 y los niveles de control para fertilizantes (círculo más bajo). El nivel de riego C a nivel 150
del fertilizante da como resultado rendimientos significativamente mayores que cualquier rendimiento del nivel de riego D para
cualquier nivel de fertilizante, sin embargo, este rendimiento aún es significativamente menor que el del primer grupo que
utiliza los niveles de riego A y B.

Interpretación de gráficas de factores


Cuando el término de interacción es significativo, el análisis se centra únicamente en los tratamientos, no en los efectos principales.
La gráfica factorial y la información de agrupación permiten al investigador identificar similitudes y diferencias, junto con
cualquier tendencia o patrón. Las siguientes series de gráficos factoriales ilustran algunas respuestas promedio reales en términos
de interacciones y efectos principales.
Esta primera gráfica muestra claramente una interacción significativa entre los factores. El cambio en la respuesta cuando cambia
el nivel B, depende del nivel A.
9609.png

Figura 5. Parcela de interacción.


La segunda gráfica no muestra interacción significativa. El cambio en la respuesta para el nivel de factor A es el mismo para cada
nivel de factor B.
9598.png

6.2.3 https://espanol.libretexts.org/@go/page/149542
Figura 6. Parcela de interacción.
La tercera gráfica no muestra interacción significativa y muestra que la respuesta promedio no depende del nivel de factor A.
9588.png

Figura 7. Parcela de interacción.


Esta cuarta gráfica nuevamente no muestra interacción significativa y muestra que la respuesta promedio no depende del nivel de
factor B.
9579.png

Figura 8. Parcela de interacción.


Esta gráfica final no ilustra ninguna interacción y ninguno de los factores tiene ningún efecto sobre la respuesta.
9568.png

Figura 9. Parcela de interacción.

This page titled 6.2: Comparaciones múltiples is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane
Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available
upon request.
6.2: Multiple Comparisons by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-
resources-biometrics.

6.2.4 https://espanol.libretexts.org/@go/page/149542
6.3: Resumen y solución de software
Resumen
El análisis bidireccional de varianza permite examinar el efecto de dos factores simultáneamente sobre la respuesta promedio. La
interacción de estos dos factores es siempre el punto de partida para el ANOVA bidireccional. Si el término de interacción es
significativo, entonces ignorarás los efectos principales y te enfocarás únicamente en los tratamientos únicos (combinaciones de los
diferentes niveles de los dos factores). Si el término de interacción no es significativo, entonces es apropiado investigar la presencia
del efecto principal de la variable de respuesta por separado.

Soluciones de Software
Minitab
113_1.tif

113_2.tif

Modelo Lineal General: rendimiento vs fert, riego

Factor Tipo Niveles Valores

fert fijo 4 100, 150, 200, C

riego fijo 4 A, B, C, D

Análisis de Varianza para Rendimiento, usando SS Ajustado para Pruebas

Fuente DF Seq SS Adj SS Adj MS F P

fert 3 1128272 1128272 376091 12.76 0.000

riego 3 161776127 161776127 53925376 1830.16 0.000

fert*riego 9 2088667 2088667 232074 7.88 0.000

Error 64 1885746 1885746 29465

Total 79 166878812

S = 171.653 R-Sq = 98.87% R-Sq (adj) = 98.61%

Observaciones inusuales para el rendimiento

Obs rendimiento Fit SE Fit Residual St Resid

4 2390.00 2700.20 76.77 -310.20 -2.02 R

28 2250.00 2646.00 76.77 -396.00 -2.58 R

35 4250.00 3327.60 76.77 922.40 6.01 R

R denota una observación con un gran residuo estandarizado.

Agrupación de información mediante el método Tukey y 95.0% de confianza

riego N Media Agrupación

A 20 3120.60 A

B 20 3040.05 A

C 20 352.85 B

D 20 129.55 C

Los medios que no comparten una letra son significativamente diferentes.

Agrupación de información mediante el método Tukey y 95.0% de confianza

6.3.1 https://espanol.libretexts.org/@go/page/149541
fert N Media Agrupación

150 20 1797.90 A

200 20 1749.95 A

100 20 1592.55 B

C 20 1502.65 B

Los medios que no comparten una letra son significativamente diferentes.

Agrupación de información mediante el método Tukey y 95.0% de confianza

fert riego N Media Agrupación

200 A 5 3381.00 A

150 B 5 3327.60 A

100 A 5 3232.20 A

150 A 5 3169.00 A

200 B 5 3097.00 A

C B 5 3089.60 A

C A 5 2700.20 B

100 B 5 2646.00 B

150 C 5 623.80 C

100 C 5 340.60 C D

200 C 5 338.00 C D

200 D 5 183.80 D

100 D 5 151.40 D

C D 5 111.80 D

C C 5 109.00 D

150 D 5 71.20 D

Los medios que no comparten una letra son significativamente diferentes.

Excel
112_1.tif

112_2.tif

Anova: Dos Factores Con Replicación

RESUMEN Bcontrol B100 B150 B200 Total

AA

Contar 5 5 5 5 20

Suma 13501 16161 15845 16905 62412

Promedio 2700.2 3232.2 3169 3381 3120.6

Varianza 35700.2 4679.2 11167.5 40930 87716.57

AB

Contar 5 5 5 5 20

Suma 15448 13230 16638 15485 60801

6.3.2 https://espanol.libretexts.org/@go/page/149541
Promedio 3089.6 2646 3327.6 3097 3040.05

Varianza 5839.8 76917.5 269901.3 7432.5 139929.4

AC

Contar 5 5 5 5 20

Suma 545 1703 3119 1690 7057

Promedio 109 340.6 623.8 338 352.85

Varianza 351.5 2525.8 1079.7 6782.5 37326.03

ANUNCIO

Contar 5 5 5 5 20

Suma 559 757 356 919 2591

Promedio 111.8 151.4 71.2 183.8 129.55

Varianza 1485.2 4135.3 997.7 1510.7 3590.366

Total

Contar 20 20 20 20

Suma 30053 31851 35958 34999

Promedio 1502.65 1592.55 1797.9 1749.95

Varianza 2069464 1977134 2317478 2359637

ANOVA

Fuente de
SS df MS F valor p F crit
Variación

Muestra 1.62E+08 3 53925376 1830.164 5.98E-62 2.748191

Columnas 1128272 3 376090.7 12.76408 1.23E-06 2.748191

Interacción 2088667 9 232074.2 7.876325 1.02E-07 2.029792

Dentro de 1885746 64 29464.78

Total 1.67E+08 79

This page titled 6.3: Resumen y solución de software is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by
Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is
available upon request.
6.3: Summary And Software Solution by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source:
https://milneopentextbooks.org/natural-resources-biometrics.

6.3.3 https://espanol.libretexts.org/@go/page/149541
CHAPTER OVERVIEW

7: Correlación y Regresión Lineal Simple


7.1: Correlación
7.2: Regresión lineal simple
7.3: Modelo poblacional
7.4: Solución de software

This page titled 7: Correlación y Regresión Lineal Simple is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated
by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is
available upon request.

1
7.1: Correlación
En muchos estudios, medimos más de una variable para cada individuo. Por ejemplo, medimos la precipitación y el crecimiento de
las plantas, o el número de jóvenes con hábitat de anidación, o la erosión del suelo y el volumen de agua. Recopilamos pares de
datos y en lugar de examinar cada variable por separado (datos univariados), queremos encontrar formas de describir datos
bivariados, en los que se midan dos variables sobre cada sujeto de nuestra muestra. Dados estos datos, comenzamos por
determinar si existe una relación entre estas dos variables. A medida que cambian los valores de una variable, ¿vemos los cambios
correspondientes en la otra variable?
Podemos describir la relación entre estas dos variables gráfica y numéricamente. Comenzamos por considerar el concepto de
correlación.

Definición: Correlación
La correlación se define como la asociación estadística entre dos variables.

Existe una correlación entre dos variables cuando una de ellas está relacionada de alguna manera con la otra. Una gráfica de
dispersión es el mejor lugar para comenzar. Un diagrama de dispersión (o diagrama de dispersión) es un gráfico de los datos de
muestra emparejados (x, y) con un eje x horizontal y un eje y vertical. Cada par individual (x, y) se traza como un solo punto.
11280.png

Figura 1. Gráfica de dispersión de circunferencia torácica versus longitud.


En este ejemplo, trazamos la circunferencia del pecho del oso (y) contra la longitud del oso (x). Al examinar una gráfica de
dispersión, debemos estudiar el patrón general de los puntos trazados. En este ejemplo, vemos que el valor de la circunferencia
torácica tiende a aumentar a medida que aumenta el valor de la longitud. Podemos ver una pendiente ascendente y un patrón de
línea recta en los puntos de datos trazados.
Una gráfica de dispersión puede identificar varios tipos diferentes de relaciones entre dos variables.
Una relación no tiene correlación cuando los puntos de una gráfica de dispersión no muestran ningún patrón.
Una relación no es lineal cuando los puntos de una gráfica de dispersión siguen un patrón pero no una línea recta.
Una relación es lineal cuando los puntos de una gráfica de dispersión siguen un patrón de línea algo recta. Esta es la relación
que vamos a examinar.
Las relaciones lineales pueden ser positivas o negativas. Las relaciones positivas tienen puntos que se inclinan hacia arriba hacia la
derecha. A medida que aumentan los valores x, y los valores aumentan. A medida que los valores de x disminuyen, y los valores
disminuyen. Por ejemplo, al estudiar plantas, la altura suele aumentar a medida que aumenta el diámetro.
11268.png

Figura 2. Gráfica de dispersión de altura versus diámetro.


Las relaciones negativas tienen puntos que disminuyen hacia abajo hacia la derecha. A medida que aumentan los valores x, y los
valores disminuyen. A medida que los valores de x disminuyen, y los valores aumentan. Por ejemplo, a medida que aumenta la
velocidad del viento, la temperatura del viento disminuye.
11256.png

Figura 3. Gráfica de dispersión de temperatura versus velocidad del viento.


Las relaciones no lineales tienen un patrón aparente, simplemente no lineal. Por ejemplo, a medida que aumenta la edad, la altura
aumenta hasta un punto luego se nivela después de alcanzar una altura máxima.
11245.png

Figura 4. Gráfica de dispersión de altura versus edad.


Cuando dos variables no tienen relación, no hay relación de línea recta o relación no lineal. Cuando una variable cambia, no influye
en la otra variable.
11236.png

7.1.1 https://espanol.libretexts.org/@go/page/149568
Figura 5. Gráfica de dispersión de crecimiento versus área.

Coeficiente de correlación lineal


Debido a que los exámenes visuales son en gran parte subjetivos, necesitamos una medida más precisa y objetiva para definir la
correlación entre las dos variables. Para cuantificar la fuerza y dirección de la relación entre dos variables, se utiliza el coeficiente
de correlación lineal:
(xi − x̄) (yi − ȳ )

sx sy
r = (7.1.1)
n−1

dondex̄ ys son la media de la muestra y la desviación estándar de la muestra de las x,ȳ ys son la media y desviación estándar de
x y

las y.
Un cálculo alternativo del coeficiente de correlación es:
Sxy
r = (7.1.2)
−−−−−−
√Sxx Syy

donde
$$S_ {xx} =\ suma x^2 -\ dfrac {(\ suma x) ^2} {n}\]
$$S_ {xy} =\ sum xy -\ dfrac {(\ sum x) (\ sum y)} {n}\]
$$S_ {yy} =\ suma y^2 -\ dfrac {(\ suma x) ^2} {n}\]
El coeficiente de correlación lineal también se conoce como coeficiente de correlación de momento producto de Pearson en honor a
Karl Pearson, quien originalmente lo desarrolló. Esta estadística describe numéricamente cuán fuerte es la relación lineal o recta
entre las dos variables y la dirección, positiva o negativa.
Las propiedades de “r”:
Siempre está entre -1 y +1.
Es una medida sin unidades por lo que “r” sería el mismo valor ya sea que midiera las dos variables en libras y pulgadas o en
gramos y centímetros.
Los valores positivos de “r” están asociados con relaciones positivas.
Los valores negativos de “r” están asociados con relaciones negativas.

Ejemplos de Correlación Positiva


11215.png

Figura 6. Ejemplos de correlación positiva.

Ejemplos de Correlación Negativa


11205.png

Figura 7. Ejemplos de correlación negativa.

Nota
La correlación no es causalidad!!! El hecho de que dos variables estén correlacionadas no significa que una variable haga que
otra variable cambie.

Examine estos dos diagramas de dispersión siguientes. Ambos conjuntos de datos tienen un r = 0.01, pero son muy diferentes. La
gráfica 1 muestra poca relación lineal entre las variables x e y. La gráfica 2 muestra una fuerte relación no lineal. El coeficiente de
correlación lineal de Pearson solo mide la fuerza y dirección de una relación lineal. Ignorar la gráfica de dispersión podría resultar
en un grave error al describir la relación entre dos variables.
11196.png

Figura 8. Comparación de diagramas de dispersión.

7.1.2 https://espanol.libretexts.org/@go/page/149568
Cuando investigues la relación entre dos variables, siempre comienza con una gráfica de dispersión. Esta gráfica permite buscar
patrones (tanto lineales como no lineales). El siguiente paso es describir cuantitativamente la fuerza y dirección de la relación lineal
usando “r”. Una vez que haya establecido que existe una relación lineal, puede dar el siguiente paso en la construcción de modelos.

This page titled 7.1: Correlación is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane Kiernan
(OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon
request.
7.1: Correlation by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-resources-
biometrics.

7.1.3 https://espanol.libretexts.org/@go/page/149568
7.2: Regresión lineal simple
Una vez que hemos identificado dos variables que están correlacionadas, nos gustaría modelar esta relación. Queremos utilizar una
variable como predictora o variable explicativa para explicar la otra variable, la variable de respuesta o dependiente. Para ello,
necesitamos una buena relación entre nuestras dos variables. El modelo puede entonces ser utilizado para predecir cambios en
nuestra variable de respuesta. Una fuerte relación entre la variable predictora y la variable de respuesta conduce a un buen modelo.
11187.png

Figura 9. Gráfica de dispersión con modelo de regresión.

Definición: regresión lineal simple


Un modelo de regresión lineal simple es una ecuación matemática que nos permite predecir una respuesta para un valor
predictor dado.

Nuestro modelo tomará la forma dey^ = b + b x donde b 0 es la intercepción y, b 1 es la pendiente, x es la variable predictora e y
0 1

una estimación del valor medio de la variable de respuesta para cualquier valor de la variable predictora.
La intercepción y es el valor predicho para la respuesta (y) cuando x = 0. La pendiente describe el cambio en y para cada cambio de
unidad en x. Veamos este ejemplo para aclarar la interpretación de la pendiente e interceptar.

Ejemplo7.2.1:

Un hidrólogo crea un modelo para predecir el flujo volumétrico de una corriente en un puente que cruza con una variable
predictora de lluvia diaria en pulgadas.

Contestar
^ = 1.6 + 29x
y

La intercepción y de 1.6 se puede interpretar de esta manera: En un día sin precipitaciones, habrá 1.6 gal. de agua/min.
fluyendo en el arroyo en ese cruce de puente. El desnivel nos dice que si lloviera una pulgada ese día el flujo en el arroyo
aumentaría 29 gal adicionales. /min. Si lloviera 2 pulgadas ese día, el flujo aumentaría 58 gal adicionales. /min.

Ejemplo7.2.2:

¿Cuál sería el flujo promedio de la corriente si lloviera 0.45 pulgadas ese día?

Contestar
^ = 1.6 + 29x = 1.6 + 29(0.45) = 14.65gal. /min
y

La línea de regresión de mínimos cuadrados (ecuaciones de acceso directo)


La ecuación viene dada por
$$\ sombrero y = b_0+b_1x\]
sy
dondeb 1 = r( ) está la pendiente yb
0
^ − b1 x̄
=y es la intercepción y de la línea de regresión.
sx

Una ecuación computacional alternativa para pendiente es:


$$b_1 =\ dfrac {\ sum xy -\ dfrac {(\ sum x) (\ sum y)} {n}} {\ sum x^2 -\ dfrac {(\ sum x) ^2} {n}} =\ dfrac {S_ {xy}} {S_
{xx}}\]
Este modelo simple es la línea de mejor ajuste para nuestros datos de muestra. La línea de regresión no pasa por todos los puntos,
sino que equilibra la diferencia entre todos los puntos de datos y el modelo de línea recta. La diferencia entre el valor de los datos
observados y el valor predicho (el valor en la línea recta) es el error o residual. El criterio para determinar la línea que mejor
describe la relación entre dos variables se basa en los residuales.

7.2.1 https://espanol.libretexts.org/@go/page/149569
$$Residual = Observado — Predicho\]
Por ejemplo, si quisieras predecir la cincha torácica de un oso negro dado su peso, podrías usar el siguiente modelo.
Contorno de pecho = 13.2 +0.43 peso
La cincha torácica predicha de un oso que pesaba 120 lb es de 64.8 pulgadas.
Contorno de pecho = 13.2 + 0.43 (120) = 64.8 pulgadas.
Pero una cincha de pecho de oso medida (valor observado) para un oso que pesaba 120 lb fue en realidad de 62.1 pulgadas.
El residual sería de 62.1 — 64.8 = -2.7 in.
Un residuo negativo indica que el modelo está sobreprediciendo. Un residuo positivo indica que el modelo está subprediciendo. En
esta instancia, el modelo sobrepredijo la cincha torácica de un oso que en realidad pesaba 120 lb.
Image37921.PNG

Figura 10. Gráfica de dispersión con modelo de regresión que ilustra un valor residual.
Este error aleatorio (residual) toma en cuenta todos los factores impredecibles y desconocidos que no están incluidos en el modelo.
Una línea de regresión de mínimos cuadrados ordinaria minimiza la suma de los errores cuadrados entre los valores observados y
predichos para crear una línea de mejor ajuste. Las diferencias entre los valores observados y pronosticados son cuadradas para
hacer frente a las diferencias positivas y negativas.

Coeficiente de Determinación
Después de ajustar nuestra línea de regresión (computar b 0 y b 1), solemos desear saber qué tan bien se ajusta el modelo a nuestros
datos. Para determinar esto, necesitamos pensar en la idea de análisis de varianza. En ANOVA, partidimos la variación usando
sumas de cuadrados para poder identificar un efecto de tratamiento opuesto a la variación aleatoria que ocurrió en nuestros datos.
La idea es la misma para la regresión. Queremos particionar la variabilidad total en dos partes: la variación debida a la regresión y
la variación por error aleatorio. Y nuevamente vamos a calcular sumas de cuadrados para ayudarnos a hacer esto.
Supongamos que la variabilidad total en las mediciones de la muestra sobre la media de la muestra se denota por∑(y − ȳ ) , i
2

llamadas las sumas de cuadrados de variabilidad total sobre la media (SST). La diferencia al cuadrado entre el valor predichoy^
y la media de la muestra se denota por∑(y^ − ȳ ) , llamadas las sumas de cuadrados por regresión (SSR). La SSR representa la
i
2

variabilidad explicada por la línea de regresión. Finalmente, la variabilidad que no puede ser explicada por la línea de regresión se
llama las sumas de cuadrados por error (SSE) y se denota con∑(y − y^) . La SSE es en realidad el residual cuadrado.
i
2

SST = SSR + SSE

∑(yi − ȳ )
2
=∑(y^ i
2
− ȳ ) +∑(y^
i
2
− ȳ )

11168.png

Figura 11. Una ilustración de la relación entre la media de las y y el valor predicho y observado de una y específica.
Las sumas de cuadrados y las sumas medias de los cuadrados (al igual que ANOVA) se presentan típicamente en la tabla de análisis
de regresión de varianza. La relación de las sumas medias de cuadrados para la regresión (MSR) y las sumas medias de cuadrados
para el error (MSE) forman un estadístico de prueba F utilizado para probar el modelo de regresión.
La relación entre estas sumas de cuadrados se define como
$$Total\ Variación = Explicada\ Variación + Inexplicada\ Variación\]
Cuanto mayor sea la variación explicada, mejor será el modelo en la predicción. Cuanto mayor sea la variación inexplicable, peor
será el modelo en la predicción. Una medida cuantitativa del poder explicativo de un modelo esR , el Coeficiente de 2

Determinación:
$$R^2 =\ dfrac {Explicado\ Variación} {Total\ Variación}\]
El Coeficiente de Determinación mide la variación porcentual en la variable de respuesta (y) que se explica por el modelo.
Los valores van de 0 a 1.
UnR cercano a cero indica un modelo con muy poco poder explicativo.
2

7.2.2 https://espanol.libretexts.org/@go/page/149569
UnR cercano a uno indica un modelo con más poder explicativo.
2

El Coeficiente de Determinación y el coeficiente de correlación lineal están relacionados matemáticamente.


$R^2 = r^2\]
Sin embargo, tienen dos significados muy diferentes: r es una medida de la fuerza y dirección de una relación lineal entre dos
variables; R 2 describe la variación porcentual en “y” que se explica por el modelo.

Gráfica de probabilidad residual y normal


Aunque haya determinado, usando una gráfica de dispersión, coeficiente de correlación y R2, que x es útil para predecir el valor de
y, los resultados de un análisis de regresión son válidos solo cuando los datos satisfacen los supuestos de regresión necesarios.
1. La variable de respuesta (y) es una variable aleatoria mientras que la variable predictora (x) se asume no aleatoria o fija y se
mide sin error.
2. La relación entre y y x debe ser lineal, dada por el modeloy^ = b + b x .
0 1

3. El error de término aleatorio los valores ε son independientes, tienen una media de 0 y una varianza comúnσ , independiente de
2

x, y normalmente se distribuyen.
Podemos usar gráficas residuales para verificar una varianza constante, así como para asegurarnos de que el modelo lineal es de
hecho adecuado. Una gráfica residual es una gráfica de dispersión del valor residual (= observado — valores predichos) versus el
valor predicho o ajustado (como se usa en la gráfica residual). El eje horizontal central se establece en cero. Una propiedad de los
residuos es que suman a cero y tienen una media de cero. Una gráfica residual debe estar libre de cualquier patrón y los residuos
deben aparecer como una dispersión aleatoria de puntos alrededor de cero.
Una gráfica residual sin apariencia de ningún patrón indica que los supuestos del modelo están satisfechos para estos datos.
11155.png

Figura 12. Una parcela residual.


Una gráfica residual que tiene una “forma de abanico” indica una varianza heterogénea (varianza no constante). Los residuos
tienden a abanico o ventilador a medida que la varianza de error aumenta o disminuye.
11142.png

Figura 13. Gráfica residual que indica una varianza no constante.


Una gráfica residual que tiende a “precipitarse” indica que un modelo lineal puede no ser apropiado. El modelo puede necesitar
términos de orden superior de x, o puede ser necesario un modelo no lineal para describir mejor la relación entre y y x. También se
pueden considerar transformaciones en x o y.
11131.png

Figura 14. Una gráfica residual que indica la necesidad de un modelo de orden superior.
Una gráfica de probabilidad normal nos permite comprobar que los errores se distribuyen normalmente. Se grafica los residuos
contra el valor esperado del residual como si hubiera venido de una distribución normal. Recordemos que cuando los residuos se
distribuyen normalmente, seguirán un patrón de línea recta, inclinándose hacia arriba.
Esta parcela no es inusual y no indica ninguna no normalidad con los residuos.
11121.png

Figura 15. Una gráfica de probabilidad normal.


Esta siguiente gráfica ilustra claramente una distribución no normal de los residuos.
11111.png

Figura 16. Una gráfica de probabilidad normal, que ilustra la distribución no normal.
Las violaciones más graves de la normalidad suelen aparecer en las colas de la distribución porque aquí es donde la distribución
normal se diferencia más de otros tipos de distribuciones con una media y propagación similares. La curvatura en uno o ambos
extremos de una gráfica de probabilidad normal es indicativa de no normalidad.

7.2.3 https://espanol.libretexts.org/@go/page/149569
This page titled 7.2: Regresión lineal simple is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane
Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available
upon request.
7.2: Simple Linear Regression by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-
resources-biometrics.

7.2.4 https://espanol.libretexts.org/@go/page/149569
7.3: Modelo poblacional
Nuestro modelo de regresión se basa en una muestra de n observaciones bivariadas extraídas de una mayor población de
mediciones.
$$\ hat y = b_0 +b_1x\]
Utilizamos las medias y desviaciones estándar de nuestros datos de muestra para calcular la pendiente (b 1) y la intersección y (b 0)
con el fin de crear una línea de regresión ordinaria de mínimos cuadrados. Pero queremos describir la relación entre y y x en la
población, no solo dentro de nuestros datos de muestra. Queremos construir un modelo poblacional. Ahora pensaremos en la línea
de mínimos cuadrados calculada a partir de una muestra como estimación de la línea de regresión verdadera para la población.

Definición: El modelo poblacional


μy = β0 + β1 x , dondeμ está la respuesta media poblacional,β es la intersección y, ybeta es la pendiente para el modelo
y 0 1

poblacional.

En nuestra población, podría haber muchas respuestas diferentes por un valor de x. En regresión lineal simple, el modelo asume
que para cada valor de x los valores observados de la variable de respuesta y se distribuyen normalmente con una media que
depende de x. Utilizamos μy para representar estas medias. También asumimos que todos estos medios se encuentran en una línea
recta cuando se trazan contra x (una línea de medias).

Figura 17. El modelo estadístico para regresión lineal; la respuesta media es una función de línea recta de la variable predictora.
Los datos de la muestra se ajustan entonces al modelo estadístico:
Datos = ajuste + residual
$$y_i = (\ beta_0 +\ beta_1x_i) +\ epsilon_i\]
donde los errores (εi) son independientes y normalmente distribuidos N (0, σ). La regresión lineal también asume la misma
varianza de y (σ es la misma para todos los valores de x). Usamos ε (épsilon griego) para representar la parte residual del modelo
estadístico. Una respuesta y es la suma de su media y desviación de probabilidad εde la media. Las desviaciones ε representan el
“ruido” en los datos. Es decir, el ruido es la variación en y debido a otras causas que impiden que la observada (x, y) forme una
línea perfectamente recta.
Los datos de muestra utilizados para la regresión son los valores observados de y y x. La respuesta y a una x dada es una variable
aleatoria, y el modelo de regresión describe la media y desviación estándar de esta variable aleatoria y. La intersección β0, la
pendiente β1 y la desviación estándar σ de y son los parámetros desconocidos del modelo de regresión y deben estimarse a partir de
los datos de la muestra.
El valor de y de la línea de regresión de mínimos cuadrados es realmente una predicción del valor medio de y (μy) para un valor
dado de x.
La línea de regresión de mínimos cuadrados (y^ = b + b x ) obtenida de los datos de la muestra es la mejor estimación de la
0 1

línea de regresión poblacional verdadera


(μ = β + β x ).
y 0 1

7.3.1 https://espanol.libretexts.org/@go/page/149561
y es una estimación imparcial para la respuesta media μy
b 0 es una estimación imparcial para la intercepción β0
b 1 es una estimación imparcial para la pendiente β1

Estimación de parámetros
Una vez que tenemos estimaciones de β0 y β1 (a partir de nuestros datos de muestra b 0 y b 1), la relación lineal determina las
estimaciones de μy para todos los valores de x en nuestra población, no solo para los valores observados de x. Ahora queremos
utilizar la línea de mínimos cuadrados como base para la inferencia sobre una población de la que se extrajo nuestra muestra.
Los supuestos del modelo nos dicen que b 0 y b1 normalmente se distribuyen con medias β0 y β1 con desviaciones estándar que
pueden estimarse a partir de los datos. Los procedimientos de inferencia sobre la línea de regresión poblacional serán similares a
los descritos en el capítulo anterior para las medias. Como siempre, es importante examinar los datos en busca de valores atípicos y
observaciones influyentes.
Para ello, necesitamos estimar σ, el error estándar de regresión. Esta es la desviación estándar de los errores del modelo. Mide la
variación de y sobre la línea de regresión poblacional. Usaremos los residuales para calcular este valor. Recuerde, el valor predicho
de y (p) para una x específica es el punto en la línea de regresión. Es la estimación imparcial de la respuesta media (μy) para esa x.
El residuo es:
residual = observado — predicho
$$\ épsilon_i = y_i —\ hat {y} = y_i - (b_0+b_1x)\]
El residual e i corresponde a la desviación del modeloϵ donde∑ ϵ
i i =0 con una media de 0. El error estándar de regresión s es una
estimación imparcial de σ.
$$s=\ sqrt {\ dfrac {\ suma residual^2} {n-2}} =\ sqrt {\ dfrac {\ sum (y_i-\ hat {y_i}) ^2} {n-2}}\]
La cantidad s es la estimación del error estándar de regresión (σ) y a menudos se denomina error cuadrático medio (MSE). Un
2

pequeño valor de s sugiere que los valores observados de y caen cerca de la línea de regresión verdadera y la líneay^ = b + b x 0 1

debe proporcionar estimaciones y predicciones precisas.

Intervalos de confianza y pruebas de significancia para los parámetros


En un capítulo anterior, construimos intervalos de confianza e hicimos pruebas de significancia para el parámetro poblacional μ (la
media poblacional). Nos basamos en estadísticas de muestra como la media y desviación estándar para estimaciones puntuales,
márgenes de errores y estadísticas de prueba. La inferencia para los parámetros poblacionales β0 (pendiente) y β1 (intersección y)
es muy similar.
La inferencia para la pendiente y la intercepción se basan en la distribución normal utilizando las estimaciones b 0 y b 1. Las
desviaciones estándar de estas estimaciones son múltiplos de σ, el error estándar de regresión poblacional. Recuerde, estimamos σ
con s (la variabilidad de los datos sobre la línea de regresión). Debido a que usamos s, confiamos en la distribución t estudiantil con
(n — 2) grados de libertad.
$$\ sigma_ {\ hat {\ beta_0}} =\ sigma\ sqrt {\ frac {1} {n} +\ dfrac {\ bar x ^2} {\ sum (x_i -\ bar x) ^2}}\]
El error estándar para la estimación deβ 0

$$\ sigma_ {\ hat {\ beta_1}} =\ sigma\ sqrt {\ frac {1} {n} +\ dfrac {\ bar x ^2} {\ sum (x_i -\ bar x) ^2}}\]
El error estándar para la estimación deβ 1

Podemos construir intervalos de confianza para la pendiente de regresión e interceptar de la misma manera que lo hicimos al
estimar la media poblacional.
Un intervalo de confianza paraβ 0 : b0 ± tα/2 S Eb0

Un intervalo de confianza paraβ 1 : b1 ± tα/2 S Eb1

dondeSE b0 ySE
b1 son los errores estándar para la intersección y y la pendiente, respectivamente.
También podemos probar la hipótesisH : β = 0 . Cuando sustituimosβ = 0 en el modelo, el término x cae y nos quedamos con
0 1 1

μ = β . Esto nos dice que la media de y NO varía con x. En otras palabras, no existe una relación de línea recta entre x e y y la
y 0

regresión de y sobre x no tiene ningún valor para predecir y.

7.3.2 https://espanol.libretexts.org/@go/page/149561
Prueba de hipótesis paraβ 1

H0 : β1 = 0

H1 : β1 ≠ 0

El estadístico de prueba est = b1 /S Eb1

También podemos usar el estadístico F (MSR/MSE) en la tabla ANOVA de regresión*


*Recordemos que t2 = F
Así que vamos a juntar todo esto en un ejemplo.

Ejemplo7.3.1:

El índice de integridad biótica (IBI) es una medida de la calidad del agua en los arroyos. Como gerente de los recursos
naturales en esta región, debe monitorear, rastrear y predecir los cambios en la calidad del agua. Se desea crear un modelo de
regresión lineal simple que le permita predecir cambios en IBI en área boscosa. La siguiente tabla muestra datos de una región
forestal costera y da los datos para IBI y área boscosa en kilómetros cuadrados. Que el área forestal sea la variable predictora
(x) e IBI sea la variable de respuesta (y).
11090.png

Cuadro 1. Datos observados de integridad biótica y área forestal.


Solución
Comenzamos con una estadística descriptiva computacional y una gráfica de dispersión del IBI contra Área Forestal.
xï = 47.42; sx 27.37; yï = 58.80; sy = 21.38; r = 0.735
11080.png

Figura 18. Gráfica de dispersión del IBI vs. Área Forestal.


Parece haber una relación lineal positiva entre las dos variables. El coeficiente de correlación lineal es r = 0.735. Esto indica
una relación fuerte, positiva, lineal. En otras palabras, el área forestal es un buen predictor del IBI. Ahora vamos a crear un
modelo de regresión lineal simple usando área de bosque para predecir IBI (respuesta).
Primero, calcularemos b 0 y b 1 usando las ecuaciones de atajo.
$$b_1 = r (\ frac {s_y} {s_x}) = 0.735 (\ frac {21.38} {27.37}) =0.574\]
$$b_0 =\ bar y -b_1\ barra x =58.80-0.574\ times 47.42=31.581\]
La ecuación de regresión es
haty = 31.58 + 0.574x (7.3.1)

.
Ahora usemos Minitab para calcular el modelo de regresión. La salida aparece a continuación.

Análisis de Regresión: IBI versus Área Forestal


La ecuación de regresión es IBI = 31.6 + 0.574 Área Forestal

Predictor Coef SE Coef T P

Constante 31.583 4.177 7.56 0.000

Área Forestal 0.57396 0.07648 7.50 0.000

S = 14.6505 R-Sq = 54.0% R-Sq (adj) = 53.0%

Análisis de varianza

Fuente DF SS MS F P

7.3.3 https://espanol.libretexts.org/@go/page/149561
Regresión 1 12089 12089 56.32 0.000

Error residual 48 10303 215

Total 49 22392

Las estimaciones para β0 y β1 son 31.6 y 0.574, respectivamente. Podemos interpretar la intersección y para significar que
cuando hay cero área boscosa, el IBI será igual a 31.6. Por cada kilómetro cuadrado adicional de área boscosa agregada, el IBI
aumentará en 0.574 unidades.
El coeficiente de determinación, R2, es 54.0%. Esto significa que 54% de la variación en IBI se explica por este modelo.
Aproximadamente el 46% de la variación en el IBI se debe a otros factores o variación aleatoria. Nos gustaría que R2 fuera lo
más alto posible (valor máximo del 100%).
Las gráficas de probabilidad residual y normal no indican ningún problema.
11070.png

Figura 19. Una gráfica de probabilidad residual y normal.


La estimación de σ, el error estándar de regresión, es s = 14.6505. Esta es una medida de la variación de los valores observados
sobre la línea de regresión poblacional. Nos gustaría que este valor fuera lo más pequeño posible. El MSE es igual a 215.
−−−−−
Recuerda, el√M SE = s . Los errores estándar para los coeficientes son 4.177 para la intersección y y 0.07648 para la
pendiente.
Sabemos que los valores b 0 = 31.6 y b 1 = 0.574 son estimaciones muestrales de los parámetros poblacionales verdaderos,
pero desconocidos, β0 y β1. Podemos construir intervalos de confianza del 95% para estimar mejor estos parámetros. El valor
crítico (tα/2) proviene de la distribución t estudiantil con (n — 2) grados de libertad. Nuestro tamaño de muestra es de 50 por
lo que tendríamos 48 grados de libertad. El valor más cercano de la tabla es 2.009.
Intervalos de confianza del 95% para β0 y β1
$$b_0\ pm t_ {\ alpha/2} SE_ {b_0} = 31.6\ pm 2.009 (4.177) = (23.21, 39.99)\]
$$b_1\ pm t_ {\ alpha/2} SE_ {b_1} = 0.574\ pm 2.009 (0.07648) = (0.4204, 0.7277)\]
El siguiente paso es probar que la pendiente es significativamente diferente de cero usando un nivel de significancia del 5%.

H0: β1 =0 H1: β1 ≠ 0

$$t =\ frac {b_1} {SE_ {b_1}} =\ frac {0.574} {0.07648} = 7.50523\]


Tenemos 48 grados de libertad y el valor crítico más cercano de la distribución t estudiantil es 2.009. El estadístico de prueba
es mayor que el valor crítico, por lo que rechazaremos la hipótesis nula. La pendiente es significativamente diferente de cero.
Se encontró una relación estadísticamente significativa entre el Área Forestal y el IBI.
Los resultados de Minitab también reportan el estadístico de prueba y el valor p para esta prueba.

La ecuación de regresión es IBI = 31.6 + 0.574 Área Forestal

Predictor Coef SE Coef T P

Constante 31.583 4.177 7.56 0.000

Área Forestal 0.57396 0.07648 7.50 0.000

S = 14.6505 R-Sq = 54.0% R-Sq (adj) = 53.0%

Análisis de varianza

Fuente DF SS MS F P

Regresión 1 12089 12089 56.32 0.000

Error residual 48 10303 215

Total 49 22392

7.3.4 https://espanol.libretexts.org/@go/page/149561
El estadístico de prueba t es 7.50 con un valor p asociado de 0.000. El valor p es menor que el nivel de significancia (5%) por
lo que rechazaremos la hipótesis nula. La pendiente es significativamente diferente de cero. El mismo resultado se puede
encontrar a partir del estadístico de prueba F de 56.32 (7.5052 = 56.32). El valor p es el mismo (0.000) que la conclusión.

Intervalo de confianza paraμ y

Ahora que hemos creado un modelo de regresión construido sobre una relación significativa entre la variable predictora y la
variable de respuesta, estamos listos para usar el modelo para
estimar el valor promedio de y para un valor dado de x
predecir un valor particular de y para un valor dado de x
Examinemos la primera opción. Los datos muestrales de n pares que se extrajeron de una población se utilizaron para calcular los
coeficientes de regresión b 0 y b1 para nuestro modelo, y nos da el valor promedio de y para un valor específico de x a través de
nuestro modelo poblacionalμ = β + β x
y 0 1

. Por cada valor específico de x, hay un promedio y (μ y), que cae sobre la ecuación de línea recta (una línea de medias). Recuerde,
que puede haber muchos valores observados diferentes de la y para una x particular, y se supone que estos valores tienen una
distribución normal con una media igual aβ + β x y una varianza de σ2. Dado que los valores calculados de b 0 y b1 varían de
0 1

una muestra a otra, cada nueva muestra puede producir una ecuación de regresión ligeramente diferente. Cada nuevo modelo se
puede utilizar para estimar un valor de y para un valor de x. ¿Qué tan lejos estará nuestro estimadory^ = b + b x de la verdadera
0 1

población media para ese valor de x? Esto depende, como siempre, de la variabilidad en nuestro estimador, medida por el error
estándar.
Se puede demostrar que el valor estimado de y cuando x = x 0 (algún valor especificado de x), es un estimador imparcial de la
media poblacional, y que p se distribuye normalmente con un error estándar de
$SE_ {\ sombrero\ mu} = s\ sqrt {\ frac {1} {n} +\ frac {(x_0-\ bar x) ^2} {\ sum (x_i -\ bar x) ^2}}\]
Podemos construir un intervalo de confianza para estimar mejor este parámetro (μy) siguiendo el mismo procedimiento ilustrado
anteriormente en este capítulo.
$$\ hat {\ mu_y}\ pm t_ {\ alpha/2} SE_ {\ sombrero\ mu}\]
donde el valor crítico tα/2 proviene de la tabla t estudiantil con (n — 2) grados de libertad.
El software estadístico, como Minitab, calculará los intervalos de confianza por usted. Usando los datos del ejemplo anterior,
utilizaremos Minitab para calcular el intervalo de confianza del 95% para la respuesta media para un área boscosa promedio de 32
km.

Valores pronosticados para nuevas observaciones

Nuevo ajuste de Obs SE Fit 95% CI

1 49.9496 2.38400 (45.1562,54.7429)

Si muestreaste muchas áreas que promediaron 32 km. de superficie boscosa, tu estimación del IBI promedio sería de 45.1562 a
54.7429.
Puede repetir este proceso muchas veces para varios valores diferentes de x y trazar los intervalos de confianza para la respuesta
media.

x IC 95%

20 (37.13, 48.88)

40 (50.22, 58.86)

60 (61.43, 70.61)

80 (70.98, 84.02)

100 (79.88, 98.07)

11060.png

7.3.5 https://espanol.libretexts.org/@go/page/149561
Figura 20. Intervalos de confianza del 95% para la respuesta media.
Observe cómo varía el ancho del intervalo de confianza del 95% para los diferentes valores de x. Dado que el ancho del intervalo
de confianza es más estrecho para los valores centrales de x, se deduce que μy se estima con mayor precisión para los valores de x
en esta área. A medida que avanza hacia los límites extremos de los datos, el ancho de los intervalos aumenta, lo que indica que
sería imprudente extrapolar más allá de los límites de los datos utilizados para crear este modelo.

Intervalos de predicción
¿Y si quieres predecir un valor particular de y cuándox = x ? O, ¿quizás quieres predecir la siguiente medición para un valor dado
0

de x? Este problema difiere de construir un intervalo de confianza paraμ . En lugar de construir un intervalo de confianza para
y

estimar un parámetro de población, necesitamos construir un intervalo de predicción. Elegir predecir un valor particular de y
incurre en algún error adicional en la predicción debido a la desviación de y de la línea de medias. Examine la figura a
continuación. Se puede ver que el error en la predicción tiene dos componentes:
1. El error en el uso de la línea ajustada para estimar la línea de medias
2. El error causado por la desviación de y de la línea de medias, medido porσ 2

136.tif

Figura 21. Ilustrando los dos componentes en el error de predicción.


La varianza de la diferencia entre y yy^ es la suma de estas dos varianzas y forma la base para el error estándar de(y − y^) utilizado
para la predicción. La forma resultante de un intervalo de predicción es la siguiente:
$$\ hat y\ pm t_ {\ alpha/2} s\ sqrt {1+\ frac {1} {n} +\ frac {(x_0 -\ bar x) ^2} {\ sum (x_i -\ bar x) ^2}}\]
donde x 0 es el valor dado para la variable predictora, n es el número de observaciones, yt α/2
es el valor crítico con (n — 2) grados
de libertad.
El software, como Minitab, puede calcular los intervalos de predicción. Usando los datos del ejemplo anterior, utilizaremos Minitab
para calcular el intervalo de predicción del 95% para el IBI de un área boscosa específica de 32 km.

Valores pronosticados para nuevas observaciones

Nuevo Obs Fit SE Fit 95% PI

1 49.9496 2.38400 (20.1053, 79.7939)

Puede repetir este proceso muchas veces para varios valores diferentes de x y trazar los intervalos de predicción para la respuesta
media.

x 95% PI

20 (13.01, 73.11)

40 (24.77, 84.31)

60 (36.21, 95.83)

80 (47.33, 107.67)

100 (58.15, 119.81)

Observe que las bandas de intervalo de predicción son más anchas que las bandas de intervalo de confianza correspondientes,
reflejando el hecho de que estamos predicando el valor de una variable aleatoria en lugar de estimar un parámetro de población.
Esperaríamos que las predicciones para un valor individual fueran más variables que las estimaciones de un valor promedio.
10592.png

Figura 22. Comparación de intervalos de confianza e predicción.

Transformaciones para Linealizar Relaciones de Datos


En muchas situaciones, la relación entre x e y es no lineal. Para simplificar el modelo subyacente, podemos transformar o convertir
x o y o ambos para dar como resultado una relación más lineal. Hay muchas transformaciones comunes como logarítmica y

7.3.6 https://espanol.libretexts.org/@go/page/149561
recíproca. Incluir términos de orden superior en x también puede ayudar a linealizar la relación entre x e y. A continuación se
muestran algunas formas comunes de diagramas de dispersión y posibles opciones para transformaciones. Sin embargo, la elección
de la transformación suele ser más una cuestión de prueba y error que de reglas establecidas.
CH7DataRelationship4

CH7DataRelationship3

CH7DataRelationship2

CH7DataRelationship1

Figura 23. Ejemplos de posibles transformaciones para las variables x e y.

Ejemplo7.3.2:

Un silvicultor necesita crear un modelo de regresión lineal simple para predecir el volumen del árbol usando diámetro a la
altura del pecho (dbh) para arces azucareros. Recolecta dbh y volumen para 236 arces azucareros y parcelas volumen versus
dbh. A continuación se muestra la gráfica de dispersión, el coeficiente de correlación y la salida de regresión de Minitab.
10541.png

Figura 24. Gráfica de dispersión de volumen versus dbh.


El coeficiente de correlación lineal de Pearson es 0.894, lo que indica una relación lineal fuerte, positiva. Sin embargo, la
gráfica de dispersión muestra una relación no lineal distinta.

Análisis de Regresión: volumen versus dbh


La ecuación de regresión es volume = — 51.1 + 7.15 dbh

Predictor Coef SE Coef T P

Constante -51.097 3.271 -15.62 0.000

dbh 7.1500 0.2342 30.53 0.000

S = 19.5820 R-Sq = 79.9% R-Sq (adj) = 79.8%

Análisis de varianza

Fuente DF SS MS F P

Regresión 1 357397 357397 932.04 0.000

Error residual 234 89728 383

Total 235 447125

El R2 es 79.9% lo que indica un modelo bastante fuerte y la pendiente es significativamente diferente de cero. Sin embargo,
tanto la gráfica residual como la gráfica de probabilidad normal residual indican serios problemas con este modelo. Una
transformación puede ayudar a crear una relación más lineal entre volumen y dbh.
10531.png

Figura 25. Gráficas de probabilidad residual y normal.


El volumen se transformó al logaritmo natural de volumen y se representó frente a dbh (ver diagrama de dispersión a
continuación). Desafortunadamente, esto hizo poco para mejorar la linealidad de esta relación. Luego, el silvicultor tomó la
transformación de bitácora natural de dbh. La gráfica de dispersión del logaritmo natural de volumen versus el logaritmo
natural de dbh indicó una relación más lineal entre estas dos variables. El coeficiente de correlación lineal es 0.954.
10521.png

Figura 26. Gráficas de dispersión de log natural de volumen versus dbh y log natural de volumen versus log natural de dbh.
El resultado del análisis de regresión de Minitab se da a continuación.

7.3.7 https://espanol.libretexts.org/@go/page/149561
Análisis de Regresión: LnVol vs LnDBh
La ecuación de regresión es LnVol = — 2.86 + 2.44 LnDBh

Predictor Coef SE Coef T P

Constante -2.8571 0.1253 -22.80 0.000

LnDBh 2.44383 0.05007 48.80 0.000

S = 0.327327 R-Sq = 91.1% R-Sq (adj) = 91.0%

Análisis de varianza

Fuente DF SS MS F P

Regresión 1 255.19 255.19 2381.78 0.000

Error residual 234 25.07 0.11

Total 235 280.26

10512.png

Figura 27. Gráficas de probabilidad residual y normal.


El modelo que utiliza los valores transformados de volumen y dbh tiene una relación más lineal y un coeficiente de correlación
más positivo. La pendiente es significativamente diferente de cero y el R2 ha aumentado de 79.9% a 91.1%. La gráfica residual
muestra un patrón más aleatorio y la gráfica de probabilidad normal muestra alguna mejora.
Existen muchas combinaciones de transformación posibles para linealizar los datos. Cada situación es única y el usuario puede
necesitar probar varias alternativas antes de seleccionar la mejor transformación para x o y o ambas.

This page titled 7.3: Modelo poblacional is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane
Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available
upon request.
7.3: Population Model by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-resources-
biometrics.

7.3.8 https://espanol.libretexts.org/@go/page/149561
7.4: Solución de software
Minitab
145_1.tif

145_2.tif

La salida de Minitab se muestra arriba en el Ej. 4.

Excel
143_1.tif

143_2.tif

143_3.tif

144.tif

Figura 28. Gráfica de probabilidad residual y normal.

This page titled 7.4: Solución de software is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane
Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available
upon request.
7.4: Software Solution by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-resources-
biometrics.

7.4.1 https://espanol.libretexts.org/@go/page/149560
CHAPTER OVERVIEW

8: Regresión Lineal Múltiple


8.1: Regresiones Múltiples
8.2: Solución de software
8.3: Sección 3-
8.4: Sección 4-
8.5: Sección 5-
8.6: Sección 6-

This page titled 8: Regresión Lineal Múltiple is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane
Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available
upon request.

1
8.1: Regresiones Múltiples
Con frecuencia sucede que una variable dependiente (y) en la que nos interesa está relacionada con más de una variable
independiente. Si se puede estimar esta relación, puede permitirnos hacer predicciones más precisas de la variable dependiente de
lo que sería posible mediante una simple regresión lineal. Las regresiones basadas en más de una variable independiente se
denominan regresiones múltiples.
La regresión lineal múltiple es una extensión de la regresión lineal simple y muchas de las ideas que examinamos en regresión
lineal simple se trasladan al ajuste de regresión múltiple. Por ejemplo, las gráficas de dispersión, la correlación y el método de
mínimos cuadrados siguen siendo componentes esenciales para una regresión múltiple.
Por ejemplo, un índice de idoneidad del hábitat (utilizado para evaluar el impacto en el hábitat de la vida silvestre de los cambios
en el uso de la tierra) para el urogallo volado podría estar relacionado con tres factores:
x 1 = densidad del tallo
x 2 = porcentaje de coníferas
x 3 = cantidad de materia herbácea del sotobosque
Un investigador recopilaría datos sobre estas variables y utilizaría los datos de la muestra para construir una ecuación de regresión
que relacionara estas tres variables con la respuesta. El investigador tendrá dudas sobre su modelo similar a un modelo de regresión
lineal simple.
¿Qué tan fuerte es la relación entre y y las tres variables predictoras?
¿Qué tan bien encaja el modelo?
¿Se han violado algunas suposiciones importantes?
¿Qué tan buenas son las estimaciones y predicciones?
El modelo de regresión lineal general toma la forma de
$y_i =\ beta_0+\ beta_1x_1+\ beta_2x_2 +... +\ beta_kx_k+\ épsilon\]
con el valor medio de y dado como
μy = β0 + β1 x1 + β2 x2 +. . . +βk xk (8.1.1)

donde:
y es la variable de respuesta aleatoria y μy es el valor medio de y,
β0, β1, β2 y βk son los parámetros a estimar con base en los datos de la muestra,
x 1, x 2,..., x k son las variables predictoras que se suponen no aleatorias o fijas y medidas sin error, y k es el número de
variables predictoras,
y ε es el error aleatorio, que permite que cada respuesta se desvíe del valor promedio de y. Se supone que los errores son
independientes, tienen una media de cero y una varianza común (σ2), y se distribuyen normalmente.
Como puede ver, el modelo de regresión múltiple y los supuestos son muy similares a los de un modelo de regresión lineal simple
con una variable predictora. Examinar las parcelas residuales y las gráficas de probabilidad normal para los residuos es clave para
verificar los supuestos.

Correlación
Al igual que con la regresión lineal simple, siempre debemos comenzar con una gráfica de dispersión de la variable de respuesta
versus cada variable predictora. También se deben calcular los coeficientes de correlación lineal para cada par. En lugar de calcular
la correlación de cada par individualmente, podemos crear una matriz de correlación, que muestra la correlación lineal entre cada
par de variables bajo consideración en un modelo de regresión lineal múltiple.
13236.png

Cuadro 1. Una matriz de correlación.


En esta matriz, el valor superior es el coeficiente de correlación lineal y el valor inferior es el valor p para probar la hipótesis nula
de que un coeficiente de correlación es igual a cero. Esta matriz nos permite ver la fuerza y dirección de la relación lineal entre
cada variable predictora y la variable de respuesta, pero también la relación entre las variables predictoras. Por ejemplo, y y x1

8.1.1 https://espanol.libretexts.org/@go/page/149538
tienen una relación lineal fuerte y positiva con r = 0.816, lo cual es estadísticamente significativo porque p = 0.000. También
podemos ver que las variables predictoras x1 y x3 tienen una relación lineal positiva moderadamente fuerte (r = 0.588) que es
significativa (p = 0.001).
Hay muchas razones diferentes para seleccionar qué variables explicativas incluir en nuestro modelo (ver Desarrollo y Selección
del Modelo), sin embargo, frecuentemente elegimos las que tienen una correlación lineal alta con la variable de respuesta, pero
debemos tener cuidado. No queremos incluir variables explicativas que estén altamente correlacionadas entre sí. Necesitamos ser
conscientes de cualquier multicolinealidad entre las variables predictoras.
La multicolinealidad existe entre dos variables explicativas si tienen una fuerte relación lineal.
Por ejemplo, si estamos tratando de predecir la presión arterial de una persona, una variable predictora sería el peso y otra variable
predictora sería la dieta. Ambas variables predictoras están altamente correlacionadas con la presión arterial (ya que el peso
aumenta la presión arterial típicamente aumenta, y a medida que la dieta aumenta la presión arterial también aumenta). Pero, ambas
variables predictoras también están altamente correlacionadas entre sí. Ambas variables predictoras están transmitiendo
esencialmente la misma información a la hora de explicar la presión arterial. Incluir ambos en el modelo puede generar problemas a
la hora de estimar los coeficientes, ya que la multicolinealidad incrementa los errores estándar de los coeficientes. Esto significa
que los coeficientes para algunas variables pueden no ser significativamente diferentes de cero, mientras que sin multicolinealidad
y con errores estándar más bajos, los mismos coeficientes podrían haberse encontrado significativos. Las formas de probar la
multicolinealidad no están cubiertas en este texto, sin embargo, una regla general es desconfiar de una correlación lineal de menos
de -0.7 y mayor de 0.7 entre dos variables predictoras. Siempre examine la matriz de correlación para las relaciones entre las
variables predictoras para evitar problemas de multicolinealidad.

Estimación
Los procedimientos de estimación e inferencia también son muy similares a la regresión lineal simple. Así como usamos nuestros
datos de muestra para estimar β0 y β1 para nuestro modelo de regresión lineal simple, vamos a extender este proceso para estimar
todos los coeficientes para nuestros modelos de regresión múltiple.
Con el modelo poblacional más simple
x $$\ mu_y =\ beta_0+\ beta_1x\]
β1 es la pendiente y le dice al usuario cuál sería el cambio en la respuesta a medida que cambia la variable predictora. Con
múltiples variables predictoras, y por lo tanto múltiples parámetros a estimar, los coeficientes β1, β2, β3 y así sucesivamente se
denominan pendientes parciales o coeficientes de regresión parcial. La pendiente parcial βi mide el cambio en y para un cambio de
una unidad en x i cuando todas las demás variables independientes se mantienen constantes. Estos coeficientes de regresión
deben estimarse a partir de los datos de la muestra para obtener la forma general de la ecuación de regresión múltiple estimada
y
^ = b0 + b1 x1 + b2 x2 + b3 x3 +. . . +bk xk (8.1.2)

y el modelo poblacional
μy = β0 + β1 x1 + β2 x2 + β3 x3 +. . . +βk xk (8.1.3)

donde k = el número de variables independientes (también llamadas variables predictoras)


y = el valor predicho de la variable dependiente (calculado usando la ecuación de regresión múltiple)
x 1, x 2,..., x k = las variables independientes
β0 es la intercepción y (el valor de y cuando todas las variables predictoras son iguales a 0)
b 0 es la estimación de β0 basada en los datos de esa muestra
β1, β2, β3,... βk son los coeficientes de las variables independientes x 1, x 2,..., x k
b 1, b 2, b 3,..., b k son las estimaciones muestrales de los coeficientes β1, β2, β3,... βk
El método de mínimos cuadrados se sigue utilizando para ajustar el modelo a los datos. Recuerde que este método minimiza la
suma de las desviaciones cuadradas de los valores observados y predichos (SSE).
La tabla de análisis de varianza para regresión múltiple tiene una apariencia similar a la de una regresión lineal simple.
13226.png

8.1.2 https://espanol.libretexts.org/@go/page/149538
Cuadro 2. Tabla ANOVA.
Donde k es el número de variables predictoras y n es el número de observaciones.
La mejor estimación de la variación aleatoriaσ —la variación que no se explica por las variables predictoras— sigue siendo s2, el
2

MSE. El error estándar de regresión, s, es la raíz cuadrada del MSE.


Una nueva columna en la tabla ANOVA para regresión lineal múltiple muestra una descomposición de SSR, en la que se muestra la
contribución condicional de cada variable predictora dadas las variables ya ingresadas en el modelo para el orden de entrada que
especifique en su regresión. Estas sumas condicionales o secuenciales de cuadrados representan cada una 1 grado de libertad de
regresión, y permiten al usuario ver la contribución de cada variable predictora a la variación total explicada por el modelo de
regresión mediante el uso de la relación:
SeqSS
(8.1.4)
SSR

AjustadoR 2

En regresión lineal simple, se utilizó la relación entre la variación explicada y la variación total como medida del ajuste del modelo:

2
Explained V ariation SSR SSE
R = = =1− (8.1.5)
T otal V ariation SST o SST o

Observe a partir de esta definición que el valor del coeficiente de determinación nunca podrá disminuir con la adición de más
variables al modelo de regresión. Por lo tanto, seR puede inflar artificialmente a medida que se incluyen más variables
2

(significativas o no) en el modelo. Una medida alternativa de fuerza del modelo de regresión se ajusta para grados de libertad
mediante el uso de cuadrados medios en lugar de sumas de cuadrados:
2
(n − 1)(1 − R ) M SE
2
R (adj) = 1 − = (1 − ) (8.1.6)
(n − p) SST o/(n − 1)

ElR valor ajustado representa el porcentaje de variación en la variable de respuesta explicado por las variables independientes,
2

corregidas por grados de libertad. A diferenciaR , el ajustadoR no tenderá a aumentar a medida que se agregan variables y
2 2

tenderá a estabilizarse alrededor de algún límite superior a medida que se agreguen variables.

Pruebas de significación
Recordemos en el capítulo anterior probamos para ver si y y x estaban linealmente relacionados mediante pruebas

H0 : β1 = 0 H1 : β1 ≠ 0

con la prueba t (o la prueba F equivalente). En regresión lineal múltiple, hay varias pendientes parciales y la prueba t y la prueba F
ya no son equivalentes. Nuestra pregunta cambia: ¿La ecuación de regresión que utiliza información proporcionada por las
variables predictoras x1, x2, x3,..., xk, es mejor que el predictor simple 13615.png (el valor medio de respuesta), que no se basa en
ninguna de estas variables independientes?
H0 : β1 = β2 = β3 = … = βk = 0

H 1 : At least one of β1 , β2 , β3 , … βk ≠ 0

El estadístico de prueba F se utiliza para responder a esta pregunta y se encuentra en la tabla ANOVA.
M SR
F = (8.1.7)
M SE

Este estadístico de prueba sigue la distribución F condf = k ydf


1 2 = (n − k − 1) . Dado que el valor p exacto se da en la salida,
puede usar la Regla de Decisión para responder a la pregunta.
Si el valor p es menor que el nivel de significancia, rechace la hipótesis nula.
Rechazar la hipótesis nula respalda la afirmación de que al menos una de las variables predictoras tiene una relación lineal
significativa con la variable de respuesta. El siguiente paso es determinar qué variables predictoras agregan información importante
para la predicción en presencia de otros predictores ya en el modelo. Para probar la significancia de los coeficientes de regresión
parcial, es necesario examinar cada relación por separado usando pruebas t individuales.

8.1.3 https://espanol.libretexts.org/@go/page/149538
H0 : β = 0 H1 : β ≠ 0
i i

$$t=\ dfrac {b_i-\ beta_o} {SE (b_i)}\ con\ df = (n-k-1)\]


donde SE (b i) es el error estándar de b i. También se dan valores p exactos para estas pruebas. Examinar valores p específicos para
cada variable predictora le permitirá decidir qué variables están significativamente relacionadas con la variable de respuesta.
Normalmente, cualquier variable insignificante se elimina del modelo, pero recuerde que estas pruebas se realizan con otras
variables en el modelo. Un buen procedimiento es eliminar la variable menos significativa y luego reajustar el modelo con el
conjunto de datos reducido. Con cada nuevo modelo, siempre verifique el error estándar de regresión (menor es mejor), el R 2
ajustado (mayor es mejor), los valores p para todas las variables predictoras, y las gráficas de probabilidad residual y normal.
Debido a la complejidad de los cálculos, confiaremos en el software para ajustarnos al modelo y darnos los coeficientes de
regresión. No olvides... siempre comienzas con tramas de dispersión. Las fuertes relaciones entre las variables predictoras y de
respuesta hacen que sea un buen modelo.

Ejemplo8.1.1:

Un investigador recopiló datos en un proyecto para predecir el crecimiento anual por acre de bosques boreales de tierras altas
en el sur de Canadá. Ellos plantearon la hipótesis de que el crecimiento volumétrico del pie cúbico (y) es una función del área
basal del rodal por acre (x 1), el porcentaje de esa área basal en el abeto negro (x 2), y el índice de sitio del rodal para el abeto
negro (x 3). α = 0.05.

132151.png

Cuadro 3. Datos observados para pies cúbicos, área basal del rodal, porcentaje de área basal en abeto negro e índice de sitio.
Se crearon diagramas de dispersión de la variable de respuesta versus cada variable predictora junto con una matriz de correlación.
13205.png

Figura 1. Gráficas de dispersión de pies cúbicos versus área basal, porcentaje de área basal en abeto negro e índice de sitio.
13195.png

Cuadro 4. Matriz de correlación.


Como puede ver en las gráficas de dispersión y la matriz de correlación, Ba/Ac tiene la relación lineal más fuerte con el volumen
de CuFT (r = 0.816) y %BA en abeto negro tiene la relación lineal más débil (r = 0.413). También es de destacar la correlación
moderadamente fuerte entre las dos variables predictoras, Ba/Ac y SI (r = 0.588). Las tres variables predictoras tienen relaciones
lineales significativas con la variable de respuesta (volumen), por lo que comenzaremos usando todas las variables en nuestro
modelo de regresión lineal múltiple. La salida de Minitab se da a continuación.
Comenzamos probando las siguientes hipótesis nulas y alternativas:
H 0: β 1 = β 2 = β 3 = 0
H 1: Al menos uno de β 1, β 2, β 3 ≠ 0

Análisis de Regresión General: CuFT versus Ba/AC, SI, %BA Bspruce


Ecuación de regresión
CuFt = -19.3858 + 0.591004 Ba/ac + 0.0899883 SI + 0.489441 %BA Bspruce
Coeficientes

Término Coef SE Coef T P 95% CI

Constante -19.3858 4.15332 -4.6675 0.000 (-27.9578, -10.8137)

Ba/AC 0.5910 0.04294 13.7647 0.000 (0.5024, 0.6796)

SI 0.0900 0.11262 0.7991 0.432 (-0.1424, 0.3224)

%BA Bspruce 0.4894 0.05245 9.3311 0.000 (0.3812, 0.5977)

Resumen de Model

8.1.4 https://espanol.libretexts.org/@go/page/149538
S = 3.17736 R-Sq = 95.53% R-Sq (adj) = 94.97%

PRENSA = 322.279 R-Sq (pred) = 94.05%

Análisis de varianza

Fuente DF Seq SS Adj SS Adj MS F P

Regresión 3 5176.56 5176.56 1725.52 170.918 0.000000

Ba/AC 1 3611.17 1912.79 1912.79 189.467 0.000000

SI 1 686.37 6.45 6.45 0.638 0.432094

%BA Bspruce 1 879.02 879.02 879.02 87.069 0.000000

Error 24 242.30 242.30 10.10

Total 27 5418.86

El estadístico de prueba F (y el valor p asociado) se utiliza para responder a esta pregunta y se encuentra en la tabla ANOVA. Para
este ejemplo, F = 170.918 con un valor p de 0.00000. El valor p es menor que nuestro nivel de significancia (0.0000<0.05) por lo
que rechazaremos la hipótesis nula. Al menos una de las variables predictoras contribuye significativamente a la predicción del
volumen.
Los coeficientes para las tres variables predictoras son todos positivos, lo que indica que a medida que aumentan el volumen del pie
cúbico también aumentará. Por ejemplo, si mantenemos constantes los valores de SI y %BA Bspruce, esta ecuación nos dice que a
medida que el área basal aumenta en 1 pie cuadrado, el volumen aumentará 0.591004 pies cúbicos adicionales. Los signos de estos
coeficientes son lógicos, y lo que esperaríamos. El R 2 ajustado también es muy alto en 94.97%.
El siguiente paso es examinar las pruebas t individuales para cada variable predictora. Las estadísticas de prueba y los valores p
asociados se encuentran en la salida de Minitab y se repiten a continuación:

Coeficientes

Término Coef SE Coef T P 95% CI

Constante -19.3858 4.15332 -4.6675 0.000 (-27.9578, -10.8137)

Ba/AC 0.5910 0.04294 13.7647 0.000 (0.5024, 0.6796)

SI 0.0900 0.11262 0.7991 0.432 (-0.1424, 0.3224)

%BA Bspruce 0.4894 0.05245 9.3311 0.000 (0.3812, 0.5977)

Las variables predictoras Ba/ac y %BA Bspruce tienen estadísticas t de 13.7647 y 9.3311 y valores p de 0.0000, lo que indica que
ambas están contribuyendo significativamente a la predicción del volumen. Sin embargo, el SI tiene un estadístico t de 0.7991 con
un valor p de 0.432. Esta variable no contribuye significativamente a la predicción del volumen de pies cúbicos.
Este resultado puede sorprenderte ya que SI tuvo la segunda relación más fuerte con el volumen, pero no te olvides de la
correlación entre SI y Ba/ac (r = 0.588). La variable predictora Ba/ac tuvo la relación lineal más fuerte con el volumen, y usando
las sumas secuenciales de cuadrados, podemos ver que Ba/ac ya está representando 70% de la variación en el volumen de pies
cúbicos (3611.17/5176.56 = 0.6976). La información del SI puede ser demasiado similar a la información en BA/ac, y el SI solo
explica alrededor del 13% de la variación del volumen (686.37/5176.56 = 0.1326) dado que Ba/AC ya está en el modelo.
El siguiente paso es examinar las gráficas de probabilidad residual y normal. Un único valor atípico es evidente en las parcelas por
lo demás aceptables.
13186.png

Figura 2. Gráficas de probabilidad residual y normal.


Entonces, ¿a dónde vamos desde aquí?
Eliminaremos la variable no significativa y volveremos a ajustar el modelo excluyendo los datos para SI en nuestro modelo. La
salida de Minitab se da a continuación.

8.1.5 https://espanol.libretexts.org/@go/page/149538
Análisis de Regresión General: CuFT versus Ba/AC, %BA Bspruce
Ecuación de regresión
CuFt = -19.1142 + 0.615531 Ba/ac + 0.515122 %BA Bspruce
Coeficientes

Término Coef SE Coef T P 95% CI

Constante -19.1142 4.10936 -4.6514 0.000 (-27.5776, -10.6508)

Ba/AC 0.6155 0.02980 20.6523 0.000 (0.5541, 0.6769)

%BA Bspruce 0.5151 0.04115 12.5173 0.000 (0.4304, 0.5999)

Resumen de Model

S = 3.15431 R-Sq = 95.41% R-Sq (adj) = 95.04%

PRENSA = 298.712 R-Sq (pred) = 94.49%

Análisis de varianza

Fuente DF SeqSS AdJSS AdJMS F P

Regresión 2 5170.12 5170.12 2585.06 259.814 0.0000000

Ba/AC 1 3611.17 4243.71 4243.71 426.519 0.0000000

%BA Bspruce 1 1558.95 1558.95 1558.95 156.684 0.0000000

Error 25 248.74 248.74 9.95

Total 27 5418.86

Repetiremos los pasos seguidos con nuestro primer modelo. Comenzamos por probar de nuevo las siguientes hipótesis:
H0 : β1 = β2 = β3 = 0

H1 : At least one of β1 , β2 , β3 ≠ 0

Este modelo reducido tiene un estadístico F igual a 259.814 y un valor p de 0.0000. Rechazaremos la hipótesis nula. Al menos una
de las variables predictoras contribuye significativamente a la predicción del volumen. Los coeficientes siguen siendo positivos
(como esperábamos) pero los valores han cambiado para dar cuenta del modelo diferente.
Las pruebas t individuales para cada coeficiente (repetido a continuación) muestran que ambas variables predictoras son
significativamente diferentes de cero y contribuyen a la predicción del volumen.

Coeficientes

Término Coef SE Coef T P 95% CI

Constante -19.1142 4.10936 -4.6514 0.000 (-27.5776, -10.6508)

Ba/AC 0.6155 0.02980 20.6523 0.000 (0.5541, 0.6769)

%BA Bspruce 0.5151 0.04115 12.5173 0.000 (0.4304, 0.5999)

Observe que el R2 ajustado ha aumentado de 94.97% a 95.04% indicando un ajuste ligeramente mejor a los datos. El error estándar
de regresión también ha cambiado para mejor, disminuyendo de 3.17736 a 3.15431 indicando una variación ligeramente menor de
los datos observados al modelo.
131751.png

Figura 3. Gráficas de probabilidad residual y normal.


Las gráficas de probabilidad residual y normal han cambiado poco, sin indicar ningún problema con el supuesto de regresión. Al
eliminar la variable no significativa, el modelo ha mejorado.

This page titled 8.1: Regresiones Múltiples is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane
Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available

8.1.6 https://espanol.libretexts.org/@go/page/149538
upon request.
8.1: Multiple Regressions by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-
resources-biometrics.

8.1.7 https://espanol.libretexts.org/@go/page/149538
8.2: Solución de software
Desarrollo y selección de modelos
Hay muchas razones diferentes para crear un modelo de regresión lineal múltiple y su propósito influye directamente en cómo se
crea el modelo. A continuación se enumeran varios de los usos más comunes para un modelo de regresión:
1. Describir el comportamiento de su variable de respuesta
2. Predecir una respuesta o estimar la respuesta promedio
3. Estimando los parámetros (β0, β1, β2,...)
4. Desarrollo de un modelo preciso del proceso
Dependiendo de su objetivo para crear un modelo de regresión, su metodología puede variar cuando se trata de selección, retención
y eliminación de variables.
Cuando el objeto es una descripción simple de su variable de respuesta, normalmente le preocupa menos eliminar variables no
significativas. La mejor representación de la variable respuesta, en términos de sumas residuales mínimas de cuadrados, es el
modelo completo, que incluye todas las variables predictoras disponibles del conjunto de datos. Es menos importante que las
variables estén relacionadas causalmente o que el modelo sea realista.
Una razón común para crear un modelo de regresión es para la predicción y estimación. Un investigador quiere ser capaz de definir
eventos dentro del espacio x de los datos que fueron recolectados para este modelo, y se asume que el sistema continuará
funcionando como lo hizo cuando se recolectaron los datos. Se debe incluir cualquier variable predictora medible que contenga
información sobre la variable de respuesta. Por esta razón, las variables no significativas pueden ser conservadas en el modelo. Sin
embargo, las ecuaciones de regresión con menos variables son más fáciles de usar y tienen una ventaja económica en términos de
recolección de datos. Adicionalmente, existe una mayor confianza unida a los modelos que contienen solo variables significativas.
Si el objetivo es estimar los parámetros del modelo, será más cauteloso al considerar la eliminación de variables. Se quiere evitar
introducir un sesgo eliminando una variable que tenga información predictiva sobre la respuesta. Sin embargo, existe una ventaja
estadística en términos de varianza reducida de las estimaciones de parámetros si se eliminan las variables verdaderamente no
relacionadas con la variable de respuesta.
Construir un modelo realista del proceso que estás estudiando es a menudo un objetivo principal de mucha investigación. Es
importante identificar las variables que están vinculadas a la respuesta a través de alguna relación causal. Si bien se puede
identificar qué variables tienen una fuerte correlación con la respuesta, esto solo sirve como indicador de qué variables requieren un
estudio adicional. El objetivo principal es desarrollar un modelo cuya forma funcional refleje de manera realista el comportamiento
de un sistema.
La siguiente figura es una estrategia para construir un modelo de regresión.
153_1.tif

Figura 4. Estrategia para construir un modelo de regresión.

Soluciones de Software
Minitab
155_1.tif

155_2.tif

155_3.tif

La salida y las parcelas se dan en el ejemplo anterior.

Excel
154_1.tif

154_2.tif

154_3.tif

8.2.1 https://espanol.libretexts.org/@go/page/149545
154_4.tif

This page titled 8.2: Solución de software is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane
Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available
upon request.
8.2: Software Solution by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-resources-
biometrics.

8.2.2 https://espanol.libretexts.org/@go/page/149545
8.3: Sección 3-

Su página se ha creado.
Borre este contenido y añada el suyo.

Editar página
Haga clic en el botón Editar página de su barra de usuario. Verá la estructura sugerida para su contenido. Agregue su
contenido y pulse Guardar.

Consejos:

Arrastrar y soltar
Arrastre uno o más archivos de imagen desde su equipo y suéltelos en la ventana del navegador para añadirlos a su página.

Clasificaciones
Las etiquetas se utilizan para vincular páginas entre sí a través de temas comunes. Las etiquetas también se utilizan como
marcadores para la organización dinámica de contenido en el framework de CXone Expert.

Cómo trabajar con plantillas


Lasplantillas de CXone Expert le ayudan a dirigir y organizar su documentación, haciendo que fluya más fácilmente y de
forma más uniforme. Edite las plantillas existentes o cree sus propias plantillas.

Visite para consultar todos los temas de ayuda.

This page titled 8.3: Sección 3- is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane Kiernan
(OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon
request.

8.3.1 https://espanol.libretexts.org/@go/page/149552
8.4: Sección 4-

Su página se ha creado.
Borre este contenido y añada el suyo.

Editar página
Haga clic en el botón Editar página de su barra de usuario. Verá la estructura sugerida para su contenido. Agregue su
contenido y pulse Guardar.

Consejos:

Arrastrar y soltar
Arrastre uno o más archivos de imagen desde su equipo y suéltelos en la ventana del navegador para añadirlos a su página.

Clasificaciones
Las etiquetas se utilizan para vincular páginas entre sí a través de temas comunes. Las etiquetas también se utilizan como
marcadores para la organización dinámica de contenido en el framework de CXone Expert.

Cómo trabajar con plantillas


Lasplantillas de CXone Expert le ayudan a dirigir y organizar su documentación, haciendo que fluya más fácilmente y de
forma más uniforme. Edite las plantillas existentes o cree sus propias plantillas.

Visite para consultar todos los temas de ayuda.

This page titled 8.4: Sección 4- is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane Kiernan
(OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon
request.

8.4.1 https://espanol.libretexts.org/@go/page/149537
8.5: Sección 5-

Su página se ha creado.
Borre este contenido y añada el suyo.

Editar página
Haga clic en el botón Editar página de su barra de usuario. Verá la estructura sugerida para su contenido. Agregue su
contenido y pulse Guardar.

Consejos:

Arrastrar y soltar
Arrastre uno o más archivos de imagen desde su equipo y suéltelos en la ventana del navegador para añadirlos a su página.

Clasificaciones
Las etiquetas se utilizan para vincular páginas entre sí a través de temas comunes. Las etiquetas también se utilizan como
marcadores para la organización dinámica de contenido en el framework de CXone Expert.

Cómo trabajar con plantillas


Lasplantillas de CXone Expert le ayudan a dirigir y organizar su documentación, haciendo que fluya más fácilmente y de
forma más uniforme. Edite las plantillas existentes o cree sus propias plantillas.

Visite para consultar todos los temas de ayuda.

This page titled 8.5: Sección 5- is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane Kiernan
(OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon
request.

8.5.1 https://espanol.libretexts.org/@go/page/149544
8.6: Sección 6-

Su página se ha creado.
Borre este contenido y añada el suyo.

Editar página
Haga clic en el botón Editar página de su barra de usuario. Verá la estructura sugerida para su contenido. Agregue su
contenido y pulse Guardar.

Consejos:

Arrastrar y soltar
Arrastre uno o más archivos de imagen desde su equipo y suéltelos en la ventana del navegador para añadirlos a su página.

Clasificaciones
Las etiquetas se utilizan para vincular páginas entre sí a través de temas comunes. Las etiquetas también se utilizan como
marcadores para la organización dinámica de contenido en el framework de CXone Expert.

Cómo trabajar con plantillas


Lasplantillas de CXone Expert le ayudan a dirigir y organizar su documentación, haciendo que fluya más fácilmente y de
forma más uniforme. Edite las plantillas existentes o cree sus propias plantillas.

Visite para consultar todos los temas de ayuda.

This page titled 8.6: Sección 6- is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane Kiernan
(OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon
request.

8.6.1 https://espanol.libretexts.org/@go/page/149551
CHAPTER OVERVIEW

9: Modelado de crecimiento, rendimiento e índice de sitio


Topic hierarchy
9.1: Modelos de Crecimiento y Rendimiento
9.2: Índice del sitio
9.3: Referencia

This page titled 9: Modelado de crecimiento, rendimiento e índice de sitio is shared under a CC BY-NC-SA 3.0 license and was authored,
remixed, and/or curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a
detailed edit history is available upon request.

1
9.1: Modelos de Crecimiento y Rendimiento
Las decisiones de manejo de los recursos forestales y naturales a menudo se basan en información recopilada sobre las condiciones
de recursos pasados y presentes. Esta información nos proporciona no solo detalles actuales sobre la madera que manejamos (por
ejemplo, volumen, distribución del diámetro) sino que también nos permite rastrear los cambios en el crecimiento, la mortalidad y
el crecimiento interno a lo largo del tiempo. Utilizamos esta información para hacer predicciones de crecimiento y rendimiento
futuros basados en nuestros objetivos de gestión. Las técnicas para pronosticar la dinámica de los rodales se denominan
colectivamente modelos de crecimiento y rendimiento. Los modelos de crecimiento y rendimiento son relaciones entre la cantidad
de rendimiento o crecimiento y los muchos factores diferentes que explican o predicen este crecimiento.
Antes de continuar con nuestro examen de los modelos de crecimiento y rendimiento, revisemos algunos términos básicos.
Rendimiento: volumen total disponible para la cosecha en un momento dado
Crecimiento: diferencia de volumen entre el inicio y el final de un periodo de tiempo especificado (V2 — V1)
Crecimiento anual: cuando el crecimiento se divide por número de años en el periodo de crecimiento
Modelo: una función matemática utilizada para relacionar las tasas de crecimiento observadas o el rendimiento con las
variables de árbol, rodal y sitio medidas
Estimación: un proceso estadístico de obtención de coeficientes para modelos que describen las tasas de crecimiento o
rendimiento en función de las variables de árbol, rodal y sitio medidas
Evaluación: considerando cómo, dónde y por quién debe ser utilizado el modelo, cómo operan el modelo y sus componentes, y
la calidad del diseño del sistema y su realidad biológica
Verificación: el proceso de confirmar que el modelo funciona correctamente con respecto al modelo conceptual. En otras
palabras, la verificación asegura que no haya fallas en la lógica de programación o algoritmos, y que no haya sesgo en el
cálculo (errores sistemáticos).
Validación: comprueba la exactitud y consistencia del modelo y prueba el modelo para ver qué tan bien refleja el sistema real,
si es posible, utilizando un conjunto de datos independiente
Simulación: usando un programa de computadora para simular un modelo abstracto de un sistema en particular. Utilizamos un
modelo de crecimiento para estimar el desarrollo de rodales a través del tiempo en condiciones alternativas o prácticas
silvícolas.
Calibración: el proceso de modificación del modelo para tener en cuenta las condiciones locales que pueden diferir de aquellas
en las que se basó el modelo
Monitoreo: comprobando continuamente la salida de simulación del sistema para identificar cualquier defecto del modelo
Modelo determinista: un modelo en el que los resultados se determinan a través de relaciones conocidas entre estados y
eventos, sin margen de variación aleatoria. En la silvicultura, un modelo determinista proporciona una estimación del
crecimiento promedio de rodal, y dadas las mismas condiciones iniciales, un modelo determinista siempre predecirá el mismo
resultado.
Modelo estocástico: un modelo que intenta ilustrar la variación natural en un sistema proporcionando diferentes predicciones
(cada una con una probabilidad específica de ocurrencia) dadas las mismas condiciones iniciales. Un modelo estocástico
requiere múltiples corridas para proporcionar estimaciones de la variabilidad de las predicciones.
Modelo de proceso: un modelo que intenta simular procesos biológicos que convierten dióxido de carbono, nutrientes y
humedad en biomasa a través de la fotosíntesis
Modelo de sucesión: un modelo que intenta modelar la sucesión de especies, pero generalmente no puede proporcionar
información confiable sobre el rendimiento de la madera

Modelos
Los modelos de crecimiento y rendimiento se establecen típicamente como ecuaciones matemáticas y pueden ser implícitos o
explícitos en forma. Un modelo implícito define las variables en la ecuación pero la relación específica no se cuantifica. Por
ejemplo,
V = f (BA, Ht ) (9.1.1)

donde V es volumen (ft3/ac), BA es densidad (área basal en ft2), Ht es altura total del árbol. Este modelo dice que el volumen es
una función de (depende de) la densidad y la altura, pero no pone un valor numérico en el volumen para valores específicos de área
basal y altura. Esta ecuación se vuelve explícita cuando especificamos la relación como

9.1.1 https://espanol.libretexts.org/@go/page/149582
\[ln(V) = -0.723 + 0.781*ln(BA)+ 0.922 ln(H_t)\]
Los modelos de crecimiento y rendimiento pueden ser ecuaciones lineales o no lineales. En este modelo lineal, todas las variables
independientes de X1 y X2 solo se elevan a la primera potencia.

y = 1.29 + 7.65X1 − 27.02X2 (9.1.2)

Un modelo no lineal tiene variables independientes con exponentes diferentes a uno.


b1 X
y = bo e (9.1.3)

En este ejemplo, b 0 y b 1 son parámetros a estimar y X es la variable independiente.

Clasificación de modelos de crecimiento y rendimiento


Los modelos de crecimiento y rendimiento han sido parte de la silvicultura durante mucho tiempo, pero el desarrollo y el uso han
aumentado considerablemente en los últimos 25 años debido a la accesibilidad de las computadoras. Existen muchos enfoques
diferentes para modelar, cada uno con sus propias ventajas y desventajas. La selección de un tipo específico de enfoque de
modelado a menudo depende del tipo de datos utilizados. Los modelos de crecimiento y rendimiento se categorizan dependiendo
de si modelan todo el rodal, las clases de diámetro o los árboles individuales.

Modelos de soporte completo


Los modelos de soporte completo pueden o no contener densidad como variable independiente. Los modelos de rodales enteros
libres de densidad proporcionan la base para las tablas tradicionales de rendimiento normal ya que “normal” implica la densidad
máxima de la naturaleza, y las tablas de rendimiento empírico asumen la densidad promedio de la naturaleza En ambos casos, el
volumen de rodales a una edad específica suele ser una función de la edad del rodal y el índice del sitio. Los modelos de rodales
enteros de densidad variable utilizan la densidad como una variable independiente explícita para predecir el volumen actual o
futuro. Buckman (1962) publicó el primer estudio en Estados Unidos que predijo directamente el crecimiento a partir de las
variables actuales del rodal, luego integró la función de crecimiento para obtener rendimiento:
Y = 1.6689 + 0.041066BA– 0.00016303BA2 – 0.076958A + 0.00022741 A2 + 0.06441S (9.1.4)

donde Y = incremento anual neto periódico del área basal


BA = área basal, en pies cuadrados por acre
A = edad, en años
S = índice de sitio
Los modelos de distribución de diámetros son un refinamiento de los modelos de soporte completo. Este tipo de modelo desagrega
los resultados a cada edad y luego agrega información adicional sobre la estructura de clases de diámetro como la altura y el
volumen. El número de tallos en cada clase es una función de las variables del rodal y todas las funciones de crecimiento son para
el rodal. Este tipo de modelo de soporte completo proporciona mayor detalle de las condiciones del soporte en términos de
volumen, tamaño de árbol y valor.

Modelos de Clase de Diámetro


Los modelos de clase de diámetro (que no deben confundirse con los modelos de distribución de diámetro) simulan el crecimiento
y el volumen para cada clase de diámetro en función del árbol promedio en cada clase. El número de árboles en cada clase se
determina empíricamente. Los volúmenes de la clase de diámetro se calculan por separado para cada clase de diámetro, luego se
suman para obtener valores de rodales. La proyección de mesa de pie es un método de clase de diámetro común utilizado para
predecir condiciones futuras a corto plazo basadas en el crecimiento observable del diámetro para ese rodante. La mortalidad,
cosecha y crecimiento interno deben calcularse por separado. Las diferencias en los métodos de proyección se basan en la
distribución del número de tallos en cada clase y cómo se aplica la tasa de crecimiento. Por ejemplo, el método de proyección más
simple se basa en dos supuestos: 1) que todos los diámetros de árbol en una clase de diámetro son iguales al diámetro del punto
medio para esa clase, y 2) que todos crecen a la misma tasa promedio. Una mejora en este método es usar una relación de
movimiento que defina la proporción de árboles que se mueven a una clase DBH más alta.
g
m = x100 (9.1.5)
i

9.1.2 https://espanol.libretexts.org/@go/page/149582
donde m es la relación de movimiento, g es el incremento de diámetro periódico promedio para esa clase específica e i es el
intervalo de clase de diámetro. Veamos un ejemplo.
Supongamos para una clase DBH específica que g es 1.2 pulg. e i (intervalo de clase) es 2.0 pulg.
1.2
m = x1000 = 60 (9.1.6)
2.0

Esto significa que 60% de los árboles en esa clase de diámetro se moverán hasta la siguiente clase de diámetro, y 40% permanecerá
en esta clase. Si el intervalo de clase de diámetro fuera de una pulgada, la relación de movimiento sería diferente.
1.2
m = x100 = 120 (9.1.7)
1.0

En este caso, todos los árboles de esta clase de diámetro se moverían hacia arriba al menos una clase de tamaño y el 20% de ellos
subirían dos clases de tamaño.

Modelos de árboles individuales


Los modelos de árboles individuales simulan el crecimiento de cada árbol individual en la lista de árboles. Estos modelos son más
complejos pero se han vuelto más comunes a medida que la potencia informática ha aumentado. Los modelos de árboles
individuales suelen simular la altura, el diámetro y la supervivencia de cada árbol mientras calculan su crecimiento. Los datos
individuales de los árboles se agregan después de que el modelo crezca cada árbol, mientras que los modelos de rodales agregan
datos individuales de árboles en variables de rodales antes de aplicar el modelo Adicionalmente, este tipo de modelo permite al
usuario incluir una medida de competencia por cada árbol. Debido a esto, los modelos de árboles individuales se dividen
típicamente en dos grupos en función de cómo se trata la competencia.
Los modelos independientes de distancia definen la vecindad competitiva para un árbol sujeto por su propio diámetro, altura y
condición para soportar características como área basal, número de árboles por área y diámetro promedio, sin embargo, no se
requieren las distancias entre árboles para calcular la competencia para cada árbol. Los modelos dependientes de la distancia
incluyen distancia y rumbo a todos los árboles vecinos, junto con su diámetro. De esta manera, el vecindario competitivo para cada
árbol temático se define de manera precisa y única. Si bien este enfoque parece lógicamente superior a los métodos independientes
de distancia, no ha habido ninguna evidencia clara documentada que apoye el uso de medidas de competencia dependientes de la
distancia sobre las medidas independientes de distancia.
Hay muchos modelos y simuladores de crecimiento y rendimiento disponibles y puede ser difícil seleccionar el modelo más
adecuado. Hay ventajas e inconvenientes en muchas de estas opciones y los silvicultores deben preocuparse por la confiabilidad de
las estimaciones, la flexibilidad del modelo para tratar las alternativas de manejo, el nivel de detalle requerido y la eficiencia para
brindar información de manera clara y útil. Muchos modelos se han creado utilizando una amplia gama de datos disponibles. Estos
modelos se utilizan mejor solo con fines comparativos. En otras palabras, son los más adecuados a la hora de comparar los
resultados de diferentes opciones de manejo en lugar de predecir resultados para un rodal específico. Es importante revisar y
comprender las bases de cualquier modelo o simulador antes de usarlo.

Simulador de vegetación forestal


El Simulador de Vegetación Forestal (FVS, Wykoff et al. 1982; Dixon 2002) es un modelo de crecimiento forestal individual e
independiente de la distancia que se usa comúnmente en Estados Unidos para apoyar las decisiones de manejo forestal. Las
proyecciones generalmente se realizan a nivel de rodales, pero FVS tiene la capacidad de expandir el alcance espacial a unidades
de administración mucho más grandes. FVS comenzó como el Modelo de Pronóstico para el Desarrollo de Rodales (Etapa 1973)
con el objetivo de predecir la dinámica de rodales en los bosques mixtos de Idaho y Montana. Este modelo se convirtió en la
plataforma de modelado común para el Servicio Forestal del USDA y pasó a llamarse FVS.
Los rodales son la unidad básica de manejo y las proyecciones dependen de las interacciones entre árboles dentro de rodales
utilizando variables clave como densidad, especies, diámetro, altura, relación de copas, crecimiento de diámetro y crecimiento en
altura. Se incluyen valores de pendiente, aspecto, elevación, densidad y una medida del potencial del sitio para cada parcela. Hay
22 versiones geográficamente específicas de FVS llamadas variantes.
NE-TWIGS (Belcher 1982) es una variante común aplicable a catorce estados del noreste. Las proyecciones de crecimiento de
rodales se basan en simular el crecimiento y mortalidad de árboles en las clases de DBH de 5 pulgadas y mayores. El crecimiento

9.1.3 https://espanol.libretexts.org/@go/page/149582
interno se puede ingresar o simular manualmente usando una función de crecimiento interno automático. La ecuación de
crecimiento estima anualmente un diámetro para cada árbol de muestra y actualiza la relación de copa del árbol (Miner et al. 1988).
Crecimiento anual del diámetro = crecimiento potencial*modificador de competencia
El crecimiento potencial se define como el crecimiento del 10% superior de los árboles de mayor crecimiento y se predice usando
la siguiente ecuación:
(−b2 ∗D)
P otential growth = b1 ∗ SI ∗ [1.0 − e ] (9.1.8)

donde,
crecimiento potencial se define como el crecimiento potencial anual del área basal de un árbol (pies cuadrados. /año)
b 1 y b 2 son coeficientes específicos de especie
SI es índice de sitio (índice edad 50 años) y
D es diámetro actual del árbol en.
El modificador de competencia es un índice limitado de 0 a 1, y se encuentra por:
Modificador de competencia =e −b3 ∗BA

donde b 3 es un coeficiente específico de especie y


BA es el área basal actual (pies cuadrados. /ac).
La mortalidad de los árboles se calcula estimando la probabilidad de muerte de cada árbol en un año dado:
Supervivencia = 1- [1/ (1+es)]
donden = c + c ∗ (D + 1) ∗ e
1 2
c3 c4 ∗D−c5 ∗BA−c6 ∗SI

c 1,..., c 6 son coeficientes específicos de especie


D es diámetro actual del árbol (pulgadas)
BA es área basal del rodal (pies cuadrados. /ac) y
SI es índice de sitio.
Los datos de inventario y la información del sitio se ingresan en FVS, y un proceso de autocalibración ajusta los modelos de
crecimiento para que coincidan con las tasas presentes en los datos ingresados. Las cosechas se pueden simular con tasas de
crecimiento y mortalidad basadas en densidades de rodales posteriores a la extracción. Los ciclos de crecimiento duran entre 5 y 10
años y la producción incluye un resumen de las condiciones actuales de los rodales, estadísticas de muestreo y resultados de
calibración

Aplicaciones de Técnicas de Regresión


Los modelos de regresión sirven para muchos propósitos en el manejo de los recursos naturales y forestales. Los siguientes
ejemplos sirven para destacar algunas de estas aplicaciones.

Escalado de peso para aserraderos


En 1962, Bower creó la siguiente ecuación para predecir el volumen del aserradero de pino loblolly basado en los pesos de carga
del camión y el número de troncos por camión:

Y = −3.954N + 0.0925W (9.1.9)

donde Y = volumen total de tablar-pie (International1/4- regla) para un camión cargado de troncos
N = número de troncos de 16 pies en el camión
W = peso total de la carga (lb.)
Observe que no hay ninguna intercepción y en el modelo. Cuando no hay registros en el camión, no hay volumen a estimar.

Tasas de cono de vástago


Kozak et al. (1969) desarrollaron una técnica para estimar la fracción de volumen por árbol ubicada en troncos de cualquier
longitud y dib especificados para cualquier sistema de escalado (pies de tabla, pies cúbicos o peso). Su modelo de regresión
también predijo curvas cónicas y diámetros de tallo superior (dib) para algunas especies de coníferas.

9.1.4 https://espanol.libretexts.org/@go/page/149582
2 2
d h h
= b0 + b1 ( ) + b2 ( ) (9.1.10)
2 2
dbh H H

donde d = diámetro del tallo a cualquier altura h sobre el suelo


H = altura total del árbol
Esta ecuación resuelve:
−−−−−−−−−−−−−−−−−
2
h h
d = dbh √ b0 + b1 ( ) + b2 ( ) (9.1.11)
2
H H

Las variables predictoras son la relación, y la relación al cuadrado, de cualquier altura a altura total.

Tabla de volúmenes de entrada múltiple que permite estándares de utilización variable


Los silvicultores suelen querer predecir el volumen del árbol para varios diámetros superiores, pero muchas de las ecuaciones de
volumen disponibles se crearon para límites superiores específicos. Burkhart (1977) creó un modelo de regresión para predecir el
volumen (pies cúbicos) de pino loblolly a cualquier límite superior comerciable deseado. Su enfoque predijo el volumen total del
tallo, luego convirtió el volumen total en volumen comercial aplicando proporciones predichas de volumen comerciable a volumen
total.
2
V = 0.34864 + 0.00232db h H (9.1.12)

3.1579
dt
R = 1 − 0.32354( ) (9.1.13)
2.7115
dbh

donde dbh = diámetro a la altura del pecho (pulg.)


H = altura total del árbol (ft.)
V = volumen total del pie cúbico del tallo
R = volumen comercializable del pie cúbico al diámetro superior d t dividido por el volumen total del pie cúbico del tallo
d t = dob superior (in.)

Mesas de Peso para Tree Boles


Belanger (1973) utilizó un enfoque de variable combinada para desarrollar predicciones de peso verde y peso seco del árbol
sicómoro:
2
GBW = −32.35109 + 0.15544db h H (9.1.14)

2
DBW = −17.67910 + 0.06684db h H (9.1.15)

donde GBW = peso de bole verde a 3-in.top (lb.)


DBW = peso del cuerpo seco a 3-in.top (lb.)
dbh = diámetro a la altura del pecho (pulg.)
H = altura total del árbol (ft.)

Predicción de Biomasa
Un enfoque común para predecir el peso de la biomasa de los árboles ha sido usar una fórmula logarítmica de variables combinadas
(por ejemplo, Edwards y McNab 1979). La relación observada entre estas variables es típicamente no lineal, por lo que se necesita
una transformación logarítmica o logarítmica natural para linealizar la relación.
2
log Y = b0 + b1 log db h H (9.1.16)

donde Y = peso total del árbol


dbh = diámetro a la altura del pecho
H = altura total del árbol
Sin embargo, estudios anteriores (Tritton y Hornbeck 1982 y Wiant et al. 1979) indicaron que hubo poca mejora del modelo cuando
se agregó la altura. Muchos modelos de biomasa de peso seco ahora siguen esta forma:

ln wt = b0 + b1 ln dbh (9.1.17)

9.1.5 https://espanol.libretexts.org/@go/page/149582
b0 b1
wt = e db h (9.1.18)

donde wt = peso total del árbol


dbh = diámetro a la altura del pecho

Predicciones de Volumen basadas en Diámetro del Tocón


Bylin (1982) creó un modelo de regresión para predecir el volumen del árbol usando el diámetro del tocón y la altura del tocón para
especies en Louisiana.
2
V = b0 + b1 S + b2 Hs (9.1.19)
DIB

donde V = volumen del árbol (pies cúbicos)


S DIB = diámetros de tocón dentro de la corteza (pulg.)
H S = altura del tocón (ft.)

Estimación de rendimiento
MacKinney y Chaiken (1939) fueron los primeros en utilizar regresión múltiple, con densidad de rodal como variable predictora,
para predecir el rendimiento de los pinos loblolly.
1
log Y = b0 + b1 + b2 S + b3 log SDI + b4 C (9.1.20)
A

donde
Y = rendimiento (cu. ft. /ac)
A = edad del stand
S = índice del sitio
SDI = índice de densidad de pie
C = índice de composición (pino loblolly ba/BA total)

Predicción de crecimiento y rendimiento para rodales de edades impares


Moser y Hall (1969) desarrollaron una ecuación de rendimiento, expresada en función del tiempo, volumen inicial y área basal,
para predecir el volumen en maderas duras mixtas del norte.
−1.3175 −0.0125 −0.0062t −105.5
Y = [(Y0 )(8.3348BA )]x[0.9348 − (0.9348 − 1.0203BA )e ] (9.1.21)
0 0

donde
Y 0 = volumen inicial (pies cúbicos. /ac)
BA 0 = área basal inicial (pies cuadrados /ac)
t = intervalo de tiempo transcurrido (años desde la condición inicial)
Y = volumen predicho (cu. ft. /ac) t años después de la observación de las condiciones iniciales Y 0 y BA 0 en el tiempo t 0

This page titled 9.1: Modelos de Crecimiento y Rendimiento is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or
curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit
history is available upon request.
9.1: Growth and Yield Models by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-
resources-biometrics.

9.1.6 https://espanol.libretexts.org/@go/page/149582
9.2: Índice del sitio
Índice del sitio
El sitio es definido por la Society of American Foresters (1971) como “un área considerada en términos de su propio entorno,
particularmente porque esto determina el tipo y calidad de la vegetación que la zona puede portar”. Los administradores forestales
y de recursos naturales utilizan la medición del sitio para identificar la productividad potencial de un rodal forestal y proporcionar
un marco comparativo de referencia para las opciones de manejo. El potencial productivo o la capacidad de un sitio a menudo se
conoce como calidad del sitio.
La calidad del sitio se puede medir directa o indirectamente. La medición directa de la productividad de un rodal se puede medir
analizando variables como nutrientes del suelo, humedad, regímenes de temperatura, luz disponible, pendiente y aspecto. Un
método de estimación de productividad basado en las características permanentes del suelo y la topografía se puede utilizar en
cualquier sitio y es adecuado en áreas donde actualmente no existen rodales forestales. El índice de sitio del suelo es un ejemplo de
dicho índice. Sin embargo, dichos índices son específicos de ubicación y no deben ser utilizados fuera de la región geográfica en la
que fueron desarrollados. Desafortunadamente, la información de factores ambientales no siempre está disponible y los
administradores de recursos naturales deben utilizar métodos alternativos.
Los registros históricos de rendimiento también proporcionan evidencia directa de la productividad de un sitio al promediar los
rendimientos en múltiples rotaciones o ciclos de corte. Desafortunadamente, hay datos limitados a largo plazo disponibles, y los
rendimientos pueden verse afectados por la composición de las especies, la densidad de rodal, las plagas, la edad de rotación y la
genética. En consecuencia, con frecuencia se utilizan métodos indirectos de medición de la calidad del sitio, siendo los más
comunes la relación entre la altura del árbol y la edad del árbol.
El uso de datos de altura del soporte es una manera fácil y confiable de cuantificar la calidad del sitio. Teóricamente, el crecimiento
en altura es sensible a las diferencias en la calidad del sitio y el desarrollo de altura de árboles más grandes en un rodal de edad
uniforme rara vez se ve afectado por la densidad de rodales Adicionalmente, el potencial de producción en volumen está
fuertemente correlacionado con la tasa de crecimiento en altura. Esta medida de la calidad del sitio se denomina índice de sitio y es
la altura total promedio de árboles codominantes seleccionados en un sitio con una edad de referencia o índice particular. Si se
mide un rodal que se encuentra en una edad índice, la altura promedio de los árboles dominantes y codominantes es el índice del
sitio. Es la medida cuantitativa más aceptada de la calidad del sitio en Estados Unidos para rodales de edades pares (Avery y
Burkhart 1994).
El objetivo del método de índice de sitio es seleccionar el patrón de desarrollo de altura que se puede esperar que siga el rodal
durante el resto de su vida útil (no para predecir la altura del rodal a la edad índice). La mayoría de los métodos de evaluación de la
calidad del sitio basados en la altura utilizan curvas de índice Las curvas de índice de sitio son una familia de patrones de desarrollo
de estatura referenciados por la edad a la altura del pecho o la edad total Por ejemplo, las curvas de índice de sitio para plantaciones
generalmente se basan en la edad total (años desde que se plantaron), donde la edad a la altura del pecho se usa frecuentemente
para rodales naturales por conveniencia. Si se utilizara la edad total en esta situación, se debe agregar el número de años requeridos
para que un árbol crezca desde una plántula hasta la DBH. Las curvas de índice de sitio pueden ser curvas anamórficas o
polimórficas. Las curvas anamórficas (más comunes) son una familia de curvas con la misma forma pero diferentes intercepciones.
Las curvas polimórficas son una familia de curvas con diferentes formas e intercepciones.
El índice de edad para este método suele ser la culminación del crecimiento medio anual. En la parte occidental de Estados Unidos,
100 años se usa comúnmente como edad de referencia con 50 años en la parte oriental de este país. Sin embargo, las curvas de
índice del sitio pueden basarse en cualquier edad del índice que se necesite. Coile y Schumacher (1964) crearon una familia de
curvas anamórficas de índice de sitio para la plantación de pino loblolly con una edad índice de 25 años. La siguiente familia de
curvas de índice de sitio anamórfico para un pino sureño se basa en una edad de referencia de 50 años.
Sitio%20index.png

Figura 1. Curvas de índice de sitio con un índice de edad de 50 años.


La creación de una curva de índice de sitio implica la selección aleatoria de árboles dominantes y codominantes, midiendo su altura
total y ajustando estadísticamente los datos a una ecuación matemática. Entonces, ¿qué ecuación usas? Trazar la altura sobre la
edad para especies individuales, rodales de edad uniforme generalmente da como resultado un patrón de forma sigmoidea.
−1
( b1 A )
Hd = b0 e (9.2.1)

9.2.1 https://espanol.libretexts.org/@go/page/149589
donde H d es la altura de los árboles dominantes y codominantes, A es la edad del rodal, y b 0 y b 1 son coeficientes a estimar. La
transformación variable es necesaria si se va a utilizar regresión lineal para ajustar el modelo. Una transformación común es
−1
ln Hd = b0 + b1 A (9.2.2)

Coile y Schumacher (1964) ajustan sus datos al siguiente modelo:


1 1
ln S = ln H + 5.190( − ) (9.2.3)
A 25

donde S es el índice del sitio, H es la altura total del árbol y A es la edad promedio. La curva de índice de sitio se crea ajustando el
modelo a datos de rodales de diferentes calidades y edades del sitio, asegurando que todas las clases de índice de sitio necesarias
estén igualmente representadas en todas las edades. Es importante no sesgar la curva mediante el uso de un rango de datos
incompleto.
Los datos para el desarrollo de ecuaciones de índice de sitio pueden provenir de la medición de la altura y edad de los árboles o
rodales de parcelas de inventario temporales o permanentes o del análisis de tallos. Los datos de las parcelas de inventario se
utilizan normalmente solo para las curvas anamórficas y el sesgo de muestreo puede ocurrir cuando los sitios pobres están
sobrerepresentados en las clases de mayor edad. El análisis de tallo se puede utilizar para curvas polimórficas pero requiere
muestreo destructivo y puede ser costoso obtener dichos datos.
Vamos a examinar tres métodos diferentes para desarrollar ecuaciones de índice de sitio:
1. Método de curva guía
2. Método de ecuación de diferencia
3. Método de predicción de parámetros

Método de curva guía


El método de la curva guía se utiliza comúnmente para generar ecuaciones de índice de sitio anamórfico. Comencemos con una
forma modelo de uso común:
$$ ln\ h_d =b_0 +b_1a^ {-1} = b_0 + b_1\ frac {1} {A}\]
Parametrizar este modelo da como resultado una “curva guía” (la línea promedio para los datos de la muestra) que se utiliza para
crear las curvas individuales de desarrollo de altura/edad que son paralelas a la curva guía. Para un índice de sitio en particular, la
ecuación es:
$ $ ln\ h_d = b_ {0i} +b_1a^ {-1}\]
donde b oi es la intercepción y única para esa edad. Por definición, cuando A = A 0 (edad índice), H es igual al índice de sitio S.
Así:
$$b_ {0i} = ln\ S - B_1a_0^ {-1}\]
Sustituyendo b oi en la ecuación 9.2.5 da:
$$ ln\ H = ln\ S + b_1 (A^ {-1} - A_0^ {-1})\]
que se pueden utilizar para generar curvas de índice de sitio para valores dados de S y A 0 y un rango de edades (A). La ecuación se
puede reorganizar algebraicamente como:
$ln\ S = ln\ H -b_1 (A^ {-1} - A_0^ {-1}) = ln (H) - b_1 (\ frac {1} {A} -\ frac {1} {A_0})\]
Esta es la forma para estimar el índice del sitio (estatura al índice de edad) cuando se dan las mediciones de los datos de altura y
edad. Este proceso es sólido solo si la calidad promedio del sitio en los datos de la muestra es aproximadamente la misma para
todas las clases de edad. Si la calidad promedio del sitio varía sistemáticamente con la edad, la curva guía estará sesgada.

Método de Ecuación de Diferencia


Este método requiere ya sea parcela monumentada, datos de remedición de árboles o datos de análisis de tallo. El modelo se ajusta
utilizando diferencias de altura y edades específicas. Este método es apropiado para curvas anamórficas y polimórficas,
especialmente para periodos de medición más largos y/o múltiples. Schumacher (después de Clutter et al. 1983) utilizó este
enfoque al estimar el índice de sitio utilizando el recíproco de edad y el registro natural de altura. Consideró que había una relación
lineal entre el Punto A (1/ A 1, ln H 1) y el Punto B (1/ A 2, ln H 2) y definió β1 (pendiente) como:

9.2.2 https://espanol.libretexts.org/@go/page/149589
ln(H2 ) − ln(H1 )
β1 = (9.2.4)
(1/ A2 ) − (1/ A1 )

donde H 1 y A1 fueron talla y edad iniciales, y H 2 y A2 fueron altura y edad al final del periodo de remedición. Su modelo de
estatura/edad se convirtió en:
1 1
ln(H2 ) = ln(H1 ) + β1 ( − ) (9.2.5)
A2 A1

Usando datos de remedición, esta ecuación se ajustaría usando procedimientos de regresión lineal con el modelo
Y = β1 X (9.2.6)

donde Y = ln (H 2) — ln (H 1)
X = (1/ A 2) — (1/ A 1)
Después de estimar β1, se obtiene una ecuación de índice de sitio a partir de la ecuación de altura/edad al dejar que A 2sea igual a A
0 (la edad del índice) para que H 2 sea, por definición, índice de sitio (S). La ecuación puede entonces escribirse:
1 1
ln(S) = ln(H1 ) + β1 ( − ) (9.2.7)
A0 A1

Método de predicción de parámetros


Este método requiere datos de remedición o análisis de tallo, e implica los siguientes pasos:
1. Ajuste de una función lineal o no lineal de altura/edad a los datos sobre una base de árbol por árbol (datos de análisis de tallo) o
parcela por parcela (datos de remedición)
2. Usar cada curva ajustada para asignar un valor de índice de sitio a cada árbol o parcela (poner A0 en la ecuación para estimar el
índice de sitio)
3. Relacionar los parámetros de las curvas ajustadas con el índice de sitio mediante procedimientos de regresión lineal o no lineal
Trousdell et al. (1974) utilizaron este enfoque para estimar el índice de sitio para el pino loblolly y proporciona un ejemplo usando
la función Chapman-Richards (Richards 1959) para la relación altura/edad. Se recolectaron datos de análisis de tallo en 44 árboles
dominantes y codominantes que tenían una edad mínima de al menos 50 años. Se utilizó la función Chapman-Richards para definir
la relación altura/edad:
−1
(−θ2 A) [(1−θ3 ) ]
H = θ1 [1 − e ] (9.2.8)

donde H es la altura en pies a la edad A y θ1, θ2 y θ3 son parámetros a estimar. Esta ecuación se ajustó por separado a cada árbol.
Las curvas ajustadas se resolvieron con A = 50 para obtener valores de índice de sitio (S) para cada árbol.
Se planteó la hipótesis de que los parámetros θ1, θ2 y θ3 eran funciones del índice de sitio, donde

θ1 = β1 + β2 S (9.2.9)

2
θ2 = β3 + β4 S + β5 S (9.2.10)

2
θ3 = β6 + β7 S + β8 S (9.2.11)

La función Chapman-Richards se expresó entonces como:


2 −1
2 [(1−β6 −β7 S−β8 S ) ]
[−( β3 +β4 S+β5 S )A]
H = (β1 + β2 S) 1 − e (9.2.12)

Esta función fue luego reajustada a los datos para estimar los parámetros β1, β2,... β8. Las ecuaciones estimadoras obtenidas para
θ1, θ2 y θ3 fueron
^
θ1 = 63.1415 + 0.635080S (9.2.13)

^ 2
θ2 = 0.00643041 + 0.000124189S + 0.00000162545 S (9.2.14)

^ 2
θ3 = 0.0172714 − 0.00291877S + 0.0000310915 S (9.2.15)

9.2.3 https://espanol.libretexts.org/@go/page/149589
Para cualquier valor de índice de sitio dado, estas ecuaciones se pueden resolver para dar una curva de índice de sitio Chapman-
Richards particular. Al sustituir varios valores de edad en la ecuación y resolver por H, obtenemos puntos de altura/edad que se
pueden trazar para una curva de índice de sitio. Dado que cada curva de índice de sitio tiene diferentes valores de parámetros, las
curvas son polimórficas.

Datos periódicos de crecimiento de altura


Una alternativa al uso de la altura actual del rodal como sustituto de la calidad del sitio es usar datos periódicos de crecimiento de
altura, que se conoce como un método de intercepción de crecimiento. Este método es práctico solo para especies que presentan
distintos verticilos de rama anual y se utiliza principalmente para rodales juveniles porque las curvas de índice de sitio son menos
confiables para rodales jóvenes.
Este método requiere la medición de la longitud de un número especificado de entrenudos anuales sucesivos o la longitud a lo largo
de un periodo de 5 años. Si bien los valores de crecimiento-intercepción se pueden usar directamente como medidas de la calidad
del sitio, se usan más comúnmente para estimar el índice del sitio.
Alban (1972) creó un modelo lineal simple para predecir el índice de sitio para el pino rojo usando una intercepción de crecimiento
a 5 años en pies comenzando a 8 pies sobre el suelo.
SI = 32.54 + 3.43 X
donde SI es índice de sitio a una edad base de 50 años y X es intercepción de crecimiento a 5 años en pies.
El uso de datos periódicos de crecimiento de altura tiene la ventaja de no requerir mediciones de edad de rodal o altura total de
árboles, lo que puede ser difícil en rodales jóvenes y densos. Sin embargo, debido a la naturaleza a corto plazo de los datos, la
variación del clima puede influir fuertemente en el crecimiento internodal, lo que hace que los resultados sean inexactos.
Las ecuaciones de índice de sitio deben basarse en teorías biológicas o matemáticas, lo que ayudará a que la ecuación funcione
mejor. Deben comportarse lógicamente y no permitir valores irrazonables para la altura predicha, especialmente a edades muy
jóvenes o muy viejas. Las ecuaciones también deben contener un parámetro asintótico para controlar el crecimiento de altura sin
límites en la vejez. La asíntota debe ser alguna función del índice de sitio de tal manera que la asíntota aumente con los aumentos
del índice de sitio.
Al usar el índice de sitio, es importante conocer la edad base para la curva antes de su uso. También es importante darse cuenta de
que el índice de sitio basado en una edad base no se puede convertir a otra edad base. Adicionalmente, índices de sitios similares
para diferentes especies no significan sitios similares incluso cuando se usa la misma edad base para ambas especies. Tienes que
entender cómo se midieron la altura y la edad antes de poder interpretar de manera segura una curva de índice de sitio. El índice del
sitio no es una verdadera medida de la calidad del sitio; más bien es una medida de un componente de crecimiento arbóreo que se
ve afectado por la calidad del sitio (la altura superior es una medida del desarrollo del rodal, NO la calidad del sitio).

This page titled 9.2: Índice del sitio is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane Kiernan
(OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon
request.
9.2: Site Index by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-resources-
biometrics.

9.2.4 https://espanol.libretexts.org/@go/page/149589
9.3: Referencia
D.H. Alban, “Un método mejorado de intercepción de crecimiento para estimar el índice de sitio de pino rojo”, Serv. Forestal de
Estados Unidos, Expt. Sta., Res. Ponencia NC-80, 1972, p. 7.
T.E. Avery y H.E. Burkhart, Mediciones forestales,. McGraw-Hill, 1994, p. 408.
R.P. Belanger, “Tablas de Volumen y Peso para Sicomoro Cultivado en Plantación”, U.S. Forest Serv. Sureste. Bosque Expt. Sta.
Res. Ponencia SE-107, 1973, p. 8.
D.M. Belcher, “TWIGS: The Woodman's Ideal Growth Projection System”, Microcomputadores, una nueva herramienta para
silvicultores, Purdue University Press, 1982, p. 70.
D.R. Bower, “Relaciones volumen-peso para aserraderos de pino loblolly”, J. Forestry 60, 1962, pp. 411-412.
R.R. Buckman, “Crecimiento y rendimiento del pino rojo en Minnesota”, Departamento de Agricultura de Estados Unidos, Boletín
Técnico 1272, 1962.
S.E. Burkhart, “Volumen de pie cúbico de pino loblolly a cualquier límite superior comercial”, So. J. Appl. Para. 1, 1977, pp. 7-9.
C.V. Bylin, “Predicción de volumen a partir del diámetro del tocón y la altura del tocón de especies seleccionadas en Luisiana”,
Serv. Forestal de Estados Unidos, Bosque del Sur. Expt. Sta., Res. Ponencia SO-182, 1982, p. 11.
J.R. Clutter Et al., Timber Management: A Quantitative Approach, Wiley, 1983, p. 333.
T.S. Coile y F. X. Schumacher, Relaciones suelo-sitio, estructura de rodales y rendimientos de plantaciones de pino Slash y
Loblolly en el sur de Estados Unidos, T.S. Coile, 1964.
G.E. Dixon (Comp.), “Esencial FVS: una guía del usuario para el simulador de vegetación forestal”, Informe interno.
Departamento de Agricultura de Estados Unidos, Servicio Forestal, Centro de Servicio de Manejo Forestal, 2002, p. 189.
M.B. Edwards y W.H. McNab, “Predicción de biomasa para jóvenes pinos sureños”, J. Forestal, 77, 1979, pp. 291-292.
A.D. Kozak, D.D. Munro, y J.H.G. Smith, “Funciones cónicas y su aplicación en el inventario forestal”, Crónica Forestal 45,
1969, pp. 278-283.
A.L. MacKinney y L.E. Chaiken, “Volumen, Rendimiento y Crecimiento del Pino Loblolly en la Región Costera del Atlántico
Medio”, U.S. Forest. Serv. Bosque de los Apalaches Expt. Sta., Tech. Nota 33, 1939, p. 30.
C.L. Miner, N.R. Walters, y M.L. Belli, “Una guía para el programa TWIGS para el Centro Norte de Estados Unidos”, USDA
Forest Serv., North Central Forest Exp.Sta. , Gral. Tech. Rep. NC-125, 1988, p. 105.
J.W. Moser, Jr. y O.F. Hall, “Derivando las funciones de crecimiento y rendimiento para rodales forestales de edad irregular”,
Forest Sci. 15, 1969, pp. 183-188.
F.J. Richards, “Una función de crecimiento flexible para el uso empírico”, J. Exp. Botánica, vol. 10, núm. 2 1959, pp. 290-300.
Society of American Foresters, Terminology of Forest Science, Technology, Practice, and Products, Washington, D.C., Society of
American Foresters, 1971, p. 349.
Etapa A.R., “Modelo de pronóstico para el desarrollo de rodales”, Departamento de Agricultura de Estados Unidos, Servicio
Forestal, Intermountain Forest and Range Expt. Sta. , Res. Pa INT-137, 1973, p. 32.
L.M. Tritton y J.W. Hornbeck, “Ecuaciones de Biomasa para las Principales Especies Arbóreas del Noreste”, USDA Para. Serv.
Gral. Tech. Rep. NE-GTR-69, 1982.
K.B. Trousdell, D.E. Beck, y F.T. Lloyd, “Índice de sitios para pino loblolly en la llanura costera atlántica de las Carolinas y
Virginia”, Expt. Sta., 1974, p. 115.
H.J. Wiant et al., “Ecuaciones para predecir pesos de algunas maderas duras de los Apalaches”, West Virginia Univ. Agric. y Bosque
Expt. Sta., Coll.. de Agric. y Bosque. Bosque de Virginia Occidental. Notas, núm. 7, 1979.
W.R. Wykoff, N.L. Crookston, y A.R. Stage, “User's Guide to the Stand Prognosis Model”, Departamento de Agricultura de los
Estados Unidos, Servicio Forestal, Intermountain Forest and Range Expt. Sta. , Gral. Tech. Re INT-133, 1982, p. 112.

9.3.1 https://espanol.libretexts.org/@go/page/149583
This page titled 9.3: Referencia is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane Kiernan
(OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon
request.
9.3: Reference by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-resources-
biometrics.

9.3.2 https://espanol.libretexts.org/@go/page/149583
CHAPTER OVERVIEW

10: Medidas cuantitativas de diversidad, similitud de sitios e idoneidad del hábitat


Topic hierarchy
10.1: Introducción, índice de Simpson e índice Shannon-Weiner
10.2: Gráficas de Abundancia de Rango e Índice de Idon
10.3: Referencia

This page titled 10: Medidas cuantitativas de diversidad, similitud de sitios e idoneidad del hábitat is shared under a CC BY-NC-SA 3.0 license
and was authored, remixed, and/or curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the
LibreTexts platform; a detailed edit history is available upon request.

1
10.1: Introducción, índice de Simpson e índice Shannon-Weiner
Como administradores forestales y de recursos naturales, debemos ser conscientes de cómo nuestras prácticas de manejo maderero
impactan en las comunidades biológicas en las que ocurren. Una prescripción silvícola va a influir no sólo en la madera que
estamos cultivando sino también en las comunidades vegetales y de vida silvestre que habitan estos rodales. Los terratenientes,
tanto públicos como (18)} {d privados, a menudo requieren el manejo de componentes no maderables, como la vida silvestre, junto
con el cumplimiento de los objetivos financieros alcanzados a través del manejo maderero. Los administradores de recursos deben
ser conscientes del efecto que las prácticas de manejo tienen en las comunidades de plantas y vida silvestre. La interfaz principal
entre la madera y la vida silvestre es el hábitat, y el hábitat es simplemente una amalgama de factores ambientales necesarios para
la supervivencia de las especies (por ejemplo, alimento o cobertura). El componente clave del hábitat para la mayor parte de la vida
silvestre es la vegetación, que proporciona alimento y cobertura estructural. Crear recetas que combinen los objetivos de manejo de
la madera y la vida silvestre es crucial para lograr un equilibrio sostenible a largo plazo en el sistema.
Entonces, ¿cómo desarrollamos un plan que abarque múltiples objetivos de uso del suelo? El conocimiento es la clave.
Necesitamos información sobre el hábitat que requieren las especies silvestres de interés y debemos ser conscientes de cómo la
recolección de madera y su posterior regeneración afectarán las características vegetativas del sistema. Es decir, necesitamos
entender la diversidad de organismos presentes en la comunidad y apreciar el impacto que nuestras prácticas de manejo tendrán en
este sistema.
La diversidad de organismos y la medición de la diversidad han interesado desde hace tiempo a los ecologistas y gestores de
recursos naturales. La diversidad es variedad y en su nivel más simple implica contar o enumerar especies. Las comunidades
biológicas varían en el número de especies que contienen (riqueza) y abundancia relativa de estas especies (uniformidad). La
riqueza de especies, como medida por sí sola, no toma en cuenta el número de individuos de cada especie presente. Da igual peso a
aquellas especies con pocos individuos que a una especie con muchos individuos. Así, un solo abedul amarillo tiene tanta
influencia en la riqueza de un área como 100 arces azucareros. La uniformidad es una medida de la abundancia relativa de las
diferentes especies que conforman la riqueza de un área. Considera el siguiente ejemplo.

Ejemplo10.1.1:
Número de Particulares
Especies arbóreas Muestra 1 Muestra 2

Arce Azucar 167 391

Haya 145 24

Abedul Amarillo 134 31

Ambas muestras tienen la misma riqueza (3 especies) y el mismo número de individuos (446). Sin embargo, la primera
muestra tiene más uniformidad que la segunda. El número de individuos se distribuye de manera más uniforme entre las tres
especies. En la segunda muestra, la mayoría de los individuos son arces azucareros con menos hayas y abedules amarillos. En
este ejemplo, la primera muestra se consideraría más diversa.

Un índice de diversidad es una medida cuantitativa que refleja el número de especies diferentes y la distribución uniforme de los
individuos entre esas especies. Por lo general, el valor de un índice de diversidad aumenta cuando aumenta el número de tipos y
aumenta la uniformidad. Por ejemplo, las comunidades con un gran número de especies que están distribuidas uniformemente son
las más diversas y las comunidades con pocas especies que están dominadas por una especie son las menos diversas. Vamos a
examinar varias medidas comunes de diversidad de especies.

Índice de Simpson
Simpson (1949) desarrolló un índice de diversidad que se calcula como:
$$D =\ Suma^r_ {i=1} (\ dfrac {n_i (n_i-1)} {N (N-1)})\]
donde n i es el número de individuos en la especie i, y N es el número total de especies en la muestra. Una fórmula equivalente es:
$$D =\ Suma^r_ {i=1} p_i^2\]

10.1.1 https://espanol.libretexts.org/@go/page/149522
dondep es la abundancia proporcional para cada especie y R es el número total de especies en la muestra. El índice de Simpson es
i

una media aritmética ponderada de abundancia proporcional y mide la probabilidad de que dos individuos seleccionados
aleatoriamente de una muestra pertenezcan a la misma especie. Dado que la media de la abundancia proporcional de las especies
aumenta al disminuir el número de especies y aumentar la abundancia de las especies más abundantes, el valor de D obtiene valores
pequeños en conjuntos de datos de alta diversidad y grandes valores en conjuntos de datos con baja diversidad. El valor de la D de
Simpson varía de 0 a 1, con 0 representando diversidad infinita y 1 representando ninguna diversidad, por lo que cuanto mayor sea
el valor deD, menor es la diversidad. Por esta razón, el índice de Simpson suele expresarse como su inverso (1/ D) o su
complemento (1-D) que también se conoce como el índice Gini-Simpson. Veamos un ejemplo.

Ejemplo10.1.2:calculating Simpson’s Index

Queremos calcular SimpsonD para esta hipotética comunidad con tres especies.

Especies No. de individuos

Arce Azucar 35

Haya 19

Abedul Amarillo 11

Primero, calcule N.
$$N = 35 + 19 + 11 = 65\]
Luego computa el índice usando el número de individuos para cada especie:
$$D =\ sum^r_ {i=1} (\ dfrac {n_i (n_i-1)} {N (N-1)}) = (\ frac {35 (34)} {65 (64)} +\ frac {19 (18)} {65 (64)} +\ frac {11
(10)} {65 (64)}) = 0.3947\]
Se encuentra que la inversa es:
$$\ frac {1} {0.3947} = 2.5336\]
Usando la inversa, el valor de este índice comienza con 1 como la cifra más baja posible. Cuanto mayor sea el valor de este
índice inverso, mayor será la diversidad. Si usamos el cumplido a la D de Simpson, el valor es:
$1-0.3947 = 0.6053\]
Esta versión del índice tiene valores que van de 0 a 1, pero ahora, cuanto mayor sea el valor, mayor será la diversidad de su
muestra. Este cumplido representa la probabilidad de que dos individuos seleccionados aleatoriamente de una muestra
pertenezcan a diferentes especies. Es muy importante indicar claramente qué versión de la D de Simpson está utilizando al
comparar la diversidad.

Índice Shannon-Weiner
El índice de Shannon-Weiner (Barnes et al. 1998) se desarrolló a partir de la teoría de la información y se basa en la medición de la
incertidumbre. El grado de incertidumbre de predecir las especies de una muestra aleatoria está relacionado con la diversidad de
una comunidad. Si una comunidad tiene baja diversidad (dominada por una especie), la incertidumbre de predicción es baja; lo más
probable es que una especie muestreada aleatoriamente sea la especie dominante. Sin embargo, si la diversidad es alta, la
incertidumbre es alta. Se calcula como:
$$H' = -\ SUM^r_ {i=1} ln (p_i) = ln (\ frac {1} {\ prod^r_ {i=1} p^ {p_i} _i})\]
donde p i es la proporción de individuos que pertenecen a la especie i y R es el número de especies en la muestra. Dado que la
suma de los p i es igual a la unidad por definición, el denominador es igual a la media geométrica ponderada de los valores pi,
usándose los valores pi como pesos. El término entre paréntesis equivale a verdadera diversidad D y H'=Ln (D). Cuando todas las
especies en el conjunto de datos son igualmente comunes, todos los valores p i = 1/ R y el índice de Shannon-Weiner es igual a ln
(R). Cuanto más desigual es la abundancia de especies, mayor es la media geométrica ponderada de los valores p i, menor es el
índice. Si la abundancia se concentra principalmente en una especie, el índice será cercano a cero.
Una fórmula equivalente y computacionalmente más fácil es:

10.1.2 https://espanol.libretexts.org/@go/page/149522
$$H' =\ frac {N ln\ N -\ suma (n_i ln\ n_i)} {N}\]
donde N es el número total de especies y n i es el número de individuos en la especie i. El índice de Shannon-Weiner es más
sensible al número de especies en una muestra, por lo que generalmente se considera sesgado hacia la medición de la riqueza de
especies.
Calculemos el índice de diversidad de Shannon-Weiner para la misma comunidad hipotética en el ejemplo anterior.

Ejemplo10.1.3:Calculating Shannon-Weiner Index

Especies No. de individuos

Arce Azucar 35

Haya 19

Abedul Amarillo 11

Sabemos que N = 65. Ahora vamos a calcular el índice:


$$H' =\ dfrac {271.335 - (124.437+55.944+26.377)} {65} =0.993\]

This page titled 10.1: Introducción, índice de Simpson e índice Shannon-Weiner is shared under a CC BY-NC-SA 3.0 license and was authored,
remixed, and/or curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a
detailed edit history is available upon request.
10.1: Introduction, Simpson’s Index and Shannon-Weiner Index by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source:
https://milneopentextbooks.org/natural-resources-biometrics.

10.1.3 https://espanol.libretexts.org/@go/page/149522
10.2: Gráficas de Abundancia de Rango e Índice de Idon
Gráficas de abundancia de rangos
La distribución de abundancia de especies también se puede expresar a través de gráficos de abundancia de rango Un enfoque
común es trazar alguna medida de la abundancia de especies contra su orden de rango de abundancia. Dicha parcela permite al
usuario comparar no sólo la riqueza relativa sino también la uniformidad. Los modelos de abundancia de especies (también
llamados curvas de abundancia) utilizan toda la información de la comunidad disponible para crear un modelo matemático que
describe el número y abundancia relativa de todas las especies en una comunidad. Estos modelos incluyen el modelo logarítmico
normal, geométrico, logarítmico y el modelo de brokenstick de MacArthur. Muchos ecologistas utilizan estos modelos como una
forma de expresar la partición de recursos donde la abundancia de una especie es equivalente al porcentaje de espacio que ocupa
(Magurran 1988). Las curvas de abundancia ofrecen una alternativa a los índices de diversidad de números únicos al describir
gráficamente la estructura comunitaria.
Common_descriptiveWhittaker.jpg

Figura10.2.1. Diagrama genérico de rangoabundancia de tres modelos matemáticos comunes utilizados para ajustar las
distribuciones de abundancia de especies: la serie geométrica de Motomura, la serie logarítmica de Fisher y la serie logarítmica
normal de Preston (modificada a partir de Magurran 1988) por Aedrake09.
Comparemos los índices y una distribución de abundancia muy simple en dos situaciones diferentes. Los rostros A y B tienen el
mismo número de especies (misma riqueza), pero el número de individuos en cada especie es más similar en el Rodal A (mayor
uniformidad). En el Rodal B, la especie 1 tiene la mayor cantidad de individuos, y las nueve especies restantes tienen un número
sustancialmente menor de individuos por especie. La riqueza, el cumplido a la D de Simpson y la H' de Shannon se computan para
ambas tribunas. Estos dos índices de diversidad incorporan tanto riqueza como uniformidad. En la gráfica de distribución de
abundancia, la riqueza se puede comparar en el eje x y la uniformidad por la forma de la distribución. Debido a que el Stand A
muestra mayor uniformidad, tiene mayor diversidad general que el Stand B. Observe que el Stand A tiene valores más altos para
los índices de Simpson y Shannon en comparación con el Stand B.
159.tif

Figura10.2.2. Dos rodales que comparan la riqueza, la D de Simpson y el índice de Shannon.


Los índices de diversidad varían en computación e interpretación, por lo que es importante asegurarse de comprender qué índice se
está utilizando para medir la diversidad. No es adecuado comparar la diversidad entre dos áreas cuando se calculan diferentes
índices para cada área. Sin embargo, cuando se calculan múltiples índices para cada área, las áreas muestreadas se clasifican de
manera similar en diversidad según lo medido por los diferentes índices. Observe en este ejemplo anterior tanto el índice de
Simpson como el de Shannon clasifican al Stand A como más diverso y al Stand B como menos diverso.

Similitud entre sitios


También hay índices que comparan la similitud (y disimilitud) entre sitios. El objetivo ideal es expresar la similitud ecológica de
diferentes sitios; sin embargo, es importante identificar el objetivo o foco de la investigación para seleccionar el índice más
adecuado. Si bien hay muchos índices disponibles, van Tongeren (1995) afirma que la mayoría de los índices no tienen una base
teórica firme y sugiere que la experiencia práctica debe guiar la selección de los índices disponibles.
El índice Jaccard (1912) compara dos sitios en función de la presencia o ausencia de especies y se utiliza con datos cualitativos (por
ejemplo, listas de especies). Se basa en la idea de que cuantas más especies tengan en común ambos sitios, más similares son. El
índice Jaccard es la proporción de especies del listado total de especies de los dos sitios, que es común a ambos sitios:
$$SJ =\ frac {c} {(a + b + c)}\]
donde SJ es el índice de similitud, c es el número de especies compartidas entre los dos sitios y a y b son el número de especies
únicas de cada sitio. Sørenson (1948) desarrolló un índice de similitud que frecuentemente se conoce como el coeficiente de
comunidad (CC):
$$CC =\ frac {2c} {(a + b + 2c)}\]
Como puede ver, este índice difiere del de Jaccard en que el número de especies compartidas entre los dos sitios se divide por el
número promedio de especies en lugar del número total de especies para ambos sitios. Para ambos índices, cuanto mayor sea el

10.2.1 https://espanol.libretexts.org/@go/page/149523
valor, más ecológicamente similares son dos sitios.
Si se dispone de datos cuantitativos, se puede calcular una relación de similitud (Ball 1966) o un índice de similitud porcentual,
como Gauch (1982). Estos índices no solo comparan el número de especies similares y disímiles presentes entre dos sitios, sino que
también incorporan abundancia. La relación de similitud es:
$$SR_ {ij} =\ dfrac {\ suma y_ {ki} y_ {kj}} {\ suma y_ {ki} ^2 +\ suma y_ {kj} ^2 -\ suma (y_ {ki} y_ {kj})}\]
donde y ki es la abundancia de la k ésima especie en el sitio i (se comparan los sitios i y j). Observe que esta ecuación resuelve al
índice de Jaccard cuando solo hay datos de presencia o ausencia disponibles. El índice de similitud porcentual es:
$$PS_ {ij} =\ dfrac {200\ suma min (y_ {ki}, y_ {kj})} {\ suma y_ {ki} +\ suma y_ {kj}}\]
Nuevamente, observe cómo esta ecuación se resuelve al índice de Sørenson con datos cualitativos únicamente. Entonces veamos un
ejemplo sencillo de cómo estos índices nos permiten comparar la similitud entre tres sitios. El siguiente ejemplo presenta datos
hipotéticos sobre la abundancia de especies de tres sitios diferentes que contienen siete especies diferentes (A-G).
Mesa10.2.0
Sitio

Especies 1 2 3

A 4 0 1

B 0 1 0

C 0 0 0

D 1 0 1

E 1 4 0

F 3 1 1

G 1 0 3

Comencemos calculando los índices de Jaccard y Sørenson para las tres comparaciones (sitio 1 vs sitio 2, sitio 1 vs sitio 3 y sitio 2
vs sitio 3).
2 4 1
SJ1, 2 = = 0.33 SJ1, 3 = = 0.80 SJ2, 3 = = 0.17
(3+1+2) (4+1+0) (1+2+3)

2(2) 2(4) 2(1)


C C 1, 2 = = 0.50 C C 1, 3 = = 0.89 C C 2, 3 = = 0.29
(3+1+2(2)) (1+0+2(4)) (2+3+2(1))

Ambos índices cualitativos declaran que los sitios 1 y 3 son los más similares y los sitios 2 y 3 son los menos similares. Ahora
calculemos la relación de similitud y el índice de similitud porcentual para las mismas comparaciones de sitios.
$$SR1,2=\ dfrac {[(4\ times 0) + (0\ times 1) + (0\ times 0) + (1\ times 0) + (1\ times 4) + 3\ times 1) + (1\ times 0)]}
{(4^2+0^2+0^2+1^2+1^2+1^2+1^2) + (0^0+1^2+0^2+0^2+4^2+1^2+0^2) + (4\ times 0) + (0\ times 1) + (0\ times 0) + (1\ times
0) + (1\ times 0) + (1\ times 4) + 3\ times 1) + (1\ times 0)}\]
$$SR1,2= 0.23\]
$$SR1,3=\ dfrac {[(4\ times 1) + (0\ times 0) + (0\ times 0) + (1\ times 1) + (1\ times 0) + (3\ times 1) + (1\ times 3)]} {(4^2
+0^2+0^2+1^2+1^2+1^2+3^2+1^2) + (1^2+0^2) + (1^2+0^2+0^2+1^2+0^2+1^2+3^2) + (4\ times 1) + (0\ times 0) + (0\ times 0)
+ (1\ times 1) + (1\ times 0) + (3\ times 1) + (1\ times 1) + (1\ times 3)}\]
$$SR1,3= 0.38\]
$$SR2,3=\ dfrac {[(0\ times 1) + (1\ times 0) + (0\ times 0) + (0\ times 1) + (4\ times 0) + (1\ times 1) + (0\ times 3)]}
{(0^2+1^2+0^2+0^2+0^2+4^2+1^2+0^2) + (1^2+0^2) + (1^2+0^2 0^2+1^2+0^2+1^2+3^2) + (0\ times 1) + (1\ times 0) + (0\
times 0) + (0\ times 1) + (4\ times 0) + (1\ times 1) + (0\ times 1) + (0\ times 3)}\]
$$SR1,3= 0.03\]
$$PS1,2=\ dfrac {200 (0+0+0+0+1+1+0)} {(4+0+0+1+1+3+1) + (0+1+0+0+4+1+0)} =25.0\]
$$PS1,3=\ dfrac {200 (1+0+0+1+0+1+1)} {(4+0+0+1+1+1+3+1) + (1+0+0+1+0+1+3)} = 50.0\]

10.2.2 https://espanol.libretexts.org/@go/page/149523
$PS2,3=\ dfrac {200 (0+0+0+0+0+1+0)} {(0+1+0+0+0+4+1+0) + (1+0+0+1+0+1+3)} = 16.7\]
Una matriz de valores de similitud porcentual permite una fácil interpretación (especialmente cuando se comparan más de tres
sitios).
14403.png

Mesa10.2.1. Una matriz de porcentaje de similitud para tres sitios.


Los índices cuantitativos arrojan las mismas conclusiones que los índices cualitativos. Los sitios 1 y 3 son los más similares
ecológicamente, y los sitios 2 y 3 son los menos similares; y también el sitio 2 es más diferente a los otros dos sitios.

Índice de idoneidad del hábitat (HSI)


En 1980, el Servicio de Pesca y Vida Silvestre de los Estados Unidos (USFWS) desarrolló un procedimiento para documentar los
impactos previstos para los peces y la vida silvestre a partir de proyectos de desarrollo de recursos terrestres y hídricos propuestos.
Los Procedimientos de Evaluación del Hábitat (HEP) (Schamberger y Farmer 1978) se desarrollaron en respuesta a la necesidad de
documentar el valor no monetario de los recursos pesqueros y de vida silvestre. La HEP incorpora teorías de población y hábitat
para cada especie y se basa en el supuesto de que la calidad y cantidad del hábitat pueden describirse numéricamente para que los
cambios en el área puedan ser evaluados y comparados. Se trata de un enfoque especie-hábitat para la evaluación de impacto y la
calidad del hábitat, para una especie específica se cuantifica utilizando un índice de idoneidad del hábitat (HSI).
Los modelos de índice de idoneidad del hábitat (HSI) proporcionan un índice numérico de la calidad del hábitat para una especie
específica (Schamberger et al. 1982) y en general asumen una relación positiva y lineal entre la capacidad de carga (número de
animales soportados por alguna unidad de área) y HSI. El administrador de recursos naturales de hoy a menudo enfrenta decisiones
de importancia económica y social que afectarán no solo a la madera sino a la vida silvestre y su hábitat. Los modelos HSI
proporcionan a los gerentes herramientas para investigar los requisitos necesarios para la supervivencia de una especie.
Comprender las relaciones entre el hábitat animal y la prescripción de manejo forestal es vital para un enfoque de manejo más
integral de nuestros recursos naturales. Un modelo HSI sintetiza la información del uso del hábitat en un marco apropiado para el
trabajo de campo y se escala para producir un valor de índice entre 0.0 (hábitat inadecuado) y 1.0 (hábitat óptimo), siendo cada
incremento de cambio idéntico a otro. Por ejemplo, un cambio en HSI de 0.4 a 0.5 representa la misma magnitud de cambio que de
0.7 a 0.8. Los valores de HSI se multiplican por el área de hábitat disponible para obtener Unidades de Hábitat (HU) para especies
individuales. El Servicio de Pesca y Vida Silvestre de los Estados Unidos (USFWS) ha documentado una serie de modelos HSI
para una amplia variedad de especies (FWS/OBS-82/10).
Examinemos un modelo HSI simple para la marta (Martes americana) que habita comunidades forestales tardías sucesionales en
América del Norte (Allen 1982). Un modelo HSI debe comenzar con información sobre el uso del hábitat, entendiendo las
necesidades de las especies en términos de alimento, agua, cobertura, reproducción y área de distribución para esta especie. Para
esta especie, los requisitos de cobertura invernal son más restrictivos que los requisitos de cobertura para cualquier otra temporada
por lo que se asumió que si se disponía de una cobertura invernal adecuada, los requisitos de hábitat para el resto del año no serían
limitantes. Adicionalmente, todos los requisitos de hábitat invernal se satisfacen en los bosques boreales de hoja perenne. Ante
esto, la investigación identificó cuatro variables cruciales para la cobertura invernal que debían incluirse en el modelo.
161.tif

Figura10.2.3. Requerimientos de hábitat para la marta.


Para cada una de estas cuatro variables de cobertura invernal (V1, V2, V3 y V4), se crearon gráficas de índices de idoneidad para
examinar la relación entre diversas condiciones de estas variables y hábitat adecuado para la marta. A continuación se presenta una
reproducción de la gráfica para% de cierre de dosel de árboles.
14382.png

Figura10.2.4. Gráfico índice de idoneidad para cobertura de dosel porcentual.


Observe que cualquier cubierta de dosel menor al 25% da como resultado un hábitat inaceptable basado solo en esta variable. Sin
embargo, una vez que se alcanza el 50% de cobertura de dosel, el índice de idoneidad alcanza 1.0 y se logra un hábitat óptimo para
esta Se creó la siguiente ecuación que combinó los valores de vida requeridos para la marta usando estas cuatro variables:
$$\ frac {(V_1\ veces V_2\ veces V_3\ veces V_4)} {2}\]

10.2.3 https://espanol.libretexts.org/@go/page/149523
Dado que la cobertura invernal fue el único requisito de vida considerado en este modelo, el HSI iguala el valor de la cobertura
invernal. Como puede ver, cuantos más requisitos de vida incluidos en el modelo, más complejo se vuelve el modelo.
Mientras que los valores de HSI identifican la calidad del hábitat para una especie específica, la diversidad de vida silvestre en su
conjunto es función del tamaño y la disposición espacial de los rodales tratados (Porter 1986). La diversidad horizontal y
estructural son importantes. En términos generales, cuantos más rodales de diferente carácter contenga un área, mayor será la
diversidad de vida silvestre. La distribución espacial de diferentes tipos de rodales soporta animales que necesitan múltiples tipos
de cobertura. Para promover la diversidad de especies de vida silvestre, un gestor debe desarrollar una prescripción de manejo
forestal que varíe los patrones espaciales y temporales de reproducción de la madera, proporcionando así una mayor diversidad
estructural horizontal y vertical.
Image39089.PNG

Figura10.2.5: Diversidad de especies de aves que anidan en un gradiente de bosque a campo (After Strelke y Dickson 1980).
Por lo general, el manejo igualitario reduce la diversidad estructural vertical, pero opciones como el método de la madera de
refugio tienden a mitigar este problema. El sistema de selección tiende a promover la diversidad tanto horizontal como vertical.
La gestión integrada de los recursos naturales puede ser un proceso complicado pero no imposible. La respuesta de la vegetación a
las recetas silvícolas proporciona la base para comprender la respuesta de la vida silvestre. Al examinar las características actuales
de los rodales manejados, comprender la respuesta futura por el manejo y compararlas con los requerimientos de especies
específicas, podemos lograr la manipulación del hábitat junto con el manejo de la madera.

This page titled 10.2: Gráficas de Abundancia de Rango e Índice de Idon is shared under a CC BY-NC-SA 3.0 license and was authored, remixed,
and/or curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed
edit history is available upon request.
10.2: Rank Abundance Graphs and Habitat Suitability Index by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source:
https://milneopentextbooks.org/natural-resources-biometrics.

10.2.4 https://espanol.libretexts.org/@go/page/149523
10.3: Referencia
Aedrake09. “Logseries modificadas”, Wikipedia, es.wikipedia.org/wiki/Archivo:co... eWhittaker.jpg, 2009.
A.W. Allen, “Habitat Idonability Index Models: Marten”, U.S.D.I. Fish and Wildlife Service. FWS/OBS-82/10.11., 1982,9 pp.
B.V.Barnes et al., Ecología Forestal 4ª ed., Wiley, 1998.
P. Jacard, “La distribución de la flora de la zona alpina”, Nuevo Fitólogo 11, 1912, pp. 37-50.
A.E. Magurran, Diversidad Ecológica y Su Medición, Princeton Univ. Prensa, 1988.
W.F Porter, “Integrando el manejo de la vida silvestre con sistemas madereros pares”, Manejo de maderas duras del norte: Actas
de un Simposio Silvicultural, ed. R. Nyland, SUNY Colegio de Ciencias Ambientales y Forestales, 23-25 de junio de 1986, pp.
319-337.
M. Schamberger y A. Farmer, “Los procedimientos de evaluación del hábitat: su aplicación en la planeación de proyectos y
evaluación de impacto”, Trans. N. A. Vida Silvestre y Recursos Naturales Conf. 43, 1978, pp. 274-283.
E.H. Simpson, “Medición de la diversidad”, Nature 163, 1949, p. 688.
T. Sørenson, “Un método para establecer grupos de igual amplitud en la sociología vegetal con base en la similitud del contenido
de especies”, Det. Kong. Danske Vidensk. Selsk. Biol. Skr. (Copenhague) vol. 5, núm. 4, 1948, págs. 1-34.
W.K. Strelke y J.G. Dickson, “Efecto del borde claro del bosque en aves reproductoras en el este de Texas”, J. Wildl. Gestionar.
vol., 44, núm. 3, 1980, pp. 559-567.
Servicio de Pesca y Vida Silvestre de la U.S.D.I., “El hábitat como base para la evaluación ambiental”, 101 ESM, 1980.
O.F.R. van Tongeren, “Análisis de Cluster”, Análisis de Datos en Ecología Comunitaria y del Paisaje, Eds. R.H.G. Jongman, C.J.F.
Ter Braak, y O.F.R. van Tongeren, 1995, pp. 174-212.

This page titled 10.3: Referencia is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane Kiernan
(OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon
request.
10.3: Reference by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-resources-
biometrics.

10.3.1 https://espanol.libretexts.org/@go/page/149528
CHAPTER OVERVIEW

11: Laboratorios biométricos


Topic hierarchy
11.1: Laboratorio de Biometría #1
11.2: Laboratorio de Biometría #2
11.3: Laboratorio de Biometría #3
11.4: Laboratorio de Biometría #4
11.5: Laboratorio de Biometría #5

This page titled 11: Laboratorios biométricos is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane
Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available
upon request.

1
Más información acerca de los títulos de las páginas 11.1: Laboratorio de Biometría
#1
Experimento 1
No está satisfecho con la empresa maderera que contrató para adelgazar un soporte de pino rojo. Usted colocó cuidadosamente los
senderos de derrape dejando árboles parachoques para evitar daños excesivos a los árboles restantes. En el contrato, se afirma que
la empresa maderera pagaría una multa (3 veces la tasa de tala) por árboles dañados más allá de la cantidad acordada de cinco o
más árboles dañados por acre. Se quiere estimar el número de árboles dañados por acre para ver si superaron esta cantidad. Se
toman 27 muestras, a partir de las cuales se calcula la media de la muestra, y luego se construye un intervalo de confianza del 95%
sobre el número medio de árboles dañados por acre.

2 4 0 3 5 0 0 1 3

2 7 4 8 10 0 2 1 1

5 3 5 6 4 9 5 3 6

Ingrese estos datos en la primera columna de la hoja de trabajo de Minitab y etiquételos como “Árboles”. Ahora calcule la media
muestral y la desviación estándar de la muestra. Estadísticas > Estadísticas Básicas > Mostrar Estadísticas Descriptivas.
Seleccione la columna con sus datos en el cuadro de variables.
a) media muestral: ____________________________
desviación estándar de la muestra: ___________________
Examine la gráfica de probabilidad normal para este conjunto de datos. Recuerde, para un tamaño de muestra menor a n = 30,
debemos verificar el supuesto de normalidad si no sabemos que la variable aleatoria se distribuye normalmente. Ir a GRÁFICO →
PARCELA DE Ingresa la columna con tus datos en el cuadro “Gráfica variables” y haz clic en Aceptar.
b) ¿Diría usted que esta distribución es normal?
c) Calcular el intervalo de confianza del 95% a mano usandox ± t α/2 (
s

\squrn
) y la tabla t.

IC 95% para el número medio de árboles dañados:____________________________________


Ahora encuentra el intervalo de confianza del 95% para la media usando Minitab.
Ir a STAT> Estadística básica> 1-muestra t... Ingresar datos en “Muestras en columnas”. No es necesario ingresar la desviación
estándar pero seleccionar OPCIONES y establecer el nivel de confianza (asegúrese de que sea para 95%) y seleccione
“Alternativa:No igual”.
d) IC 95% para el número medio de árboles dañados: __________________________________
e) ¿Tiene pruebas estadísticas suficientes para afirmar que la empresa maderera ha superado el límite de daños? ¿Por qué?

Experimento 2
La cantidad de aguas residuales y contaminación industrial vertidas en una masa de agua afecta la salud del agua al reducir la
cantidad de oxígeno disuelto disponible para la vida acuática. Si la población media de oxígeno disuelto cae por debajo de cinco
partes por millón (ppm), un nivel que algunos científicos piensan que es marginal para suministrar suficiente oxígeno disuelto para
los peces, se intentará alguna acción correctiva. Ante el gasto de remediación, se tomará la decisión de tomar medidas sólo si hay
pruebas suficientes que respalden la afirmación de que el oxígeno medio disuelto ha disminuido por debajo de 5 ppm. A
continuación se muestran lecturas semanales desde la misma ubicación en un río durante un período de dos meses.
5.2, 4.9, 5.1, 4.2, 4.7, 4.5, 5.0, 5.2, 4.8, 4.6, 4.8
Se desconoce la desviación estándar poblacional y tenemos una muestra pequeña (n≤30). Debe verificar el supuesto de normalidad.
Ir a GRÁFICO → PARCELA DE Examinar la gráfica de probabilidad normal. ¿La distribución se ve normal?
Utilice ESTADÍSTICA DESCRIPTIVA (Estadística Básica>Mostrar Estadística Descriptiva) para obtener la media y la
desviación estándar muestral.

Más información acerca de los títulos de las páginas 11.1.1 https://espanol.libretexts.org/@go/page/149592


Ahora pruebe la afirmación de que el oxígeno medio disuelto es menor a 5ppm usando α = 0.05
a) Primero, exponer las hipótesis nulas y alternativas
H0:__________________________________
H1: __________________________________
x̄−μ
b) Calcular el estadístico de prueba a manot = s/ √n

c) Encontrar el valor crítico de la tabla t: ________________________________________


d) ¿Rechaza la hipótesis nula o no rechaza la hipótesis nula?
Ahora usa Minitab para hacer la prueba de hipótesis. Vaya a STAT > STAT BASIC > 1-MUESTRA t. marque REALIZAR
PRUEBA DE HIPOSTEIS e ingrese la media hipotética ( Haga clic en OPCIONES e ingrese el nivel de confianza (1-α) y
seleccione hipótesis alternativa (H1). Haga clic en Aceptar. Verifique que las hipótesis nulas y alternativas mostradas en la ventana
de sesión sean correctas.
e) ¿Cuál es el valor p para esta prueba?
f) ¿Rechaza o no rechaza la hipótesis nula?
g) Exponga su conclusión:

Experimento 3
Un silvicultor cree que las orugas de las carpas están haciendo un daño significativo al crecimiento de las especies de árboles de
madera dura en su rodal. Tiene datos de crecimiento de 21 parcelas antes de la infestación. Desde entonces, ha vuelto a medir esas
mismas parcelas y quiere saber si ha habido una reducción significativa en el crecimiento anual del diámetro.

Antes Después

0.17 0.15

0.22 0.23

0.19 0.17

0.2 0.14

0.12 0.13

0.13 0.11

0.15 0.13

0.16 0.17

0.16 0.12

0.19 0.16

0.25 0.26

0.24 0.21

0.21 0.21

0.18 0.15

0.19 0.17

0.22 0.2

0.24 0.19

0.25 0.24

0.24 0.25

0.14 0.1

Más información acerca de los títulos de las páginas 11.1.2 https://espanol.libretexts.org/@go/page/149592


0.11 0.11

Es necesario calcular las diferencias entre los valores antes y los valores después. Para crear una nueva variable (diff), escribe
“diff” en el encabezado de la columna que quieres usar. Seleccione CALC>CALCULADORA. En el cuadro “Expresiones”,
escriba la ecuación “Antes-Después”. En el cuadro “Almacenar resultados en variable” escriba “diff”. Haga clic en Aceptar.
Ahora tienes un nuevo conjunto de datos de las diferencias con las que completarás tus análisis. Calcular estadística descriptiva
básica para obtener la media muestrald¯ y la desviación estándar muestrals de las diferencias. Utilice estas estadísticas para probar
d

la afirmación de que ha habido una reducción en el crecimiento anual del diámetro. Puedes responder a esta pregunta usando ya sea
una prueba de hipótesis o un intervalo de confianza.
a) H0:____________________________________
H1: ____________________________________
¯
d −μd sd
t =
sd / √n
od¯ ± t
α/2
√n

¿Rechaza o no rechaza la hipótesis nula?


Ahora deja que Minitab haga el trabajo por ti. Seleccionar STAT> Estadísticas Básicas> Pareado t... Seleccionar MUESTRAS
EN COLUMNAS. Ingresa los datos antes como la Primera muestra y después como la Segunda muestra. Seleccione
OPCIONES para establecer el nivel de confianza y la hipótesis alternativa. Asegúrese de que la media de prueba esté establecida
en 0.0. Haga clic en Aceptar.
b) Escribir el estadístico de prueba y el valor p
c) Escribir una conclusión completa que responda a la pregunta.

Experimento 4
La energía alternativa es un tema importante en estos días y un investigador está estudiando un sistema eléctrico solar. Cada día a la
misma hora recogía lecturas de voltaje de un medidor conectado al sistema y los datos se dan a continuación. ¿Existe una diferencia
significativa en las lecturas de voltaje promedio para los diferentes tipos de días? Primero haga una prueba F para probar varianzas
iguales y luego probar las medias usando la prueba t de 2 muestras apropiada basada en los resultados de la prueba F. Indique una
conclusión completa para este problema. α = 0.05.
Soleado — 13.5, 15.8, 13.2, 13.9, 13.8, 14.0, 15.2, 12.1, 12.9, 14.9
Nublado — 12.7, 12.5, 12.6, 12.7, 13.0, 13.0, 12.1, 12.2, 12.9, 12.7
Prueba F
a) Escribir las hipótesis nulas y alternativas para probar la afirmación de que las varianzas no son iguales.
H0:____________________________________ H1: ____________________________________
Seleccione STAT>ESTADO BÁSCO>2 Varianzas. En el cuadro Datos seleccione “Muestras en diferentes columnas” e ingrese
Soleado en el cuadro Primero y Nublado en el segundo cuadro. Haga clic en OPCIONES y en el cuadro Relación hipotética
seleccione Variance1/Variance2. Asegúrese de que la Alternativa esté establecida en “No es igual”. Haga clic en Aceptar. Mire el
valor p para la prueba F en la parte inferior de la salida.
b) ¿Rechaza por no rechazar la hipótesis nula?
c) ¿Se puede asumir varianzas iguales?
Ahora realiza una prueba t de 2 muestras (deberías haber rechazado la hipótesis nula en la prueba F y asumido varianzas
desiguales). STAT>ESTADO BASIC>2-muestra t... Seleccione el botón para “Muestras en diferentes columnas” y ponga
Sunny en la caja Primera y Nublado en la casilla Segunda. Haga clic en OPCIONES y establezca el nivel de confianza y
seleccione la hipótesis alternativa correcta. Establezca la diferencia de prueba en 0.0. Haga clic en Aceptar.
d) ¿Cuál es el valor p para esta prueba?
e) ¿Rechaza o no rechaza la hipótesis nula? Exponga su conclusión.

Más información acerca de los títulos de las páginas 11.1.3 https://espanol.libretexts.org/@go/page/149592


This page titled 11.1: Laboratorio de Biometría #1 is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by
Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is
available upon request.
11.1: Biometrics Lab #1 by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-resources-
biometrics.

Más información acerca de los títulos de las páginas 11.1.4 https://espanol.libretexts.org/@go/page/149592


Más información acerca de los títulos de las páginas 11.2: Laboratorio de Biometría
#2
Laboratorio de computación ANOVA unidireccional
Nombre: ______________________________________________________

Experimento 1
Un silvicultor que trabaja con maderas duras del norte de edad irregular quiere saber si existe una diferencia significativa en el
volumen total de aserrado comercializable (m3ha-1) producido a partir de rodales utilizando tres métodos diferentes de sistema de
selección y un ciclo de corte de 15 años. Los siguientes datos son el volumen comercial total de 7 parcelas de muestra para cada
método. Si encuentra una diferencia significativa (rechazar Ho), entonces pruebe las comparaciones múltiples para detectar
diferencias significativas. Reporte los hallazgos utilizando toda la información disponible. α=0.05.

Un solo árbol Selección de grupo Tira de Parche

108.6 104.2 102.1

110.9 103.9 101.4

112.4 109.4 100.3

106.3 105.2 95.6

101.4 106.3 102.9

114.6 107.2 99.8

117 105.8 103.5

Escribir las hipótesis nulas y alternativas.


H0: ____________________________________
H1: ____________________________________
Abra Minitab y etiquete la primera columna como Volumen y la segunda columna como Método. Ingresa todos los volúmenes en la
primera columna y los métodos en la segunda:

Volumen Método

108.6 Sencillo

110.9... Sencillo...

104.2 Grupo

103.9... Grupo...

102.1 Parche

101.4... Parche...

Seleccione estado>Anova>Unidireccional. En el cuadro Respuesta, seleccione Volumen y, en el cuadro Factor, seleccione


Método. Haga clic en el cuadro Comparaciones. Seleccione Tukeys, tasa de error familiar “5”. Esto le dice a Minitab que desea
controlar el error de experimento usando el método de Tukey mientras se mantiene el nivel general de significancia en 5% en todas
las comparaciones múltiples. Haga clic en Aceptar.
Indicar el valor p de la tabla ANOVA ____________________________________
Escriba el valor para el S2b ___________ y el S2w (MSE) ____________________
¿Rechazas o no rechazas la hipótesis nula? ______________________________
Utilizando la Información de Agrupación del Método Tukey, describa las diferencias de volumen producidas utilizando los tres
métodos.

Más información acerca de los títulos de las páginas 11.2.1 https://espanol.libretexts.org/@go/page/149585


________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
Ahora refiérase a los intervalos de confianza simultánea de Tukey 95% para las comparaciones múltiples. ¿Cuál es el nivel de
intervalo de confianza individual? __________________ Este es el nivel ajustado de significancia utilizado para todas las
comparaciones múltiples que mantiene el nivel de significancia del 5% a lo largo del experimento total.
Usando estos intervalos de confianza, describir las diferencias estimadas en el volumen de aserrado debido a los tres diferentes
tratamientos.
Ejemplo: El método de grupo da como resultado mayores niveles de volumen de aserrado en comparación con el parche. El
método de grupo produce, en promedio, 0.327 a 10.073 m3 más volumen de aserradero por parcela que el método de parche.
Compara “Individual” y “Parche” y “Individual” y “Grupo”.
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________

Experimento 2
Un fisiólogo de plantas está estudiando la tasa de pérdida de agua transpiracional (ml) de plantas que crecen bajo cinco niveles de
estrés por humedad del suelo. Esta especie es un componente importante para el hábitat de vida silvestre en esta zona y quiere
asegurarse de que sobreviva en una zona que tiende a ser seca. Asigna aleatoriamente 18 macetas a cada tratamiento (N = 90). Ella
está midiendo la tasa total de agua que transpira de las hojas (ml) por maceta por unidad de área. ¿Existe una diferencia
significativa en las tasas de transpiración entre los niveles de estrés hídrico (días)? α = 0.05.

0 DÍAS 5 DÍAS 10 DÍAS 20 DÍAS 30 DÍAS

7.78 7.15 9.1 4.72 1.05

8.09 9.12 5.86 3.53 1.29

7.27 7.67 9.45 4.96 1.11

11.35 10.82 7.14 5 0.83

11.94 12.31 6.87 3.82 1.08

10.89 9.76 8.72 4.36 1.09

10.93 8.46 8.58 2.91 0.75

9.16 11.01 9.93 4.91 0.99

7.83 7.54 9.28 4.99 0.71

8.6 9.48 6.65 4.95 1.02

9.32 9.47 10.55 3.28 1.01

6.46 10.2 7.93 3.53 1.08

8.12 6.04 7.68 5.37 1.99

10.47 7.99 5.42 6.54 3.01

5.98 8.05 4.99 5.51 2.61

6.9 7.42 5.29 4.24 2.99

7.57 5.76 7.65 4.39 2.62

Más información acerca de los títulos de las páginas 11.2.2 https://espanol.libretexts.org/@go/page/149585


9.17 7.78 4.75 4.16 1.98

Escribir las hipótesis nulas y alternativas.


H0: ____________________________________
H1: ____________________________________
Indicar el valor p de la tabla ANOVA ____________________________________
¿Rechazas o no rechazas la hipótesis nula? ______________________________
Utilizando la Información de Agrupación utilizando el Método Tukey, describir las diferencias en la pérdida de agua entre los cinco
niveles de estrés hídrico (0, 5, 10, 20 y 30).
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
Ahora refiérase a los intervalos de confianza simultánea de Tukey 95% para las comparaciones múltiples. ¿Cuál es el nivel de
intervalo de confianza individual? __________________ Este es el nivel ajustado de significancia utilizado para todas las
comparaciones múltiples que mantiene el nivel de significancia del 5% a lo largo del experimento total.
Mediante estos intervalos de confianza, se describen las diferencias estimadas en la pérdida de agua entre los cinco tratamientos
diferentes.
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________

Experimento 3
Un club de fusileros realizó un experimento en un grupo seleccionado al azar de tiradores primerizos. El propósito fue determinar
si la precisión de disparo se ve afectada por el método de avistamiento utilizado: solo el ojo derecho abierto, solo el ojo izquierdo
abierto, o ambos ojos abiertos. Quince tiradores recibieron entrenamiento similar excepto en el método de avistamiento. Sus
puntajes se registran a continuación. En el nivel 0.05 de significancia, ¿hay pruebas suficientes para rechazar la afirmación de que
los tres métodos de avistamiento son igualmente efectivos? α = 0.05.

Derecha Izquierda Ambos

13 10 15

9 18 16

17 15 15

13 11 12

14 15 16

Escribir las hipótesis nulas y alternativas.


H0: ____________________________________
H1: ____________________________________
Indicar el valor p de la tabla ANOVA ____________________________________
¿Rechazas o no rechazas la hipótesis nula? ______________________________

Más información acerca de los títulos de las páginas 11.2.3 https://espanol.libretexts.org/@go/page/149585


Dar una conclusión completa.
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
¿Por qué cree que no pudo identificar diferencias entre los métodos de avistamiento?
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________

This page titled 11.2: Laboratorio de Biometría #2 is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by
Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is
available upon request.
11.2: Biometrics Lab #2 by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-resources-
biometrics.

Más información acerca de los títulos de las páginas 11.2.4 https://espanol.libretexts.org/@go/page/149585


Más información acerca de los títulos de las páginas 11.3: Laboratorio de Biometría
#3
Nombre: ______________________________________________________
Está estudiando el crecimiento de una especie híbrida de pino de Alaska en tres niveles de humedad del suelo (húmedo, moderado
y seco) durante un periodo de 30 días (0, 5, 10, 20 y 30). Se quiere determinar si esta especie crece de manera diferente a lo largo
del tiempo dados los diferentes niveles iniciales de humedad del suelo. Utilice los datos dados para probar esta afirmación (α =
0.05). Si la interacción es significativa, ¿en qué momento se vuelve significativa la diferencia de crecimiento entre los niveles de
humedad del suelo a lo largo del tiempo? Utilice la gráfica factorial y la información de Agrupación para identificar
específicamente la diferencia en su conclusión.
15089.png

Abra Minitab e ingrese los datos en una hoja de cálculo. Seleccionar estado>Anova>Modelo Lineal General.
Haga clic en el cuadro Respuesta y seleccione CRECIMIENTO para el cuadro Respuesta, e ingrese HUMEDAD, DÍAS y
HUMEDAD*DÍAS (término de interacción) en el cuadro Modelo, como se muestra.
Image39227.PNG

En OPCIONES, seleccione “Ajustado (Tipo III)” en Sumas de Cuadrados. Haga clic en Aceptar.
En COMPARACIONES, seleccione “Comparaciones por pares” usando el método “Tukey” e ingrese los dos efectos principales y
la interacción (HUMEDAD, DÍAS y HUMEDA*DÍAS) en el cuadro de términos (haga clic en el cuadro primero para seleccionar).
Marque la casilla Información de Agrupación. Haga clic en Aceptar.
Image39235.PNG

En RESULTADOS, seleccione “Tabla de Análisis de varianza” para Visualización de resultados. Haga clic en Aceptar.
En FACTOR PLATOS, ingrese HUMEDAD y DÍAS tanto en el cuadro de efectos principales como en el cuadro de interacción
Haga clic en Aceptar. Haga clic en Aceptar.
¿Es significativo el término de interacción? __________________
Escribe el valor p ________________________________
Utilice la tercera Información de Agrupación Usando el Método Tukey (para la interacción) y la gráfica Factor para determinar
dónde están las diferencias para cada tratamiento.
Adjuntar una conclusión completa que describa las diferencias en el crecimiento de esta especie a lo largo de los 30 días para los 3
niveles diferentes de humedad del suelo.

This page titled 11.3: Laboratorio de Biometría #3 is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by
Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is
available upon request.
11.3: Biometrics Lab #3 by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-resources-
biometrics.

Más información acerca de los títulos de las páginas 11.3.1 https://espanol.libretexts.org/@go/page/149591


Más información acerca de los títulos de las páginas 11.4: Laboratorio de Biometría
#4
Nombre: ______________________________________________________

Experimento 1
Los siguientes datos fueron recolectados en el géiser Old Faithful en Yellowstone Park. La variable x es el tiempo entre erupciones
y la variable y es la longitud de las erupciones.

X Y

12.17 1.88

11.63 1.77

12.03 1.83

12.15 1.83

11.30 1.70

11.70 1.82

12.27 1.93

11.60 1.77

11.72 1.83

12.10 1.89

11.70 1.80

11.40 1.72

11.22 1.75

11.42 1.73

11.53 1.74

11.50 1.77

11.90 1.87

11.86 1.84

a) Determinar si existe una relación entre las 2 variables utilizando una gráfica de dispersión y el coeficiente de correlación lineal.
Seleccione Gráfica > Gráfica de dispersión. Seleccione la Gráfica simple y haga clic en Aceptar. Ingrese la variable de respuesta
(longitud de erupciones) en el cuadro de variables Y, y la variable predictora (tiempo entre erupciones) en el cuadro de variables
X. Haga clic en Aceptar. Describe la relación que veas.
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
b) Calcular el coeficiente de correlación lineal. Estadísticas > Estadísticas Básicas > Correlación. Ingrese las 2 variables en el
cuadro Variables y haga clic en Aceptar.
r = ____________________________________
¿Qué dos piezas de información sobre la relación entre estas dos variables te dice el coeficiente de correlación lineal?
________________________________________________________________________

Más información acerca de los títulos de las páginas 11.4.1 https://espanol.libretexts.org/@go/page/149597


________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
c) Encontrar una línea de regresión de mínimos cuadrados tratando “tiempo entre erupciones” como la variable predictora (x) y
“longitud de erupciones” como la variable de respuesta (y). Estadísticas > Regresión > Regresión general. Ingresa “longitud de
las erupciones” en el cuadro Respuesta. Ingrese “tiempo entre erupciones” en el cuadro Modelo. Haga clic en Opciones y
asegúrese de que el 95% esté seleccionado para todos los intervalos de confianza. Haga clic en Gráficas y seleccione la gráfica
Residual “Residual versus ajustes”. Haga clic en Resultados y asegúrese de verificar la ecuación de regresión, la tabla Coeficiente,
Mostrar intervalos de confianza, Resumen del modelo, la tabla Análisis de varianza y las tablas de predicción. Haga clic en
Aceptar.
Escribir la ecuación de regresión __________________
¿Cuál es el valor de R2? _______________________
¿Qué significa esto?
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
Examinar el modelo residual. ¿Ves algún problema?
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
¿Cuál es el valor del error estándar de regresión? _____________________________
Escriba los intervalos de confianza para la intercepción y ______________________________
y pendiente ______________________________________________________________
Utilice la salida para probar si la pendiente es significativamente diferente de cero. Escribir las hipótesis nulas y alternativas para
esta prueba.
H0:____________________________________
H1: ____________________________________
Usar el estadístico de prueba y el valor p de la salida de Minitab para probar esta afirmación.
Estadística de prueba_______________________________ valor p _______________________________
Conclusión:
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
d) Usando la ecuación de regresión, ¿cuál sería la duración de la erupción si el tiempo entre erupciones es de 11.42 min.?

Experimento 2
El índice de integridad biótica (IBI) es una medida de la calidad del agua en los arroyos. Los datos de muestra que se dan en la
siguiente tabla provienen de la región forestal del Piamonte. La tabla da los datos para IBI y área boscosa en kilómetros cuadrados.
Que Área Forestal sea la variable predictora (x) e IBI sea la variable de respuesta (y).

Más información acerca de los títulos de las páginas 11.4.2 https://espanol.libretexts.org/@go/page/149597


15108.png

Crear una gráfica de dispersión y describir la relación entre estas variables. Calcular el coeficiente de correlación lineal.
r = ____________________________________
Cree un modelo de regresión para este conjunto de datos siguiendo los pasos del primer ejemplo. Escriba el modelo de regresión.
________________________________________________________________________
¿Hay evidencia significativa que respalde la afirmación de que el IBI aumenta con Área Forestal? Escriba la estadística de
prueba/valor p utilizada para esta prueba de pendiente junto con su respuesta.
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
El investigador quiere estimar el IBI medio poblacional para arroyos que tienen una superficie boscosa promedio de 48 km2. Haga
clic en ESTADO>REGRESION> REGISIÓN Asegurándose de que IBI está en el cuadro Respuesta y Área Forestal está en el
cuadro Modelo, haga clic en Predicción e ingrese 48 en la casilla Nueva observación para predictores continuos y marque
Límites de confianza. Haga clic en Aceptar. Escriba el intervalo de confianza del 95% para IBI medio para arroyos en un área
boscosa promedio de 48 km2. ______________________________________________________
Se está trabajando con un arroyo en una zona con 19 km2 de superficie boscosa. Su plan de manejo incluye un proyecto de
forestación que incrementará la superficie boscosa a 23 km2. Es necesario predecir cuál sería el IBI específico para este arroyo
cuando se incremente el área boscosa. Crear un intervalo de predicción para estimar este IBI si el área boscosa aumentó a 23 km2.
Haga clic en ESTADO>REGRESION>REGISIÓN Asegurándose de que IBI está en el cuadro Respuesta y Área Forestal está en
el cuadro Modelo, haga clic en Predicción e ingrese 23 en la casilla Nueva observación para predictores continuos y marque
Límites de predicción. Haga clic en Aceptar. Escriba el intervalo de predicción del 95% para el IBI para este arroyo cuando el área
boscosa se incremente a 23 km2. ___________________________________________________
Explica la diferencia entre los intervalos de confianza y predicción que acabas de calcular.
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________

This page titled 11.4: Laboratorio de Biometría #4 is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by
Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is
available upon request.
11.4: Biometrics Lab #4 by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-resources-
biometrics.

Más información acerca de los títulos de las páginas 11.4.3 https://espanol.libretexts.org/@go/page/149597


Más información acerca de los títulos de las páginas 11.5: Laboratorio de Biometría
#5
Nombre: ______________________________________________________
Estás trabajando en una fuente de energía alternativa y la biomasa es un componente clave. Se quiere predecir la biomasa aérea
para esta región, y cree que la biomasa está relacionada con variables de sustrato (subsuelo) de salinidad, acidez del agua, potasio,
sodio y zinc. Su tripulación recopila información sobre la biomasa y estas cinco variables para 45 parcelas.

Experimento 1
Antes de crear este modelo de regresión, debe examinar las relaciones entre cada una de las cinco variables predictoras y la
biomasa (la variable de respuesta). Crear cinco diagramas de dispersión utilizando biomasa como variable de respuesta (y) y cada
una de las variables predictoras (x). Compute el coeficiente de correlación lineal para cada par. Describir las relaciones.
Gráfico>Scatterplot>Simple>OK. La variable respuesta (variable y) es Bio y las cinco variables predictoras son las variables x.
Mira las gráficas de dispersión y describe cada relación a continuación. A continuación computa el coeficiente de correlación para
cada par y escribe el valor r a continuación. ESTAT>Estadística Básica>Correlación. Puedes hacer fácilmente todas las
correlaciones a la vez creando una matriz de correlación. Ponga todas las variables predictoras en el cuadro Variables juntas.
Image39257.PNG

Image39265.PNG

Correlación (r) Descripción


Bio v. sal ______________________________________________________
Bio V.ph ______________________________________________________
Bio v. K _______________________________________________________
Bio v. Na ______________________________________________________
Bio v. Zn ______________________________________________________
Encierra en círculo el par anterior que tiene la relación lineal más fuerte.

Experimento 2
Ahora vas a crear cuatro modelos de regresión usando las variables predictoras. Comparará el R2 ajustado, el error estándar de
regresión, los valores p para cada coeficiente y los residuos para cada modelo. Usando esta información, seleccionará el mejor
modelo y expondrá sus razones para esta elección.
Comience con el modelo completo usando las cinco variables predictoras. ESTADO>Regresión>Regresión General. Ponga Bio
en el cuadro Respuesta y las cinco variables predictoras en el cuadro Modelo (ver imagen). Haga clic en Resultados y asegúrese
de que la ecuación de regresión, la tabla de coeficientes, Mostrar intervalos de confianza, Resumen del modelo y Tabla de análisis
de varianza estén verificadas (ver imagen). Haga clic en Aceptar. Haga clic en Gráficas y asegúrese de que en Gráficas residuales
estén seleccionadas las gráficas individuales y Residual versus ajustes (ver imagen). Haga clic en Aceptar.
Image39273.PNG

Image39285.PNG

MODELO 1
Escribir el modelo de regresión _______________________________________________
Escribe el adj. R2 ________________________________________________________
Escriba el error estándar de regresión _________________________________________
Examinar la parcela residual. ¿Hay algún problema? ____________________________
Escribe las variables que NO sean significativas ________________________________

Más información acerca de los títulos de las páginas 11.5.1 https://espanol.libretexts.org/@go/page/149584


MODELO 2
Ahora elimine la variable MENOS significativa (el valor p más alto) y repita los pasos usando solo las variables restantes.
Escribir el modelo de regresión _______________________________________________
Escribe el adj. R2 ________________________________________________________
Escriba el error estándar de regresión _________________________________________
Examinar la parcela residual. ¿Hay algún problema? ____________________________
Escribe las variables que NO sean significativas ________________________________
MODELO 3
Ahora elimine la variable MENOS significativa (el valor p más alto) y repita los pasos usando solo las variables restantes.
Escribir el modelo de regresión _______________________________________________
Escribe el adj. R2 ________________________________________________________
Escriba el error estándar de regresión _________________________________________
Examinar la parcela residual. ¿Hay algún problema? ____________________________
Escribe las variables que NO sean significativas ________________________________
MODELO 4
Ahora elimine la variable MENOS significativa (el valor p más alto) y repita los pasos usando solo las variables restantes.
Escribir el modelo de regresión _______________________________________________
Escribe el adj. R2 ________________________________________________________
Escriba el error estándar de regresión _________________________________________
Examinar la parcela residual. ¿Hay algún problema? ____________________________
Escribe las variables que NO sean significativas ________________________________

Experimento 3
Seleccione el mejor modelo y exponga sus razones para seleccionar este modelo.
Lab%205.tif

This page titled 11.5: Laboratorio de Biometría #5 is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by
Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is
available upon request.
11.5: Biometrics Lab #5 by Diane Kiernan is licensed CC BY-NC-SA 3.0. Original source: https://milneopentextbooks.org/natural-resources-
biometrics.

Más información acerca de los títulos de las páginas 11.5.2 https://espanol.libretexts.org/@go/page/149584


CHAPTER OVERVIEW

Volver Materia
Índice
Glosario
Licenciamiento Detallado

This page titled Volver Materia is shared under a not declared license and was authored, remixed, and/or curated by Diane Kiernan (OpenSUNY) .

1
Índice
C I Rank Abundance Graphs
confidence interval Interaction Effects 10.2: Gráficas de Abundancia de Rango e Índice de
Idon
2.2: Intervalos de confianza 6.1: Efectos principales y efecto de interacción
Regression
correlation
8.2: Solución de software
7.1: Correlación M
margin of error S
D 2.2: Intervalos de confianza
sample proportion
descriptive statistics mode
2.1: Distribución por muestreo de la media muestral
1.1: Estadística Descriptiva 1.1: Estadística Descriptiva
Simpson’s Index
Motomura’s geometric series
10.1: Introducción, índice de Simpson e índice
F 10.2: Gráficas de Abundancia de Rango e Índice de Shannon-Weiner
Idon
Fisher’s logseries Site Index
10.2: Gráficas de Abundancia de Rango e Índice de 9.2: Índice del sitio
Idon P
parameters (definition) T
H 1.1: Estadística Descriptiva
the central limit theorem
Habitat Suitability Index Population Model
2.1: Distribución por muestreo de la media muestral
10.2: Gráficas de Abundancia de Rango e Índice de 7.3: Modelo poblacional
Idon probability distribution function This page titled Índice is shared under a not
hypothesis testing 1.2: Distribución de probabilidad
3.1: Los fundamentos de las pruebas de hipótesis
declared license and was authored, remixed,
R and/or curated by Diane Kiernan
range (OpenSUNY) .
1.1: Estadística Descriptiva

1 https://espanol.libretexts.org/@go/page/149574
Glosario
Ejemplo y Direcciones emerg
This page titled Glosario is shared under a not
entes]
Palab La (Opci (Opci (Opci (Opci declared license and was authored, remixed,
ras (o defini onal) onal) onal) onal) (Ej. and/or curated by Diane Kiernan
palab ción Imag Leye Enlac Fuent (Ej. “Rel (OpenSUNY) .
CC-
ras es en nda e e para “Gen acion La
https: BY- Glossary by Diane Kiernan has no license
que sensi para para exter Defin ético, ado infa
//bio. SA; indicated.
tiene ble a mostr la no o ición Here con me
libret Delm
n la mayú ar con image intern ditari gene doble
exts. ar
mism scula la n o o, so hélic
org/ Larse
a s defini ADN here e
n
defini ción ...”) ncia”
ción) [No )
se
muest Entradas en el glosario
ra en Palab Defin Imag Leye Enlac Fuent
el ra (s) ición en nda e e
Glosa
rio, Pala Defi
solo bra nició
en las de n de
págin mues mues
as tra 1 tra 1

1 https://espanol.libretexts.org/@go/page/149567
Licenciamiento Detallado
Overview
Title: Libro: Biometría de Recursos Naturales (Kiernan)
Webpages: 72
Applicable Restrictions: Noncommercial
All licenses found:
CC BY-NC-SA 3.0: 75% (54 pages)
Undeclared: 25% (18 pages)

By Page
Libro: Biometría de Recursos Naturales (Kiernan) - CC BY- 4: Inferencias sobre las diferencias de dos poblaciones -
NC-SA 3.0 CC BY-NC-SA 3.0
Front Matter - Undeclared 4.1: Inferencias sobre dos medias con muestras
TitlePage - Undeclared independientes (asumiendo varianzas desiguales) -
InfoPage - Undeclared CC BY-NC-SA 3.0
Table of Contents - Undeclared 4.2: Prueba t de dos muestras agrupadas (Suponiendo
Licensing - Undeclared varianzas iguales) - CC BY-NC-SA 3.0
4.3: Inferencias sobre dos medias con muestras
Materia Frontal - Undeclared
dependientes: pares coincidentes - CC BY-NC-SA 3.0
TitlePage - Undeclared
4.4: Inferencias sobre Dos Proporciones de Población
InfoPage - Undeclared
- CC BY-NC-SA 3.0
Tabla de Contenidos - Undeclared
4.5: Prueba F para comparar dos varianzas de
Licencias - Undeclared
población - CC BY-NC-SA 3.0
1: Estadística descriptiva y distribución normal - CC BY- 4.6: Resumen - CC BY-NC-SA 3.0
NC-SA 3.0
5: Análisis de varianza unidireccional - CC BY-NC-SA
1.1: Estadística Descriptiva - CC BY-NC-SA 3.0 3.0
1.2: Distribución de probabilidad - CC BY-NC-SA 3.0
5.1: Análisis de varianza - CC BY-NC-SA 3.0
2: Distribuciones de muestreo e intervalos de confianza - 5.2: Comparaciones múltiples - CC BY-NC-SA 3.0
CC BY-NC-SA 3.0
6: Análisis bidireccional de varianza - CC BY-NC-SA 3.0
2.1: Distribución por muestreo de la media muestral -
6.1: Efectos principales y efecto de interacción - CC
CC BY-NC-SA 3.0
BY-NC-SA 3.0
2.2: Intervalos de confianza - CC BY-NC-SA 3.0
6.2: Comparaciones múltiples - CC BY-NC-SA 3.0
3: Prueba de Hipótesis - CC BY-NC-SA 3.0 6.3: Resumen y solución de software - CC BY-NC-SA
3.1: Los fundamentos de las pruebas de hipótesis - 3.0
CC BY-NC-SA 3.0 7: Correlación y Regresión Lineal Simple - CC BY-NC-
3.2: Prueba de hipótesis sobre la media poblacional SA 3.0
cuando se conoce la desviación estándar de la
7.1: Correlación - CC BY-NC-SA 3.0
población - CC BY-NC-SA 3.0
7.2: Regresión lineal simple - CC BY-NC-SA 3.0
3.3: Prueba de hipótesis sobre la media poblacional
7.3: Modelo poblacional - CC BY-NC-SA 3.0
cuando se desconoce la desviación estándar de la
7.4: Solución de software - CC BY-NC-SA 3.0
población - CC BY-NC-SA 3.0
8: Regresión Lineal Múltiple - CC BY-NC-SA 3.0
3.4: Prueba de hipótesis para una proporción
poblacional - CC BY-NC-SA 3.0 8.1: Regresiones Múltiples - CC BY-NC-SA 3.0
3.5: Prueba de Hipótesis sobre una Varianza - CC BY- 8.2: Solución de software - CC BY-NC-SA 3.0
NC-SA 3.0 8.3: Sección 3- - CC BY-NC-SA 3.0
3.6: Armando todo usando el método clásico - CC 8.4: Sección 4- - CC BY-NC-SA 3.0
BY-NC-SA 3.0 8.5: Sección 5- - CC BY-NC-SA 3.0
8.6: Sección 6- - CC BY-NC-SA 3.0

1 https://espanol.libretexts.org/@go/page/149566
9: Modelado de crecimiento, rendimiento e índice de 11.2: Laboratorio de Biometría #2 - CC BY-NC-SA
sitio - CC BY-NC-SA 3.0 3.0
9.1: Modelos de Crecimiento y Rendimiento - CC BY- 11.3: Laboratorio de Biometría #3 - CC BY-NC-SA
NC-SA 3.0 3.0
9.2: Índice del sitio - CC BY-NC-SA 3.0 11.4: Laboratorio de Biometría #4 - CC BY-NC-SA
9.3: Referencia - CC BY-NC-SA 3.0 3.0
10: Medidas cuantitativas de diversidad, similitud de 11.5: Laboratorio de Biometría #5 - CC BY-NC-SA
sitios e idoneidad del hábitat - CC BY-NC-SA 3.0 3.0
Back Matter - Undeclared
10.1: Introducción, índice de Simpson e índice
Shannon-Weiner - CC BY-NC-SA 3.0 Index - Undeclared
10.2: Gráficas de Abundancia de Rango e Índice de Glossary - Undeclared
Idon - CC BY-NC-SA 3.0 Detailed Licensing - Undeclared
10.3: Referencia - CC BY-NC-SA 3.0 Volver Materia - Undeclared
11: Laboratorios biométricos - CC BY-NC-SA 3.0 Índice - Undeclared
11.1: Laboratorio de Biometría #1 - CC BY-NC-SA Glosario - Undeclared
3.0 Licenciamiento Detallado - Undeclared

Licenciamiento Detallado is shared under a not declared license and was authored, remixed, and/or curated by LibreTexts.

2 https://espanol.libretexts.org/@go/page/149566
Index
C I R
confidence interval Interaction Effects range
2.2: Intervalos de confianza 6.1: Efectos principales y efecto de interacción 1.1: Estadística Descriptiva
correlation Rank Abundance Graphs
7.1: Correlación M 10.2: Gráficas de Abundancia de Rango e Índice de
Idon
margin of error
D 2.2: Intervalos de confianza
Regression
8.2: Solución de software
descriptive statistics mode
1.1: Estadística Descriptiva 1.1: Estadística Descriptiva
Motomura’s geometric series S
F 10.2: Gráficas de Abundancia de Rango e Índice de sample proportion
Idon 2.1: Distribución por muestreo de la media muestral
Fisher’s logseries
10.2: Gráficas de Abundancia de Rango e Índice de
Simpson’s Index
Idon P 10.1: Introducción, índice de Simpson e índice
Shannon-Weiner
parameters (definition)
H 1.1: Estadística Descriptiva
Site Index
9.2: Índice del sitio
Habitat Suitability Index Population Model
10.2: Gráficas de Abundancia de Rango e Índice de 7.3: Modelo poblacional
Idon probability distribution function T
hypothesis testing 1.2: Distribución de probabilidad the central limit theorem
3.1: Los fundamentos de las pruebas de hipótesis 2.1: Distribución por muestreo de la media muestral
Glossary
Sample Word 1 | Sample Definition 1
Detailed Licensing
Overview
Title: Libro: Biometría de Recursos Naturales (Kiernan)
Webpages: 72
Applicable Restrictions: Noncommercial
All licenses found:
CC BY-NC-SA 3.0: 75% (54 pages)
Undeclared: 25% (18 pages)

By Page
Libro: Biometría de Recursos Naturales (Kiernan) - CC BY- 4: Inferencias sobre las diferencias de dos poblaciones -
NC-SA 3.0 CC BY-NC-SA 3.0
Front Matter - Undeclared 4.1: Inferencias sobre dos medias con muestras
TitlePage - Undeclared independientes (asumiendo varianzas desiguales) -
InfoPage - Undeclared CC BY-NC-SA 3.0
Table of Contents - Undeclared 4.2: Prueba t de dos muestras agrupadas (Suponiendo
Licensing - Undeclared varianzas iguales) - CC BY-NC-SA 3.0
4.3: Inferencias sobre dos medias con muestras
Materia Frontal - Undeclared
dependientes: pares coincidentes - CC BY-NC-SA 3.0
TitlePage - Undeclared
4.4: Inferencias sobre Dos Proporciones de Población
InfoPage - Undeclared
- CC BY-NC-SA 3.0
Tabla de Contenidos - Undeclared
4.5: Prueba F para comparar dos varianzas de
Licencias - Undeclared
población - CC BY-NC-SA 3.0
1: Estadística descriptiva y distribución normal - CC BY- 4.6: Resumen - CC BY-NC-SA 3.0
NC-SA 3.0
5: Análisis de varianza unidireccional - CC BY-NC-SA
1.1: Estadística Descriptiva - CC BY-NC-SA 3.0 3.0
1.2: Distribución de probabilidad - CC BY-NC-SA 3.0
5.1: Análisis de varianza - CC BY-NC-SA 3.0
2: Distribuciones de muestreo e intervalos de confianza - 5.2: Comparaciones múltiples - CC BY-NC-SA 3.0
CC BY-NC-SA 3.0
6: Análisis bidireccional de varianza - CC BY-NC-SA 3.0
2.1: Distribución por muestreo de la media muestral -
6.1: Efectos principales y efecto de interacción - CC
CC BY-NC-SA 3.0
BY-NC-SA 3.0
2.2: Intervalos de confianza - CC BY-NC-SA 3.0
6.2: Comparaciones múltiples - CC BY-NC-SA 3.0
3: Prueba de Hipótesis - CC BY-NC-SA 3.0 6.3: Resumen y solución de software - CC BY-NC-SA
3.1: Los fundamentos de las pruebas de hipótesis - 3.0
CC BY-NC-SA 3.0 7: Correlación y Regresión Lineal Simple - CC BY-NC-
3.2: Prueba de hipótesis sobre la media poblacional SA 3.0
cuando se conoce la desviación estándar de la
7.1: Correlación - CC BY-NC-SA 3.0
población - CC BY-NC-SA 3.0
7.2: Regresión lineal simple - CC BY-NC-SA 3.0
3.3: Prueba de hipótesis sobre la media poblacional
7.3: Modelo poblacional - CC BY-NC-SA 3.0
cuando se desconoce la desviación estándar de la
7.4: Solución de software - CC BY-NC-SA 3.0
población - CC BY-NC-SA 3.0
8: Regresión Lineal Múltiple - CC BY-NC-SA 3.0
3.4: Prueba de hipótesis para una proporción
poblacional - CC BY-NC-SA 3.0 8.1: Regresiones Múltiples - CC BY-NC-SA 3.0
3.5: Prueba de Hipótesis sobre una Varianza - CC BY- 8.2: Solución de software - CC BY-NC-SA 3.0
NC-SA 3.0 8.3: Sección 3- - CC BY-NC-SA 3.0
3.6: Armando todo usando el método clásico - CC 8.4: Sección 4- - CC BY-NC-SA 3.0
BY-NC-SA 3.0 8.5: Sección 5- - CC BY-NC-SA 3.0
8.6: Sección 6- - CC BY-NC-SA 3.0

1 https://espanol.libretexts.org/@go/page/159986
9: Modelado de crecimiento, rendimiento e índice de 11.2: Laboratorio de Biometría #2 - CC BY-NC-SA
sitio - CC BY-NC-SA 3.0 3.0
9.1: Modelos de Crecimiento y Rendimiento - CC BY- 11.3: Laboratorio de Biometría #3 - CC BY-NC-SA
NC-SA 3.0 3.0
9.2: Índice del sitio - CC BY-NC-SA 3.0 11.4: Laboratorio de Biometría #4 - CC BY-NC-SA
9.3: Referencia - CC BY-NC-SA 3.0 3.0
10: Medidas cuantitativas de diversidad, similitud de 11.5: Laboratorio de Biometría #5 - CC BY-NC-SA
sitios e idoneidad del hábitat - CC BY-NC-SA 3.0 3.0
Back Matter - Undeclared
10.1: Introducción, índice de Simpson e índice
Shannon-Weiner - CC BY-NC-SA 3.0 Index - Undeclared
10.2: Gráficas de Abundancia de Rango e Índice de Glossary - Undeclared
Idon - CC BY-NC-SA 3.0 Detailed Licensing - Undeclared
10.3: Referencia - CC BY-NC-SA 3.0 Volver Materia - Undeclared
11: Laboratorios biométricos - CC BY-NC-SA 3.0 Índice - Undeclared
11.1: Laboratorio de Biometría #1 - CC BY-NC-SA Glosario - Undeclared
3.0 Licenciamiento Detallado - Undeclared

2 https://espanol.libretexts.org/@go/page/159986

You might also like