Módulo 2 Estadistica Inferencial Con R

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 7

MÓDULO ESTADÍSTICA DESCRIPTIVA

E INFERENCIAL CON R

Diagramas de caja, resumen de estadística e


intervalos de confianza
1. Estadística Descriptiva

Como parte de un estudio sobre el crecimiento de la planta, un fisiólogo vegetal plantó 23


plantas de soja del tipo Wells II y midió la longitud de la hoja (en cm.) para cada planta
después de 16 días, obteniendo los valores siguientes:. 22,0 21,9 21,5 19,7 21,5 20,9 20,2
22,9 23,3 20,0 19,4 22,0 22,1 21,3 19,3 20,4 21,2 22,0 21,6 22,0 19,8 20,8 20,2 .

Realice un análisis exploratorio y descriptivo de los datos

soya=c(22.0,21.9,21.5,19.7,21.5,20.9,20.2,22.9,23.3,20.0,19.4,22.0,22.1,21.3,19.3,20.4,21.2
,22.0,21.6,22.0,19.8,20.8,20.2)

#diagrama de caja y bigotes


boxplot(soya)

#histograma
hist(soya)

#estadística descriptiva
summary(soya)

#Estimación de la media poblacional


t.test(soya, alternative="two.sided",conf.level=0.95)

2. Intervalo de confianza para la media de una población normal

Hallar el intervalo de confianza para la media poblacional de la longitud del ancho de la


hoja en la población de soya

soya=c(22.0,21.9,21.5,19.7,21.5,20.9,20.2,22.9,23.3,20.0,19.4,22.0,22.1,21.3,19.3,20.4,21.2
,22.0,21.6,22.0,19.8,20.8,20.2)

#diagrama de caja y bigotes


boxplot(soya)

hist(soya)

t.test(soya, conf.level=0.95)
2. Intervalo de confianza para la varianza de una población

Hallar el intervalo de confianza para la varianza poblacional de la longitud del ancho de la


hoja en la población de soya

soya=c(22.0,21.9,21.5,19.7,21.5,20.9,20.2,22.9,23.3,20.0,19.4,22.0,22.1,21.3,19.3,20.4,21.2
,22.0,21.6,22.0,19.8,20.8,20.2)

install.packages(“EnvStats”)

library(EnvStats)

varTest(soya, conf.level=0.95)

3. Intervalo de confianza para la proporción de una población

La mosca adulta del gusano tornillo es de color azul metálico y su tamaño triplica al de la
mosca común. El gusano tornillo pone los huevos en las heridas de animales de sangre
caliente y produce una grave infección. Se realizó un experimento con el objetivo de
controlar esta población. Se expuso a las crisálidas del gusano tornillo a una dosis de
radiación de 2500 rad con la esperanza de esterilizar a la mayor parte de los machos. Dado
que las hembras se aparean sólo una vez, si lo hacen con un macho estéril producirán
huevos estériles. Se encontró que, tras la radiación, 415 de los 500 apareamientos
observados dieron como resultado huevos estériles.
Construir un intervalo de confianza de p (proporción de huevos estériles) del 95 %.

library(stats)

binom.test(415, 500, conf.level=0.95)

CONTRASTES DE HIPÓTESIS
1. Contrastes de hipótesis para la media de una población normal con
Varianza desconocida

La función de R t.test resuelve contrastes de hipótesis en este contexto. La sintaxis de esta
función:
t.test(x, alternative=””, mu = , conf.level = 0.95)

donde

 x es un vector numérico con los valores de la muestra de la variable de interés


 alternative indica el tipo de la hipótesis alternativa del contraste. Los posibles
valores son “two.sided” (hipótesis alternativa del tipo ≠, es la opción que se
considera por defecto), “less” (hipótesis alternativa del tipo <) y “greater”
(hipótesis alternativa del tipo >).
 mu es un valor numérico que se corresponde con el valor µ0  que se desea comprobar
si es válido para la media de la variable. Si no se introduce ningún valor, se toma el
valor 0 por defecto.
 level es un valor numérico que indica el nivel de confianza, en tanto por uno, al que
se construirá el intervalo de confianza asociado al contraste. Si omitimos este
parámetro en la llamada a la función, el intervalo de confianza se calcula a un nivel
de confianza del 95%.

Veamos el funcionamiento de la función t.test mediante un ejemplo:

1. Contrastar la hipótesis de que la media poblacional de la longitud del ancho de la hoja en


la población de soya es de 22.5cm.

soya=c(22.0,21.9,21.5,19.7,21.5,20.9,20.2,22.9,23.3,20.0,19.4,22.0,22.1,21.3,19.3,20.4,21.
2,22.0,21.6,22.0,19.8,20.8,20.2)

#análisis de normalidad
#diagrama de caja y bigotes
boxplot(soya)

hist(soya)

#test de normalidad. Hipótesis nula: Los datos siguen una distribución normal
shapiro.test(soya)

#contraste bilateral.
#Hipótesis nula: El promedio del ancho de hoja es 22.5cm
#Hipótesis alternativa: El promedio del ancho de hoja es diferente a 22.5

t.test(soya,mu=22.5,alternative="two.sided",conf.level=0.95)
2. Contrastar la hipótesis de que la media poblacional del índice de Esbeletez IE en la
población de Plántulas fertilizadas es mayor a 0.8 Datos: Plantulas.txt

plantulas=read.table("C:/Users/sala.maestrias/Downloads/Plantulas.txt",header=T)
attach(plantulas)
names(plantulas)

#diagrama de cajas
boxplot(IE~Tratamiento)
dim(plantulas)

#nuevos grupos según los individuos

control=plantulas[c(1:21),2]
fertil=plantulas[c(22:42),2]

#evaluación de normalidad
shapiro.test(fertil)

#contraste de hipótesis
#Hipótesis nula: El promedio del IE en la población fertilizada no es mayor a 0.8
#Hipótesis alternativa: El promedio del IE en la población fertilizada es mayor a 0.8
t.test(fertil,mu=0.8, alternative="greater",conf.level=0.95)

3. Contrastar la hipótesis de que la media poblacional de la longitud del tallo (en cm) en la
población de plantas control es de 2cm. Datos: Micorriza.txt

t.test(longitud_tallo[plantas=="control"], alternative="two.sided",mu=2)

Ejercicio: Contrastar la hipótesis de que la media poblacional de la longitud del tallo (en
cm) en la población de plantas Endomicorrizas es mayor a 2cm.

2. Contrastes de Normalidad

2.1 Test de Shapiro-Wilk

Este test se emplea para contrastar normalidad cuando el tamaño de la muestra es menor
de 50.
Ejemplo: Verificación que la variable longitud del tallo en los datos de micorrizas se
distribuye normal
shapiro.test(longitud_tallo)

2.2 Test de Lilliefors

El test Lilliefors asume que la media y varianza son desconocidas, estando especialmente


desarrollado para contrastar la normalidad. Es la alternativa al test de  Shapiro-
Wilk cuando el número de observaciones es mayor de 50

library(nortest)
lillie.test longitud_tallo)

3. Contraste de medias de poblaciones independientes


En primer lugar podemos estudiar la previsible normalidad de los datos mediante los
gráficos de caja y bigotes, el histograma o el gráfico QQ (cuartiles teóricos si los datos
presentan una distribución normal vs cuartiles reales).
boxplot(longitud_tallo)
hist(longitud_tallo)
qqnorm(longitud_tallo)
qqline(longitud_tallo)

Al mismo tiempo podemos realizar un test de normalidad. Uno de los test más
comunes es el de Shapiro-Kolmogorov, cuya hipótesis nula a contrastar es que los datos
siguen una distribución normal. :
shapiro.test(longitud_tallo)

Ahora, si queremos comparar las dos plantas podemos hacer un test t de comparación de
medias. Utilizaremos el test de Welch sin contrastar la igualdad varianzas.
boxplot(longitud_tallo~ plantas)

t.test(longitud_tallo[plantas=="control"], longitud_tallo[plantas=="control"])
t.test(longitud_tallo~ plantas)

En este caso el gráfico de caja y bigotes de longitud del tallo según planta nos muestra
una cierta igualdad en la dispersión Luego el resultado no diferirá del test t de Student
clásico.
t.test(longitud_tallo~ plantas , var.equal= TRUE)

Contraste para la igualdad de varianzas

En R, la función var.test se encarga de resolver este contraste. Sus parámetros son los
siguientes:
var.test(x, y, alternative = c(“two.sided”, “less”, “greater”), conf.level = 0.95)

siendo

 x un vector numérico con los datos de la variable de interés en el primer grupo o
muestra
 y un vector numérico con los datos de la variable de interés en el segundo grupo o
muestra
 alternative indica el tipo de la hipótesis alternativa del contraste. Los posibles
valores son “two.sided” (hipótesis alternativa del tipo , es la opción que se considera
por defecto), “less” (hipótesis alternativa del tipo <) y “greater” (hipótesis alternativa
del tipo >).
 level un valor numérico que indica el nivel de confianza, en tanto por uno, al que se
construirá el intervalo de confianza asociado al contraste. Si omitimos este parámetro
en la llamada a la función, el intervalo de confianza se calcula a un nivel de confianza
del 95%.

Test de Levene
El test de Levene se puede aplicar con la función leveneTest() del paquete car. Se
caracteriza, además de por poder comparar 2 o más poblaciones, por permitir elegir
entre diferentes estadísticos de centralidad :mediana (por defecto), media, media
truncada. Esto es importante a la hora de contrastar la homocedasticidad dependiendo
de si los grupos se distribuyen de forma normal o no
Ejemplo: Verificación de varianzas iguales para la variable longitud del tallo cuando se
compara según la planta.

library(car)

leveneTest(longitud_tallo~ plantas, data=datos)

Test de Bartlett
Permite contrastar la igualdad de varianza en 2 o más poblaciones sin necesidad de que el
tamaño de los grupos sea el mismo. Es más sensible que el test de Levene a la falta de
normalidad, pero si se está seguro de que los datos provienen de una distribución normal,
es la mejor opción.
Ejemplo: Verificación de varianzas iguales para la variable longitud del tallo cuando se
compara según la planta y se ha verificado que provienen de poblaciones normales

bartlett.test( longitud_tallo~ plantas, data=datos)

Test de Fligner-Killeen
Se trata de un test no paramétrico que compara las varianzas basándose en la mediana. Es
también una alternativa cuando no se cumple la condición de normalidad en las muestras.
Ejemplo: Verificación de varianzas iguales para la variable longitud del tallo cuando se
compara según la planta

fligner.test(longitud_tallo~ plantas, data=datos)

Verificada la normalidad de los datos y revisada si las varianzas son o no iguales, se pasa
a realizar el contraste de medias. En ambos casos se utiliza la función t.test (que fue
introducida y utilizada con anterioridad). Los parámetros de t.test presentan algunos
cambios cuando la función se utiliza en un contexto de dos poblaciones:

t.test (x, y, alternative = c(“two.sided”, “less”, “greater”), mu = 0, var.equal =


FALSE, conf.level = 0.95)

En este caso:

 x es un vector numérico que incluye los valores de la variable de interés en el


primer grupo o muestra
 y es un vector numérico que incluye los datos de la variable de interés en el
segundo grupo o muestra
 alternative indica el tipo de la hipótesis alternativa del contraste. Los posibles
valores son “two.sided” (hipótesis alternativa del tipo ≠ , es la opción que se
considera por defecto), “less” (hipótesis alternativa del tipo <) y “greater” (hipótesis
alternativa del tipo >)
 mu es un valor numérico que se corresponde con el valor  que se desea comprobar
si es válido para la diferencia de las medias de la variables
 equal es un argumento lógico que indica si las varianzas de la variable en los dos
grupos o muestras puede suponerse igual o no. Para establecer el valor de este
parámetro nos basamos en la interpretación del contraste de hipótesis que
proporciona la función var.test. Por defecto,  la función considera que las varianzas
en los dos grupos son distintas
 level un valor numérico que indica el nivel de confianza, en tanto por uno, al que
se construirá el intervalo de confianza asociado al contraste. Si omitimos este
parámetro en la llamada a la función, el intervalo de confianza se calcula a un nivel
de confianza del 95%.

También podría gustarte