Laboratorio 3

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 4

LABORATORIO 3

Estad´ıstica General
CM0244
Tema: Inferencia Estad´ıstica

1. Objetivos
Desarrollar habilidades para el manejo y an´alisis de datos a trav´es del software R.
Implementar ejercicios de simulaci´on que permitan al estudiante comprender de manera aplicada las
propiedades de inferencia estad´ıstica y estimaci´on de par´ametros.
Brindar herramientas que permiten ayudar al proceso de toma de decisi´on o reporte de resultados en
escenarios de incertidumbre.

Ayudar a desarrollar un pensamiento que reconoce el elemento de la variabilidad.

2. Pregunta problematizadora:
En el laboratorio se analizar´a, con cierto detalle, como las inmobiliarias, usan los datos para predecir
las transacciones en el alojamiento de inmuebles, llevando a cabo la evaluaci´on del vecindario, la ubicaci
´on, las condiciones del lugar, capacidad, entre otras. Para entender como lo hacen, primero debemos
aprender los conceptos b´asicos de la inferencia estad´ıstica, la parte de la estad´ıstica que ayuda a
distinguir los patrones reales de esos que surgen del azar. La inferencia estad´ıstica es un tema amplio y
aqu´ı se revisaran los conceptos b´asicos utilizando las ventas de inmuebles como un ejemplo motivador.
Para describir los conceptos, complementamos las formulas matem´aticas y el an´alisis de situaciones
problema con simulaciones y el c´odigo
R. De ah´ı que sea pertinente preguntarse, ¿que conjunto de procedimientos son de utilidad en la practica
computacional en la inferencia estad´ıstica para la estimaci´on de par´ametros, intervalos de confianza y
pruebas de hip´otesis a partir de modelos probabilısticos?

3. Resultados de aprendizaje:
Entiende el uso de distribuciones mu´estrales como herramienta para an´alisis de incertidumbre en la
estimaci´on de par´ametros y pruebas de hip´otesis.
Plantea, entiende e interpreta de manera aplicada la construcci´on y resultado de una prueba de hip
´otesis aplicados en estudio de media y proporci´on de fen´omenos aleatorios.

Realiza la estimaci´on de par´ametros en conjunto de datos simulados, adem´as de observar de


manera computacional el cumplimiento de las propiedades b´asicas de los mismos.

Aplica y analiza los resultados de la aplicaci´on de la teorıa del teorema del limite central y la ley de
los grandes nu´meros en ejercicios de simulaci´on.

4. Recursos
Software R. RStudio o Rstudio Cloud (editores recomendados para trabajar con R).
Cuadro 1: Diccionario de datos.
Campo Tipo Descripci´on
id Entero Identificador u´nico de Airbnb para el anuncio
Tipo de propiedad (autoseleccionado). Los hoteles y ”Bed and Breakfast”
property type Texto
son descritos como tales por sus anfitriones en este campo.
Tipo de la Habitaci´on: [Casa/apto. completo, Habitaci´on privada, Habitaci
room type Texto ´on
compartida, Hotel]
accommodates Entero La capacidad m´axima del alojamiento.
bathrooms Entero Nu´mero de ban˜os en el listado.
bedrooms Entero Nu´mero de dormitorios
beds Entero Nu´mero de camas
price Moneda precio diario en dolares de US.
minimum nights Entero Nu´mero m´ınimo de noches de estad´ıa para el alojamiento
maximum nights Entero Nu´mero m´aximo de noches de estad´ıa para el alojamiento
review scores value Numerico Valor calculado a partir de las revisiones de huespedes pasados

5. Preguntas a responder por los estudiantes


Para el desarrollo del presente laboratorio usaremos, en primer lugar, un conjunto de datos llamado lis-
tings NY 20240206.csv. Es una base de datos inmobiliaria de la ciudad de New York, NY, USA,
tomada de los datos publicos de Inside Airbnb. La aplicaci´on registra todas las estancias en sus
hospedajes, adem´as de cuanto pagaron y el puntaje de revisi´on. Nuestro enfoque particular para este
laboratorio ser ´a todos los hospedajes de residencias en Nueva York, datos almacenados el 6 de Febrero
de 2024. Esta colecci´on representa nuestra poblaci´on de inter´es.
Tambi´en se usar´an diferentes situaciones problema y ejercicios de simulaci´on computacional para
abordar los conceptos b´asicos de la inferencia estad´ıstica.

Bloque 1
Problema 1. Importe la base de datos listings NY 20240206.csv, los cuales son datos recogidos de
los anuncios de hospedaje de airbnb en la ciudad de New York. Para esta pr´actica de laboratorio,
restringiremos nuestra atenci´on a solo tres variables: price, accommodates y bedrooms.

(a) Realice un an´alisis descriptivo de la distribuci´on de las variables calculando algunas estad
´ısticas de resumen y haciendo el histograma.
(b) Para el atributo price, tome muestras de taman˜o n = 10, n = 50, n = 100, n = 1500 y n =
2000 cada una, calcule la media para cada muestra, realice el histograma y compare con el valor de
la media poblacional obtenido en el ´ıtem anterior. ¿Cu´al de las muestras proporciona una estimaci´on
m ´a s precisa de la media poblacional?
(c) Generar 5000 muestras de taman˜o n = 10, n = 50 y n = 100 de la poblaci´on (price), calcular la
media de cada muestra y almacenar cada resultado en un vector. Luego trazar los histogramas. ¿Qu
´e sucede con la distribuci´on del muestreo? Concluir.

Problema 2.
(a) Repita los ´ıtems (b) y (c) anteriores ahora para los atributos accommodates y bedrooms. Final-
mente, calcule e informe su estimaci´on de la media de la poblaci´on.

(b) Simule 50,000 muestras aleatorias para X¯ price ∼ N (µ = mean(price), σ = sd(price)) tomando
muestras de taman˜o n = 100.
Calcule el promedio de cada una las 50,000 muestras aleatorias.
Construya el histograma de los 50,000 promedios mu´estrales. ¿Qu´e se puede concluir?
Realizar la gr´afica de la distribuci´on acumulada de los promedios y trazar una recta vertical
por el promedio de la variable precio.

Problema 3. Demuestre gr´aficamente (teorema central del l´ımite) que v.a. discretas con distribuci´on
Bino- mial y Poisson respectivamente, con par´ametros n, p = 0, 5 y λ = 0, 5, se pueden aproximar
mediante una distribuci´on normal con µ = 0, 5. Tome valores para n de 10, 50, 100, 200, 500, 1000, 2000,
3000, 4000, 5000,
6000, 7000, 8000, 9000 y 10000. Realice interpretaciones.

Cierre: Los problemas de este Bloque apuntan a entender el an´alisis del efecto del taman˜o de la
muestra al momento de realizar simulaciones estad´ısticas, muestran aproximaciones de las v.a discretas en
su naturaleza a la distribuci´on normal bajo condiciones espec´ıficas, el uso de la distribuci´on del promedio
muestral e ilustrar propiedades del teorema de l´ımite central.

Bloque 2
Problema 4. Simule 500000 valores de X ∼ P (λ = 20) y calcule el promedio y la varianza. Seleccione
una muestra aleatoria de n = 1000 y determine el promedio de esa muestra y la desviaci´on est´andar.
Adem´as encuentre un intervalo de confianza del 95 % y otro del 99 % para µ. Concluya
Problema 5. Cargue el dataset mtcars, conjunto de datos incorporado en R.
1. Realice un resumen y descripci´on de los atributos.
2. Usar algunos gr´aficos para visualizar la distribuci´on de los valores de la variable mpg. Concluir
3. Calcular el intervalo de confianza con una probabilidad del 95 % para la media de mpg con la distri-
buci´on t-student. Concluir

Problema 6. El rector de una universidad quiere usar la media de una muestra aleatoria para estimar la
cantidad promedio de tiempo que tardan los estudiantes en ir de una clase a la siguiente, y quiere ser
capaz de afirmar con 99 % de confianza que el error es cuando mucho de 0.25 minutos. Si se puede
suponer por experiencia que σ = 1, 40 minutos, ¿cu´an grande debe ser la muestra que se tome?

α = 1 − 0, 99 , Z0,005 ≈ 2, 57
σ = 1, 40

E = 0, 25

Cierre: Las situaciones propuestas en este Bloque buscan evaluar el ajuste de la distribuci´on normal a
un conjunto de datos, corroborar el resultado del teorema de l´ımite central y mostrar la aplicabilidad de
la inferencia estad´ıstica, m ´a s precisamente de los intervalos de confianza en la estimaci´on de los par
´ametros poblacionales.

Bloque 3
Problema 7. Suponga que un fabricante afirma que la vida media de una bombilla es mayor a 10,000
horas. En una muestra de 30 bombillas, se encontr´o que solo duran en promedio 9,700 horas. Suponga
que la desviaci´on est´andar de la poblaci´on es de 105 horas. ¿podemos rechazar la afirmaci´on del
fabricante?
La afirmación es falsa, pues el tamaño de la muestra es suficientemente grande y la desviación estándar
sólo indicaría que el valor máximo es de 9.805 horas. Una bombilla que dure más de 10.000 horas sería
un valor atípico dentro de la muestra.

Problema 8. Suponga que la etiqueta de una bolsa de galletas indica que hay como m´aximo 2 gramos
de grasa saturada en una sola galleta. En una muestra de 35 galletas, se encuentra que la cantidad media
de grasa saturada por galleta es de 2,2 gramos. Suponga que la desviaci´on est´andar de la muestra es 0.4
gramos.
¿podemos rechazar la afirmación en la etiqueta de los alimentos?
La afirmación es falsa. Si la etiqueta dijera que hay un aproximado de 2 gramos de grasa saturada por galleta,
entonces sería verdadera, pero afirmar que el máximo es 2 gramos cuando la muestra arroja que la media es 2,2, y
que los valores oscilan hasta 2,6, no es correcto.

Problema 9. ¿Cu´al es el taman˜o de la menor muestra requerida para estimar una proporci´on
desconocida de clientes quienes pagar´ıan por un servicio adicional hasta dentro de un error m´aximo de 0.06
con al menos 95 % de confianza? ¿Cu´al ser ´a el taman˜o de muestra requerido si la proporci´on a estimar
es al menos de 0.8?
Problema 10. Una aerol´ınea afirma que tan solo 6 % de todo el equipaje nunca se encuentra. Si, en una
muestra aleatoria, 15 de 200 piezas de equipaje perdido no se encuentran, pruebe la hip´otesis nula p = 0,
06 contra la hip´otesis alternativa p > 0, 06, con un nivel de significancia de 0.05.

Cierre: Finalmente, los problemas de este Bloque permiten realizar pruebas de hip´otesis sobre par
´ametros poblacionales de inter´es y utilizar los resultados para la toma de decisiones en ambientes de
incertidumbre.

6. Condiciones de entrega:
1. Se deben incluir los nombres de los integrantes en el archivo entregable.
2. Solo se debe entregar UN ARCHIVO y este debe ser con extensi´on .rmd
3. Se debe marcar el archivo con nombre del profesor tallerista y el nombre y apellidos (ambos apellidos)
del autor de correspondencia (el estudiante encargado de subir el archivo a Interactiva Virtual).

También podría gustarte