Ejercicios de Practica

Ejercicio 1.
Suponga que trabajamos para un banco y se nos pide predecir el monto promedio de deuda en
tarjeta de crédito de una cartera de clientes relativamente nuevos, basado en otra cartera de
comportamiento y estructura similar de la cual sí se tiene información de deuda en tarjeta de crédito. En
este ejercicio hacemos uso de la tabla de datos Deuda Crédito que contiene información de los clientes en
una de las principales carteras de crédito del banco, e incluye variables que describen cada cliente tanto
dentro del banco como fuera de este. Esta tabla de datos contiene 400 clientes y 11 variables que los
describen. Seguidamente se explican las variables que conforman la tabla.
Ingreso: Ingreso del cliente, en miles de dólares.
Limite: Límite de crédito global en tarjetas de crédito del cliente.
CalifCredit: Calificación crediticia del cliente.
Tarjetas: Cantidad de tarjetas de crédito del cliente.
Edad: Edad del cliente.
Educacion: Años de educación del cliente.
Genero: Género del cliente.
Estudiante: Indica si el cliente es estudiante o no.1
Casado: Indica si el cliente es casado o no (1 = Si, 0 = No).
Etnicidad: Indica si el cliente es caucásico, afroamericano o asiático.
Balance: Monto promedio de deuda en tarjeta de crédito del cliente.
Realice lo siguiente:
(a) Cargue la tabla de datos en regressoR. y asegúrese que las variables se están leyendo de forma
correcta. ¿Es necesario recodificar variables? Seleccione la variable a predecir,
(b) Basado en las estadísticas básicas explique cuál variable numérica parece ser la mejor para predecir la
deuda en tarjeta de crédito.
(c) Genere un modelo de regresión lineal múltiple incluyendo las todas las variables predicadoras.
¿Cuáles coeficientes obtiene para los beta? Dé una interpretación de los coeficientes que se obtienen en el
modelo. ¿Cuál variable parece tener más impacto sobre la variable a predecir y por qué?
(d) Si tuviera que eliminar alguna o algunas de las variables con la esperanza de que mejore la predicción
¿Cuál o cuáles de las variables eliminaría? ¿El nuevo modelo mejora la predicción
Ejercicio 2 Considérese la siguiente tabla datos, la cual contiene las importaciones hechas por los países
centroamericanos, provenientes de México, entre 1979 y 1988 (Está en el aula virtual con el nombre
ImportacionesMexico.csv). Usando discoveR efectúe lo siguiente:
1. Ejecute una Agrupación Jerárquica y dé una interpretación con 3clústeres usando gráficos de barras
horizontales y verticales o usando gráficos tipo radar (no es necesario ambas). Debe probar todas
lascombinaciones posibles entre distancias y agregaciones para determinar la mejor segmentación (la que
minimice la inercia intra-clase). Luego agregue el resultado a la tabla de datos; es decir, agregue a que
cluster pertenece cada individuo a la tabla de datos.
2. Ejecute K-Medias y dé una interpretación usando gráficos de barras horizontales y verticales o usando
gráficos (no es necesario ambas). Use 3 clústeres. Debe probar todas los algoritmos (Hartigan-Wong,
Lloid, Forgy y McQueen) para determinar la mejor segmentación(la que minimice la inercia intra-clase).
Luego agregue el resultado a latabla de datos; es decir, agregue a que clúster pertenece cada individuo a la
tabla de datos. Use un número de iteraciones y un nstart (formasfuertes) suficientemente grande para que
el método sea estable.
Ejercicio 3
En este ejercicio vamos a realizar una Agrupación Jerárquica y k-medias para latabla SAheart.csv la cual
contiene variables numéricas y categóricas mezcladas. La descripción de los datos es la siguiente:
Datos Tomados del libro: Los Elementos del Aprendizaje Estadístico: Minería de Datos, Inferencia y
Predicción" de Trevor Hastie, Robert Tibshirani y Jerome Friedman de la Universidad de Stanford.
Enfermedad cardíaca en Sudáfrica: Una muestra retrospectiva de hombres en una región de alto riesgo de
enfermedad cardíaca en el Cabo Occidental, Sudáfrica. Hay aproximadamente dos controles por cada
caso de enfermedad coronaria. Muchos de los hombres con enfermedad coronaria positiva han sido
sometidos a tratamiento de reducción de presión arterial y otros programas para reducir sus factores de
riesgo después de su evento de enfermedad coronaria. En algunos casos, las mediciones se realizaron
después de estos tratamientos. Estos datos se tomaron de un conjunto de datos más grande, descrito en
Rousseauw et al, 1983, Revista Médica de Sudáfrica.
A continuación se presenta una descripción de las variables:
1.sbp: systolic blood pressure (numérica) Presión arterial sistólica"
2.tobacco: cumulative tobacco (kg) (numérica) Consumo acumulativo de tabaco
3.ldl: low densiity lipoprotein cholesterol (numérica) Colesterol de lipoproteínas de baja densidad" o
"Colesterol LDL
4.Adiposity (numérica)
5.famhist: family history of heart disease (Present, Absent) (categórica)historial familiar
6.typea: type-A behavior (numérica)
7.Obesity (numérica)
8.alcohol: current alcohol consumption (numérica)
9.age: age at onset (numérica)
10.chd: coronary heart disease” (categórica) Enfermedad cardíaca coronaria
Las dos variables categóricas se explican como sigue: “famhist” significa que hay historia familiar de
infarto y que la variable “chd” significa que la persona murió de enfermedad cardíaca coronaria.
• Efectúe una Agrupación Jerárquica usando solo las variables numéricas y dé una interpretación usando
gráficos tipo radar para las variables numéricas y usando gráficos de barras (opción “Interpretación
Categórico”) interprete las dos variables categóricas famhist y chd. Utilice 3 clústeres.
• Efectúe una Agrupación Jerárquica usando las variables numéricas y las variables categóricas
(transformadas mediante código disyuntivo completo) luego dé una interpretación usando gráficos tipo
radar. Utilice 3clústeres (observe que esto es lo que sugiere el mapa de clústeres).
• ¿Cuál de los dos análisis anteriores le parece más interesante? ¿Porqué?
• Ejecute K-Medias usando solo las variables numéricas y dé una interpretación usando gráficos tipo
radar para las variables numéricas
usandográficosdebarras(opción“InterpretaciónCategórico”)interpretelasdosvariablescategóricas famhist y
chd. Utilice K=3 .
• Ejecute K-Medias usando las variables numéricas ylas variables categóricas (transformadas)luego dé
una interpretación usando gráficos tipo radar. Utilice K=3 (observe que esto es lo que sugiere el mapa de
clústeres).
• ¿Cuál de los dos análisis anteriores le parece más interesante? ¿Porqué?

Ejercicio 4.Supongamos que tienes las siguientes respuestas de una encuesta, donde los participantes
calificaron su satisfacción en tres aspectos diferentes del restaurante:
Ejercicio 4 Calidad de la comida (CC): Calificación de 1 (muy insatisfecho) a 5 (muy satisfecho).
Atención del personal (AP): Calificación de 1 (muy insatisfecho) a 5 (muy satisfecho).
Ambiente (AM): Calificación de 1 (muy insatisfecho) a 5 (muy satisfecho).
Con el siguiente dataframe
data <- data.frame(
CC = c(4, 3, 5, 2, 4, 5, 3, 2, 4, 5),
AP = c(3, 4, 5, 2, 4, 4, 3, 2, 5, 5),
AM = c(4, 2, 3, 4, 5, 5, 3, 2, 4, 4)
a) Determine la estadística básica para saber si puedo aplicar análisis factorial, saque sus
conclusiones
b) Sacar la matriz de correlacion, covarianzas, eigenvalores, test de bartlet y kmo e interprete los
resutados
c) luego aplique el análisis factorial para 2 y 3 factores y determine el error en el caso de 2 y 3
indique en que variables son, aplique además con rotación none y rotación varimax para 2 y 3
interprete y sacar conclusiones.
d) Aplique modelo de regresión multiple e interprete sus resultados y determine las variables
significantes.

Ejercicios de Practica

Cargado por

Copyright:

Formatos disponibles

Ejercicios de Practica

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Ejercicios de Practica

Cargado por

Copyright:

Formatos disponibles

Ejercicio 1.

Ingreso: Ingreso del cliente, en miles de dólares.

Limite: Límite de crédito global en tarjetas de crédito del cliente.

CalifCredit: Calificación crediticia del cliente.

Tarjetas: Cantidad de tarjetas de crédito del cliente.

Edad: Edad del cliente.

Educacion: Años de educación del cliente.

Genero: Género del cliente.

Estudiante: Indica si el cliente es estudiante o no.1

Casado: Indica si el cliente es casado o no (1 = Si, 0 = No).

Etnicidad: Indica si el cliente es caucásico, afroamericano o asiático.

Balance: Monto promedio de deuda en tarjeta de crédito del cliente.

A continuación se presenta una descripción de las variables:

1.sbp: systolic blood pressure (numérica) Presión arterial sistólica"

2.tobacco: cumulative tobacco (kg) (numérica) Consumo acumulativo de tabaco

5.famhist: family history of heart disease (Present, Absent) (categórica)historial familiar

6.typea: type-A behavior (numérica)

8.alcohol: current alcohol consumption (numérica)

9.age: age at onset (numérica)

10.chd: coronary heart disease” (categórica) Enfermedad cardíaca coronaria

• ¿Cuál de los dos análisis anteriores le parece más interesante? ¿Porqué?

• ¿Cuál de los dos análisis anteriores le parece más interesante? ¿Porqué?

Ejercicio 4 Calidad de la comida (CC): Calificación de 1 (muy insatisfecho) a 5 (muy satisfecho).

Atención del personal (AP): Calificación de 1 (muy insatisfecho) a 5 (muy satisfecho).

Ambiente (AM): Calificación de 1 (muy insatisfecho) a 5 (muy satisfecho).

Con el siguiente dataframe

data <- data.frame(

También podría gustarte