0% found this document useful (0 votes)

34 views6 pages

Tarea 4

Uploaded by

Jonathan Jiménez

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

34 views6 pages

Tarea 4

Uploaded by

Jonathan Jiménez

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 6

2/11/24, 11:14 PM Tarea4.

ipynb - Colaboratory

# Instala las librerías necesarias (si aún no las tienes instaladas)

!pip install kmodes
!pip install pca

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from scipy.stats import norm
import scipy.stats as ss
%matplotlib inline
from sklearn.preprocessing import StandardScaler

# Cargar los datos desde el enlace

data = pd.read_csv("https://raw.githubusercontent.com/marsgr6/EN-online/8a1cee296279c274d

#1
# Mapeo de valores categóricos a numéricos
attrition_mapping = {v: i for i, v in enumerate(data.Attrition.unique())}
business_travel_mapping = {v: i for i, v in enumerate(data.BusinessTravel.unique())}
department_mapping = {v: i for i, v in enumerate(data.Department.unique())}
education_field_mapping = {v: i for i, v in enumerate(data.EducationField.unique())}

encoded_data = data.copy()
encoded_data['Attrition'] = encoded_data['Attrition'].map(attrition_mapping)
encoded_data['BusinessTravel'] = encoded_data['BusinessTravel'].map(business_travel_mappi
encoded_data['Department'] = encoded_data['Department'].map(department_mapping)
encoded_data['EducationField'] = encoded_data['EducationField'].map(education_field_mappi

# Filtrar las columnas numéricas

data_num = encoded_data.select_dtypes(include=np.number)

# Eliminar columnas con varianza cero

data_filtered = data_num.loc[:, data_num.var() > 0]

# Estandarizar los datos

scaler = StandardScaler()
data_scaled = scaler.fit_transform(data_filtered)

# Imprimir los primeros registros del DataFrame

print(data_filtered.head())

Age Attrition BusinessTravel DailyRate Department DistanceFromHome \

0 41 0 0 1102 0 1
1 49 1 1 279 1 8
2 37 0 0 1373 1 2
3 33 1 1 1392 1 3
4 27 1 0 591 1 2

Education EducationField EmployeeNumber EnvironmentSatisfaction ... \

0 2 0 1 2 ...
1 1 0 2 3 ...
2 2 1 4 4 ...
3 4 0 5 4 ...
https://colab.research.google.com/drive/1J6z0n7M4XdLJE7QZdDmi703EX-Mf3D8y#scrollTo=F6b4bT4JmhMY&printMode=true 1/6
2/11/24, 11:14 PM Tarea4.ipynb - Colaboratory
4 1 2 7 1 ...

PerformanceRating RelationshipSatisfaction StockOptionLevel \

0 3 1 0
1 4 4 1
2 3 2 0
3 3 3 0
4 3 4 1

TotalWorkingYears TrainingTimesLastYear WorkLifeBalance YearsAtCompany \

0 8 0 1 6
1 10 3 3 10
2 7 3 3 0
3 8 3 3 8
4 6 3 3 2

YearsInCurrentRole YearsSinceLastPromotion YearsWithCurrManager

0 4 0 5
1 7 1 7
2 0 0 0
3 7 3 0
4 2 2 2

[5 rows x 28 columns]

1 Preprocesamiento de datos

a) Filtrar las columnas numéricas: El primer paso es seleccionar solo las columnas que
contienen valores numéricos. Esto permitirá trabajar con las características relevantes para el
análisis, para esto se tiliza la función select_dtypes que permite filtrar las columnas numéricas.

b) Eliminar columnas con varianza cero: Si alguna columna tiene una varianza igual a cero,
significa que todos sus valores son iguales. Estas columnas no aportan información útil y
pueden eliminarse, para esto se verifica si hay columnas con varianza cero y las excluiremos del
conjunto de datos.

c) Estandarizar los datos usando escalado estándar: Para facilitar el análisis, se realiza el
escalamiento de los valores numéricos para que tengan una media de 0 y una desviación
estándar de 1, por lo tanto, se itilizará la clase StandardScaler de Scikit-Learn para estandarizar
los datos.

https://colab.research.google.com/drive/1J6z0n7M4XdLJE7QZdDmi703EX-Mf3D8y#scrollTo=F6b4bT4JmhMY&printMode=true 2/6
2/11/24, 11:14 PM Tarea4.ipynb - Colaboratory

#2
from sklearn.cluster import KMeans

# fitting multiple k-means algorithms and storing the values in an empty list
SSE = []
test_clusters = 10
for cluster in range(1,test_clusters+1):
kmeans = KMeans(n_clusters=cluster, n_init="auto")
kmeans.fit(data_scaled)
SSE.append(kmeans.inertia_)

# converting the results into a dataframe and plotting them

frame = pd.DataFrame({'Cluster':range(1,test_clusters+1), 'SSE':SSE})
plt.figure(figsize=(12,6))
plt.plot(frame['Cluster'], frame['SSE'], marker='o')
plt.xlabel('Number of clusters')
plt.ylabel('Inertia')
plt.xticks(frame.Cluster[1::2]);

2 Utilice K-means y realice un análisis de codo para decidir cuántos clusters usar.

Una vez que se ha aplicado el algoritmo K-means y se ha realizado un análisis de codo, se

puedes determinar el número óptimo de clusters para nuestros datos. Este método de codo
implica crear una gráfica con el número de clusters en el eje x y la suma de los errores

https://colab.research.google.com/drive/1J6z0n7M4XdLJE7QZdDmi703EX-Mf3D8y#scrollTo=F6b4bT4JmhMY&printMode=true 3/6
2/11/24, 11:14 PM Tarea4.ipynb - Colaboratory

cuadrados internos (SSE) en el eje y. Permintiendo de esta manera encontrar el punto donde
aparece un “codo” o curva en la gráfica. Este punto representa el número óptimo de clusters. Por
consiguiente, en la gráfica resultante se observa el punto de la curva lo cual es el número 5 el
valor óptimo de clusters para nuestros datos.

#3
from sklearn.decomposition import PCA

pca = PCA(n_components=2)
principalComponents = pca.fit_transform(data_scaled)
pc_transformation = pd.DataFrame(data = principalComponents,
columns = ['PC1', 'PC2'])
kmeans = KMeans(n_clusters=2, n_init="auto").fit(data_scaled)
pc_transformation['Cluster'] = pd.Categorical(kmeans.labels_)

sns.scatterplot(data=pc_transformation, x="PC1", y="PC2", hue="Cluster")

<Axes: xlabel='PC1', ylabel='PC2'>

3 Use PCA para visualizar los clusters generados.

a) Visualice usando las priemeras 2 componentes principales: En la gráfica generada después

de aplicar el análisis de componentes principales (PCA) y el algoritmo K-means, se puede
observar la distribución de los datos en un espacio bidimensional.

Los puntos se agrupan en dos clusters distintos, representados por diferentes colores.
Cada punto en la gráfica corresponde a una fila de datos del conjunto original.
Los clusters están separados en función de las características transformadas por PCA.

https://colab.research.google.com/drive/1J6z0n7M4XdLJE7QZdDmi703EX-Mf3D8y#scrollTo=F6b4bT4JmhMY&printMode=true 4/6
2/11/24, 11:14 PM Tarea4.ipynb - Colaboratory

#4
kmeans = KMeans(n_clusters=5, n_init="auto").fit(data_scaled)
pc_transformation['Cluster'] = pd.Categorical(kmeans.labels_)

sns.scatterplot(data=pc_transformation, x="PC1", y="PC2", hue="Cluster")

<Axes: xlabel='PC1', ylabel='PC2'>

4 Realice un análisis descriptivo y decida entre k∈{2,3,4,5}.

a) A continuación tiene un ejemplo para visualizar 5 clusters usando PCA:

5 De conclusiones:

Después de realizar todo este análisis y procesamiento de datos, se puede extraer algunas
conclusiones:

Análisis de Componentes Principales (PCA): Utilizamos PCA para reducir la

dimensionalidad de los datos y representarlos en un espacio bidimensional. En las dos
primeras componentes principales (PC1 y PC2) explican la mayor parte de la variabilidad
en los datos, la gráfica muestra cómo se agrupan las observaciones en función de estas
componentes.

K-means Clustering: Se aplicó K-means para agrupar los datos en dos clusters, los puntos
en la gráfica están coloreados según el cluster al que pertenecen, estos clusters
representan grupos de observaciones similares en términos de sus características
transformadas.

https://colab.research.google.com/drive/1J6z0n7M4XdLJE7QZdDmi703EX-Mf3D8y#scrollTo=F6b4bT4JmhMY&printMode=true 5/6
2/11/24, 11:14 PM Tarea4.ipynb - Colaboratory

En resumen, se ha explorado y visualizado los datos, aplicando técnicas de reducción de

dimensionalidad y clustering, y tomado decisiones basadas en análisis descriptivos.

https://colab.research.google.com/drive/1J6z0n7M4XdLJE7QZdDmi703EX-Mf3D8y#scrollTo=F6b4bT4JmhMY&printMode=true 6/6

Mloa Exp1 C121
No ratings yet
Mloa Exp1 C121
49 pages
Final 007
No ratings yet
Final 007
35 pages
The Spymaster's Guide To OSINT
100% (1)
The Spymaster's Guide To OSINT
109 pages
Capstone Removed
No ratings yet
Capstone Removed
17 pages
Employee Turnover
No ratings yet
Employee Turnover
20 pages
Python Report Ritik
No ratings yet
Python Report Ritik
15 pages
Group 3
No ratings yet
Group 3
15 pages
SPPUML2
No ratings yet
SPPUML2
7 pages
Suvdata Analysis
No ratings yet
Suvdata Analysis
7 pages
Prob 2 Correlation ANALYSIS Application Summer 2023
No ratings yet
Prob 2 Correlation ANALYSIS Application Summer 2023
5 pages
F23 HW5 Hclust Student
No ratings yet
F23 HW5 Hclust Student
4 pages
Dự báo và phát triển kinh doanh
No ratings yet
Dự báo và phát triển kinh doanh
43 pages
Car Buying - Naive Bayes - Colab
No ratings yet
Car Buying - Naive Bayes - Colab
2 pages
Btech1010622 Lab4
No ratings yet
Btech1010622 Lab4
4 pages
Dinesh DWDM CCE
No ratings yet
Dinesh DWDM CCE
17 pages
457 Labs
No ratings yet
457 Labs
19 pages
Ae, Me 2nd Semester Syllabus As Per Nep-2020 PDF
No ratings yet
Ae, Me 2nd Semester Syllabus As Per Nep-2020 PDF
26 pages
ML Cops
No ratings yet
ML Cops
17 pages
AML Project LearnerNotebook LowCode
No ratings yet
AML Project LearnerNotebook LowCode
74 pages
Howxtre
No ratings yet
Howxtre
8 pages
Employees Burnout Analysis
No ratings yet
Employees Burnout Analysis
20 pages
Employee Turnover Analytics
No ratings yet
Employee Turnover Analytics
32 pages
WIN SEM (2023-24) FRESHERS - CSE0504 - ETH - AP2023247000196 - 2024-02-29 - Reference-Material-II
No ratings yet
WIN SEM (2023-24) FRESHERS - CSE0504 - ETH - AP2023247000196 - 2024-02-29 - Reference-Material-II
13 pages
7 Merged
No ratings yet
7 Merged
72 pages
Ilovepdf Merged (2) Merged
No ratings yet
Ilovepdf Merged (2) Merged
65 pages
Nikitha
No ratings yet
Nikitha
15 pages
DM Project
No ratings yet
DM Project
36 pages
Big Data Analysis
No ratings yet
Big Data Analysis
38 pages
Churn V2
No ratings yet
Churn V2
15 pages
ML Assignment Presentation
No ratings yet
ML Assignment Presentation
37 pages
DTE-2 R Language Paper
No ratings yet
DTE-2 R Language Paper
8 pages
Class 7
No ratings yet
Class 7
17 pages
Sowmi DS
No ratings yet
Sowmi DS
27 pages
Credit Card Default
No ratings yet
Credit Card Default
5 pages
Record DSCP508 - DV-1-1
No ratings yet
Record DSCP508 - DV-1-1
89 pages
Ee 2nd Semester Syllabus As Per Nep-2020-1
No ratings yet
Ee 2nd Semester Syllabus As Per Nep-2020-1
24 pages
Machine Learning
No ratings yet
Machine Learning
3 pages
PP DWDM 4 5
No ratings yet
PP DWDM 4 5
26 pages
ML Project 2
No ratings yet
ML Project 2
19 pages
Employee Analysis
No ratings yet
Employee Analysis
19 pages
Experiment3.Ipynb - Colab
No ratings yet
Experiment3.Ipynb - Colab
3 pages
Lab3.ipynb - Colaboratory
No ratings yet
Lab3.ipynb - Colaboratory
7 pages
Principlesofworkflowin Dataanalysis: Scottlong
No ratings yet
Principlesofworkflowin Dataanalysis: Scottlong
14 pages
Practical PRogram List 2.ipynb - Colab
No ratings yet
Practical PRogram List 2.ipynb - Colab
6 pages
Ex 8
No ratings yet
Ex 8
3 pages
Reasons For Adopting Stochiastic Operation Method: (Diferencial Evolution)
No ratings yet
Reasons For Adopting Stochiastic Operation Method: (Diferencial Evolution)
11 pages
QNS
No ratings yet
QNS
2 pages
Report of The Summer Internship Project
No ratings yet
Report of The Summer Internship Project
25 pages
NumPy and Pandas Step
No ratings yet
NumPy and Pandas Step
9 pages
Clustering Documentation Python Code
No ratings yet
Clustering Documentation Python Code
8 pages
Data Preprocessing & Visualization1
No ratings yet
Data Preprocessing & Visualization1
2 pages
Student - Linear Regression Example - Colaboratory
No ratings yet
Student - Linear Regression Example - Colaboratory
6 pages
Workflow Slides JSLong 110410 PDF
No ratings yet
Workflow Slides JSLong 110410 PDF
14 pages
Lab 07 NR
No ratings yet
Lab 07 NR
6 pages
C. Safety Performance Statistics - TRIR
No ratings yet
C. Safety Performance Statistics - TRIR
11 pages
Excel Session - Final - For - Attendees
No ratings yet
Excel Session - Final - For - Attendees
156 pages
k-7 Means
No ratings yet
k-7 Means
2 pages
Data Science Sample
No ratings yet
Data Science Sample
5 pages
Customer Segmentation Clustering
No ratings yet
Customer Segmentation Clustering
35 pages
12th - Mid-Term-IP
No ratings yet
12th - Mid-Term-IP
5 pages
Exploring Music Contents
No ratings yet
Exploring Music Contents
372 pages
AI-Powered Startups - Deepak Gariya
No ratings yet
AI-Powered Startups - Deepak Gariya
7 pages
Computer - Science - and - Engineering - 2023-NITW Syllabus
No ratings yet
Computer - Science - and - Engineering - 2023-NITW Syllabus
69 pages
PHD Thesis Topics in Image Processing
100% (3)
PHD Thesis Topics in Image Processing
6 pages
Credit Card Fraud Detection Using Machine Learning
100% (1)
Credit Card Fraud Detection Using Machine Learning
82 pages
Budd S 2022 PHD Thesis
100% (1)
Budd S 2022 PHD Thesis
214 pages
Classification
No ratings yet
Classification
58 pages
DDS1
No ratings yet
DDS1
7 pages
What Is Artificial Intelligence
No ratings yet
What Is Artificial Intelligence
14 pages
Machine Learning Notes - Lec 02 - Concept Learning
No ratings yet
Machine Learning Notes - Lec 02 - Concept Learning
92 pages
Engineering Towards Industry 4.0 Using Data-Driven Methods
No ratings yet
Engineering Towards Industry 4.0 Using Data-Driven Methods
7 pages
Multimodal Recommender Systems: Rakuten Institute of Technology
No ratings yet
Multimodal Recommender Systems: Rakuten Institute of Technology
44 pages
29-3 Slot C - University Practical Exam - Jan To Mar 2025 - Hs1
No ratings yet
29-3 Slot C - University Practical Exam - Jan To Mar 2025 - Hs1
6 pages
NNDL Assignment Ans
No ratings yet
NNDL Assignment Ans
15 pages
The 10 Stages of Artificial Intelligence
No ratings yet
The 10 Stages of Artificial Intelligence
7 pages
A Systematic Review On Systems-Based Sensory Gloves For Sign Language Pattern Recognition An Update From 2017 To 2022
No ratings yet
A Systematic Review On Systems-Based Sensory Gloves For Sign Language Pattern Recognition An Update From 2017 To 2022
20 pages
Welcome To ISLP Documentation! - Introduction To Statistical Learning (Python)
No ratings yet
Welcome To ISLP Documentation! - Introduction To Statistical Learning (Python)
8 pages
Landing Trajectory Prediction For UAS Based On Generative Adversarial Network
No ratings yet
Landing Trajectory Prediction For UAS Based On Generative Adversarial Network
10 pages
Artificial Intelligencebased Techniques For Crime Scene Reconstruction and Investigation An Overview
No ratings yet
Artificial Intelligencebased Techniques For Crime Scene Reconstruction and Investigation An Overview
3 pages
Multi-Agent Deep Reinforcement Learning: Maxim Egorov Stanford University
No ratings yet
Multi-Agent Deep Reinforcement Learning: Maxim Egorov Stanford University
8 pages
1a.business Understanding Answers
No ratings yet
1a.business Understanding Answers
5 pages
Cursuri RPA
No ratings yet
Cursuri RPA
18 pages
SkinCare Recommendation System Using Computer Vision
No ratings yet
SkinCare Recommendation System Using Computer Vision
16 pages
Eunetworks, London: Ndcs - Euned Integration Eunetworks, London Marks & Spencer, United Kingdom Braintree.,Australia
No ratings yet
Eunetworks, London: Ndcs - Euned Integration Eunetworks, London Marks & Spencer, United Kingdom Braintree.,Australia
7 pages
English To Luganda Translation
No ratings yet
English To Luganda Translation
13 pages
Week1 2 (Research)
No ratings yet
Week1 2 (Research)
2 pages
Personalized Classification of Non-Spam Emails Using Machine Learning Techniques
No ratings yet
Personalized Classification of Non-Spam Emails Using Machine Learning Techniques
7 pages
CV Template
No ratings yet
CV Template
2 pages
8a - Branchwise Subjects For Even Semester
No ratings yet
8a - Branchwise Subjects For Even Semester
4 pages
Data Mining Models: Techniques and Applications
From Everand
Data Mining Models: Techniques and Applications
Ravi Deshpande
No ratings yet