0% found this document useful (0 votes)

165 views6 pages

Feature Engineering On Banks' Private Credit Data - Ipynb - Colab

Uploaded by

Moonlight

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

165 views6 pages

Feature Engineering On Banks' Private Credit Data - Ipynb - Colab

Uploaded by

Moonlight

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 6

9/24/24, 10:26 AM Feature Engineering on Banks' Private Credit Data.

ipynb - Colab

keyboard_arrow_down Feature Engineering on Banks' Private Credit Data

import pandas as pd

# upload the dataset

from google.colab import files
files.upload()

Choose Files credit.csv

credit.csv(text/csv) - 551806 bytes, last modified: 9/17/2024 - 100% done
Saving credit.csv to credit.csv
{'credit.csv': b'Cust_No,Target,Nation,Birth_Place,Gender,Age,Marriage_State,Highest
Education,House_State,Work_Years,Title,Duty,Industry,Year_Income,Couple_Year_Income,L12_Month_Pay_Amount,Couple_L12_Month_Pay_Amount,Ast

df=pd.read_csv('credit.csv', index_col=0)
df.head()

Highest
Target Nation Birth_Place Gender Age Marriage_State House_State Work_Years Title ... ZX_Max_Overdue_Account
Education

Cust_No

2 0 1.0 330621 1 55 40.0 71.0 1.0 0 9.0 ... 1

4 0 1.0 330621 0 40 99.0 90.0 1.0 0 NaN ... 0

6 0 1.0 330621 1 45 20.0 71.0 1.0 0 NaN ... 1

7 0 NaN 330421 0 32 20.0 21.0 1.0 0 NaN ... 1

8 0 1.0 330621 0 46 20.0 71.0 NaN 0 NaN ... 0

5 rows × 31 columns

#data collection --> data cleansing

#view the missing values
import missingno
missingno.matrix(df)

<Axes: >

#isnull().sum()
df_missing = pd.DataFrame(df.isnull().sum()/df.shape[0],columns = ['missing_rate']).reset_index()
df_missing.sort_values(by='missing_rate', ascending=False)[:10]

https://colab.research.google.com/drive/1NKCYHsHNEgWK9rQhpOYasj9JNCijPk_I?authuser=3#scrollTo=1bLaK0vL2bRm&printMode=true 1/6
9/24/24, 10:26 AM Feature Engineering on Banks' Private Credit Data.ipynb - Colab

index missing_rate

9 Title 0.603075

11 Industry 0.594120

7 House_State 0.424806

1 Nation 0.356877

5 Marriage_State 0.334404

6 Highest Education 0.325786

10 Duty 0.126563

25 ZX_Max_Credits 0.000000

21 ZX_Max_Overdue_Account 0.000000

22 ZX_Link_Max_Overdue_Amount 0.000000

#fill the missing values

#fillna() - mean, mode, median

missing_col = ['Title','Industry','House_State', 'Nation','Marriage_State', 'Highest Education', 'Duty']

missing_col = ["Title", "Industry", "House_State", "Nation", "Marriage_State", "Highest Education", "Duty"]

for col in missing_col:
df[col] = df[col].fillna(int(df[col].mode()))

<ipython-input-9-ea6953e5cbbd>:3: FutureWarning: Calling int on a single element Series is deprecated and will raise a TypeError in the
df[col] = df[col].fillna(int(df[col].mode()))

#isnull().sum()
df_missing_2 = pd.DataFrame(df.isnull().sum()/df.shape[0],columns = ['missing_rate']).reset_index()
df_missing_2.sort_values(by='missing_rate', ascending=False)[:10]

index missing_rate

0 Target 0.0

16 Ast_Curr_Bal 0.0

29 ZX_Credit_Total_Overdue_Months 0.0

28 ZX_Credit_Max_Overdu_Amount 0.0

27 ZX_Max_Overdue_Credits 0.0

26 ZX_Max_Credit_Banks 0.0

25 ZX_Max_Credits 0.0

24 ZX_Max_Overdue_Duration 0.0

23 ZX_Total_Overdu_Months 0.0

22 ZX_Link_Max_Overdue_Amount 0.0

missingno.matrix(df)

https://colab.research.google.com/drive/1NKCYHsHNEgWK9rQhpOYasj9JNCijPk_I?authuser=3#scrollTo=1bLaK0vL2bRm&printMode=true 2/6
9/24/24, 10:26 AM Feature Engineering on Banks' Private Credit Data.ipynb - Colab

<Axes: >

#feature_selection
#filter
#crosstab()
cross_table = pd.crosstab(df.House_State, columns=df.Target, margins=True)
cross_table_rowpct = cross_table.div(cross_table["All"], axis=0)
cross_table_rowpct

Target 0 1 All

House_State

1.0 0.980996 0.019004 1.0

2.0 0.954545 0.045455 1.0

3.0 0.941176 0.058824 1.0

4.0 1.000000 0.000000 1.0

5.0 0.980392 0.019608 1.0

6.0 1.000000 0.000000 1.0

7.0 0.857143 0.142857 1.0

8.0 1.000000 0.000000 1.0

All 0.980399 0.019601 1.0

Next steps: Generate code with cross_table_rowpct

toggle_off View recommended plots New interactive sheet

# perform chi-square test

# seperate the ind vs dependent variables
# Target --> y
# X - independent
# C_category
X = df.drop('Target', axis=1)
y = df['Target']
X_category = df[['Nation', 'Birth_Place','Gender','Marriage_State','Highest Education', 'House_State', 'Work_Years', 'Title', 'Duty', 'Indus

from sklearn.feature_selection import chi2

(chi2,pval)=chi2(X_category,y)
dict_feature={}
for i,j in zip(X_category.columns.values,chi2):
dict_feature[i]=j
kai = sorted(dict_feature.items(), key=lambda item:item[1],reverse=True)
kai

[('Work_Years', 30037.98992988671),
('Birth_Place', 2337.714562647344),

https://colab.research.google.com/drive/1NKCYHsHNEgWK9rQhpOYasj9JNCijPk_I?authuser=3#scrollTo=1bLaK0vL2bRm&printMode=true 3/6
9/24/24, 10:26 AM Feature Engineering on Banks' Private Credit Data.ipynb - Colab
('Marriage_State', 42.7575821276435),
('Duty', 30.50877073893663),
('Industry', 25.452013582101742),
('Nation', 5.256723621174332),
('Gender', 2.309012664555949),
('Highest Education', 1.2297808819626934),
('Title', 0.8774406202190365),
('House_State', 0.3184384017473372)]

# test the continuous variable correlation

# check the variables that are highly correlated
nominal_features = ['Nation', 'Birth_Place','Gender','Marriage_State','Highest Education', 'House_State', 'Work_Years', 'Title', 'Duty', 'In
numerical_features = [col_ for col_ in df.columns if col_ not in nominal_features] # use col_ instead of col_not
numerical_features.pop(0)
X_num = df[numerical_features]

import matplotlib.pyplot as plt

import seaborn as sns
plt.figure(figsize=(25,15))
corr_matrix = X_num.corr(method='pearson')
sns.heatmap(corr_matrix, annot=True)

<Axes: >

cols_pair=[]
for index_ in corr_matrix.index:
for col_ in corr_matrix.columns:
if corr_matrix.loc[index_,col_]>=0.8 and index_!=col_ and (col_,index_) not in cols_pair:
cols_pair.append((index_,col_))
cols_pair

[('ZX_Max_Account_Number', 'ZX_Max_Link_Banks'),
('ZX_Max_Credits', 'ZX_Max_Credit_Banks')]

https://colab.research.google.com/drive/1NKCYHsHNEgWK9rQhpOYasj9JNCijPk_I?authuser=3#scrollTo=1bLaK0vL2bRm&printMode=true 4/6
9/24/24, 10:26 AM Feature Engineering on Banks' Private Credit Data.ipynb - Colab

# try wrapper method

from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression
x_rfe=RFE(estimator=LogisticRegression(),n_features_to_select=20).fit(X,y)
print(x_rfe.ranking_)
print(x_rfe.support_)

Increase the number of iterations (max_iter) or scale the data as shown in:
https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
n_iter_i = _check_optimize_result(
/usr/local/lib/python3.10/dist-packages/sklearn/linear_model/_logistic.py:469: ConvergenceWarning: lbfgs failed to converge (status=1)
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
n_iter_i = _check_optimize_result(
[ 5 1 9 1 1 1 10 1 1 1 1 1 1 1 11 1 1 4 1 1 1 1 1 1
3 8 7 2 1 6]
[False True False True True True False True True True True True
True True False True True False True True True True True True
False False False False True False]
/usr/local/lib/python3.10/dist-packages/sklearn/linear_model/_logistic.py:469: ConvergenceWarning: lbfgs failed to converge (status=1)
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

# Embedded Method
from sklearn.ensemble import RandomForestClassifier
emb = RandomForestClassifier()
emb.fit(X,y)

▾ RandomForestClassifier i ?
RandomForestClassifier()

colss = [i for i in X.columns]

emb1 = sorted(zip(map(lambda x: round(x, 4), emb.feature_importances_), colss), reverse=True) # Removed colss from map function arguments
emb1

[(0.1313, 'Ast_Curr_Bal'),
(0.1137, 'Age'),
(0.0921, 'Year_Income'),
(0.0669, 'Std_Cred_Limit'),
(0.0421, 'ZX_Link_Max_Overdue_Amount'),
(0.0412, 'ZX_Max_Account_Number'),
(0.0373, 'Highest Education'),
(0.0349, 'Duty'),
(0.0347, 'ZX_Max_Link_Banks'),
(0.0341, 'ZX_Total_Overdu_Months'),
(0.0312, 'Industry'),
(0.0307, 'Birth_Place'),
(0.0295, 'ZX_Max_Overdue_Duration'),
(0.0295, 'ZX_Max_Overdue_Account'),
(0.0252, 'Loan_Curr_Bal'),
(0.0248, 'Couple_Year_Income'),
(0.0244, 'Marriage_State'),
(0.0222, 'L12_Month_Pay_Amount'),
(0.0198, 'ZX_Max_Credit_Banks'),
(0.0192, 'ZX_Max_Credits'),
(0.0188, 'ZX_Credit_Max_Overdu_Amount'),
(0.0155, 'Work_Years'),
(0.0142, 'ZX_Credit_Max_Overdue_Duration'),
(0.0141, 'Gender'),
(0.0124, 'Title'),

https://colab.research.google.com/drive/1NKCYHsHNEgWK9rQhpOYasj9JNCijPk_I?authuser=3#scrollTo=1bLaK0vL2bRm&printMode=true 5/6
9/24/24, 10:26 AM Feature Engineering on Banks' Private Credit Data.ipynb - Colab
(0.012, 'ZX_Credit_Total_Overdue_Months'),
(0.0102, 'ZX_Max_Overdue_Credits'),
(0.0097, 'Nation'),
(0.0084, 'House_State'),
(0.0, 'Couple_L12_Month_Pay_Amount')]

# variable removal
deleted_col = ['ZX_Max_Overdue_Duration','Couple_L12_Month_Pay_Amount','House_State', 'ZX_Max_Overdue_Credits', 'Couple_Year_Income','Marriage
df_selected = df.drop(deleted_col, axis=1)
df_selected.head()

Highest
Target Nation Birth_Place Gender Age Duty Industry Year_Income L12_Month_Pay_Amount ... Loan_Curr_Bal ZX_M
Education

Cust_No

2 0 1.0 330621 1 55 71.0 9.0 52.0 100000.0 0.0 ... 560000.0

4 0 1.0 330621 0 40 90.0 2.0 51.0 300000.0 0.0 ... 0.0

6 0 1.0 330621 1 45 71.0 0.0 17.0 150000.0 0.0 ... 1350000.0

7 0 1.0 330421 0 32 21.0 0.0 83.0 80000.0 0.0 ... 120000.0

8 0 1.0 330621 0 46 71.0 0.0 51.0 50000.0 0.0 ... 0.0

5 rows × 22 columns

https://colab.research.google.com/drive/1NKCYHsHNEgWK9rQhpOYasj9JNCijPk_I?authuser=3#scrollTo=1bLaK0vL2bRm&printMode=true 6/6

William W.S.Wei (Pearson 2006 634s) - Time Series Analysis - Univariate and Multivariate Methods 2ed - PDF
No ratings yet
William W.S.Wei (Pearson 2006 634s) - Time Series Analysis - Univariate and Multivariate Methods 2ed - PDF
634 pages
Try Out 2 - Akmil - Bahasa Inggris - Jawaban Dan Pembahasan
100% (1)
Try Out 2 - Akmil - Bahasa Inggris - Jawaban Dan Pembahasan
15 pages
Unit 12 Learning A Foreign Language
50% (4)
Unit 12 Learning A Foreign Language
3 pages
Listening-Dialogs Dialogs Involving Agreement and Disagreement
No ratings yet
Listening-Dialogs Dialogs Involving Agreement and Disagreement
4 pages
SAP ISU - SAP Expertise Consulting
100% (1)
SAP ISU - SAP Expertise Consulting
11 pages
Listening Only
No ratings yet
Listening Only
6 pages
Passive Exercise TOEFL
No ratings yet
Passive Exercise TOEFL
5 pages
Work Sampling Lengkap
No ratings yet
Work Sampling Lengkap
23 pages
TOEFL Reading The Celts (Answer Key)
No ratings yet
TOEFL Reading The Celts (Answer Key)
2 pages
Syntax SAS Untuk Metode Fungsi Transfer Multi Input Dengan Deteksi Outlier
No ratings yet
Syntax SAS Untuk Metode Fungsi Transfer Multi Input Dengan Deteksi Outlier
7 pages
(Bangkit 2024) Capstone Briefing 1
100% (1)
(Bangkit 2024) Capstone Briefing 1
49 pages
Soal Kelas Xii
No ratings yet
Soal Kelas Xii
118 pages
Praktikum 1 - Komputasi Big Data - Nada Andini Rahmah - 20320246 - 2TB03
No ratings yet
Praktikum 1 - Komputasi Big Data - Nada Andini Rahmah - 20320246 - 2TB03
6 pages
2022 TKDH 12 Sumut
No ratings yet
2022 TKDH 12 Sumut
5 pages
Of The Dollar Declines As Raises
No ratings yet
Of The Dollar Declines As Raises
5 pages
Simcom Sim5215 Sim5216 Atc en v1.21
No ratings yet
Simcom Sim5215 Sim5216 Atc en v1.21
527 pages
Tabel Mortalitas
No ratings yet
Tabel Mortalitas
23 pages
This Study Resource Was: Question 3. Blindfold Technologies Inc. (BTI) Is Considering Whether To Introduce A New
No ratings yet
This Study Resource Was: Question 3. Blindfold Technologies Inc. (BTI) Is Considering Whether To Introduce A New
2 pages
Kinematics-Motion in One Dimension-1 JEE Main and Advanced
50% (2)
Kinematics-Motion in One Dimension-1 JEE Main and Advanced
6 pages
Sox Audit
No ratings yet
Sox Audit
8 pages
Comprehension Test On Meeting 12 - Duwi Rukmanasari
No ratings yet
Comprehension Test On Meeting 12 - Duwi Rukmanasari
2 pages
Admin Resume Sample
100% (1)
Admin Resume Sample
6 pages
Bomba Hidráulica (Ppal) Serie A.55 Serie H1P250 Parts Manual (H1P250R E8 C3 N D6 C G2 NN L40 K38 R L 24 PN NNN NNN)
No ratings yet
Bomba Hidráulica (Ppal) Serie A.55 Serie H1P250 Parts Manual (H1P250R E8 C3 N D6 C G2 NN L40 K38 R L 24 PN NNN NNN)
96 pages
Contoh Kasus Pemodelan Matematika
100% (1)
Contoh Kasus Pemodelan Matematika
16 pages
Passport Stats 15-04-2023 0939 GMT Softdrinks
No ratings yet
Passport Stats 15-04-2023 0939 GMT Softdrinks
1 page
English Business'2
No ratings yet
English Business'2
6 pages
01 - ITIL Patch Management Best Practices
No ratings yet
01 - ITIL Patch Management Best Practices
4 pages
Al's Doctor Insists .. For A
0% (2)
Al's Doctor Insists .. For A
76 pages
KNN Min Max Normalization Contohoerhitungan
100% (1)
KNN Min Max Normalization Contohoerhitungan
9 pages
Fitrianti Ulfah - TOEFL Assignment
0% (1)
Fitrianti Ulfah - TOEFL Assignment
2 pages
Daftar Siswa Remedial Dan Susulan Pas SMT Ganjil 2022
No ratings yet
Daftar Siswa Remedial Dan Susulan Pas SMT Ganjil 2022
16 pages
Final Test
No ratings yet
Final Test
10 pages
Reading Diagnostic Pre-Test (Paper)
No ratings yet
Reading Diagnostic Pre-Test (Paper)
9 pages
TOEFL
No ratings yet
TOEFL
2 pages
Phone: Email: Website:: CIN: L90001MH2001PLC130485
No ratings yet
Phone: Email: Website:: CIN: L90001MH2001PLC130485
41 pages
Ejercicio 37 Lic. Ruth Libro2
No ratings yet
Ejercicio 37 Lic. Ruth Libro2
6 pages
Institutionalization Stage Revalida
No ratings yet
Institutionalization Stage Revalida
59 pages
Usermanual Em6400.v01
No ratings yet
Usermanual Em6400.v01
81 pages
Muhammad Alfarezy Cannavaro - 2009106055 - Section 2-3 - Section 3-4
No ratings yet
Muhammad Alfarezy Cannavaro - 2009106055 - Section 2-3 - Section 3-4
41 pages
Faceplate WinCC Motor en
No ratings yet
Faceplate WinCC Motor en
36 pages
Akmal Maulana - X3B - PSD - TUGAS BAB 1
No ratings yet
Akmal Maulana - X3B - PSD - TUGAS BAB 1
24 pages
Practice Test 2
No ratings yet
Practice Test 2
7 pages
Laporan Praktikum StatDas2020 - Siti Rubi'Ah (G1B019069) FISIKA A
No ratings yet
Laporan Praktikum StatDas2020 - Siti Rubi'Ah (G1B019069) FISIKA A
59 pages
Amazon RDS Custom
No ratings yet
Amazon RDS Custom
26 pages
Introduction To DBMS: Application Program End-User
No ratings yet
Introduction To DBMS: Application Program End-User
19 pages
Lab 1
No ratings yet
Lab 1
19 pages
BM Costs New
No ratings yet
BM Costs New
35 pages
UPang Union v. UPang
No ratings yet
UPang Union v. UPang
14 pages
Kuliah 2 Sistem Digital - 21
No ratings yet
Kuliah 2 Sistem Digital - 21
39 pages
Graphing Practice
No ratings yet
Graphing Practice
6 pages
Normalisasi Database: Tutoring Class
No ratings yet
Normalisasi Database: Tutoring Class
14 pages
Teleoperator Retrieval System Press Kit
No ratings yet
Teleoperator Retrieval System Press Kit
8 pages
Ballistic Limit Evaluation For Impact of Pistol Projectile 9 MM Luger On Aircraft Skin Metal Plate
No ratings yet
Ballistic Limit Evaluation For Impact of Pistol Projectile 9 MM Luger On Aircraft Skin Metal Plate
10 pages
Materi Microsoft Office Specialist
No ratings yet
Materi Microsoft Office Specialist
18 pages
Laporan Tugas Teori Peluang Review Excercises Bab 7: Institut Teknologi Sepuluh November Surabaya 2016-2017
No ratings yet
Laporan Tugas Teori Peluang Review Excercises Bab 7: Institut Teknologi Sepuluh November Surabaya 2016-2017
20 pages
Praktikum IV - Moda Self-Study EDA - Statistical Analysis
No ratings yet
Praktikum IV - Moda Self-Study EDA - Statistical Analysis
9 pages
LAPORAN Jarkom
No ratings yet
LAPORAN Jarkom
16 pages
What Is NumPy
No ratings yet
What Is NumPy
5 pages
Iae Meeting 11
No ratings yet
Iae Meeting 11
10 pages
Group 4 - Summary PSM
No ratings yet
Group 4 - Summary PSM
33 pages
Pengelompokan Derajat Kesehatan Dengan PLS POS
No ratings yet
Pengelompokan Derajat Kesehatan Dengan PLS POS
11 pages
Erosion and Erosion-Corrosion of Metals: A.V. Levy
No ratings yet
Erosion and Erosion-Corrosion of Metals: A.V. Levy
12 pages
AGR 1 - 210301059 - ALGHI FAHRY LESMANA - Assignment 6
No ratings yet
AGR 1 - 210301059 - ALGHI FAHRY LESMANA - Assignment 6
5 pages
Gkogi 0340
No ratings yet
Gkogi 0340
8 pages
Roby Rahman Saleh - 20320306 - 2TB01 - Praktikum TT M6
No ratings yet
Roby Rahman Saleh - 20320306 - 2TB01 - Praktikum TT M6
9 pages
Jawaban No 3 A Dan B
No ratings yet
Jawaban No 3 A Dan B
6 pages
Flower Category Analysis - Ipynb - Colab
No ratings yet
Flower Category Analysis - Ipynb - Colab
2 pages
Assignment1 (Group6)
No ratings yet
Assignment1 (Group6)
7 pages
Jurnal Referensi
No ratings yet
Jurnal Referensi
2 pages
Nilai Harapan Dan MGF Bersamaa
No ratings yet
Nilai Harapan Dan MGF Bersamaa
38 pages
Contoh 1: Program Bukan Array: Praktikum Array 1 Dimensi Pemrograman C Imam Gunawan, M. Kom
No ratings yet
Contoh 1: Program Bukan Array: Praktikum Array 1 Dimensi Pemrograman C Imam Gunawan, M. Kom
9 pages
Penerapan Model Populasi Kontinu Pada Perhitungan Proyeksi Penduduk Di Indonesia (Studi Kasus: Provinsi Jawa Timur)
No ratings yet
Penerapan Model Populasi Kontinu Pada Perhitungan Proyeksi Penduduk Di Indonesia (Studi Kasus: Provinsi Jawa Timur)
11 pages
Evaluation: Section: ECE-1 - Day
No ratings yet
Evaluation: Section: ECE-1 - Day
3 pages
Data Sheet - HBW2PER2 PDF
No ratings yet
Data Sheet - HBW2PER2 PDF
2 pages
B. Exercise 1. Substitute The Subjects With Pronouns: He She They He She They It They He It They They It He
No ratings yet
B. Exercise 1. Substitute The Subjects With Pronouns: He She They He She They It They He It They They It He
3 pages
6.21, 7.3, 7.4 - 103046
No ratings yet
6.21, 7.3, 7.4 - 103046
3 pages
Conceptual Framework: E-Commerce Capabilities Organization Performance
No ratings yet
Conceptual Framework: E-Commerce Capabilities Organization Performance
4 pages
Unit 9 Computer The Internet
No ratings yet
Unit 9 Computer The Internet
2 pages
Evaluation: Statement Is Wrong or Not Acceptable. Use The Space Provided For Your Answer
No ratings yet
Evaluation: Statement Is Wrong or Not Acceptable. Use The Space Provided For Your Answer
2 pages
Evaluation: Fashion Designer
No ratings yet
Evaluation: Fashion Designer
2 pages
On Line Audit 2
No ratings yet
On Line Audit 2
2 pages
Array Questions
No ratings yet
Array Questions
2 pages
Teori Data Control Language
No ratings yet
Teori Data Control Language
7 pages
Kuis 4
No ratings yet
Kuis 4
10 pages
Syntax SAS Metode ARIMA Dengan Deteksi Outlier
No ratings yet
Syntax SAS Metode ARIMA Dengan Deteksi Outlier
3 pages
ASRock ION 330HT Quick Installation Guide
No ratings yet
ASRock ION 330HT Quick Installation Guide
2 pages
Pemodelan Dan Simulasi M5
No ratings yet
Pemodelan Dan Simulasi M5
3 pages
Sampling and Participants & Intstruments
No ratings yet
Sampling and Participants & Intstruments
1 page
Sean Iverson V. Saludar, Elaizah Jane A. Andal, Max Alejandro F. Domingo, Imman L. Maderazo, Gerhome Anthony S. Moreno, and Ruth R. Aquino
No ratings yet
Sean Iverson V. Saludar, Elaizah Jane A. Andal, Max Alejandro F. Domingo, Imman L. Maderazo, Gerhome Anthony S. Moreno, and Ruth R. Aquino
1 page
Ulang Subquery18 04 13
No ratings yet
Ulang Subquery18 04 13
5 pages
Cheatset Probabilitas Dan Statistik
No ratings yet
Cheatset Probabilitas Dan Statistik
2 pages
Group 5 Dseb64a Report
No ratings yet
Group 5 Dseb64a Report
10 pages
Content Control Interfaces
No ratings yet
Content Control Interfaces
58 pages
Charts Using A Sample Size of N 5. Data For 20 Preliminary Samples Are Shown in Table 6E.2
No ratings yet
Charts Using A Sample Size of N 5. Data For 20 Preliminary Samples Are Shown in Table 6E.2
8 pages
Tugas 7.1 Hilma Hayyina 21070117130088 Ade Aisyah Arifna Putri 21070117130104
No ratings yet
Tugas 7.1 Hilma Hayyina 21070117130088 Ade Aisyah Arifna Putri 21070117130104
9 pages
Gui Class With Selection - and Bubble Sort
No ratings yet
Gui Class With Selection - and Bubble Sort
3 pages
Brandie Mendoza
No ratings yet
Brandie Mendoza
1 page
Server Rack
No ratings yet
Server Rack
7 pages

Feature Engineering On Banks' Private Credit Data - Ipynb - Colab

Uploaded by

Feature Engineering On Banks' Private Credit Data - Ipynb - Colab

Uploaded by

9/24/24, 10:26 AM Feature Engineering on Banks' Private Credit Data.

keyboard_arrow_down Feature Engineering on Banks' Private Credit Data

# upload the dataset

Choose Files credit.csv

2 0 1.0 330621 1 55 40.0 71.0 1.0 0 9.0 ... 1

4 0 1.0 330621 0 40 99.0 90.0 1.0 0 NaN ... 0

6 0 1.0 330621 1 45 20.0 71.0 1.0 0 NaN ... 1

7 0 NaN 330421 0 32 20.0 21.0 1.0 0 NaN ... 1

8 0 1.0 330621 0 46 20.0 71.0 NaN 0 NaN ... 0

#data collection --> data cleansing

6 Highest Education 0.325786

#fill the missing values

missing_col = ['Title','Industry','House_State', 'Nation','Marriage_State', 'Highest Education', 'Duty']

missing_col = ["Title", "Industry", "House_State", "Nation", "Marriage_State", "Highest Education", "Duty"]

1.0 0.980996 0.019004 1.0

2.0 0.954545 0.045455 1.0

3.0 0.941176 0.058824 1.0

4.0 1.000000 0.000000 1.0

5.0 0.980392 0.019608 1.0

6.0 1.000000 0.000000 1.0

7.0 0.857143 0.142857 1.0

8.0 1.000000 0.000000 1.0

All 0.980399 0.019601 1.0

Next steps: Generate code with cross_table_rowpct

# perform chi-square test

from sklearn.feature_selection import chi2

# test the continuous variable correlation

import matplotlib.pyplot as plt

# try wrapper method

colss = [i for i in X.columns]

2 0 1.0 330621 1 55 71.0 9.0 52.0 100000.0 0.0 ... 560000.0

4 0 1.0 330621 0 40 90.0 2.0 51.0 300000.0 0.0 ... 0.0

6 0 1.0 330621 1 45 71.0 0.0 17.0 150000.0 0.0 ... 1350000.0

7 0 1.0 330421 0 32 21.0 0.0 83.0 80000.0 0.0 ... 120000.0

8 0 1.0 330621 0 46 71.0 0.0 51.0 50000.0 0.0 ... 0.0

You might also like