0% found this document useful (0 votes)

72 views10 pages

Recsify Technologies Assignment

Uploaded by

yogdip02

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

72 views10 pages

Recsify Technologies Assignment

Uploaded by

yogdip02

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 10

Problem statement

Submitted by: Purvesh Patil (9422324279)

Based on the given financial data create a ML model to predict if the client is high risk
or low risk if we were to provide them loan. We need to predict the column Risk_Flag
and it contains value 1 if the client is high risk else it will be 0.

Here's a detailed explanation of each part of the code with a focus on the various steps of
machine learning, including data visualizations, data exploration insights, model
performance, and understanding the main deciding factors associated with risk.

1. Data Loading and Exploration

• Load the Data: The dataset is loaded from a JSON file into a pandas DataFrame.
• Data Exploration:

• data.head() displays the first five rows.

• data.info() provides information about the data types and the presence of missing
values.
• data.describe() gives a statistical summary of numerical features.

# Load the data

data = pd.read_json('loan_approval_dataset.json')

# Data Exploration
print("First five rows of the dataset:")
print(data.head())

print("\nData types and missing values:")

print(data.info())

print("\nStatistical summary:")
print(data.describe())

2. Data Visualization
• Target Variable Distribution: A count plot is created to visualize the distribution of the
Risk_Flag variable.
• Feature Distribution: Histograms for all numerical features are plotted to understand their
distributions.
# Data Visualization
plt.figure(figsize=(10, 6))
sns.countplot(x='Risk_Flag', data=data)
plt.title('Distribution of Risk Flag')
plt.savefig('risk_flag_distribution.png')
plt.show()

# Visualize the distribution of numerical features

for column in data.select_dtypes(include=['int64', 'float64']).columns:
if column != 'Id':
plt.figure(figsize=(10, 6))
sns.histplot(data[column], kde=True)
plt.title(f'Distribution of {column}')
plt.savefig(f'distribution_{column}.png')
plt.show()

3. Data Preprocessing
• Encoding Categorical Variables: Categorical features are converted to numeric using
LabelEncoder.

# Convert categorical variables to numeric

label_encoders = {}
for column in data.select_dtypes(include=['object']).columns:
label_encoders[column] = LabelEncoder()
data[column] = label_encoders[column].fit_transform(data[column])

4. Correlation Heatmap
• Heatmap: A correlation heatmap is plotted to show the correlations between features. This
helps identify multicollinearity and the relationship between features and the target variable.
# Correlation Heatmap
plt.figure(figsize=(12, 8))
sns.heatmap(data.corr(), annot=True, fmt='.2f', cmap='coolwarm')
plt.title('Correlation Heatmap')
plt.savefig('correlation_heatmap.png')
plt.show()

5. Feature Engineering and Splitting Data

• Feature Engineering: The target variable Risk_Flag is separated from the feature set.
The Id column is also dropped as it doesn't provide predictive value.
• Train-Test Split: The data is split into training and testing sets (70-30 split).
• Standardization: Features are standardized to have zero mean and unit variance using
StandardScaler.

# Feature Engineering
X = data.drop(columns=['Id', 'Risk_Flag'])
y = data['Risk_Flag']
# Splitting the data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3,
random_state=42)

# Standardizing the features

scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

6. Hyperparameter Tuning and Model Building

• Hyperparameter Tuning: A grid search with cross-validation (GridSearchCV) is used to
find the best hyperparameters for the RandomForestClassifier.
• Model Training: The best model from the grid search is used to fit the training data.
# Hyperparameter tuning using GridSearchCV
param_grid = {
'n_estimators': [100, 200],
'max_depth': [10, 20, None],
'min_samples_split': [2, 5, 10],
'min_samples_leaf': [1, 2, 4]
}
grid_search = GridSearchCV(estimator=RandomForestClassifier(random_state=42),
param_grid=param_grid, cv=3, n_jobs=-1, verbose=2)
grid_search.fit(X_train, y_train)

# Model Building
best_model = grid_search.best_estimator_
best_model.fit(X_train, y_train)

7. Model Evaluation
• Predictions: The model makes predictions on the test set.
• Evaluation Metrics: The classification report, confusion matrix, and accuracy score are
printed to evaluate the model's performance.
# Predictions and Evaluation
y_pred = best_model.predict(X_test)
y_pred_prob = best_model.predict_proba(X_test)[:, 1]

print("\nClassification Report:")
print(classification_report(y_test, y_pred))

print("\nConfusion Matrix:")
print(confusion_matrix(y_test, y_pred))

print("\nAccuracy Score:")
print(accuracy_score(y_test, y_pred))

8. ROC Curve
• ROC Curve: The ROC curve and AUC score are plotted to evaluate the model's
performance in distinguishing between the classes.

# ROC Curve
fpr, tpr, _ = roc_curve(y_test, y_pred_prob)
roc_auc = roc_auc_score(y_test, y_pred_prob)
plt.figure(figsize=(10, 6))
plt.plot(fpr, tpr, label=f'AUC = {roc_auc:.2f}')
plt.plot([0, 1], [0, 1], linestyle='--')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC Curve')
plt.legend()
plt.savefig('roc_curve.png')
plt.show()

9. Feature Importance
• Feature Importance: The importance of each feature in the random forest model is
plotted to understand which features are the main deciding factors associated with risk.

# Feature Importance
feature_importances = best_model.feature_importances_
features = X.columns
feature_importance_df = pd.DataFrame({'Feature': features, 'Importance':
feature_importances})
feature_importance_df = feature_importance_df.sort_values(by='Importance',
ascending=False)

plt.figure(figsize=(12, 8))
sns.barplot(x='Importance', y='Feature', data=feature_importance_df)
plt.title('Feature Importance')
plt.savefig('feature_importance.png')
plt.show()

Complete Code:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix,
accuracy_score, roc_curve, roc_auc_score
from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas
from reportlab.lib.utils import ImageReader

# Load the data

data = pd.read_json('loan_approval_dataset.json')

# Data Exploration
print("First five rows of the dataset:")
print(data.head())

print("\nData types and missing values:")

print(data.info())

print("\nStatistical summary:")
print(data.describe())

# Data Visualization
plt.figure(figsize=(10, 6))
sns.countplot(x='Risk_Flag', data=data)
plt.title('Distribution of Risk Flag')
plt.savefig('risk_flag_distribution.png')
plt.show()

# Visualize the distribution of numerical features

# Convert categorical variables to numeric

label_encoders = {}
for column in data.select_dtypes(include=['object']).columns:
label_encoders[column] = LabelEncoder()
data[column] = label_encoders[column].fit_transform(data[column])

# Correlation Heatmap
plt.figure(figsize=(12, 8))
sns.heatmap(data.corr(), annot=True, fmt='.2f', cmap='coolwarm')
plt.title('Correlation Heatmap')
plt.savefig('correlation_heatmap.png')
plt.show()

# Feature Engineering
X = data.drop(columns=['Id', 'Risk_Flag'])
y = data['Risk_Flag']

# Splitting the data into training and testing sets

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3,
random_state=42)

# Standardizing the features

scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Hyperparameter tuning using GridSearchCV

param_grid = {
'n_estimators': [100, 200],
'max_depth': [10, 20, None],
'min_samples_split': [2, 5, 10],
'min_samples_leaf': [1, 2, 4]
}
grid_search = GridSearchCV(estimator=RandomForestClassifier(random_state=42),
param_grid=param_grid, cv=3, n_jobs=-1, verbose=2)
grid_search.fit(X_train, y_train)

# Model Building
best_model = grid_search.best_estimator_
best_model.fit(X_train, y_train)

# Predictions and Evaluation

y_pred = best_model.predict(X_test)
y_pred_prob = best_model.predict_proba(X_test)[:, 1]

print("\nClassification Report:")
print(classification_report(y_test, y_pred))

print("\nConfusion Matrix:")
print(confusion_matrix(y_test, y_pred))

print("\nAccuracy Score:")
print(accuracy_score(y_test, y_pred))

plt.figure(figsize=(12, 8))
sns.barplot(x='Importance', y='Feature', data=feature_importance_df)
plt.title('Feature Importance')
plt.savefig('feature_importance.png')
plt.show()

Output:

CH 1 AI Project Cycle Class 10 2025 26
No ratings yet
CH 1 AI Project Cycle Class 10 2025 26
4 pages
Abbreviations
No ratings yet
Abbreviations
115 pages
Citizen Financial Cyber Frauds Reporting and Management System (CFCFRMS)
No ratings yet
Citizen Financial Cyber Frauds Reporting and Management System (CFCFRMS)
2 pages
Dafd Unit-1
No ratings yet
Dafd Unit-1
33 pages
Complaint Type:Cyber Crime / Report & Track: Complainant Details
No ratings yet
Complaint Type:Cyber Crime / Report & Track: Complainant Details
2 pages
QB Pec-Cs701e
No ratings yet
QB Pec-Cs701e
12 pages
Tata Capital Latest 1 PAGER POLICY
No ratings yet
Tata Capital Latest 1 PAGER POLICY
2 pages
Statement of Axis Account No:918010078090847 For The Period (From: 01-11-2022 To: 29-11-2022)
No ratings yet
Statement of Axis Account No:918010078090847 For The Period (From: 01-11-2022 To: 29-11-2022)
2 pages
Vandana Cibil Report
No ratings yet
Vandana Cibil Report
23 pages
Complaint Type:Cyber Crime / Report & Track: Complainant Details
No ratings yet
Complaint Type:Cyber Crime / Report & Track: Complainant Details
2 pages
My Joining Kit
50% (2)
My Joining Kit
11 pages
KVB 01.04.21-31.03.22 22.04.22
No ratings yet
KVB 01.04.21-31.03.22 22.04.22
141 pages
Presentation On Role of Financial Consultants in Hdfc.....
No ratings yet
Presentation On Role of Financial Consultants in Hdfc.....
24 pages
Appointment Letter - Gourav Ranjan Boxi
No ratings yet
Appointment Letter - Gourav Ranjan Boxi
6 pages
Mini Final Document
No ratings yet
Mini Final Document
49 pages
PW54023 Ex
No ratings yet
PW54023 Ex
1 page
Online Fraud Transactions
No ratings yet
Online Fraud Transactions
2 pages
Ebook 17CCC
No ratings yet
Ebook 17CCC
440 pages
Statement of Account: Date Narration Chq./Ref - No. Value DT Withdrawal Amt. Deposit Amt. Closing Balance
100% (1)
Statement of Account: Date Narration Chq./Ref - No. Value DT Withdrawal Amt. Deposit Amt. Closing Balance
8 pages
Offer Letter - 2320523
No ratings yet
Offer Letter - 2320523
1 page
Cybercrime Complaint
No ratings yet
Cybercrime Complaint
2 pages
Complainant Details: Anj-Gdm-Ekutch Police Inspector (P.I.) 9898138704 Polstn-Anjar-Kut@gujarat - Gov.in
No ratings yet
Complainant Details: Anj-Gdm-Ekutch Police Inspector (P.I.) 9898138704 Polstn-Anjar-Kut@gujarat - Gov.in
2 pages
Regression Notes
100% (1)
Regression Notes
20 pages
Joint Saving Account
No ratings yet
Joint Saving Account
3 pages
Complaint Detail 23111230102929
No ratings yet
Complaint Detail 23111230102929
2 pages
Complaint Detail 20806230043610
No ratings yet
Complaint Detail 20806230043610
2 pages
Sonata Software
No ratings yet
Sonata Software
232 pages
E
0% (1)
E
13 pages
Acct Statement XX6292 06012024
No ratings yet
Acct Statement XX6292 06012024
3 pages
Complaint Detail 22910210238271
No ratings yet
Complaint Detail 22910210238271
2 pages
(A) Key Fact Statement: Applicant Name
No ratings yet
(A) Key Fact Statement: Applicant Name
6 pages
AccountStatement Report 6055312266 08082023 14 44
No ratings yet
AccountStatement Report 6055312266 08082023 14 44
1 page
ML Unit I - It
No ratings yet
ML Unit I - It
30 pages
keyFactStatement 1
No ratings yet
keyFactStatement 1
8 pages
CCS369 - Text and Speech Analysis
No ratings yet
CCS369 - Text and Speech Analysis
31 pages
Q R N N: Uaternion Ecurrent Eural Etworks
No ratings yet
Q R N N: Uaternion Ecurrent Eural Etworks
19 pages
Data Warehousing and Data Mining Dec 2023
No ratings yet
Data Warehousing and Data Mining Dec 2023
28 pages
Areness Attorneys: Advocates
No ratings yet
Areness Attorneys: Advocates
1 page
TransNum Mar 29 113605 PDF
No ratings yet
TransNum Mar 29 113605 PDF
3 pages
Aiml M3 C2
No ratings yet
Aiml M3 C2
56 pages
Smartkeeda Sept
No ratings yet
Smartkeeda Sept
39 pages
Machine Learning Lab
No ratings yet
Machine Learning Lab
31 pages
Insta Overdraft Facility (Insta Od) Application Form: Application Id: CAOD0678881 IP Address: 14.139.245.68
No ratings yet
Insta Overdraft Facility (Insta Od) Application Form: Application Id: CAOD0678881 IP Address: 14.139.245.68
8 pages
Major Project PPT Format
No ratings yet
Major Project PPT Format
19 pages
Theobald Et Al. - 2017 - Student Perception of Group Dynamics Predicts Indi
No ratings yet
Theobald Et Al. - 2017 - Student Perception of Group Dynamics Predicts Indi
16 pages
15056-Article Text-44992-2-10-20210906
No ratings yet
15056-Article Text-44992-2-10-20210906
15 pages
Final Report Womanium Quantum+AI 2024 Bootcamp Project
No ratings yet
Final Report Womanium Quantum+AI 2024 Bootcamp Project
11 pages
Canara - Epassbook - 2023-10-10 202024.654466
No ratings yet
Canara - Epassbook - 2023-10-10 202024.654466
49 pages
Thyroid Disease Detection - Using ML
No ratings yet
Thyroid Disease Detection - Using ML
8 pages
Glasses Detection From Human Face Images
No ratings yet
Glasses Detection From Human Face Images
7 pages
Advanced Techniques in Machine Learning and Optimization
No ratings yet
Advanced Techniques in Machine Learning and Optimization
8 pages
Prof. Kusuma Varanasi
No ratings yet
Prof. Kusuma Varanasi
8 pages
Implementing Logistic Regression For Iris Using Sklearn and Checking The Accuracy Using Confusion Matrix
No ratings yet
Implementing Logistic Regression For Iris Using Sklearn and Checking The Accuracy Using Confusion Matrix
7 pages
Mental Stress Detection Using Artificial Intelligence Models
No ratings yet
Mental Stress Detection Using Artificial Intelligence Models
11 pages
Determine The Soil Nutrients To Find The Crop Yields Using Data
No ratings yet
Determine The Soil Nutrients To Find The Crop Yields Using Data
7 pages
Efficient and Aesthetic UI Design With A Deep
No ratings yet
Efficient and Aesthetic UI Design With A Deep
5 pages
1 Merged
No ratings yet
1 Merged
58 pages
Review On Machine Learning For Resource Usage Cost Optimization in Cloud Computing
No ratings yet
Review On Machine Learning For Resource Usage Cost Optimization in Cloud Computing
7 pages
Multi-Object Recognition and Grasping Detection Based On The Anchor-Free Network
No ratings yet
Multi-Object Recognition and Grasping Detection Based On The Anchor-Free Network
6 pages
A Comparative Study Between Full-Parameter and LoRA-based
No ratings yet
A Comparative Study Between Full-Parameter and LoRA-based
8 pages
MNIST Handwritten Digit Recognition With Different CNN Architectures
No ratings yet
MNIST Handwritten Digit Recognition With Different CNN Architectures
4 pages
Paper 14324
No ratings yet
Paper 14324
9 pages
AML Code For m2
No ratings yet
AML Code For m2
7 pages
5) Randomforest - Ipynb - Colaboratory
No ratings yet
5) Randomforest - Ipynb - Colaboratory
12 pages
AccountStatement Report 6034255206 09032024 05 24
No ratings yet
AccountStatement Report 6034255206 09032024 05 24
1 page
Research Article: Heart Disease Prediction Based On The Embedded Feature Selection Method and Deep Neural Network
No ratings yet
Research Article: Heart Disease Prediction Based On The Embedded Feature Selection Method and Deep Neural Network
9 pages
Payment Receipt
No ratings yet
Payment Receipt
1 page
Adinarayana, Ilavarasan - 2018 - An Efficient Decision Tree For Imbalance Data Learning Using Confiscate and Substitute Technique
No ratings yet
Adinarayana, Ilavarasan - 2018 - An Efficient Decision Tree For Imbalance Data Learning Using Confiscate and Substitute Technique
8 pages
NEFT-Transfer-Receipt-Thu Mar 13 2025 134313 GMT+0530 (India Standard Time)
No ratings yet
NEFT-Transfer-Receipt-Thu Mar 13 2025 134313 GMT+0530 (India Standard Time)
1 page
DS PGC Course 2 Assignment 1
No ratings yet
DS PGC Course 2 Assignment 1
3 pages
Paygilant - Frictionless Fraud Prevention
No ratings yet
Paygilant - Frictionless Fraud Prevention
17 pages
Ht2421i000403583 2
No ratings yet
Ht2421i000403583 2
4 pages
End Use Verification of Advances
No ratings yet
End Use Verification of Advances
2 pages
Loan Agreement PDFPage
No ratings yet
Loan Agreement PDFPage
5 pages
Accenture Crash Course 10 Free Mock Test Series LIVE CLASS 1723618807248
No ratings yet
Accenture Crash Course 10 Free Mock Test Series LIVE CLASS 1723618807248
1 page
Invoice: Payment Your Swift Invoice
No ratings yet
Invoice: Payment Your Swift Invoice
3 pages
Date Narration Chq./Ref - No. Value DT Withdrawal Amt. Deposit Amt. Closing Balance
No ratings yet
Date Narration Chq./Ref - No. Value DT Withdrawal Amt. Deposit Amt. Closing Balance
11 pages
HVPD Assignment
No ratings yet
HVPD Assignment
2 pages
Central Bank of India (Officers SP Cat) IH Eng 2023
No ratings yet
Central Bank of India (Officers SP Cat) IH Eng 2023
8 pages
5 6096094323005196623
No ratings yet
5 6096094323005196623
5 pages
SBI Compensation Policy 2018
No ratings yet
SBI Compensation Policy 2018
21 pages
Complaint Detail 23103230020309
No ratings yet
Complaint Detail 23103230020309
2 pages
Statement of Account: Date Narration Chq./Ref - No. Value DT Withdrawal Amt. Deposit Amt. Closing Balance
No ratings yet
Statement of Account: Date Narration Chq./Ref - No. Value DT Withdrawal Amt. Deposit Amt. Closing Balance
11 pages
Urgent Legal Notice To Kotak - 30102021 - 211030 - 182306
No ratings yet
Urgent Legal Notice To Kotak - 30102021 - 211030 - 182306
4 pages
Acct Statement - XX0647 - 14042023 PDF
No ratings yet
Acct Statement - XX0647 - 14042023 PDF
5 pages
Xxxxxx263 Aug 21
No ratings yet
Xxxxxx263 Aug 21
5 pages
INB Reference Number IRD9631663 10-Jul-2017 (09:23 PM IST) Debit Transaction Status Scheduled
No ratings yet
INB Reference Number IRD9631663 10-Jul-2017 (09:23 PM IST) Debit Transaction Status Scheduled
1 page
Non Kyc - Sbi 190327CR401877693
No ratings yet
Non Kyc - Sbi 190327CR401877693
5 pages
Practice Problems
No ratings yet
Practice Problems
4 pages
Inoperative Account Definition
No ratings yet
Inoperative Account Definition
1 page

Recsify Technologies Assignment

Uploaded by

Recsify Technologies Assignment

Uploaded by

Problem statement

Submitted by: Purvesh Patil (9422324279)

1. Data Loading and Exploration

• data.head() displays the first five rows.

# Load the data

print("\nData types and missing values:")

# Visualize the distribution of numerical features

# Convert categorical variables to numeric

5. Feature Engineering and Splitting Data

# Standardizing the features

6. Hyperparameter Tuning and Model Building

# Load the data

print("\nData types and missing values:")

# Visualize the distribution of numerical features

# Convert categorical variables to numeric

# Splitting the data into training and testing sets

# Standardizing the features

# Hyperparameter tuning using GridSearchCV

# Predictions and Evaluation

You might also like