0% found this document useful (0 votes)

9 views

Untitled5.ipynb - Colab

The document outlines a data preprocessing and modeling workflow for a stroke prediction task using Python libraries such as pandas, scikit-learn, and imbalanced-learn. It includes steps for handling missing values, fixing outliers, encoding categorical variables, standardizing numerical features, and training a logistic regression model. The final model evaluation metrics indicate a strong performance, with an AUC score of approximately 0.89 and an F-beta score of 0.99.

Uploaded by

gacia der

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

9 views

Untitled5.ipynb - Colab

Uploaded by

gacia der

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 4

2/24/25, 9:55 PM Untitled5.

ipynb - Colab

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import fbeta_score, roc_auc_score, classification_report, confusion_matrix
from imblearn.over_sampling import SMOTE

from google.colab import files

uploaded = files.upload()

Choose Files 2 files

test.csv(text/csv) - 152301 bytes, last modified: 2/21/2025 - 100% done
train.csv(text/csv) - 146010 bytes, last modified: 2/21/2025 - 100% done
Saving test.csv to test.csv
Saving train.csv to train.csv

train_path = "/content/train.csv"
test_path = "/content/test.csv"
import os
print(os.path.exists(train_path))
print(os.path.exists(test_path))
train_path = "train.csv"
test_path = "test.csv"
train_df = pd.read_csv(train_path)
test_df = pd.read_csv(test_path)

True
True

# 1️⃣ Handling Missing Values

num_features = ["age", "avg_glucose_level", "bmi"]
num_imputer = SimpleImputer(strategy="median")
train_df[num_features] = num_imputer.fit_transform(train_df[num_features])
test_df[num_features] = num_imputer.transform(test_df[num_features])

# Handling categorical missing values separately

cat_features = ["gender", "ever_married", "work_type", "Residence_type", "smoking_status"]
cat_imputer = SimpleImputer(strategy="most_frequent")
train_df[cat_features] = cat_imputer.fit_transform(train_df[cat_features])
test_df[cat_features] = cat_imputer.transform(test_df[cat_features])

# Dropping missing target values (after checking distribution)

train_df = train_df.dropna(subset=["stroke"])

# 2️⃣ Fixing Outlier Issues

# Fixing Unrealistic Age Values (Remove Ages > 120)
train_df = train_df[train_df["age"] <= 120]

def cap_outliers(df, feature, lower_quantile=0.01, upper_quantile=0.99):

lower_cap = df[feature].quantile(lower_quantile)
upper_cap = df[feature].quantile(upper_quantile)
df[feature] = np.clip(df[feature], lower_cap, upper_cap)
return df

# Apply capping to BMI separately for train and test

test_df = cap_outliers(test_df, "bmi")
https://colab.research.google.com/drive/1KLU1JQ7o79yiRs_6lvFPQ1VSR6Q-44d_#scrollTo=THyU-c79XIFw&printMode=true 1/4
2/24/25, 9:55 PM Untitled5.ipynb - Colab
train_df = cap_outliers(train_df, "bmi")

# Log transform avg_glucose_level separately per set

train_df['avg_glucose_level'] = np.log1p(train_df['avg_glucose_level'])
test_df['avg_glucose_level'] = np.log1p(test_df['avg_glucose_level'])

# 3️⃣ Handling "Unknown" in smoking_status

train_df['smoking_status_unknown'] = train_df['smoking_status'].eq('Unknown').astype(int) if 'smoking_status' in train
test_df['smoking_status_unknown'] = test_df['smoking_status'].eq('Unknown').astype(int) if 'smoking_status' in test_df
train_df.drop(columns=["smoking_status"], errors='ignore', inplace=True)
test_df.drop(columns=["smoking_status"], errors='ignore', inplace=True)

# 3️⃣ Handling "Unknown" in smoking_status

# Update cat_features after dropping smoking_status

cat_features = ["gender", "ever_married", "work_type", "Residence_type"] # Removed smoking_status

# 4️⃣ Encoding Categorical Variables

encoder = OneHotEncoder(drop='first', sparse_output=False, handle_unknown='ignore')
encoded_train = pd.DataFrame(encoder.fit_transform(train_df[cat_features]), columns=encoder.get_feature_names_out())
encoded_test = pd.DataFrame(encoder.transform(test_df[cat_features]), columns=encoder.get_feature_names_out())

# Transform test data

encoded_test = pd.DataFrame(encoder.transform(test_df[cat_features]))
encoded_test.columns = encoder.get_feature_names_out(cat_features) # Get column names

# Reset index
encoded_train.reset_index(drop=True, inplace=True)
encoded_test.reset_index(drop=True, inplace=True)

# 5️⃣ Standardizing Numerical Features

scaler = StandardScaler()
scaled_train = pd.DataFrame(scaler.fit_transform(train_df[num_features]), columns=num_features)
scaled_test = pd.DataFrame(scaler.transform(test_df[num_features]), columns=num_features)

# 6️⃣ Combining Processed Features

X_train_final = pd.concat([scaled_train, encoded_train, train_df[["hypertension", "heart_disease", "smoking_status_unk
X_test_final = pd.concat([scaled_test, encoded_test, test_df[["hypertension", "heart_disease", "smoking_status_unknown

# Handle potential NaN values in 'stroke' column before conversion

y_train_final = train_df["stroke"].map({'Yes': 1, 'No': 0}).fillna(0).astype(int) # Fill NaN with -1 or another suitab

# 7️⃣ Handling Class Imbalance Using SMOTE

smote = SMOTE(random_state=42, k_neighbors=min(5, y_train_final[y_train_final != -1].value_counts().min() - 1))
# Set k_neighbors to the minimum between 5 and the number of samples in the smallest class(excluding -1 if present), m
X_train_balanced, y_train_balanced = smote.fit_resample(X_train_final, y_train_final)

# 8️⃣ Train-Test Split (Only Once!)

X_train, X_val, y_train, y_val = train_test_split(X_train_balanced, y_train_balanced, test_size=0.2, random_state=42,

# 9️⃣ Train Logistic Regression Model

model = LogisticRegression(class_weight='balanced', max_iter=1000)
model.fit(X_train, y_train)

https://colab.research.google.com/drive/1KLU1JQ7o79yiRs_6lvFPQ1VSR6Q-44d_#scrollTo=THyU-c79XIFw&printMode=true 2/4
2/24/25, 9:55 PM Untitled5.ipynb - Colab

▾ LogisticRegression i ?

LogisticRegression(class_weight='balanced', max_iter=1000)

# Predictions
y_pred = model.predict(X_val)
y_probs = model.predict_proba(X_val)[:, 1]

# Evaluation Metrics
auc_score = roc_auc_score(y_val, y_probs)
f_beta = fbeta_score(y_val, y_pred, beta=10)
class_report = classification_report(y_val, y_pred)
conf_matrix = confusion_matrix(y_val, y_pred)

# Display Metrics
print(f"AUC Score: {auc_score}")
print(f"F-beta Score (β=10): {f_beta}")
print("Classification Report:")
print(class_report)
print("Confusion Matrix:")
print(conf_matrix)

AUC Score: 0.8933009746138141

F-beta Score (β=10): 0.9974195801482286
Classification Report:
precision recall f1-score support

0 1.00 0.74 0.85 510

1 0.79 1.00 0.88 509

accuracy 0.87 1019

macro avg 0.90 0.87 0.87 1019
weighted avg 0.90 0.87 0.87 1019

Confusion Matrix:
[[377 133]
[ 0 509]]

# 1️⃣0️⃣ Prepare Test Data for Submission

test_probs = model.predict_proba(X_test_final)[:, 1]
test_preds = model.predict(X_test_final)

# Save Processed Data

train_df.to_csv("train_cleaned.csv", index=False)
test_df.to_csv("test_cleaned.csv", index=False)
submission_df = pd.DataFrame({"id": test_df["id"], "stroke": test_preds})
submission_df.to_csv("submission.csv", index=False)

print("Preprocessing and training complete! 🚀")

Preprocessing and training complete! 🚀

https://colab.research.google.com/drive/1KLU1JQ7o79yiRs_6lvFPQ1VSR6Q-44d_#scrollTo=THyU-c79XIFw&printMode=true 3/4
2/24/25, 9:55 PM Untitled5.ipynb - Colab

https://colab.research.google.com/drive/1KLU1JQ7o79yiRs_6lvFPQ1VSR6Q-44d_#scrollTo=THyU-c79XIFw&printMode=true 4/4

Foundations of Calligraphy by Sheila Waters
10% (31)
Foundations of Calligraphy by Sheila Waters
6 pages
Regression Analysis - Cheatsheet
No ratings yet
Regression Analysis - Cheatsheet
9 pages
Machine Learning
100% (2)
Machine Learning
136 pages
Energy of Food Lab
100% (1)
Energy of Food Lab
6 pages
Multi Classification.py(for 1 Class Tp,Tn,Fp,Fn)
No ratings yet
Multi Classification.py(for 1 Class Tp,Tn,Fp,Fn)
25 pages
Data Pre Processing
No ratings yet
Data Pre Processing
2 pages
linear_merged_pagenumber
No ratings yet
linear_merged_pagenumber
48 pages
Lab Manual - MachineLearningLaboratory-DR.vaishnavi (1)
No ratings yet
Lab Manual - MachineLearningLaboratory-DR.vaishnavi (1)
71 pages
Machine File
No ratings yet
Machine File
27 pages
DataWare Housing Asg01 Shaheer Zia Qazi-47-2
No ratings yet
DataWare Housing Asg01 Shaheer Zia Qazi-47-2
9 pages
Komal ML Assg1
No ratings yet
Komal ML Assg1
9 pages
23BCE7199 ML Lab Assignment[1]
No ratings yet
23BCE7199 ML Lab Assignment[1]
15 pages
AI CODE
No ratings yet
AI CODE
2 pages
python 1
No ratings yet
python 1
3 pages
Practical 4
No ratings yet
Practical 4
2 pages
DA_Programs
No ratings yet
DA_Programs
44 pages
AI_Phase3
No ratings yet
AI_Phase3
2 pages
Logistic Pima Indians - Ipynb - Colaboratory
No ratings yet
Logistic Pima Indians - Ipynb - Colaboratory
4 pages
Data Wrangling and Preprocessing
100% (1)
Data Wrangling and Preprocessing
41 pages
ml_6_7_8 (1)
No ratings yet
ml_6_7_8 (1)
10 pages
ML 4
No ratings yet
ML 4
2 pages
Aiml Ex 4-7
No ratings yet
Aiml Ex 4-7
8 pages
Srushti ML Assign1
No ratings yet
Srushti ML Assign1
9 pages
ML pdf
No ratings yet
ML pdf
30 pages
Machine Learning Model Building
No ratings yet
Machine Learning Model Building
6 pages
Sanket ML Assign1
No ratings yet
Sanket ML Assign1
9 pages
ML Final-1
No ratings yet
ML Final-1
7 pages
ml_all_projectpdf_removed
No ratings yet
ml_all_projectpdf_removed
41 pages
DS-Food
No ratings yet
DS-Food
18 pages
Stroke Prediction
No ratings yet
Stroke Prediction
10 pages
Supervised_classi_&_regression
No ratings yet
Supervised_classi_&_regression
5 pages
Personalized Cancer Diagnosis
No ratings yet
Personalized Cancer Diagnosis
100 pages
Solution LabAssignment
No ratings yet
Solution LabAssignment
15 pages
Assignment 5 - SourceCode - Ipynb - Colab
No ratings yet
Assignment 5 - SourceCode - Ipynb - Colab
4 pages
ML Exp 7
No ratings yet
ML Exp 7
3 pages
ML (1 5)
No ratings yet
ML (1 5)
6 pages
AI ML - Cycle 2 Programs (1)
No ratings yet
AI ML - Cycle 2 Programs (1)
15 pages
AIL303 M
No ratings yet
AIL303 M
22 pages
22K61A0654_2_sasi_auto
No ratings yet
22K61A0654_2_sasi_auto
24 pages
Data analytics
No ratings yet
Data analytics
10 pages
ML Complete Notes Hridoy.docx
No ratings yet
ML Complete Notes Hridoy.docx
5 pages
Week1 Code Corrected
No ratings yet
Week1 Code Corrected
2 pages
Naive Bayes
No ratings yet
Naive Bayes
5 pages
ExNo 08ml
No ratings yet
ExNo 08ml
4 pages
healthcare-project-simplilearn- Week3
No ratings yet
healthcare-project-simplilearn- Week3
7 pages
DS Problem Statements and Codes
No ratings yet
DS Problem Statements and Codes
21 pages
Python Cod1
No ratings yet
Python Cod1
3 pages
Heart Disease Prediction
No ratings yet
Heart Disease Prediction
6 pages
Assignment 3
No ratings yet
Assignment 3
3 pages
Machine Learning Laboratory Manual
No ratings yet
Machine Learning Laboratory Manual
11 pages
Workflow For A New Dataset in Kaggle
No ratings yet
Workflow For A New Dataset in Kaggle
3 pages
Supervised Learning For Data Science...
No ratings yet
Supervised Learning For Data Science...
14 pages
ML Manual Final
No ratings yet
ML Manual Final
35 pages
Titanic Dataset Model Prediction
No ratings yet
Titanic Dataset Model Prediction
11 pages
ETHICS AND AI LAB FINAL
No ratings yet
ETHICS AND AI LAB FINAL
31 pages
exp aiml 5
No ratings yet
exp aiml 5
9 pages
micro
No ratings yet
micro
4 pages
23BCE7092_ML_Lab_Assignment[1]
No ratings yet
23BCE7092_ML_Lab_Assignment[1]
14 pages
ML Practical 3D
No ratings yet
ML Practical 3D
4 pages
COMP5318
No ratings yet
COMP5318
42 pages
KNN - Jupyter Notebook
No ratings yet
KNN - Jupyter Notebook
5 pages
Import As From Import From Import From Import From Import From Import From Import From Import From Import From Import From Import Import As
No ratings yet
Import As From Import From Import From Import From Import From Import From Import From Import From Import From Import From Import Import As
8 pages
Lect_06_Feature_Engineering_and_Selection
No ratings yet
Lect_06_Feature_Engineering_and_Selection
41 pages
ML_Science
No ratings yet
ML_Science
6 pages
Lect_05_Preprocessing_text
No ratings yet
Lect_05_Preprocessing_text
25 pages
MSBA315_Syllabus_2025
No ratings yet
MSBA315_Syllabus_2025
6 pages
MSBA315-Project-Description
No ratings yet
MSBA315-Project-Description
1 page
LR JS5 L IQjfm 0 DQ JX JK AN
No ratings yet
LR JS5 L IQjfm 0 DQ JX JK AN
22 pages
Ratex
No ratings yet
Ratex
5 pages
Unilever
No ratings yet
Unilever
10 pages
Electric Installations (Buildings) Act: Laws of Trinidad and Tobago
No ratings yet
Electric Installations (Buildings) Act: Laws of Trinidad and Tobago
16 pages
ADORE: 925 Sterling Silver - Best Sterling Silver 925
No ratings yet
ADORE: 925 Sterling Silver - Best Sterling Silver 925
3 pages
What Is Safety Management System (SMS) On Ships
No ratings yet
What Is Safety Management System (SMS) On Ships
8 pages
Python - 1. Introduction To The Python Language
No ratings yet
Python - 1. Introduction To The Python Language
3 pages
"Dividend and Its Importance: Mrs. Nandita. S. Jha Adhish Prasad
No ratings yet
"Dividend and Its Importance: Mrs. Nandita. S. Jha Adhish Prasad
15 pages
Drawing Symbols
No ratings yet
Drawing Symbols
56 pages
EE - Assignment Chapter 7 Solution
No ratings yet
EE - Assignment Chapter 7 Solution
7 pages
Ascon Manual
No ratings yet
Ascon Manual
76 pages
HPE OneView Startup Installation and Configuration Service Data Sheet-4aa4-2814enw
No ratings yet
HPE OneView Startup Installation and Configuration Service Data Sheet-4aa4-2814enw
5 pages
People 17 Feb 2016
No ratings yet
People 17 Feb 2016
32 pages
1564724966662vF8bnKrhjXBdaiGy PDF
No ratings yet
1564724966662vF8bnKrhjXBdaiGy PDF
1 page
Curtain Wall
100% (5)
Curtain Wall
38 pages
Slope Deflection Method
50% (2)
Slope Deflection Method
25 pages
Texas Notary Print
No ratings yet
Texas Notary Print
2 pages
Intro To Numerical Analysis Errata
No ratings yet
Intro To Numerical Analysis Errata
1 page
Hospital Examples
No ratings yet
Hospital Examples
10 pages
Setting Fibo Warisan Template
100% (1)
Setting Fibo Warisan Template
10 pages
K L University: Designing Approaches For Preparing Salary Matrix IBM
No ratings yet
K L University: Designing Approaches For Preparing Salary Matrix IBM
12 pages
Strategic Lawsuits Against Public Participation (SLAPP) Address
No ratings yet
Strategic Lawsuits Against Public Participation (SLAPP) Address
13 pages
Olivia Engle NP Resume
No ratings yet
Olivia Engle NP Resume
1 page
Capital Structure Practices in India 1
No ratings yet
Capital Structure Practices in India 1
2 pages
Abdominal CT Attenuation
No ratings yet
Abdominal CT Attenuation
1 page
RP-HPLC Method Development and Validation For Simultaneous Estimation of Amlodipine and Atenolol and Pharmaceutical Dosage Form
No ratings yet
RP-HPLC Method Development and Validation For Simultaneous Estimation of Amlodipine and Atenolol and Pharmaceutical Dosage Form
34 pages
DOA GPI 20million
No ratings yet
DOA GPI 20million
18 pages
ShakirGatea HooputraDamageModel
No ratings yet
ShakirGatea HooputraDamageModel
10 pages

Untitled5.ipynb - Colab

Uploaded by

Untitled5.ipynb - Colab

Uploaded by

2/24/25, 9:55 PM Untitled5.

from google.colab import files

Choose Files 2 files

# 1️⃣ Handling Missing Values

# Handling categorical missing values separately

# Dropping missing target values (after checking distribution)

# 2️⃣ Fixing Outlier Issues

def cap_outliers(df, feature, lower_quantile=0.01, upper_quantile=0.99):

# Apply capping to BMI separately for train and test

# Log transform avg_glucose_level separately per set

# 3️⃣ Handling "Unknown" in smoking_status

# 3️⃣ Handling "Unknown" in smoking_status

# Update cat_features after dropping smoking_status

# 4️⃣ Encoding Categorical Variables

# Transform test data

# 5️⃣ Standardizing Numerical Features

# 6️⃣ Combining Processed Features

# Handle potential NaN values in 'stroke' column before conversion

# 7️⃣ Handling Class Imbalance Using SMOTE

# 8️⃣ Train-Test Split (Only Once!)

# 9️⃣ Train Logistic Regression Model

AUC Score: 0.8933009746138141

0 1.00 0.74 0.85 510

accuracy 0.87 1019

# 1️⃣0️⃣ Prepare Test Data for Submission

# Save Processed Data

print("Preprocessing and training complete! 🚀")

You might also like