0% found this document useful (0 votes)

23 views2 pages

Week1 Code Corrected

The document loads diabetes-related data from an Excel file, analyzes it by finding means, null values, outliers, and replaces nulls with means before further exploration.

Uploaded by

aravindsv368

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

23 views2 pages

Week1 Code Corrected

The document loads diabetes-related data from an Excel file, analyzes it by finding means, null values, outliers, and replaces nulls with means before further exploration.

Uploaded by

aravindsv368

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

You are on page 1/ 2

import numpy as np

import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split,GridSearchCV,cross_val_score
import seaborn as sns
from sklearn.metrics import
accuracy_score,mean_squared_error,classification_report,confusion_matrix,precision_
score,recall_score,roc_curve,auc
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
from sklearn.ensemble import ExtraTreesClassifier,RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.naive_bayes import GaussianNB
from sklearn.preprocessing import StandardScaler,MinMaxScaler
from sklearn.neighbors import KNeighborsClassifier

data=pd.read_excel('health care diabetes.xlsx')

data.head()

data.describe()

#Identifying the mean of the features

print(data['Glucose'].mean())
print(data['BloodPressure'].mean())
print(data['SkinThickness'].mean())
print(data['Insulin'].mean())
print(data['Pregnancies'].mean())
print(data['BMI'].mean())

# Finding the number of rows which has the null values

print('Glucose-',len(data['Glucose'][data['Glucose']==0]))
print('BloodPressure-',len(data['BloodPressure'][data['BloodPressure']==0]))
print('SkinThickness-',len(data['SkinThickness'][data['SkinThickness']==0]))
print('Insulin-',len(data['Insulin'][data['Insulin']==0]))
print('Pregnancies-',len(data['Pregnancies'][data['Pregnancies']==0]))
print('BMI-',len(data['BMI'][data['BMI']==0]))

# Finding the null value percentage

selected_columns = ['Glucose', 'BloodPressure',
'SkinThickness','Insulin','Pregnancies','BMI']
null_percentage = (data[selected_columns] == 0).mean() * 100

# Displaying the null value percentage for each selected column

print("Percentage of Null Values for Each Column:")
print(null_percentage)

# Replacing the null values with the mean

data['Glucose']=data['Glucose'].replace([0],[data['Glucose'].mean()])
data['BloodPressure']=data['BloodPressure'].replace([0],
[data['BloodPressure'].mean()])
data['SkinThickness']=data['SkinThickness'].replace([0],
[data['SkinThickness'].mean()])
data['Insulin']=data['Insulin'].replace([0],[data['Insulin'].mean()])
data['Pregnancies']=data['Pregnancies'].replace([0],[data['Pregnancies'].mean()])
data['BMI']=data['BMI'].replace([0],[data['BMI'].mean()])

data.describe()

#Checking the null value percentage of the treated columns

null_percentage_treated = (data[selected_columns] == 0).mean() * 100

# Displaying the null value percentage for each selected column

print("Percentage of Null Values for Each Column after the null value treatment:")
print(null_percentage_treated)

columns=data[selected_columns]

# Display boxplots for numeric columns to visualize outliers

plt.figure(figsize=(12, 8))
sns.boxplot(data=columns)
plt.title("Boxplots for Numeric Columns")
plt.show()

# Finding the Outlier Count in the selected Columns:

def find_outliers_iqr(data, column_name):
# Calculate the first quartile (Q1) and third quartile (Q3)
Q1 = data[column_name].quantile(0.25)
Q3 = data[column_name].quantile(0.75)

# Calculate the interquartile range (IQR)

IQR = Q3 - Q1

# Define the lower and upper bounds for outliers

lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# Find outliers
outliers = data[(data[column_name] < lower_bound) | (data[column_name] >
upper_bound)]

# Count the number of outliers

count_outliers = len(outliers)

return count_outliers

# Calculate and print the number of outliers for each column of interest
for column_name in selected_columns:
outlier_count = find_outliers_iqr(data, column_name)
print(f"Number of outliers in the '{column_name}' column: {outlier_count}")

Cardiovascular_Disease_Prediction
No ratings yet
Cardiovascular_Disease_Prediction
2 pages
ML Program No.1
No ratings yet
ML Program No.1
3 pages
Lab Manual - MachineLearningLaboratory-DR.vaishnavi (1)
No ratings yet
Lab Manual - MachineLearningLaboratory-DR.vaishnavi (1)
71 pages
Cardio Screen RF
100% (1)
Cardio Screen RF
27 pages
COMP5318
No ratings yet
COMP5318
42 pages
ML Manual Final
No ratings yet
ML Manual Final
35 pages
HIV Regression Source Code
No ratings yet
HIV Regression Source Code
26 pages
1728086737277
No ratings yet
1728086737277
26 pages
Data warehousing and data mining
No ratings yet
Data warehousing and data mining
24 pages
DA LAB MANNUAL
No ratings yet
DA LAB MANNUAL
25 pages
ml_all_projectpdf_removed
No ratings yet
ml_all_projectpdf_removed
41 pages
linear-reg-signal-and-noise.pdf
No ratings yet
linear-reg-signal-and-noise.pdf
20 pages
bacdeaf_23032025_115708_split_1
No ratings yet
bacdeaf_23032025_115708_split_1
37 pages
DSBDA2
No ratings yet
DSBDA2
6 pages
Gaurav - Data Mining Lab Assignment
No ratings yet
Gaurav - Data Mining Lab Assignment
36 pages
Documentation Code
No ratings yet
Documentation Code
20 pages
Data Pre-Processing
No ratings yet
Data Pre-Processing
22 pages
ML LAB manual-1
No ratings yet
ML LAB manual-1
33 pages
ML 7
No ratings yet
ML 7
6 pages
Group Work Assignment Supervised and Unsupervised Learning
No ratings yet
Group Work Assignment Supervised and Unsupervised Learning
10 pages
ML Lab Codes
No ratings yet
ML Lab Codes
14 pages
Abdimas Hki3f52b4c6
No ratings yet
Abdimas Hki3f52b4c6
6 pages
Descriptive Research Design Literature Review
100% (2)
Descriptive Research Design Literature Review
8 pages
CHAPTER-3-RISK, RETURN, & PORTFOLIO THEORY-PART-I-ppt
No ratings yet
CHAPTER-3-RISK, RETURN, & PORTFOLIO THEORY-PART-I-ppt
81 pages
DS Problem Statements and Codes
No ratings yet
DS Problem Statements and Codes
21 pages
ML Lab Programs PDF
No ratings yet
ML Lab Programs PDF
15 pages
Model2.ipynb - Colab
No ratings yet
Model2.ipynb - Colab
11 pages
Stroke Prediction
No ratings yet
Stroke Prediction
10 pages
Outlier Treatment - Jupyter Notebook
No ratings yet
Outlier Treatment - Jupyter Notebook
15 pages
DSDBAAssignment2_SUMEET (1)
No ratings yet
DSDBAAssignment2_SUMEET (1)
8 pages
1_2_3_4_6_7_8_9_10_merged --
No ratings yet
1_2_3_4_6_7_8_9_10_merged --
21 pages
KNN For Classification
No ratings yet
KNN For Classification
5 pages
Machine File
No ratings yet
Machine File
27 pages
DA_Programs
No ratings yet
DA_Programs
44 pages
DataAnalytics Lab Manual (1)
No ratings yet
DataAnalytics Lab Manual (1)
35 pages
dv mid internal 1
No ratings yet
dv mid internal 1
8 pages
AIML PROGRAMS
No ratings yet
AIML PROGRAMS
12 pages
Practicle6 (Code)
No ratings yet
Practicle6 (Code)
4 pages
healthcare-project-simplilearn- Week3
No ratings yet
healthcare-project-simplilearn- Week3
7 pages
ml
No ratings yet
ml
17 pages
02 B Regression Healthcare
No ratings yet
02 B Regression Healthcare
5 pages
Linear and Multilinear Regression
No ratings yet
Linear and Multilinear Regression
5 pages
Outlier Detection and Capping
No ratings yet
Outlier Detection and Capping
7 pages
ML_EX2
No ratings yet
ML_EX2
7 pages
FYMCA IDSLab A6 Submission
No ratings yet
FYMCA IDSLab A6 Submission
9 pages
Practical 4
No ratings yet
Practical 4
2 pages
Step 1
No ratings yet
Step 1
10 pages
02 B Regression Healthcare
No ratings yet
02 B Regression Healthcare
5 pages
DA lab
No ratings yet
DA lab
27 pages
1
No ratings yet
1
13 pages
Assignment 2 Ds
No ratings yet
Assignment 2 Ds
8 pages
python 1
No ratings yet
python 1
3 pages
Step-By-Step-Diabetes-Classification-Knn-Detailed-Copy1 - Jupyter Notebook
No ratings yet
Step-By-Step-Diabetes-Classification-Knn-Detailed-Copy1 - Jupyter Notebook
12 pages
1st PGM
No ratings yet
1st PGM
10 pages
KNN - Jupyter Notebook
No ratings yet
KNN - Jupyter Notebook
5 pages
Aiml Ex 4-7
No ratings yet
Aiml Ex 4-7
8 pages
EXP-2
No ratings yet
EXP-2
6 pages
B58_ Handling Missing Values,Feature_Selection (1)
No ratings yet
B58_ Handling Missing Values,Feature_Selection (1)
4 pages
PROJECTS
No ratings yet
PROJECTS
6 pages
ML Complete Notes Hridoy.docx
No ratings yet
ML Complete Notes Hridoy.docx
5 pages
Ml Short Code_under Updating
No ratings yet
Ml Short Code_under Updating
4 pages
Mengatasi Heteroskedastisitas Pada Regresi Dengan
No ratings yet
Mengatasi Heteroskedastisitas Pada Regresi Dengan
7 pages
Lisa McGuire Descriptive Statistics Assignment Week 2
100% (1)
Lisa McGuire Descriptive Statistics Assignment Week 2
4 pages
Statistics Question Bank
100% (1)
Statistics Question Bank
31 pages
Chapter 4
No ratings yet
Chapter 4
43 pages
Lectura 11. Cutting or Capping of High Assay Values
No ratings yet
Lectura 11. Cutting or Capping of High Assay Values
19 pages
14 NasPub Arzi Prima Anindya (126-138)
No ratings yet
14 NasPub Arzi Prima Anindya (126-138)
13 pages
Chapter 11 Quantitative Data
No ratings yet
Chapter 11 Quantitative Data
25 pages
Chapter 1: Descriptive Statistics: 1.1 Some Terms
No ratings yet
Chapter 1: Descriptive Statistics: 1.1 Some Terms
15 pages
Fits Us Tables Ansi b4.1-1967 r1987 PDF
100% (1)
Fits Us Tables Ansi b4.1-1967 r1987 PDF
9 pages
Quality Planning Quality Assurance Quality Control
No ratings yet
Quality Planning Quality Assurance Quality Control
23 pages
Latihan Spss
No ratings yet
Latihan Spss
9 pages
LQ Suggested Solution & MC Anwser (PP1)
No ratings yet
LQ Suggested Solution & MC Anwser (PP1)
8 pages
DS Module 1 Notes
No ratings yet
DS Module 1 Notes
25 pages
Inference in Regression: Brian Caffo, Jeff Leek and Roger Peng Johns Hopkins Bloomberg School of Public Health
No ratings yet
Inference in Regression: Brian Caffo, Jeff Leek and Roger Peng Johns Hopkins Bloomberg School of Public Health
14 pages
Bearing Fit Practices
No ratings yet
Bearing Fit Practices
5 pages
Chapter 3 Outline
No ratings yet
Chapter 3 Outline
4 pages
General Entry With Prediction of Population Between India and China
No ratings yet
General Entry With Prediction of Population Between India and China
4 pages
Dimensiuni Canale Pana
100% (1)
Dimensiuni Canale Pana
2 pages
Ujian Diagnostik Add Math Topikal
No ratings yet
Ujian Diagnostik Add Math Topikal
12 pages
Applied Business Statistics - Making Better Business Decisions, International 7th. CH 2
100% (2)
Applied Business Statistics - Making Better Business Decisions, International 7th. CH 2
37 pages
Mid review Math 2205
No ratings yet
Mid review Math 2205
7 pages
Descriptive Statistics_231211_170413
No ratings yet
Descriptive Statistics_231211_170413
3 pages
Measure of Central Tendency
No ratings yet
Measure of Central Tendency
18 pages
Box and Whisker PA and PT
No ratings yet
Box and Whisker PA and PT
2 pages
Final. Estimation of Population Parameters Chapter Test Sabordo Villabito
No ratings yet
Final. Estimation of Population Parameters Chapter Test Sabordo Villabito
9 pages
Trend Following With Moving Averages Strategiyasi Bozor Trendlarini Aniqlash Va Ularga Ergashish Uchun Foydalaniladi
No ratings yet
Trend Following With Moving Averages Strategiyasi Bozor Trendlarini Aniqlash Va Ularga Ergashish Uchun Foydalaniladi
3 pages
Statistics Dont Delete
No ratings yet
Statistics Dont Delete
42 pages
6 Sigma Tools
No ratings yet
6 Sigma Tools
1 page
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet

Week1 Code Corrected

Uploaded by

Week1 Code Corrected

Uploaded by

import numpy as np

data=pd.read_excel('health care diabetes.xlsx')

#Identifying the mean of the features

# Finding the number of rows which has the null values

# Finding the null value percentage

# Displaying the null value percentage for each selected column

# Replacing the null values with the mean

#Checking the null value percentage of the treated columns

# Displaying the null value percentage for each selected column

# Display boxplots for numeric columns to visualize outliers

# Finding the Outlier Count in the selected Columns:

# Calculate the interquartile range (IQR)

# Define the lower and upper bounds for outliers

# Count the number of outliers

You might also like