0% found this document useful (0 votes)

4 views

Data Pre Processing

The document outlines a data preprocessing workflow for a dataset related to survival analysis, including loading the dataset, handling missing values, and encoding categorical variables. It also involves splitting the dataset into training and testing sets and standardizing numerical features. Finally, a pie chart is generated to visualize the proportion of survival outcomes.

Uploaded by

sravyasankuratri

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

4 views

Data Pre Processing

Uploaded by

sravyasankuratri

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 2

import numpy as np

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import scipy
from sklearn.preprocessing import MinMaxScaler
import seaborn as sns

dataset = pd.read_csv("D:/preethi/BTech/SUBJECTS/ML/LAB/train.csv")

print(dataset.head())

# Check the dimensions of the dataset

print(dataset.shape)

# Display summary statistics

print(dataset.describe())

# Check for missing values

print(dataset.isnull().sum())

# Impute missing 'age' values with the median

dataset['age'].fillna(dataset['age'].mode(), inplace=True)

# Drop the 'cabin' column due to excessive missing values

dataset.drop(columns=['cabin'], inplace=True)

# Fill missing 'embarked' values with the mode

dataset['embarked'].fillna(dataset['embarked'].mode()[0], inplace=True)

print(dataset.isnull().sum())

from sklearn.preprocessing import LabelEncoder

#LabelEncoder is used to convert categorical labels

# Encode 'gender' column
labelencoder = LabelEncoder()
dataset['gender'] = labelencoder.fit_transform(dataset['gender'])

# Encode 'embarked' column

dataset = pd.get_dummies(dataset, columns=['embarked'], drop_first=True)
from sklearn.model_selection import train_test_split

# Define features and target variable

X = dataset.drop(columns=['name', 'ticket', 'survived'])
y = dataset['survived']

# Split into training and testing sets

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,
random_state=42)

print(f"Training set shape: {X_train.shape}")

print(f"Testing set shape: {X_test.shape}")

from sklearn.preprocessing import StandardScaler

#StandardScaler is a preprocessing technique used in feature scaling to standardize

numerical data
scaler = StandardScaler()
dataset[['age', 'fare']] = scaler.fit_transform(dataset[['age', 'fare']])

plt.pie(dataset.survived.value_counts(),labels= ['1', '0'],autopct='%.f', shadow=True)

plt.title('Outcome Proportionality')
plt.show()

Titanic Dataset Model Prediction
No ratings yet
Titanic Dataset Model Prediction
11 pages
23BCE7199 ML Lab Assignment[1]
No ratings yet
23BCE7199 ML Lab Assignment[1]
15 pages
decision tree
No ratings yet
decision tree
2 pages
ML_lab_programs
No ratings yet
ML_lab_programs
8 pages
Aiml Ex 4-7
No ratings yet
Aiml Ex 4-7
8 pages
DataWare Housing Asg01 Shaheer Zia Qazi-47-2
No ratings yet
DataWare Housing Asg01 Shaheer Zia Qazi-47-2
9 pages
12212221 (1) copy
No ratings yet
12212221 (1) copy
9 pages
Practical No 01
No ratings yet
Practical No 01
9 pages
Titanic Akshaya
No ratings yet
Titanic Akshaya
12 pages
C121 Exp1
No ratings yet
C121 Exp1
32 pages
Naive Baye
No ratings yet
Naive Baye
1 page
ML Lab Manual
No ratings yet
ML Lab Manual
12 pages
ML File
No ratings yet
ML File
13 pages
ML Lab
No ratings yet
ML Lab
7 pages
Machine File
No ratings yet
Machine File
27 pages
Titanic Survival Prediction Ml
No ratings yet
Titanic Survival Prediction Ml
36 pages
Logistic Regression On Titanic Dataset
No ratings yet
Logistic Regression On Titanic Dataset
6 pages
ccc
No ratings yet
ccc
25 pages
1st PGM
No ratings yet
1st PGM
10 pages
Exp 5
No ratings yet
Exp 5
4 pages
ML 7
No ratings yet
ML 7
6 pages
Maneesha Nidigonda Minor Project .Ipynb
No ratings yet
Maneesha Nidigonda Minor Project .Ipynb
35 pages
Laporan Titanic Survival Prediction - 132021012
No ratings yet
Laporan Titanic Survival Prediction - 132021012
6 pages
1 KNN - Jupyter Notebook
No ratings yet
1 KNN - Jupyter Notebook
3 pages
Abdimas Hki3f52b4c6
No ratings yet
Abdimas Hki3f52b4c6
6 pages
naivebayes labprg2
No ratings yet
naivebayes labprg2
3 pages
ML Final-1
No ratings yet
ML Final-1
7 pages
MACHINE LEARNING manual
No ratings yet
MACHINE LEARNING manual
36 pages
AIML Prograns
No ratings yet
AIML Prograns
6 pages
Multi Classification.py(for 1 Class Tp,Tn,Fp,Fn)
No ratings yet
Multi Classification.py(for 1 Class Tp,Tn,Fp,Fn)
25 pages
Naive
No ratings yet
Naive
5 pages
Import Pandas As PD
No ratings yet
Import Pandas As PD
21 pages
Lab Manual - MachineLearningLaboratory-DR.vaishnavi (1)
No ratings yet
Lab Manual - MachineLearningLaboratory-DR.vaishnavi (1)
71 pages
Komal ML Assg1
No ratings yet
Komal ML Assg1
9 pages
LOGISTIC REGRESSION (Using Python)
No ratings yet
LOGISTIC REGRESSION (Using Python)
1 page
ML LAB P-1
No ratings yet
ML LAB P-1
10 pages
23BCE7092_ML_Lab_Assignment[1]
No ratings yet
23BCE7092_ML_Lab_Assignment[1]
14 pages
Null 0
No ratings yet
Null 0
6 pages
ML File 211173
No ratings yet
ML File 211173
19 pages
ml_code_output
No ratings yet
ml_code_output
38 pages
Btech1007022_lab5.1
No ratings yet
Btech1007022_lab5.1
9 pages
Titanic Data Analysis
No ratings yet
Titanic Data Analysis
14 pages
ml_all_projectpdf_removed
No ratings yet
ml_all_projectpdf_removed
41 pages
Advance Python
No ratings yet
Advance Python
5 pages
Btech1007022_lab5
No ratings yet
Btech1007022_lab5
14 pages
ML Codes
No ratings yet
ML Codes
9 pages
Fall Semester 2020-21 AI With Python ECE-4031
No ratings yet
Fall Semester 2020-21 AI With Python ECE-4031
5 pages
ML Lab Programs
No ratings yet
ML Lab Programs
18 pages
DA_Programs
No ratings yet
DA_Programs
44 pages
Random Forest/Roc&Auc - Hyperparamer Tuning With For Loop - TITANIC DB
No ratings yet
Random Forest/Roc&Auc - Hyperparamer Tuning With For Loop - TITANIC DB
17 pages
22MCA1008 - Varun ML LAB ASSIGNMENTS
100% (1)
22MCA1008 - Varun ML LAB ASSIGNMENTS
41 pages
ML Lab Manual PDF
No ratings yet
ML Lab Manual PDF
9 pages
SVM
No ratings yet
SVM
8 pages
Machine Learning Model Building
No ratings yet
Machine Learning Model Building
6 pages
Data analytics
No ratings yet
Data analytics
10 pages
Titanic Data
No ratings yet
Titanic Data
5 pages
Lab Manual ML
No ratings yet
Lab Manual ML
28 pages
ML 1-10
No ratings yet
ML 1-10
53 pages
Machine Learning Assignment 3
No ratings yet
Machine Learning Assignment 3
7 pages
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet

Data Pre Processing

Uploaded by

Data Pre Processing

Uploaded by

import numpy as np

# Check the dimensions of the dataset

# Display summary statistics

# Check for missing values

# Impute missing 'age' values with the median

# Drop the 'cabin' column due to excessive missing values

# Fill missing 'embarked' values with the mode

from sklearn.preprocessing import LabelEncoder

#LabelEncoder is used to convert categorical labels

# Encode 'embarked' column

# Define features and target variable

# Split into training and testing sets

print(f"Training set shape: {X_train.shape}")

from sklearn.preprocessing import StandardScaler

#StandardScaler is a preprocessing technique used in feature scaling to standardize

plt.pie(dataset.survived.value_counts(),labels= ['1', '0'],autopct='%.f', shadow=True)

You might also like