Titanic: Logistic Regression Project

This document summarizes a logistic regression project to predict Titanic passenger survival. It covers topics like exploratory data analysis, handling missing data, feature engineering, building a logistic regression model, and evaluating model performance with confusion matrices and classification reports. Members contributed to various parts of the project including data visualization, data cleaning, model building, and analyzing results.

Uploaded by

Việt Anh Đoàn

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

151 views19 pages

Titanic: Logistic Regression Project

Uploaded by

Việt Anh Đoàn

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 19

TITANIC

Logistic Regression
Project

GROUP 4
Aryan Panicker - BS21DMU012
Anh Viet Doan - BS21DON043
Bang Nguyen - BS21DON020
Duy Le Duc - BS21DON032
Geethanjali Dhanish – BS21DON044
INTRODUCTION
o GIVEN : titanic_train.csv

o To Predict : whether the passenger will Survive or Not

o According to the data given :

Not Survived = 0 [negative]
Survived = 1 [positive]

TOPICS TO BE COVERED

Exploratory Logistic
Data Handling Regression Confusion Feature
Dataframe Analysis and Missing Categorica Model – Matrix and
Engineerin
Creation Data Data l Features Prediction Classification
Visualizatio and Report g
Values
n Evaluation
INITIAL STEPS (DATAFRAME
CREATION)

LIBRARIES IMPORTED Read CSV File and Display

o import numpy as np
Dataframe
o import pandas as pd o titanic = pd.read_csv('titanic_train.csv’)
o import matplotlib.pyplot as plt
o titanic.head()
%matplotlib inline
o import seaborn as sns
EXPLORATORY DATA ANALYSIS
DATA VISUALIZATION
o sns.countplot(titanic['Survived']) o sns.countplot(x='Survived', hue='Sex', data=titanic)

o sns.countplot(titanic['Pclass']) o sns.countplot(x='Survived', hue='Pclass', data=titanic)
DATA VISUALIZATION
o sns.countplot(titanic.Parch) o sns.countplot(titanic.SibSp)
plt.title("Number of Children/Parents Aboard") plt.title("Number of Sibling/Spouses Aboard")
plt.xlabel("Children/Parents Aboard") plt.xlabel("Sibling/Spouses Aboard")

o plt.hist(titanic['Age'])
plt.xlabel("Age")
plt.ylabel("Number of persons")
plt.title('Passenger Ages on Titanic')
HANDLING MISSING DATA
o titanic.isnull().sum() DATA CLEANING
o null_1 = titanic['Age'][titanic['Pclass'] == 1].isnull()
o null_2 = titanic['Age'][titanic['Pclass'] == 2].isnull()
o null_3 = titanic['Age'][titanic['Pclass'] == 3].isnull()

o pc1 = titanic['Age'][titanic['Pclass'] == 1].mean(skipna = True)
o pc2 = titanic['Age'][titanic['Pclass'] == 2].mean(skipna = True)
o pc3 = titanic['Age'][titanic['Pclass'] == 3].mean(skipna = True)

o titanic['Age'].fillna(titanic.groupby('Pclass')
['Age'].transform('mean'), inplace = True)

o titanic_new = titanic.drop('Cabin', axis = 1)

o titanic_new.dropna(subset=['Embarked'], inplace = True)

o titanic_new.drop(['PassengerId','Name','Ticket'], axis = 1,
inplace = True)
HANDLING MISSING DATA
DATA CLEANING – O/Ps
AFTER MISSING VALUES HANDLING
AFTER ADDITIONAL DATA
CLEANING
FEATURE ENGINEERING
o titanic_new['Title'] = titanic['Name'].apply(lambda x: x[x.find(', ')+2 : x.find('.')])
titanic_new['Title'].value_counts()
o titanic.dropna(subset=['Cabin'], inplace = True)
titanic_new['Cabin_Letter'] = titanic['Cabin'].astype(str).str[0]
titanic_new['Cabin_Letter'].value_counts()
CONVERT CATEGORICAL FEATURES

o titanic_new = pd.get_dummies(titanic_new,columns = ['Sex','Embarked'])
CONVERT CATEGORICAL FEATURES

o titanic_new = pd.get_dummies(titanic_new,columns = ['Sex','Embarked','Title','Cabin_Letter'])
LOGISTIC REGRESSION MODEL
STEP 1 : SPLITTING THE DATA
o from sklearn.model_selection import train_test_split

o X = titanic_new.drop('Survived', axis = 1)
y = titanic_new['Survived']
o X_train, X_test, y_train, y_test = train_test_split
(X, y, train_size = 0.7, random_state = 24)
LOGISTIC REGRESSION MODEL
STEP 2 : BUILDING THE MODEL
o from sklearn.linear_model import LogisticRegression

o model = LogisticRegression(solver = 'lbfgs', max_iter=900)

o model.fit(X_train, y_train)
PREDICTION AND EVALUATION
o y_pred = model.predict(X_test)

o y_pred

o model.predict_proba(X_test)
ANALYSIS – CONFUSION MATRIX AND CLASSIFICATION
REPORT (WITHOUT FEATURE ENGINEERING)
o from sklearn.metrics import confusion_matrix,
ConfusionMatrixDisplay, classification_report
o print(confusion_matrix(y_test, y_pred))

o print(classification_report(y_test, y_pred))

o Inference: (Confusion Matrix)

True Negative : 156 ; False Positive : 13
False Negative : 30 ; True Positive : 68
o Inference: (Classification Report)
Precision = = = 68/81 = 0.839
Recall = = = 68/98 = 0.693
Assuming P = R (equal importance),
F1-score = 2* = 2*0.378 = 0.757
ANALYSIS – CONFUSION MATRIX AND CLASSIFICATION
REPORT (WITH FEATURE ENGINEERING)
o from sklearn.metrics import confusion_matrix,
ConfusionMatrixDisplay, classification_report
o print(confusion_matrix(y_test, y_pred))

o print(classification_report(y_test, y_pred))

o Inference: (Confusion Matrix)

True Negative : 154 ; False Positive : 15
False Negative : 24 ; True Positive : 74
o Inference: (Classification Report)
Precision = = = 74/89 = 0.831
Recall = = = 74/98 = 0.755
Assuming P = R (equal importance),
F1-score = 2* = 2*0.396 = 0.793
MEMBERS CONTRIBUTION
S.No Name Contribution Slide Nos.
1. Aryan Panicker Exploratory Data Analysis, 4 - 6
Data Visualization
2. Anh Viet Doan Missing Data Handling, Data Cleaning 7 - 9
3. Bang Nguyen Building Logistic Regression Model, 13 - 15
Model Prediction and Evaluation
4. Duy Le Duc Feature Engineering, Categorical Data 10 - 12
5. Geethanjali Dhanish Introduction, Analysis of Confusion 2 – 3, 16 - 17
Matrix and Classification Report

Titanic Classification Project
No ratings yet
Titanic Classification Project
17 pages
Logistic Regression On Titanic Dataset
No ratings yet
Logistic Regression On Titanic Dataset
6 pages
Titanic Survival Prediction Using Machine Learning
No ratings yet
Titanic Survival Prediction Using Machine Learning
34 pages
Titanic Survival Prediction Using ML Miniproject
No ratings yet
Titanic Survival Prediction Using ML Miniproject
21 pages
Machine Learning Project: Sneha Sharma PGPDSBA Mar'21 Group 2
100% (4)
Machine Learning Project: Sneha Sharma PGPDSBA Mar'21 Group 2
36 pages
Classification
No ratings yet
Classification
3 pages
Ahamed 123
100% (1)
Ahamed 123
7 pages
Machine Learning Report
92% (12)
Machine Learning Report
42 pages
Titanic Survival Prediction
No ratings yet
Titanic Survival Prediction
14 pages
Coding Titanicmain
No ratings yet
Coding Titanicmain
58 pages
About The Dataset - Car Evaluation Dataset (UCI Machine Learning Repository
No ratings yet
About The Dataset - Car Evaluation Dataset (UCI Machine Learning Repository
5 pages
Ritesh Mangla ML PracticalFile
No ratings yet
Ritesh Mangla ML PracticalFile
55 pages
Home Work
No ratings yet
Home Work
12 pages
Machine Learning Extended Project - BrahmaChari
No ratings yet
Machine Learning Extended Project - BrahmaChari
29 pages
Maneesha Nidigonda Minor Project .Ipynb
No ratings yet
Maneesha Nidigonda Minor Project .Ipynb
35 pages
Project - Machine Learning-Business Report: By: K Ravi Kumar PGP-Data Science and Business Analytics (PGPDSBA.O.MAR23.A)
No ratings yet
Project - Machine Learning-Business Report: By: K Ravi Kumar PGP-Data Science and Business Analytics (PGPDSBA.O.MAR23.A)
38 pages
LogisticRegressionMLModel - Jupyter Notebook
No ratings yet
LogisticRegressionMLModel - Jupyter Notebook
14 pages
Report TSP
No ratings yet
Report TSP
13 pages
ML Mini Project 2
No ratings yet
ML Mini Project 2
26 pages
01-Logistic Regression With Python
No ratings yet
01-Logistic Regression With Python
12 pages
Ipl Matches Documentation
No ratings yet
Ipl Matches Documentation
28 pages
Logistic Regression
No ratings yet
Logistic Regression
8 pages
Credit - Defaulters - Prediction Using Logostic Regression
No ratings yet
Credit - Defaulters - Prediction Using Logostic Regression
17 pages
Logistic Regression
No ratings yet
Logistic Regression
25 pages
Part A Assignment - No - 5 PDF
No ratings yet
Part A Assignment - No - 5 PDF
8 pages
Titanic Survival Prediction
No ratings yet
Titanic Survival Prediction
14 pages
Rain in Australia Logistic Regression Classifier
No ratings yet
Rain in Australia Logistic Regression Classifier
10 pages
Train
No ratings yet
Train
17 pages
PredictingTitanicSurvivorsusing by Applying Exploratory Data Anyltics and ML
No ratings yet
PredictingTitanicSurvivorsusing by Applying Exploratory Data Anyltics and ML
7 pages
Logistic Regression
No ratings yet
Logistic Regression
21 pages
Machine Learning Project Report
No ratings yet
Machine Learning Project Report
65 pages
Titanic Survival Prediction Using Machine Learning
No ratings yet
Titanic Survival Prediction Using Machine Learning
7 pages
Titanic Dataset Model Prediction
No ratings yet
Titanic Dataset Model Prediction
11 pages
Aim: Predicting The Survival of Titanic Passengers
No ratings yet
Aim: Predicting The Survival of Titanic Passengers
20 pages
Import Pandas As PD DF PD - Read - CSV ("Titanic - Train - CSV") DF - Head
No ratings yet
Import Pandas As PD DF PD - Read - CSV ("Titanic - Train - CSV") DF - Head
20 pages
Data Strategy Seminar Paper Round1
No ratings yet
Data Strategy Seminar Paper Round1
3 pages
ML Report
No ratings yet
ML Report
3 pages
Titanic Akshaya
No ratings yet
Titanic Akshaya
12 pages
ML Lab Manual
No ratings yet
ML Lab Manual
36 pages
Titanic Survival
No ratings yet
Titanic Survival
13 pages
23BCE7199 ML Lab Assignment
No ratings yet
23BCE7199 ML Lab Assignment
15 pages
23BCE7092 ML Lab Assignment
No ratings yet
23BCE7092 ML Lab Assignment
14 pages
Project-1 (Data Preprocessing)
No ratings yet
Project-1 (Data Preprocessing)
5 pages
Assignment 2
No ratings yet
Assignment 2
3 pages
Progress Report: Loading of Required Dataset
No ratings yet
Progress Report: Loading of Required Dataset
5 pages
Data Analysis in Python-3
No ratings yet
Data Analysis in Python-3
4 pages
Titanic Classification Project
No ratings yet
Titanic Classification Project
17 pages
DM LabManual Teena
No ratings yet
DM LabManual Teena
6 pages
Titanic
No ratings yet
Titanic
3 pages
Titanic
No ratings yet
Titanic
3 pages
Week-7 DS Practical
No ratings yet
Week-7 DS Practical
8 pages
Iml Project
No ratings yet
Iml Project
13 pages
Machine Learning Lab Manual 06
100% (1)
Machine Learning Lab Manual 06
8 pages
ML Lab PGM 4
No ratings yet
ML Lab PGM 4
3 pages
Dsbda 5
No ratings yet
Dsbda 5
4 pages
LP3 - ML Mini-Project Report Format Shreeyas
No ratings yet
LP3 - ML Mini-Project Report Format Shreeyas
13 pages
Iii Aid - ML
No ratings yet
Iii Aid - ML
30 pages
Titanic
No ratings yet
Titanic
6 pages
Titanic PuneethRegonda
No ratings yet
Titanic PuneethRegonda
8 pages
AIRs-LM - Math 10 QUARTER 4-Weeks 6-7 - Module 5
100% (5)
AIRs-LM - Math 10 QUARTER 4-Weeks 6-7 - Module 5
20 pages
(Ebook PDF) Design and Analysis of Experiments, 9th Edition Download
100% (1)
(Ebook PDF) Design and Analysis of Experiments, 9th Edition Download
46 pages
MGT555 - Group 5 Assignment Report
No ratings yet
MGT555 - Group 5 Assignment Report
22 pages
One Sample Z
No ratings yet
One Sample Z
4 pages
5-Split and Strip Plot Designs PDF
No ratings yet
5-Split and Strip Plot Designs PDF
12 pages
Econometrics I Course Outline - 20221108
No ratings yet
Econometrics I Course Outline - 20221108
2 pages
How To Use The Excel "Linest" Function For Linear Regression Models With Multiple Input Variables X
No ratings yet
How To Use The Excel "Linest" Function For Linear Regression Models With Multiple Input Variables X
8 pages
Basic of PLS SEM
No ratings yet
Basic of PLS SEM
22 pages
Biomedical Literature Evaluation: Brief Notes On
No ratings yet
Biomedical Literature Evaluation: Brief Notes On
24 pages
Chapter 03 - Forecasting: Multiple Choice Questions
No ratings yet
Chapter 03 - Forecasting: Multiple Choice Questions
19 pages
Nurse Professionalism Scale Development and Psycho
No ratings yet
Nurse Professionalism Scale Development and Psycho
17 pages
Lecture 4 & 5 - Chapter 5 - Forecasting
No ratings yet
Lecture 4 & 5 - Chapter 5 - Forecasting
50 pages
AS Maths Statistics Unit 1 MS
No ratings yet
AS Maths Statistics Unit 1 MS
8 pages
BMGT 210 BUSINESS STATISTICS 1 - Kabarak University
No ratings yet
BMGT 210 BUSINESS STATISTICS 1 - Kabarak University
5 pages
Methods in Reliability
No ratings yet
Methods in Reliability
24 pages
Regression Analysis
No ratings yet
Regression Analysis
50 pages
DLP Stat
No ratings yet
DLP Stat
6 pages
Helene Johnson - March Madness
No ratings yet
Helene Johnson - March Madness
5 pages
D2 Analysis or Cluster
No ratings yet
D2 Analysis or Cluster
15 pages
Structural Equation Modeling
No ratings yet
Structural Equation Modeling
12 pages
Ifet College of Engineering (An Autonomous Institution) Department of Electronics and Communication Engineering Question Bank
No ratings yet
Ifet College of Engineering (An Autonomous Institution) Department of Electronics and Communication Engineering Question Bank
3 pages
Ekonometrika
No ratings yet
Ekonometrika
5 pages
Sadat Chi Square Testing For A Discrete Probability Distribution Start
No ratings yet
Sadat Chi Square Testing For A Discrete Probability Distribution Start
12 pages
Pengaruh Hutang Dan Ekuitas Terhadap Profitabilitas Pada Perusahaan Aneka Industri Yang Terdaftar Di Bursa Efek Indonesia
No ratings yet
Pengaruh Hutang Dan Ekuitas Terhadap Profitabilitas Pada Perusahaan Aneka Industri Yang Terdaftar Di Bursa Efek Indonesia
11 pages
Answer All Questions in This Section
No ratings yet
Answer All Questions in This Section
7 pages
Probability & Statistics: Learning Objectives
No ratings yet
Probability & Statistics: Learning Objectives
30 pages
(M6) Posttask
No ratings yet
(M6) Posttask
7 pages
Statistics Practical (SPSS)
No ratings yet
Statistics Practical (SPSS)
7 pages
Strategi Pembelajaran Pada Mata Pelajaran Ips Program Paket C Di PKBM Farilla Ilmi Tabing Kota Padang
No ratings yet
Strategi Pembelajaran Pada Mata Pelajaran Ips Program Paket C Di PKBM Farilla Ilmi Tabing Kota Padang
10 pages
Simple Linear Regression
No ratings yet
Simple Linear Regression
18 pages
TensorFlow深度学习项目实战: Chinese Edition
From Everand
TensorFlow深度学习项目实战: Chinese Edition
Posts & Telecom Press
No ratings yet