0% found this document useful (0 votes)

18 views4 pages

Analysis On Weight Capacity

Logistic Regireee

Uploaded by

nijir70713

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

18 views4 pages

Analysis On Weight Capacity

Logistic Regireee

Uploaded by

nijir70713

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 4

# This Python 3 environment comes with many helpful analytics libraries installed

# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python

# For example, here's several helpful packages to load

import numpy as np # linear algebra

import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the read-only "../input/" directory

# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
for filename in filenames:
print(os.path.join(dirname, filename))

# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

/kaggle/input/student-bag-price-prediction-dataset/Noisy_Student_Bag_Price_Prediction_Dataset.csv
/kaggle/input/playground-series-s5e2/sample_submission.csv
/kaggle/input/playground-series-s5e2/train.csv
/kaggle/input/playground-series-s5e2/test.csv
/kaggle/input/playground-series-s5e2/training_extra.csv

import pandas as pd, numpy as np

train = pd.read_csv("/kaggle/input/playground-series-s5e2/train.csv")
print("Train shape",train.shape)
train_extra = pd.read_csv("/kaggle/input/playground-series-s5e2/training_extra.csv")
print("Extra Train shape",train_extra.shape)
train = pd.concat([train,train_extra],axis=0,ignore_index=True)
print("Combined Train shape",train.shape)

Train shape (300000, 11)

Extra Train shape (3694318, 11)
Combined Train shape (3994318, 11)

train.head(10)

Laptop Weight
id Brand Material Size Compartments Waterproof Style Color Price
Compartment Capacity (kg)

0 0 Jansport Leather Medium 7.0 Yes No Tote Black 11.611723 112.15875

1 1 Jansport Canvas Small 10.0 Yes Yes Messenger Green 27.078537 68.88056

Under
2 2 Leather Small 2.0 Yes No Messenger Red 16.643760 39.17320
Armour

3 3 Nike Nylon Small 8.0 Yes No Messenger Green 12.937220 80.60793

4 4 Adidas Canvas Medium 1.0 Yes Yes Messenger Green 17.749338 86.02312

5 5 Nike Canvas Medium 10.0 No Yes NaN Black 7.241812 20.01553

6 6 Nike NaN Large 3.0 No No Backpack Green 6.828123 84.80500

7 7 Puma Canvas Small 1.0 Yes Yes Backpack Blue 21.488864 27.15815

Under
8 8 Polyester Medium 8.0 Yes No Tote Gray 10.207780 25.98652
Armour

Under
9 9 Nylon Medium 2.0 Yes Yes Messenger Pink 15.895100 38.48741
Armour

# Assuming your DataFrame is named df

unique_values = train['Weight Capacity (kg)'].unique()
print("Unique Weight Capacity values:", unique_values)

Unique Weight Capacity values: [11.61172281 27.07853658 16.64375995 ... 12.79080004 22.95972519
16.64173875]

# Assuming your DataFrame is named df

unique_values = train['Weight Capacity (kg)'].value_counts()
print("Unique Weight Capacity values:", unique_values)
Unique Weight Capacity values: Weight Capacity (kg)
5.000000 58087
30.000000 2588
11.898250 1571
14.908437 1559
22.898382 1417
...
20.923873 1
28.897699 1
20.485038 1
14.355831 1
21.643489 1
Name: count, Length: 1920345, dtype: int64

import matplotlib.pyplot as plt

import seaborn as sns

plt.figure(figsize=(10, 6))
sns.histplot(train['Weight Capacity (kg)'], bins=30, kde=False)
plt.title("Distribution of Weight Capacity")
plt.xlabel("Weight Capacity")
plt.ylabel("Count")
plt.show()

/usr/local/lib/python3.10/dist-packages/seaborn/_oldcore.py:1119: FutureWarning: use_inf_as_na option is depreca

ted and will be removed in a future version. Convert inf values to NaN before operating instead.
with pd.option_context('mode.use_inf_as_na', True):

train_mean = train.Price.mean()
train['pred'] = train_mean
s = np.sqrt(np.mean( (train.Price-train.pred)**2.0 ) )
print(f"Validation RMSE using Train Mean = {s}")

Validation RMSE using Train Mean = 38.93867923358143

train.head()

Weight
Laptop
id Brand Material Size Compartments Waterproof Style Color Capacity Price pred
Compartment
(kg)

0 0 Jansport Leather Medium 7.0 Yes No Tote Black 11.611723 112.15875 81.362175

1 1 Jansport Canvas Small 10.0 Yes Yes Messenger Green 27.078537 68.88056 81.362175

Under
2 2 Leather Small 2.0 Yes No Messenger Red 16.643760 39.17320 81.362175
Armour

3 3 Nike Nylon Small 8.0 Yes No Messenger Green 12.937220 80.60793 81.362175

4 4 Adidas Canvas Medium 1.0 Yes Yes Messenger Green 17.749338 86.02312 81.362175

from cuml.preprocessing import TargetEncoder

TE = TargetEncoder(n_folds=30, smooth=20, split_method='random', stat='mean')
train['pred'] = TE.fit_transform(train['Weight Capacity (kg)'],train.Price)
s = np.sqrt(np.mean( (train.Price-train.pred)**2.0 ) )
print(f"Validation RSME using Target Encode Weight Capacity = {s}")

Validation RSME using Target Encode Weight Capacity = 38.71037277159231

from cuml.preprocessing import TargetEncoder

import numpy as np
import pandas as pd

# Variation 1: More smoothing

TE1 = TargetEncoder(n_folds=30, smooth=40, split_method='random', stat='mean')
train['pred_TE1'] = TE1.fit_transform(train['Weight Capacity (kg)'], train.Price)
rmse_TE1 = np.sqrt(np.mean((train.Price - train['pred_TE1'])**2.0))
print(f"Variation 1 (smooth=40) RMSE: {rmse_TE1}")

# Variation 2: Fewer folds and less smoothing

TE2 = TargetEncoder(n_folds=10, smooth=10, split_method='random', stat='mean')
train['pred_TE2'] = TE2.fit_transform(train['Weight Capacity (kg)'], train.Price)
rmse_TE2 = np.sqrt(np.mean((train.Price - train['pred_TE2'])**2.0))
print(f"Variation 2 (n_folds=10, smooth=10) RMSE: {rmse_TE2}")

Variation 1 (smooth=40) RMSE: 38.719630133491286

Variation 2 (n_folds=10, smooth=10) RMSE: 38.729537426961386

from sklearn.model_selection import KFold

import numpy as np

# Create a KFold instance

kf = KFold(n_splits=30, shuffle=True, random_state=42)

# Initialize an array to hold fold IDs for each sample

fold_ids = np.empty(len(train), dtype=int)

# Assign fold IDs

for fold, (_, val_idx) in enumerate(kf.split(train)):
fold_ids[val_idx] = fold

# Now use your custom fold_ids with the target encoder

TE3 = TargetEncoder(n_folds=30, smooth=20, split_method='customize', stat='mean')
train['pred_TE3'] = TE3.fit_transform(train['Weight Capacity (kg)'], train.Price, fold_ids=fold_ids)

rmse_TE3 = np.sqrt(np.mean((train.Price - train['pred_TE3'])**2.0))

print(f"Variation 2 (n_folds=30, smooth=20) RMSE: {rmse_TE3}")

Variation 2 (n_folds=30, smooth=20) RMSE: 38.71077699918216

# Now you can use these features in a model, e.g., a simple linear regression:
from sklearn.linear_model import LinearRegression
features = ['pred_TE1', 'pred_TE2', 'pred_TE3']
lr_model = LinearRegression()
lr_model.fit(train[features], train.Price)

# Evaluate RMSE on the training set (or better, via cross-validation)

pred_lr = lr_model.predict(train[features])
rmse_lr = np.sqrt(np.mean((train.Price - pred_lr)**2.0))
print(f"Linear Regression using multiple target encoding features RMSE: {rmse_lr}")

Linear Regression using multiple target encoding features RMSE: 38.70900752709825

test = pd.read_csv("/kaggle/input/playground-series-s5e2/test.csv")

# Step 1: Apply Target Encoding to Test Set

test['pred_TE1'] = TE1.transform(test['Weight Capacity (kg)'])
test['pred_TE2'] = TE2.transform(test['Weight Capacity (kg)'])
test['pred_TE3'] = TE3.transform(test['Weight Capacity (kg)'])

# Step 2: Predict on Test Set using Linear Regression Model

test_features = ['pred_TE1', 'pred_TE2', 'pred_TE3']
test['Price'] = lr_model.predict(test[test_features])

# Step 3: Prepare Submission File

sub = pd.read_csv("/kaggle/input/playground-series-s5e2/sample_submission.csv") # Load sample submission
sub['Price'] = test['Price']
sub.to_csv("submission_lr_target_encoding.csv", index=False) # Save as CSV

# Step 4: Verify Submission File

print(sub.head()) # Check the first few rows to ensure everything looks correct
id Price
0 300000 82.787024
1 300001 81.064362
2 300002 90.514901
3 300003 78.539448
4 300004 81.464757

# sub = pd.read_csv("/kaggle/input/playground-series-s5e2/sample_submission.csv")
# print('Submission shape', sub.shape)
# test = pd.read_csv("/kaggle/input/playground-series-s5e2/test.csv")
# sub['Price'] = TE.transform(test['Weight Capacity (kg)'])
# sub.to_csv("submission_TE_weight_capacity.csv",index=False)
# sub.head()

List of Imported Libraries
No ratings yet
List of Imported Libraries
12 pages
Machine Learning Lab Manual
No ratings yet
Machine Learning Lab Manual
9 pages
Approachin190808095205 PDF
No ratings yet
Approachin190808095205 PDF
112 pages
ML Labmanual
No ratings yet
ML Labmanual
33 pages
Lecture18 addedWeightAndLostBuoyancyMethod
No ratings yet
Lecture18 addedWeightAndLostBuoyancyMethod
35 pages
Houses Prices Prediction Model
No ratings yet
Houses Prices Prediction Model
11 pages
Kaggle Course Notes
No ratings yet
Kaggle Course Notes
87 pages
Numeric
No ratings yet
Numeric
20 pages
Exercise5 Solution
No ratings yet
Exercise5 Solution
22 pages
M PDF
No ratings yet
M PDF
13 pages
Catalago Volvo L30B MODERNA
100% (1)
Catalago Volvo L30B MODERNA
321 pages
Data Analytics I
No ratings yet
Data Analytics I
4 pages
ML Lab Manual
No ratings yet
ML Lab Manual
24 pages
ML Manual
No ratings yet
ML Manual
9 pages
Machine Learning Lab Manual
No ratings yet
Machine Learning Lab Manual
18 pages
Multi Classification - Py (For 1 Class TP, TN, FP, FN)
No ratings yet
Multi Classification - Py (For 1 Class TP, TN, FP, FN)
25 pages
LAB MANUAL For Machine Learning
No ratings yet
LAB MANUAL For Machine Learning
15 pages
Mlalllabprgs
No ratings yet
Mlalllabprgs
17 pages
ML
No ratings yet
ML
17 pages
Project Code
No ratings yet
Project Code
2 pages
ML Record
No ratings yet
ML Record
19 pages
Machine Learning Lab Manual
No ratings yet
Machine Learning Lab Manual
26 pages
ML Full For Print New 1
No ratings yet
ML Full For Print New 1
38 pages
ML Manual
No ratings yet
ML Manual
30 pages
ML Shristi File
No ratings yet
ML Shristi File
49 pages
MLLab Manual
No ratings yet
MLLab Manual
24 pages
ML Lab Prgms Split
No ratings yet
ML Lab Prgms Split
3 pages
Exp. 1
No ratings yet
Exp. 1
4 pages
ML Journal External
No ratings yet
ML Journal External
14 pages
V
No ratings yet
V
8 pages
ML Programs
No ratings yet
ML Programs
14 pages
Data Preprocessing 2
No ratings yet
Data Preprocessing 2
5 pages
ML Lab Manual
No ratings yet
ML Lab Manual
12 pages
Heart Disease Prediction - Colab
No ratings yet
Heart Disease Prediction - Colab
18 pages
1
No ratings yet
1
13 pages
Machine Learning Lab
No ratings yet
Machine Learning Lab
20 pages
5) Randomforest - Ipynb - Colaboratory
No ratings yet
5) Randomforest - Ipynb - Colaboratory
12 pages
C2W3 Lab 01 Model Evaluation and Selection
No ratings yet
C2W3 Lab 01 Model Evaluation and Selection
21 pages
SVM (Support Vector Machine) For Classification - by Aditya Kumar - Towards Data Science
100% (1)
SVM (Support Vector Machine) For Classification - by Aditya Kumar - Towards Data Science
28 pages
C2W3 Lab 01 Model Evaluation and Selection
No ratings yet
C2W3 Lab 01 Model Evaluation and Selection
21 pages
Final ML File
No ratings yet
Final ML File
34 pages
Machine Learning
No ratings yet
Machine Learning
10 pages
History of Art by HW Janson, Vol 1 4th Ed (Art Ebook)
86% (66)
History of Art by HW Janson, Vol 1 4th Ed (Art Ebook)
444 pages
Mlda - Lab
No ratings yet
Mlda - Lab
35 pages
Machine Learning Programs
No ratings yet
Machine Learning Programs
10 pages
Train
No ratings yet
Train
17 pages
Machinelearning
No ratings yet
Machinelearning
26 pages
ML Practical 205160694034
No ratings yet
ML Practical 205160694034
33 pages
Udacity Machine Learning Analysis Supervised Learning
100% (1)
Udacity Machine Learning Analysis Supervised Learning
504 pages
Pytorch (Tabular) - Regression
No ratings yet
Pytorch (Tabular) - Regression
13 pages
Programs Lab Bca
No ratings yet
Programs Lab Bca
16 pages
Sklearn Tutorial: DNN On Boston Data
No ratings yet
Sklearn Tutorial: DNN On Boston Data
9 pages
C1 W1 Lab02 Model Representation Soln
No ratings yet
C1 W1 Lab02 Model Representation Soln
5 pages
LAB-4 Report
No ratings yet
LAB-4 Report
21 pages
How To Get A Top Rank in A Kaggle Competition
No ratings yet
How To Get A Top Rank in A Kaggle Competition
24 pages
ML Lab
No ratings yet
ML Lab
7 pages
Linear
No ratings yet
Linear
2 pages
Project 4 - House Price Prediction - Ipynb - Colab
No ratings yet
Project 4 - House Price Prediction - Ipynb - Colab
5 pages
Mlext
No ratings yet
Mlext
1 page
Data Science Libraries
No ratings yet
Data Science Libraries
4 pages
Unit2 ML Programs
No ratings yet
Unit2 ML Programs
7 pages
Mass Transfer Part
100% (5)
Mass Transfer Part
29 pages
Informal Assessment GRADE 11
No ratings yet
Informal Assessment GRADE 11
37 pages
Full Thesis 1
No ratings yet
Full Thesis 1
113 pages
Deepak Data Analysis 1
No ratings yet
Deepak Data Analysis 1
31 pages
Concrete Masonry Report
No ratings yet
Concrete Masonry Report
21 pages
Hydrometeorological Hazards - Learning Material
No ratings yet
Hydrometeorological Hazards - Learning Material
5 pages
Copy-of-FAO Supplier Wizard 2020 ENG
No ratings yet
Copy-of-FAO Supplier Wizard 2020 ENG
31 pages
Converting Common Units of Mass Measure KG and Grams
No ratings yet
Converting Common Units of Mass Measure KG and Grams
7 pages
Answers To Questions On The Bible Asked by Christians
No ratings yet
Answers To Questions On The Bible Asked by Christians
23 pages
BERINGER PMP518M User Manual
No ratings yet
BERINGER PMP518M User Manual
11 pages
Kundalika and Small Rivers Full Report
No ratings yet
Kundalika and Small Rivers Full Report
32 pages
AMR Update
No ratings yet
AMR Update
6 pages
A Study On The Dynamic Analysis of Mooring System
No ratings yet
A Study On The Dynamic Analysis of Mooring System
9 pages
Probabilistic Seismic Hazard Assessments For Myanmar and Its Metropolitan Areas Yang - Et - Al-2023-Geoscience - Letters
No ratings yet
Probabilistic Seismic Hazard Assessments For Myanmar and Its Metropolitan Areas Yang - Et - Al-2023-Geoscience - Letters
16 pages
SPCCPDF
No ratings yet
SPCCPDF
83 pages
King of The Pirates (Shonen Jumps One Piece, 1) (Michael Anthony Steele, Eiichiro Oda) (Z-Library)
No ratings yet
King of The Pirates (Shonen Jumps One Piece, 1) (Michael Anthony Steele, Eiichiro Oda) (Z-Library)
114 pages
A320 NEO Limitation + Auto Flight
No ratings yet
A320 NEO Limitation + Auto Flight
26 pages
WAABERI ACADEMY (AutoRecovered)
No ratings yet
WAABERI ACADEMY (AutoRecovered)
31 pages
Web Development Dissertation Topics
100% (2)
Web Development Dissertation Topics
6 pages
Lms For Jku Final Project Phase 1
No ratings yet
Lms For Jku Final Project Phase 1
52 pages
Wireless Network
No ratings yet
Wireless Network
9 pages
Hifonics Atlas Subwoofer Manual
No ratings yet
Hifonics Atlas Subwoofer Manual
8 pages
Seolleongtang (Ox Bone Soup) - Korean Bapsang
No ratings yet
Seolleongtang (Ox Bone Soup) - Korean Bapsang
2 pages
EIM4
No ratings yet
EIM4
4 pages
Week 3 Practice Quiz
100% (1)
Week 3 Practice Quiz
10 pages
Design of Microbending Deformer For Optical Fiber Weight Sensor
No ratings yet
Design of Microbending Deformer For Optical Fiber Weight Sensor
7 pages
Fluxion
No ratings yet
Fluxion
7 pages
X28HC64
No ratings yet
X28HC64
24 pages
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet

Analysis On Weight Capacity

Uploaded by

Analysis On Weight Capacity

Uploaded by

# This Python 3 environment comes with many helpful analytics libraries installed

# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python

import numpy as np # linear algebra

# Input data files are available in the read-only "../input/" directory

import pandas as pd, numpy as np

Train shape (300000, 11)

0 0 Jansport Leather Medium 7.0 Yes No Tote Black 11.611723 112.15875

3 3 Nike Nylon Small 8.0 Yes No Messenger Green 12.937220 80.60793

5 5 Nike Canvas Medium 10.0 No Yes NaN Black 7.241812 20.01553

6 6 Nike NaN Large 3.0 No No Backpack Green 6.828123 84.80500

# Assuming your DataFrame is named df

# Assuming your DataFrame is named df

import matplotlib.pyplot as plt

/usr/local/lib/python3.10/dist-packages/seaborn/_oldcore.py:1119: FutureWarning: use_inf_as_na option is depreca

Validation RMSE using Train Mean = 38.93867923358143

from cuml.preprocessing import TargetEncoder

Validation RSME using Target Encode Weight Capacity = 38.71037277159231

from cuml.preprocessing import TargetEncoder

# Variation 1: More smoothing

# Variation 2: Fewer folds and less smoothing

Variation 1 (smooth=40) RMSE: 38.719630133491286

from sklearn.model_selection import KFold

# Create a KFold instance

# Initialize an array to hold fold IDs for each sample

# Assign fold IDs

# Now use your custom fold_ids with the target encoder

rmse_TE3 = np.sqrt(np.mean((train.Price - train['pred_TE3'])**2.0))

Variation 2 (n_folds=30, smooth=20) RMSE: 38.71077699918216

# Evaluate RMSE on the training set (or better, via cross-validation)

Linear Regression using multiple target encoding features RMSE: 38.70900752709825

# Step 1: Apply Target Encoding to Test Set

# Step 2: Predict on Test Set using Linear Regression Model

# Step 3: Prepare Submission File

# Step 4: Verify Submission File

You might also like