0% found this document useful (0 votes)

0 views

1Data Preprocessing

The document outlines the steps for data preprocessing, including cleaning, feature scaling, encoding categorical variables, and feature engineering, using popular Python libraries like pandas and sklearn. It also provides guidance on setting up Visual Studio Code for Python development and utilizing Kaggle for dataset exercises, with a specific example of a pipeline for the Titanic dataset. The example demonstrates importing libraries, loading data, preprocessing, training a model, and evaluating its accuracy.

Uploaded by

rajesh.a04082004

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

0 views

1Data Preprocessing

Uploaded by

rajesh.a04082004

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 4

 Data Preprocessing:

 Cleaning the data: This could involve handling missing values (e.g., using imputation
or dropping rows), outliers, or duplicates.
 Feature scaling: Standardization or normalization (especially important for models
like KNN, SVM, and neural networks).
 Encoding categorical variables: Converting categorical data to numerical format
using techniques like one-hot encoding or label encoding.
 Feature engineering: Creating new features or selecting the most relevant ones to
improve model performance.

Popular Python libraries for this:

 pandas for data manipulation

 sklearn.preprocessing for scaling and encoding

 numpy for numerical operations

 Working with Visual Studio Code:

 Install Python extensions in VS Code for better functionality, such as Python, Jupyter,
and Pylance.
 Make sure to set up a virtual environment to manage dependencies. You can use venv
or conda for this.
 Use Jupyter notebooks within VS Code for interactive data exploration and testing
out models.

 Kaggle Dataset Exercises:

 Kaggle is a goldmine for learning. You can explore competitions, kernels (notebooks),
and datasets for practice.
 Download the datasets and load them into your Python environment. After
preprocessing the data, you can experiment with different models (e.g., Decision Trees,
Random Forest, XGBoost, or even neural networks if you’re feeling adventurous).

 Getting Started with a Kaggle Exercise:

 Download a dataset from Kaggle, say the Titanic dataset (for classification) or House
Prices (for regression).
 Start by exploring the data (using pandas and matplotlib/seaborn for visualization).
 Preprocess the data: handle missing values, encode categories, and scale the features.
 Train a basic model (Logistic Regression for Titanic, Linear Regression for House
Prices) using sklearn and evaluate it.
 Gradually improve your model by experimenting with different algorithms,
hyperparameters, and feature engineering.

Example Pipeline in Python (Titanic Dataset):

# 1. Import Libraries

import pandas as pd

import numpy as np

import seaborn as sns

import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split

from sklearn.preprocessing import StandardScaler

from sklearn.linear_model import LogisticRegression

from sklearn.metrics import accuracy_score

# 2. Load Data

data = pd.read_csv('titanic.csv')

# 3. Data Preprocessing

# Fill missing values

data['Age'].fillna(data['Age'].mean(), inplace=True)
data['Embarked'].fillna(data['Embarked'].mode()[0], inplace=True)

# Encode categorical columns

data = pd.get_dummies(data, columns=['Sex', 'Embarked'])

# Select features and target

X = data[['Pclass', 'Age', 'SibSp', 'Parch', 'Fare', 'Sex_female', 'Sex_male', 'Embarked_C', 'Embarked_Q',

'Embarked_S']]

y = data['Survived']

# 4. Split Data

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 5. Feature Scaling

scaler = StandardScaler()

X_train_scaled = scaler.fit_transform(X_train)

X_test_scaled = scaler.transform(X_test)

# 6. Train Model

model = LogisticRegression()

model.fit(X_train_scaled, y_train)

# 7. Evaluate Model

y_pred = model.predict(X_test_scaled)

accuracy = accuracy_score(y_test, y_pred)

print(f'Accuracy: {accuracy * 100:.2f}%')

Projectreport Diabetes Prediction
No ratings yet
Projectreport Diabetes Prediction
25 pages
House Price Prediction: Project Description
No ratings yet
House Price Prediction: Project Description
11 pages
7 Data Science / Machine Learning Cheat Sheets in One
100% (1)
7 Data Science / Machine Learning Cheat Sheets in One
9 pages
Pattern Recognition Lab
No ratings yet
Pattern Recognition Lab
24 pages
Import Pandas As PD
No ratings yet
Import Pandas As PD
21 pages
week3A
No ratings yet
week3A
18 pages
Lab 08 - Data Preprocessing
No ratings yet
Lab 08 - Data Preprocessing
9 pages
A3 Classification and Feature Engineering
No ratings yet
A3 Classification and Feature Engineering
2 pages
Tushar ML
No ratings yet
Tushar ML
52 pages
20AI16 - ML Record
No ratings yet
20AI16 - ML Record
24 pages
Ml Lab Manual Completed
No ratings yet
Ml Lab Manual Completed
56 pages
Data Science
No ratings yet
Data Science
8 pages
AI
No ratings yet
AI
16 pages
Capstone project_Jaro-Prof. Babji
No ratings yet
Capstone project_Jaro-Prof. Babji
5 pages
4. Data Analytics I
No ratings yet
4. Data Analytics I
4 pages
week_3
No ratings yet
week_3
10 pages
FA I_Unit5
No ratings yet
FA I_Unit5
11 pages
Lec 03
No ratings yet
Lec 03
9 pages
PythonForML2023 Laboratory07 08 Regression Classification Update2
No ratings yet
PythonForML2023 Laboratory07 08 Regression Classification Update2
6 pages
ML Viva Practice [Answers]
No ratings yet
ML Viva Practice [Answers]
4 pages
Assignment 2
No ratings yet
Assignment 2
3 pages
Advance Python
No ratings yet
Advance Python
5 pages
AAM_pr_QB
No ratings yet
AAM_pr_QB
13 pages
Capstone project Ree
No ratings yet
Capstone project Ree
6 pages
Practical Assignment ML
No ratings yet
Practical Assignment ML
50 pages
Ml Cyber Lab
No ratings yet
Ml Cyber Lab
16 pages
ML - LAB - FILE Amrit
No ratings yet
ML - LAB - FILE Amrit
13 pages
1
No ratings yet
1
9 pages
Action PlanJournaling
No ratings yet
Action PlanJournaling
7 pages
ML - LAB - FILE Pankaj
No ratings yet
ML - LAB - FILE Pankaj
13 pages
MLCyberLab
No ratings yet
MLCyberLab
9 pages
Machine Learning With Python
No ratings yet
Machine Learning With Python
3 pages
Module 5.pptx_20250608_201231_0000
No ratings yet
Module 5.pptx_20250608_201231_0000
43 pages
3 Month AI Architect Learning Program
No ratings yet
3 Month AI Architect Learning Program
3 pages
ML and Deploying It Using Flask and Docker.
No ratings yet
ML and Deploying It Using Flask and Docker.
30 pages
ml file syllabus
No ratings yet
ml file syllabus
43 pages
Kaggle Tutorial 1
No ratings yet
Kaggle Tutorial 1
29 pages
Kaggle Course Notes
No ratings yet
Kaggle Course Notes
87 pages
S-9
No ratings yet
S-9
18 pages
Data Modeling - Cheatsheet
No ratings yet
Data Modeling - Cheatsheet
9 pages
Assignment 3 Dl
No ratings yet
Assignment 3 Dl
6 pages
Approaching (Almost) Any Machine Learning Problem - Abhishek Thakur - No Free Hunch
No ratings yet
Approaching (Almost) Any Machine Learning Problem - Abhishek Thakur - No Free Hunch
22 pages
ML LabManual (1)
No ratings yet
ML LabManual (1)
16 pages
SL-III Lab Manual
No ratings yet
SL-III Lab Manual
74 pages
ML Lab Manual
No ratings yet
ML Lab Manual
90 pages
Machine Learning Practice
No ratings yet
Machine Learning Practice
17 pages
Shobit Sharma (2124399) ML lab file pdf
No ratings yet
Shobit Sharma (2124399) ML lab file pdf
19 pages
3.1 ML Data Science Syllabus PDF
No ratings yet
3.1 ML Data Science Syllabus PDF
4 pages
C2W3_Lab_01_Model_Evaluation_and_Selection
No ratings yet
C2W3_Lab_01_Model_Evaluation_and_Selection
21 pages
ML Final Prac
No ratings yet
ML Final Prac
47 pages
C2W3 Lab 01 Model Evaluation and Selection
No ratings yet
C2W3 Lab 01 Model Evaluation and Selection
21 pages
Building Good Training Sets UNIT 1 PART2
No ratings yet
Building Good Training Sets UNIT 1 PART2
46 pages
New Chat: 1. Predicting Uber Ride Prices
No ratings yet
New Chat: 1. Predicting Uber Ride Prices
16 pages
ML 4 To 9 Keyur
No ratings yet
ML 4 To 9 Keyur
21 pages
Lecture02. ML Pipeline (Chapter 2)
No ratings yet
Lecture02. ML Pipeline (Chapter 2)
50 pages
exp 5 (1)
No ratings yet
exp 5 (1)
9 pages
FINAL ASSIGNMENT
No ratings yet
FINAL ASSIGNMENT
2 pages
ML in Python Part-2
No ratings yet
ML in Python Part-2
21 pages
Machine Learning Lab Record Report
No ratings yet
Machine Learning Lab Record Report
38 pages
Python Data Science Cookbook
From Everand
Python Data Science Cookbook
Taryn Voska
No ratings yet
Python Data Science Cookbook: Practical solutions across fast data cleaning, processing, and machine learning workflows with pandas, NumPy, and scikit-learn
From Everand
Python Data Science Cookbook: Practical solutions across fast data cleaning, processing, and machine learning workflows with pandas, NumPy, and scikit-learn
Taryn Voska
No ratings yet
Iot and Agriculture Ppt
No ratings yet
Iot and Agriculture Ppt
12 pages
Case Study Possible Questions
No ratings yet
Case Study Possible Questions
3 pages
Power Plays: Unleashing Machine Learning Magic in Smart Grids
No ratings yet
Power Plays: Unleashing Machine Learning Magic in Smart Grids
16 pages
Applied Computing and Informatics: Kumash Kapadia, Hussein Abdel-Jaber, Fadi Thabtah, Wael Hadi
No ratings yet
Applied Computing and Informatics: Kumash Kapadia, Hussein Abdel-Jaber, Fadi Thabtah, Wael Hadi
6 pages
LINFO2262: Decision Trees + Random Forests: Pierre Dupont
No ratings yet
LINFO2262: Decision Trees + Random Forests: Pierre Dupont
43 pages
FRA Milestone 2
No ratings yet
FRA Milestone 2
16 pages
Unit 2 Notes - Final
No ratings yet
Unit 2 Notes - Final
32 pages
Detailed Project Report Ineuron Internship
No ratings yet
Detailed Project Report Ineuron Internship
7 pages
PV Power Forecast Using A Nonparametric PV Model: Sciencedirect
No ratings yet
PV Power Forecast Using A Nonparametric PV Model: Sciencedirect
15 pages
DOC-20231113-WA0007._20231113_171028_0000
No ratings yet
DOC-20231113-WA0007._20231113_171028_0000
2 pages
Jayalakshmi[1]
No ratings yet
Jayalakshmi[1]
68 pages
Road Accident Prediction Journal Paper
No ratings yet
Road Accident Prediction Journal Paper
3 pages
Loan Prediction System
No ratings yet
Loan Prediction System
31 pages
PAM - Complete
No ratings yet
PAM - Complete
322 pages
Aiml Lab New
No ratings yet
Aiml Lab New
49 pages
Software Defect Prediction Using Ensemble Learning
No ratings yet
Software Defect Prediction Using Ensemble Learning
6 pages
Landslide Kapil PDF
No ratings yet
Landslide Kapil PDF
9 pages
Classification Algorithm
No ratings yet
Classification Algorithm
51 pages
Paper 1 (Naser)
No ratings yet
Paper 1 (Naser)
11 pages
EPGP in Data Science (Curriculum)
No ratings yet
EPGP in Data Science (Curriculum)
30 pages
Project Report: Ipl Score and Win Prediction Using Machine Learning
No ratings yet
Project Report: Ipl Score and Win Prediction Using Machine Learning
43 pages
Prediction of Heart Disease Using Machine Learning and Hybrid Methods
No ratings yet
Prediction of Heart Disease Using Machine Learning and Hybrid Methods
7 pages
Applsci 11 07987 v2
No ratings yet
Applsci 11 07987 v2
37 pages
ENSEMBLE_LEARNING
No ratings yet
ENSEMBLE_LEARNING
9 pages
Python Machine Learning in 7 Days
No ratings yet
Python Machine Learning in 7 Days
10 pages
Bagging and Boosting
No ratings yet
Bagging and Boosting
40 pages
54 Batch Project Documentation-1
No ratings yet
54 Batch Project Documentation-1
82 pages
SSRN Id4128261
No ratings yet
SSRN Id4128261
13 pages
Final Pattern Recognition Laboratery
No ratings yet
Final Pattern Recognition Laboratery
39 pages

1Data Preprocessing

Uploaded by

1Data Preprocessing

Uploaded by

 Data Preprocessing:

Popular Python libraries for this:

 pandas for data manipulation

 sklearn.preprocessing for scaling and encoding

 numpy for numerical operations

 Working with Visual Studio Code:

 Kaggle Dataset Exercises:

 Getting Started with a Kaggle Exercise:

Example Pipeline in Python (Titanic Dataset):

import seaborn as sns

import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split

from sklearn.preprocessing import StandardScaler

from sklearn.linear_model import LogisticRegression

from sklearn.metrics import accuracy_score

# Fill missing values

# Encode categorical columns

data = pd.get_dummies(data, columns=['Sex', 'Embarked'])

# Select features and target

X = data[['Pclass', 'Age', 'SibSp', 'Parch', 'Fare', 'Sex_female', 'Sex_male', 'Embarked_C', 'Embarked_Q',

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

accuracy = accuracy_score(y_test, y_pred)

You might also like