0% found this document useful (0 votes)

31 views5 pages

Advance Python

Uploaded by

Pinkesh kumar

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

31 views5 pages

Advance Python

Uploaded by

Pinkesh kumar

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 5

### Objective Overview:

The goal of this assignment is to guide you through the process of data preprocessing using Python
libraries like pandas, numpy, scikit-learn, and seaborn. You will apply techniques for data cleaning,
transformation, and visualization, ultimately preparing the dataset for further analysis or machine
learning.

### Step-by-Step Breakdown:

---

### 1. Dataset Selection:

Choose a dataset that fits the criteria:

- At least 500 rows and multiple columns of varying data types (numerical, categorical, text, etc.).
- Suitable open data sources include:
- **Kaggle**: Provides datasets on diverse topics (e.g., health, finance, sports).
- **UCI Machine Learning Repository**: Offers datasets used for machine learning tasks.
- **Open Data Portals**: Many governments and organizations release datasets for public use.

**Dataset Example**: Suppose we select the **"Titanic: Machine Learning from Disaster" dataset** from
Kaggle (contains 891 rows, with both numerical and categorical data).

---

### 2. Data Cleaning:

#### Missing Values:

- **Step 1**: Identify missing values.
‘‘‘python
import pandas as pd

# Load the dataset

data = pd.read_csv(’titanic.csv’)

# Identify missing values

missing_values = data.isnull().sum()
print(missing_values)
‘‘‘
- **Step 2**: Handle missing values. Depending on the column type and context, you can:
- Impute numerical values (e.g., mean, median).
- Impute categorical values (e.g., mode or constant).
- Drop rows or columns with excessive missing data.
‘‘‘python
# Example of imputing missing ’Age’ with the median
data[’Age’].fillna(data[’Age’].median(), inplace=True)

# Example of imputing missing ’Embarked’ with the mode

data[’Embarked’].fillna(data[’Embarked’].mode()[0], inplace=True)
‘‘‘

#### Duplicates:
- **Step 3**: Detect and remove duplicate rows.
‘‘‘python
# Check for duplicates
duplicates = data.duplicated().sum()
print(f"Number of duplicate rows: {duplicates}")

# Remove duplicates
data = data.drop_duplicates()
‘‘‘

#### Outliers:
- **Step 4**: Identify outliers using the **Z-score** or **IQR (Interquartile Range)** method.
‘‘‘python
import numpy as np
from scipy.stats import zscore

# Calculate Z-scores for numerical columns

data_zscore = data.select_dtypes(include=[np.number])
z_scores = np.abs(zscore(data_zscore))

# Threshold for identifying outliers

threshold = 3
outliers = (z_scores > threshold).sum()
print(f"Outliers detected: {outliers}")
‘‘‘
- **Step 5**: Handle outliers by removing or capping.
‘‘‘python
# Remove outliers (Z-score > 3)
data_clean = data[(z_scores < threshold).all(axis=1)]
‘‘‘

---

### 3. Data Transformation:

#### Normalization/Standardization:
- **Step 6**: Normalize or standardize numerical features.
‘‘‘python
from sklearn.preprocessing import MinMaxScaler, StandardScaler

# Example of Min-Max Scaling

scaler = MinMaxScaler()
data_scaled = data.copy()
data_scaled[’Age’] = scaler.fit_transform(data[[’Age’]])

# Example of Z-score Standardization

standardizer = StandardScaler()
data_standardized = data.copy()
data_standardized[’Age’] = standardizer.fit_transform(data[[’Age’]])
‘‘‘

#### Encoding Categorical Variables:

- **Step 7**: Convert categorical variables into numerical formats using encoding.
‘‘‘python
# One-Hot Encoding (e.g., ’Sex’ and ’Embarked’ columns)
data_encoded = pd.get_dummies(data, columns=[’Sex’, ’Embarked’])

# Label Encoding (e.g., ’Survived’ column)

from sklearn.preprocessing import LabelEncoder
label_encoder = LabelEncoder()
data[’Survived’] = label_encoder.fit_transform(data[’Survived’])
‘‘‘

#### Date and Time Features:

- **Step 8**: Extract useful features from date columns (if applicable).
‘‘‘python
# Example: Convert ’Date’ column into year, month, day features
data[’Year’] = pd.to_datetime(data[’Date’]).dt.year
data[’Month’] = pd.to_datetime(data[’Date’]).dt.month
‘‘‘

#### Text Data Preprocessing:

- **Step 9**: If text data is available, preprocess it using tokenization, stop words removal, and
stemming/lemmatization.
‘‘‘python
from sklearn.feature_extraction.text import CountVectorizer

# Example of text tokenization

vectorizer = CountVectorizer(stop_words=’english’)
X = vectorizer.fit_transform(data[’TextColumn’])

# Optionally, apply stemming/lemmatization using libraries like NLTK

‘‘‘

---

### 4. Data Visualization:

Visualize the dataset to understand its distribution and relationships.

#### Histograms:
- **Step 10**: Create a histogram for numerical features.
‘‘‘python
import seaborn as sns
import matplotlib.pyplot as plt

sns.histplot(data[’Age’], kde=True)
plt.title(’Age Distribution’)
plt.show()
‘‘‘

#### Box Plots:

- **Step 11**: Visualize outliers with box plots.
‘‘‘python
sns.boxplot(x=data[’Age’])
plt.title(’Box Plot of Age’)
plt.show()
‘‘‘

#### Heatmap (Correlation Matrix):

- **Step 12**: Visualize correlations between numerical features.
‘‘‘python
corr_matrix = data.corr()
sns.heatmap(corr_matrix, annot=True, cmap=’coolwarm’)
plt.title(’Correlation Heatmap’)
plt.show()
‘‘‘

#### Scatter Plot:

- **Step 13**: Visualize relationships between features using scatter plots.
‘‘‘python
sns.scatterplot(x=data[’Age’], y=data[’Fare’])
plt.title(’Age vs Fare’)
plt.show()
‘‘‘

---

### 5. Feature Engineering:

- **Step 14**: Create new features based on existing data. For example, combine ’SibSp’ and ’Parch’ into
a new feature, ’FamilySize’.
‘‘‘python
data[’FamilySize’] = data[’SibSp’] + data[’Parch’]
‘‘‘

- **Step 15**: Perform feature selection to identify the most important features.
‘‘‘python
from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_selection import SelectFromModel

X = data.drop(’Survived’, axis=1)
y = data[’Survived’]

# Use Random Forest to rank features by importance

rf = RandomForestClassifier(n_estimators=100)
rf.fit(X, y)

# Select important features

selector = SelectFromModel(rf, threshold="mean")
X_selected = selector.transform(X)
‘‘‘

---

### 6. **Documentation**:

- **Code Documentation**: Add comments and explanations to clarify the rationale behind each
preprocessing step.

- **Preprocessing Impact**:
- **Missing Value Handling**: Imputing or removing missing data can improve model performance by
ensuring no incomplete rows or columns.
- **Outlier Removal**: Identifying and removing outliers ensures the model is not unduly influenced by
extreme values.
- **Encoding**: Converting categorical data into numerical values makes it compatible with machine
learning algorithms.
- **Feature Engineering**: Creating new features helps enhance model accuracy by providing additional
information for the algorithm.
---

### Final Thoughts:

After completing these preprocessing steps, your dataset will be clean, transformed, and ready for
machine learning or further analysis. Keep in mind that data preprocessing is a crucial step, as it directly
impacts the quality of insights and predictions generated by your models.

Data Cleaning - Cheatsheet
100% (2)
Data Cleaning - Cheatsheet
8 pages
Data Preprocessing in Machine Learning
No ratings yet
Data Preprocessing in Machine Learning
27 pages
Machine Learning Algorithms PDF
100% (1)
Machine Learning Algorithms PDF
148 pages
Exp-2 ML
No ratings yet
Exp-2 ML
6 pages
Data Preprocessing Example Programs1
No ratings yet
Data Preprocessing Example Programs1
9 pages
1data Cleansing Cheklist
No ratings yet
1data Cleansing Cheklist
2 pages
Exp 2
No ratings yet
Exp 2
6 pages
Dsbda Lab - 1 - 1736243987425
No ratings yet
Dsbda Lab - 1 - 1736243987425
10 pages
Subject - Machine Learning Group - E27-24 Name
No ratings yet
Subject - Machine Learning Group - E27-24 Name
18 pages
UNITIV BtechIot
No ratings yet
UNITIV BtechIot
43 pages
ML Complete Notes Hridoy
No ratings yet
ML Complete Notes Hridoy
5 pages
DataAnalytics Lab Manual
No ratings yet
DataAnalytics Lab Manual
35 pages
Machine Learning Project Checklist
No ratings yet
Machine Learning Project Checklist
30 pages
Résumé-Analyse Des Données resumee resumee
No ratings yet
Résumé-Analyse Des Données resumee resumee
4 pages
# (Data Preprocessing) : (Cheatsheet)
No ratings yet
# (Data Preprocessing) : (Cheatsheet)
10 pages
ML - Lab Manual
No ratings yet
ML - Lab Manual
54 pages
Dsur Ea2352001010391 W7
No ratings yet
Dsur Ea2352001010391 W7
3 pages
Statistics IMP Questions and Answers
No ratings yet
Statistics IMP Questions and Answers
23 pages
MSDSModule 2
No ratings yet
MSDSModule 2
35 pages
Module 3 Notes
No ratings yet
Module 3 Notes
5 pages
Machine Learning Lab File
No ratings yet
Machine Learning Lab File
45 pages
Week 6 - Data Cleaning
No ratings yet
Week 6 - Data Cleaning
8 pages
Data Pre Processing
No ratings yet
Data Pre Processing
2 pages
ML Unit 2
No ratings yet
ML Unit 2
52 pages
III Unit
No ratings yet
III Unit
4 pages
Data Mining Lab 03
No ratings yet
Data Mining Lab 03
10 pages
Day-4 DS Practicals
No ratings yet
Day-4 DS Practicals
5 pages
Complete Data Science Questions
No ratings yet
Complete Data Science Questions
5 pages
Data Analytics Lab Manual - 250402 - 095326
No ratings yet
Data Analytics Lab Manual - 250402 - 095326
58 pages
DA Programs
No ratings yet
DA Programs
44 pages
Data Cleaning Approaches in Machine Learning Algorithms
No ratings yet
Data Cleaning Approaches in Machine Learning Algorithms
8 pages
Step-by-Step Explanation of Python Data Preprocessing Script
No ratings yet
Step-by-Step Explanation of Python Data Preprocessing Script
9 pages
Aml Midsem
No ratings yet
Aml Midsem
59 pages
Data Preprocessing
No ratings yet
Data Preprocessing
11 pages
dsbda_assign1
No ratings yet
dsbda_assign1
4 pages
Regression
No ratings yet
Regression
26 pages
Data Preprocessing Tutorial
No ratings yet
Data Preprocessing Tutorial
39 pages
Data Cleaning and Preprocessing
No ratings yet
Data Cleaning and Preprocessing
4 pages
Unit 7 ML
No ratings yet
Unit 7 ML
33 pages
Eda Indepth
No ratings yet
Eda Indepth
19 pages
Lecture Material 3
No ratings yet
Lecture Material 3
7 pages
DA Lab
No ratings yet
DA Lab
27 pages
ML Self Unit 2
No ratings yet
ML Self Unit 2
20 pages
Iii Aid - ML
No ratings yet
Iii Aid - ML
30 pages
FOUND. DATA SCIENCE Practical
No ratings yet
FOUND. DATA SCIENCE Practical
15 pages
Advanced Feature Engineering and Data Preprocessing in Machine Learning
No ratings yet
Advanced Feature Engineering and Data Preprocessing in Machine Learning
7 pages
DPT Week 1
No ratings yet
DPT Week 1
3 pages
# For Linear Algebra Import Numpy As NP # For Data Processing Import Pandas As PD
No ratings yet
# For Linear Algebra Import Numpy As NP # For Data Processing Import Pandas As PD
4 pages
Lab2
No ratings yet
Lab2
8 pages
ASSi2 DSBDA
No ratings yet
ASSi2 DSBDA
4 pages
1 - Data Preprocessing and Cleaning - 55
No ratings yet
1 - Data Preprocessing and Cleaning - 55
8 pages
Data Preprocessing For Machine Learning in Python
No ratings yet
Data Preprocessing For Machine Learning in Python
27 pages
Data Warehousing and Data Mining
No ratings yet
Data Warehousing and Data Mining
24 pages
Preprocessing
No ratings yet
Preprocessing
9 pages
Compare and Contrast CSV, JSON, and XML Dataset Formats. Which Format Would You Choose For Image Data and Why?
No ratings yet
Compare and Contrast CSV, JSON, and XML Dataset Formats. Which Format Would You Choose For Image Data and Why?
9 pages
ML Assignment
No ratings yet
ML Assignment
34 pages
Da Lab Mannual
No ratings yet
Da Lab Mannual
25 pages
Excel Shortcuts: Prashant Ranjan - 8757629970
No ratings yet
Excel Shortcuts: Prashant Ranjan - 8757629970
2 pages
Advanced Industrial and Labour Relations - Assignment 2
No ratings yet
Advanced Industrial and Labour Relations - Assignment 2
4 pages
The Manufacture, Storage and Import of Hazardous Chemicals Rules, 1989
0% (1)
The Manufacture, Storage and Import of Hazardous Chemicals Rules, 1989
58 pages
Miniature Rotor Craft
No ratings yet
Miniature Rotor Craft
16 pages
Encyclopedic Dictionary of Mathematics
100% (1)
Encyclopedic Dictionary of Mathematics
1,004 pages
Unit 2. Line, Bar, Table
No ratings yet
Unit 2. Line, Bar, Table
32 pages
Report Remote Armoured Fighting Vehicle
No ratings yet
Report Remote Armoured Fighting Vehicle
75 pages
0.18 Um Low Noise Amplifier
100% (1)
0.18 Um Low Noise Amplifier
66 pages
Joint Shear Control
No ratings yet
Joint Shear Control
3 pages
Raspberry Pi Pico Thermometer Clock
100% (1)
Raspberry Pi Pico Thermometer Clock
10 pages
Constructer & Destructer
No ratings yet
Constructer & Destructer
12 pages
Advanced Java Lab Manual
0% (2)
Advanced Java Lab Manual
31 pages
Vocab For Interview
No ratings yet
Vocab For Interview
3 pages
GERM8000 Trackworkers Iss 11
No ratings yet
GERM8000 Trackworkers Iss 11
917 pages
Turbocompressors: Flexware, Inc
100% (1)
Turbocompressors: Flexware, Inc
13 pages
【Datasheet】UNV NVR508-B Series Network Video Recorder20240411（Public）
No ratings yet
【Datasheet】UNV NVR508-B Series Network Video Recorder20240411（Public）
4 pages
MIS602 - Assessment 3 - 20240603
No ratings yet
MIS602 - Assessment 3 - 20240603
5 pages
R.practical 12th
No ratings yet
R.practical 12th
9 pages
Hide N Seek Biscuit
0% (1)
Hide N Seek Biscuit
16 pages
31 - Kaunlaran - (14 May 2024)
No ratings yet
31 - Kaunlaran - (14 May 2024)
8 pages
Dear Minister, This Is Why Design and Technology Is A Very Important Subject in The School Curriculum
No ratings yet
Dear Minister, This Is Why Design and Technology Is A Very Important Subject in The School Curriculum
10 pages
Auditing Vouching
No ratings yet
Auditing Vouching
6 pages
PEO Memorandum (Changed Names)
No ratings yet
PEO Memorandum (Changed Names)
11 pages
8259 Interfacing With 8086
100% (1)
8259 Interfacing With 8086
4 pages
Question 3 SOG
No ratings yet
Question 3 SOG
2 pages
Extinction of Criminal Liability
No ratings yet
Extinction of Criminal Liability
2 pages
Workbook
No ratings yet
Workbook
104 pages
Private Limited: Growmate Ventures
No ratings yet
Private Limited: Growmate Ventures
55 pages
CNlab Ex2
No ratings yet
CNlab Ex2
3 pages
Accenture Care To Do Better Report
No ratings yet
Accenture Care To Do Better Report
37 pages

Advance Python

Uploaded by

Advance Python

Uploaded by

### Objective Overview:

### Step-by-Step Breakdown:

### 1. **Dataset Selection**:

Choose a dataset that fits the criteria:

### 2. **Data Cleaning**:

#### Missing Values:

# Load the dataset

# Identify missing values

# Example of imputing missing ’Embarked’ with the mode

# Calculate Z-scores for numerical columns

# Threshold for identifying outliers

### 3. **Data Transformation**:

# Example of Min-Max Scaling

# Example of Z-score Standardization

#### Encoding Categorical Variables:

# Label Encoding (e.g., ’Survived’ column)

#### Date and Time Features:

#### Text Data Preprocessing:

# Example of text tokenization

# Optionally, apply stemming/lemmatization using libraries like NLTK

### 4. **Data Visualization**:

Visualize the dataset to understand its distribution and relationships.

#### Box Plots:

#### Heatmap (Correlation Matrix):

#### Scatter Plot:

### 5. **Feature Engineering**:

# Use Random Forest to rank features by importance

# Select important features

### Final Thoughts:

You might also like

### 1. Dataset Selection:

### 2. Data Cleaning:

### 3. Data Transformation:

### 4. Data Visualization:

### 5. Feature Engineering: