0% found this document useful (0 votes)

3 views4 pages

Data Wrangling 1

The document outlines a laboratory exercise for a Data Science and Big Data Analytics course, focusing on data wrangling using the Iris dataset. It details steps including importing libraries, loading the dataset, preprocessing data, checking for missing values, and encoding categorical variables. The exercise emphasizes data manipulation and visualization techniques using Python's pandas, numpy, seaborn, and matplotlib libraries.

Uploaded by

Chirag Patekar

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

3 views4 pages

Data Wrangling 1

Uploaded by

Chirag Patekar

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 4

Third Year Engineering (2019 Pattern)

Course Code: 310256

Course Name: Data Science and Big Data Analytics Laboratory
Group A
1) Data Wrangling I
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# Step 2: Locate an open-source dataset

# I'll use the "Iris" dataset from UCI Machine Learning Repository
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"

# Column names based on the dataset documentation

columns = ["sepal_length", "sepal_width", "petal_length", "petal_width",
"species"]

# Step 3: Load the dataset into a pandas dataframe

df = pd.read_csv(url, names=columns)

# Step 4: Data Preprocessing

print("\nBasic Statistics of the Dataset:\n")
print(df.describe()) # Provides basic statistics of numerical variables

print("\nChecking for Missing Values:\n")

print(df.isnull().sum()) # Check for missing values

print("\nDataset Dimensions (Rows, Columns):", df.shape)

# Step 5: Data Formatting and Normalization

print("\nData Types Before Conversion:\n")
print(df.dtypes)

# Convert categorical variable 'species' to categorical data type

df['species'] = df['species'].astype('category')

print("\nData Types After Conversion:\n")

print(df.dtypes)

# Step 6: Convert Categorical Variables into Quantitative Variables

print("\nEncoding Categorical Variable 'species':\n")
df['species_encoded'] = df['species'].cat.codes
print(df.head())
Explanation of Each Step:
1. Import Libraries:
o pandas: Handles dataframes and data manipulation.
o numpy: Supports numerical operations.
o seaborn & matplotlib: Used for visualization.
2. Dataset Selection:
o The Iris dataset is a well-known dataset for classification tasks.
o It is sourced from the UCI Machine Learning Repository: Iris
Dataset.
3. Loading the Dataset:
o Read the dataset directly from the web into a pandas dataframe.
o Assign column names based on dataset documentation.
4. Data Preprocessing:
o Use .describe() to get summary statistics.
o Check for missing values using .isnull().sum().
o Print dataset dimensions.
5. Data Formatting and Normalization:
o Check data types using .dtypes.
o Convert the categorical column species into a categorical data
type.
6. Encoding Categorical Variables:
o Convert the species categorical column into a numerical format
using .cat.codes.

OUTPUT-

Oil Filter Detail
No ratings yet
Oil Filter Detail
21 pages
Java Aptitude Inreview Questions N Answers
100% (1)
Java Aptitude Inreview Questions N Answers
125 pages
FDS Lab Manual
No ratings yet
FDS Lab Manual
48 pages
Ezc Raymond
No ratings yet
Ezc Raymond
678 pages
Building Good Training Sets UNIT 1 PART2
No ratings yet
Building Good Training Sets UNIT 1 PART2
46 pages
Datascience
No ratings yet
Datascience
8 pages
BRV DG1 U0121, U0122, U0131, U0155, U129e 2789
100% (1)
BRV DG1 U0121, U0122, U0131, U0155, U129e 2789
3 pages
Competency Framework Booklet
100% (5)
Competency Framework Booklet
24 pages
Mala Designs Buho
100% (2)
Mala Designs Buho
10 pages
Asset-V1 VIT+MBA109+2020+type@asset+block@Introductio To ML Using Python
No ratings yet
Asset-V1 VIT+MBA109+2020+type@asset+block@Introductio To ML Using Python
7 pages
EXP 07 (ML) - Ashu
No ratings yet
EXP 07 (ML) - Ashu
4 pages
EXP 07 (ML) - Darshu
No ratings yet
EXP 07 (ML) - Darshu
4 pages
Exp 07 (ML)
No ratings yet
Exp 07 (ML)
4 pages
DS Journal-1
No ratings yet
DS Journal-1
25 pages
Practical No - 1
No ratings yet
Practical No - 1
5 pages
Skylla TG GMDSS Datasheet
No ratings yet
Skylla TG GMDSS Datasheet
2 pages
1
No ratings yet
1
3 pages
Exercise and Experiment 3
No ratings yet
Exercise and Experiment 3
14 pages
Vicky Patil - Practical - 9 - Colab
No ratings yet
Vicky Patil - Practical - 9 - Colab
4 pages
Top 9 Feature Engineering Techniques With Python: Dataset & Prerequisites
No ratings yet
Top 9 Feature Engineering Techniques With Python: Dataset & Prerequisites
27 pages
ML 2.3 Prashant
No ratings yet
ML 2.3 Prashant
4 pages
EXP 07 (ML) - Sarthak
No ratings yet
EXP 07 (ML) - Sarthak
4 pages
ML Shristi File
No ratings yet
ML Shristi File
49 pages
Data Science Lab Manual
No ratings yet
Data Science Lab Manual
32 pages
DSBDA Lab Manual
No ratings yet
DSBDA Lab Manual
155 pages
ML (Prac1)
No ratings yet
ML (Prac1)
12 pages
Machine Learning Lab
No ratings yet
Machine Learning Lab
43 pages
DS Journal - Final
No ratings yet
DS Journal - Final
37 pages
Umberto Eco Takes Semiotics To The Masses
100% (2)
Umberto Eco Takes Semiotics To The Masses
10 pages
ABHAYMLFILE
No ratings yet
ABHAYMLFILE
16 pages
Data Science Practicals
No ratings yet
Data Science Practicals
47 pages
Proyecto Final Model
No ratings yet
Proyecto Final Model
13 pages
Data Preprocessing Report
No ratings yet
Data Preprocessing Report
6 pages
Pratique Work 3:data Preprocessing
No ratings yet
Pratique Work 3:data Preprocessing
7 pages
Part A Assignment - No - 1
No ratings yet
Part A Assignment - No - 1
7 pages
ML Journal
No ratings yet
ML Journal
53 pages
Data Science Practical With Solutions BSC Cs Sem 6
No ratings yet
Data Science Practical With Solutions BSC Cs Sem 6
29 pages
ML-Lab05-Data Preprocessing Techniques in Python
No ratings yet
ML-Lab05-Data Preprocessing Techniques in Python
7 pages
To Study About Numpy, Pandas and Matplotlib Libraries in Python
No ratings yet
To Study About Numpy, Pandas and Matplotlib Libraries in Python
21 pages
Chap5 - Wei - Ipynb - Colab
No ratings yet
Chap5 - Wei - Ipynb - Colab
29 pages
Dsbda
No ratings yet
Dsbda
3 pages
Data Analytics I
No ratings yet
Data Analytics I
4 pages
Experiment-2-1-Ml Kritika
No ratings yet
Experiment-2-1-Ml Kritika
11 pages
Dsbda Lab - 1 - 1736243987425
No ratings yet
Dsbda Lab - 1 - 1736243987425
10 pages
Batch1 Ds
No ratings yet
Batch1 Ds
15 pages
Data Analysis Lab - Final - 23-24
No ratings yet
Data Analysis Lab - Final - 23-24
11 pages
PR Final File
No ratings yet
PR Final File
70 pages
Lab Manual 5 Solved 40
No ratings yet
Lab Manual 5 Solved 40
13 pages
Descriptive Statistics
No ratings yet
Descriptive Statistics
3 pages
Data Clearning
No ratings yet
Data Clearning
7 pages
CS-3361-Data-science-lab Manual
No ratings yet
CS-3361-Data-science-lab Manual
36 pages
Advance Python
No ratings yet
Advance Python
5 pages
Lab Manual ML
No ratings yet
Lab Manual ML
23 pages
List of Experiment - Data Analysis Lab
No ratings yet
List of Experiment - Data Analysis Lab
2 pages
DSBDA Lab Manual24-25
No ratings yet
DSBDA Lab Manual24-25
58 pages
Dwdm-Lab Manual
No ratings yet
Dwdm-Lab Manual
39 pages
Unit 2 ML
No ratings yet
Unit 2 ML
93 pages
Syllabus AIML
No ratings yet
Syllabus AIML
14 pages
Eda Unit 1
No ratings yet
Eda Unit 1
7 pages
ML Lab File
No ratings yet
ML Lab File
43 pages
Data Science Practical Book - Ipynb
No ratings yet
Data Science Practical Book - Ipynb
21 pages
ML File Syllabus
No ratings yet
ML File Syllabus
43 pages
Assignment 4 R Program1
No ratings yet
Assignment 4 R Program1
11 pages
Dav Lab Manual
No ratings yet
Dav Lab Manual
28 pages
ML LabReport Final Index Edited
No ratings yet
ML LabReport Final Index Edited
35 pages
03 Numpy and Pandas
No ratings yet
03 Numpy and Pandas
68 pages
Natural Language Processing
100% (1)
Natural Language Processing
48 pages
ML Record
No ratings yet
ML Record
19 pages
197 Evolution of Rock Anchor Practice Over Three Decades
100% (1)
197 Evolution of Rock Anchor Practice Over Three Decades
9 pages
Database Fundamentals: Topic 2
No ratings yet
Database Fundamentals: Topic 2
42 pages
Transducers Quiz Electronics
100% (5)
Transducers Quiz Electronics
8 pages
BCG and Ge Matrix of Idea Cellular
100% (1)
BCG and Ge Matrix of Idea Cellular
14 pages
gt2 08012018
No ratings yet
gt2 08012018
35 pages
STULZ CyberCool2 Brochure 0313 en
No ratings yet
STULZ CyberCool2 Brochure 0313 en
2 pages
West Coast Paper Mill Industry: Prepared By: Gaurav Deep Singh Roll No: 27 Section: K - 2
No ratings yet
West Coast Paper Mill Industry: Prepared By: Gaurav Deep Singh Roll No: 27 Section: K - 2
14 pages
4a. PAE Ch-4a. Project-Analysis
No ratings yet
4a. PAE Ch-4a. Project-Analysis
15 pages
Engg Chemistry R13 Model Question Papers
No ratings yet
Engg Chemistry R13 Model Question Papers
4 pages
Jemimah Samonte-Test Data Approach
No ratings yet
Jemimah Samonte-Test Data Approach
4 pages
Stress Calculation Stress Engineering Cover Sheet
No ratings yet
Stress Calculation Stress Engineering Cover Sheet
7 pages
Urban Land Use Planning PDF
No ratings yet
Urban Land Use Planning PDF
3 pages
Ab 275 General Requirements For Mechanical Refrigeration Systems
No ratings yet
Ab 275 General Requirements For Mechanical Refrigeration Systems
7 pages
Residential Driveway Standards: V I L L A G e o F R o y A L P A L M B e A C H, F L o R I D A
No ratings yet
Residential Driveway Standards: V I L L A G e o F R o y A L P A L M B e A C H, F L o R I D A
1 page
HealthChange A Change Management Model
No ratings yet
HealthChange A Change Management Model
8 pages
Arduino
No ratings yet
Arduino
5 pages
9010-9020 Bulletin - GB
No ratings yet
9010-9020 Bulletin - GB
4 pages
PL CD1465 CD1480 ENG Rev1
No ratings yet
PL CD1465 CD1480 ENG Rev1
96 pages
Fujifilm Instax Mini Twin Pack - 20 Instant Color Photo Sheets (Insta Refill)
No ratings yet
Fujifilm Instax Mini Twin Pack - 20 Instant Color Photo Sheets (Insta Refill)
1 page
DADF-G1 Install PDF
No ratings yet
DADF-G1 Install PDF
9 pages
Warrior DTH Catalogue
No ratings yet
Warrior DTH Catalogue
11 pages
Mastering Pandas in Python: Course Book
From Everand
Mastering Pandas in Python: Course Book
Pedro Martins
No ratings yet

Data Wrangling 1

Uploaded by

Data Wrangling 1

Uploaded by

Third Year Engineering (2019 Pattern)

Course Code: 310256

# Step 2: Locate an open-source dataset

# Column names based on the dataset documentation

# Step 3: Load the dataset into a pandas dataframe

# Step 4: Data Preprocessing

print("\nChecking for Missing Values:\n")

print("\nDataset Dimensions (Rows, Columns):", df.shape)

# Step 5: Data Formatting and Normalization

# Convert categorical variable 'species' to categorical data type

print("\nData Types After Conversion:\n")

# Step 6: Convert Categorical Variables into Quantitative Variables

You might also like